Questions tagged «data-mining»

数据挖掘在数据库环境中使用来自人工智能的方法来发现以前未知的模式。因此,这些方法通常是无监督的。它与机器学习密切相关,但并不相同。数据挖掘的关键任务是聚类分析,异常值检测和关联规则的挖掘。



2
这种建模方法是否过度拟合
最近有人告诉我,我遵循的过程(MS论文的组成部分)可能被认为过拟合。我希望对此有更好的了解,看看其他人是否同意。 本文这一部分的目的是 在数据集上比较梯度提升回归树与随机森林的性能。 查看所选最终模型(GBM或RF)的性能。 正在使用R中的gbm和randomForest软件包以及 caret。 遵循的过程如下: 数据的初步预处理(例如,将名义上的预测变量的缺失值插入称为“缺失”的不同类别)。没有考虑任何预处理的目标变量(这是非常小的)。 为每种算法的元参数创建值的网格(例如,GBM的迭代次数)。 创建数据集的25个随机分割(65%训练和35%测试)。 对GBM重复以下步骤25次(每次使用随机训练/测试分组之一。每次,训练和测试集都是课程更改的“当前”,这是重复的离开组交叉验证): 使用5倍交叉验证在网格搜索上找到算法的“最佳”参数设置。当前运行中没有使用先前运行中的任何东西。 确定后,将模型拟合到完整的“当前”训练集并预测“当前”测试集。保留此运行的性能指标。 一旦以这种方式获得了25个性能指标(实际上是特定于领域的指标,但将其视为准确性),请使用完全相同的过程,使用完全相同的独立训练和测试样本进行RF(相同过程,只是使用不同的方法)当然是网格搜索)。 现在,我从当时针对GBM和RF的“当前”测试集中获得了25种性能指标。我使用Wilcoxon符号秩检验和排列检验比较它们。我发现GBM更好。我还声称,GBM的这25次运行中的性能指标分布是最终GBM分类器的预期性能。 我没有做的是从一开始就抽取一个随机测试集,并将其放在一边,以便与根据所有训练数据构建的最终GBM模型进行比较。我认为我所做的实际上要好得多,因为我在保持过程中重复了拆分数据/调优模型/测试25次,而仅重复了一次。 这里有过度拟合吗?由于使用了25个运行来选择GBM与RF,这是否意味着从流程中获取的性能指标不能用作完整模型的性能估算? 编辑 为了回应韦恩的评论,这是在25次运行中的每一次运行的过程: 第i个训练集(i = 1,..,25)的采样数据分为5个大小相等的组。使用5组中的4组拟合模型,并将GBM参数(例如,迭代数)设置为等于第j个网格(j = 1,..,18)中的值。 使用此模型计算第五组的表现。 步骤1和步骤2再重复4次(常规旧k倍CV,k = 5)。该性能是从5个子运行中平均得出的,这用特定的一组参数值组成了GBM的预期性能。 对网格中的其他17个“行”重复执行步骤1-3。 一旦完成,就可以确定上述练习中的最佳参数值,并使用这些参数值和完整的第i个训练集拟合GBM。它的性能是在第i个测试集上估计的。 一旦整个过程完成25次,GBM就有25种性能指标。然后他们以完全相同的方式收集到RF。 在比较和选择GBM之后,我查看了这25个性能指标,并采用均值和标准差来确定该数据上GBM模型的置信区间。

3
实用的PCA数据教程
在Internet上搜索PCA教程可获得数千个结果(甚至是视频)。许多教程非常好。但是我找不到任何实际的示例,其中使用一些可用于演示的数据集来解释PCA。我需要一个教程,该教程提供一些易于绘制的小型数据集(而不是10000s的数据线和100s的尺寸),在PCA分析之前和之后,其差异/结果可以清楚地说明。(我认为一个逐步的实际示例非常有用,该示例中的数据大约有100条线和3维。 你有什么建议吗?

1
使用规则为新数据找到合适的规则
我正在使用R(和arules软件包)来挖掘交易的关联规则。我要做的是构造规则,然后将其应用于新数据。 例如,假设我有很多规则,其中之一就是规范{Beer=YES} -> {Diapers=YES}。 然后,我有了新的交易数据,其中一条记录购买了啤酒,但没有购买尿布。如何确定符合LHS但尚未符合RHS的规则? R示例: install.packages("arules") library(arules) data("Groceries") **#generate Rules omitting second record** rules <- apriori(Groceries[-2],parameter = list(supp = 0.05, conf = 0.2,target = "rules")) 生成的规则是: > inspect(rules) lhs rhs support confidence lift 1 {} => {whole milk} 0.25554200 0.2555420 1.000000 2 {yogurt} => {whole milk} 0.05603010 0.4018964 1.572722 …

14
您可以从一个名字中挖掘多少信息?
名称:首先,可能是中间名和姓。 我很好奇您可以使用公开可用的数据集从名字中挖掘出多少信息。我知道,使用美国人口普查数据,您可以在低高概率(取决于输入)之间的任意位置获得以下信息:1)性别。2)比赛。 例如,Facebook正是利用这一点准确地找到了其网站用户的种族分布(https://www.facebook.com/note.php?note_id=205925658858)。 还有什么可以开采的?我没有在寻找任何具体的问题,这是一个非常开放的问题,可以缓解我的好奇心。 我的示例是特定于美国的,因此我们假设该名称是位于美国的某人的名字;但是,如果有人知道其他国家/地区的公开数据集,那么我对他们也很开放。 我不太确定这是否是正确的地方,否则,如果有人可以将我指向一个更合适的地方,我将不胜感激。 我希望这是一个有趣的问题,并且这是合适的地方!

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

5
聚类是拆分数据以进行逻辑回归的一种方法
我正在尝试通过逻辑回归模型基于某些功能来预测学生的成败。为了提高模型的性能,我已经考虑过根据明显的差异将学生分为不同的组,并为每个组构建单独的模型。但是我认为可能很难通过考试来确定这些群体,因此我想通过根据学生的特征将学生分类。这是建立此类模型的常见做法吗?您是否建议我将其分为明显的组(例如,第一学期学生与回国学生),然后对这些组进行聚类,或者从一开始就聚类? 尝试澄清: 我的意思是说我正在考虑使用聚类算法将逻辑回归的训练集分成几组。然后,我将为每个组分别进行逻辑回归。然后,当使用Logistic回归预测学生的学习成绩时,我将根据他们最适合的群体选择要使用的模型。 也许我可以通过包含一个组标识符来做同样的事情,例如,如果学生要返回,则返回1,否则返回0。 现在,您让我开始思考,对训练数据集进行聚类并使用其聚类标签作为逻辑回归中的功能是否有利,而不是为每个总体建立单独的逻辑回归模型。 如果为回国学生和新生的学生添加组标识符很有用,扩展组列表是否也有用?群集似乎是执行此操作的自然方法。 我希望这很清楚...

3
涵盖数据预处理和异常检测技术的好书
就像标题一样,有谁知道一本很好的,最新的书,该书涵盖了一般的数据预处理,尤其是异常检测技术? 这本书并不需要专心于此,但是它应该详尽地处理上述主题-我对以起点为起点的论文感到满意,并引用了一系列论文,对各种技术的解释必须出现在本书中。这本书本身。 处理丢失数据的技术更可取,但不是必需的...

2
f-measure是准确性的代名词吗?
我了解f量度(基于精度和召回率)是对分类器的准确性的估计。同样,当我们有不平衡的数据集时,f度量优于准确性。我有一个简单的问题(更多是关于使用正确的术语,而不是技术)。我的数据集不平衡,并且在实验中使用了f-measure。我准备写一篇不适合机器学习/数据挖掘会议的论文。因此,在这种情况下,我可以准确地同义地指代f度量。例如,我的f值为0.82,那么我可以说我的分类器达到了82%的准确预测吗?

2
为了选择零件数量,有什么好的指标可以评估PCA配合的质量?
评估主成分分析(PCA)质量的良好指标是什么? 我在数据集上执行了该算法。我的目标是减少功能数量(信息非常冗余)。我知道保留的方差百分比可以很好地表明我们保留了多少信息,是否可以使用其他信息指标来确保我删除了冗余信息并且没有“丢失”此类信息?

1
奥巴马竞选中的数据挖掘技术
我在奥巴马的竞选活动中碰到了有关数据挖掘团队的文章。不幸的是,本文对统计算法的实际机制非常模糊。但是,听起来好像一般技术在社会和政治科学中都是众所周知的。既然这不是我的专业领域,那么谁能指出我有关此类技术的(概述)文献吗?

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
“学习模型”一词从何而来
我经常听到这里的数据挖掘者使用这个术语。作为从事分类问题的统计学家,我熟悉术语“训练分类器”,并且我认为“学习模型”的意思是相同的。我不介意“训练分类器”。这似乎描绘了拟合模型的想法,因为训练数据用于获得模型参数的良好或“改进的”估计。但是,学习会获得知识。用简单的英语来说,“学习模型”就是要知道它是什么。但是实际上,我们从不“知道”模型。模型近似于现实,但没有模型是正确的。就像Box所说的:“没有正确的模型,但有些有用。” 我想听听数据挖掘者的回应。该术语是如何产生的?如果使用它,为什么喜欢它?

3
关于使用bigram(N-gram)模型构建文本文档的特征向量
用于文本挖掘的特征构造的传统方法是词袋方法,并且可以使用tf-idf进行增强,以建立表征给定文本文档的特征向量。目前,我正在尝试使用Bi-gram语言模型或(N-gram)来构建特征向量,但还不太清楚该怎么做?我们是否可以仅遵循单词袋的方法,即以二元语法代替单词来计算频率计数,并使用tf-idf加权方案对其进行增强?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.