统计和大数据 data-mining

2

媒体中到处都有“大数据”。每个人都说“大数据”是2012年的大事，例如KDNuggets对2012年的热门话题进行了民意测验。但是，我对此深表关切。有了大数据，每个人似乎都很高兴能拿出任何东西。但是，我们是否违反了所有经典的统计原理，例如假设检验和代表性抽样？只要我们仅对同一数据集做出预测，就可以了。因此，如果我使用Twitter数据来预测Twitter用户的行为，那可能还可以。但是，使用Twitter数据预测例如选举完全忽略了Twitter用户并不是整个人口的代表性样本这一事实。另外，大多数方法实际上无法区分真正的“草根”情绪和运动。Twitter充满了竞选活动。因此，在分析Twitter时，您很快就会只测量活动和机器人。（例如，参见“雅虎预测美国的政治胜利者”这充满了民意测验，并且“情绪分析要好得多”。他们预测“罗姆尼赢得提名和赢得南卡罗来纳州初选的可能性超过90％”（他有28％，而金里奇在初选中有40％）。您知道其他这样的大数据失败吗？我大概记得一位科学家曾预测您不能维持超过150个友谊。他实际上只发现了友友的上限... 至于推特数据，或者实际上是从网络上收集到的任何“大数据”，我相信人们通常会在收集数据的方式上引入额外的偏见。几乎没有Twitter的全部。他们将拥有一定的子集，这只是他们数据集中的另一个偏见。将数据拆分到测试集中或进行交叉验证可能并没有太大帮助。另一组将具有相同的偏差。对于大数据，我需要大量“压缩”我的信息，以至于我不太可能过大。我最近听到了这个笑话，大数据科学家发现世界上大约有6种性别……而我完全可以想象发生……“男，女，兽人，毛茸茸，是和否”。那么，我们必须采用什么方法才能使统计信息重新回到分析中，特别是在尝试预测“大数据”数据集之外的数据时？

40 data-mining dataset large-data validation

5

数据挖掘中的提升措施

我搜索了许多网站，以了解电梯到底能起到什么作用？我发现的所有结果都是关于在应用程序中使用它而不是本身。我了解支持和信心功能。在Wikipedia中，在数据挖掘中，提升是对模型在预测或分类案例时的性能的一种度量，是针对随机选择模型的度量。但是如何？信心*支持是提升的价值我也搜索了其他公式，但我不明白为什么提升图对于预测值的准确性很重要，我想知道提升的背后是什么政策和原因？

36 data-mining

5

像贝叶斯那样思考，像常客一样进行检查：这是什么意思？

我正在查看有关数据科学课程的一些演讲幻灯片，可以在这里找到： https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf 不幸的是，我无法观看此讲座的视频，并且在幻灯片上的某个位置，演示者具有以下文本：一些关键原则像贝叶斯一样思考，像常客一样检查（和解）有人知道这实际上意味着什么吗？我觉得从这可以收集到关于这两种思想流派的深刻见解。

35 bayesian data-mining frequentist

3

手动计算逻辑回归95％置信区间与在R中使用confint（）函数之间为什么会有区别？

亲爱的大家-我注意到我无法解释的怪事，可以吗？总之：在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。我一直在研究Hosmer＆Lemeshow的Applied Logistic回归（第二版）。在第3章中，有一个计算比值比和95％置信区间的示例。使用R，我可以轻松地重现模型： Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

6

数据挖掘：如何寻找功能形式？

我很好奇，可用于发现功能的函数形式重复的程序y = f(A, B, C) + error_term在那里我唯一的输入是一组观察（y，A，B和C）。请注意，的功能形式f未知。考虑以下数据集： AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 56 37 0 79 43 3221 …

34 regression machine-learning algorithms model-selection data-mining

1

相对变量重要性的提升

我正在寻找一种解释，说明如何在梯度增强树中计算相对变量重要性，而这并不是过于笼统/过于简单：度量基于选择变量进行拆分的次数，每次拆分后对模型的平方改进加权的权重并在所有树上取平均值。[ Elith等。2008年，增强回归树的工作指南 ] 那还不如：一世2Ĵ^（T）= ∑t = 1Ĵ− 1一世2Ť^1 （vŤ= j ）一世Ĵ2^（Ť）=∑Ť=1个Ĵ-1个一世Ť2^1个（vŤ=Ĵ）\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) 其中求和在终端节点树的非终端节点上，是与节点相关的拆分变量，是平方误差的相应经验改进作为分割的结果，定义为，其中分别是左子代反应手段和右子代反应手段，而是权重的相应总和。J T v t t ^ i 2 t i 2（R l，R r）= w l w rŤŤtĴĴJŤŤTvŤvŤv_{t}ŤŤt一世2Ť^一世Ť2^\hat{i_{t}^2}一世2（R升，R[R）= w升w[Rw升+ w[R（y升¯- ÿ[R¯）2一世2（[R升，[R[R）=w升w[Rw升+w[R（ÿ升¯-ÿ[R¯）2i^2(R_{l},R_{r})=\frac{w_{l}w_{r}}{w_{l}+w_{r}}(\bar{y_{l}}-\bar{y_{r}})^2ÿ升¯，ÿ[R¯ÿ升¯，ÿ[R¯\bar{y_{l}}, \bar{y_{r}}w升，w[Rw升，w[Rw_{l}, w_{r}[ Friedman 2001，贪婪函数近似：梯度提升机 ] 最后，我没有发现统计学学习的内容（Hastie等人，2008年）对这里的学习非常有帮助，因为相关部分（第10.13.1页，第367页）的味道与上述第二篇参考文献非常相似（可以对此进行解释）因为弗里德曼是这本书的合著者）。 PS：我知道gbm R包中的summary.gbm给出了相对变量重要性度量。我试图探索源代码，但似乎找不到实际的计算位置。布朗尼要点：我想知道如何在R中获得这些图。

33 machine-learning data-mining predictive-models cart boosting

1

是否有来自“圣经密码”插曲的统计课程

尽管这个问题有些主观，但我希望根据常见问题解答指南，它可以视为一个很好的主观问题。它是基于一年前OlleHäggström提出的一个问题，尽管我对此有一些想法，但我没有确切的答案，也希望得到其他人的帮助。背景： D. Witztum，E。Rips和Y. Rosenberg撰写的题为“创世记中的等距字母序列”的论文提出了非同寻常的主张，即《创世记》的希伯来语文本编码的事件直到文本出现几千年后才发生被写了。该论文于1994年由“统计科学”出版（第9 429-438卷），并作为“具有挑战性的难题”提供，其解决方案可能对统计领域有所帮助。作为回应，B。McKay，D。Bar-Natan，M。Bar-Hillel和G. Kalai撰写的另一篇名为“解决圣经密码难题”的论文于1999年出现在统计科学中（第14卷（1999年）150-173页）。新论文认为，Witztum，Rips和Rosenberg的案件存在致命缺陷，确实，他们的结果仅反映了在设计实验和收集实验数据时所做出的选择。本文提供了广泛的证据来支持该结论。（我自己的兴趣在我们的文章的第8节中得到了概括，在与Bar Hillel和Mckay撰写的另一份技术报告中做了详细介绍，该报告的标题为“两个著名的拉比实验：多么相似太相似了？”，另请参见本网站。问题： OlleHäggström的具体问题是： “我曾经建议您的论文可能对高级本科生的统计课程有用，目的是说明数据挖掘和相关技术的缺陷。您同意吗？” 除了Olle的问题外，让我提出一个更笼统的问题。是否有一些与我们所学到的统计资料有关的东西，（也许包括一些有趣的问题）是从《圣经》中获得的。为了清楚起见，我的问题仅限于与统计相关的见解，而不是本集的任何其他方面。

31 hypothesis-testing data-mining

8

您会建议哪些数学主题为数据挖掘和机器学习做准备？

我正在尝试整理一门自我指导的数学课程，为学习数据挖掘和机器学习做准备。这是通过在Coursera上开始Andrew Ng的机器学习课程而激发的，并认为在继续之前我需要提高自己的数学技能。我不久前从大学毕业，所以我的代数和统计学（特别是政治科学/心理学课程）很生疏。主题中的答案是ML的全部必备知识吗？仅建议与机器学习直接相关的书籍或课程；我已经研究了其中的一些课程和书籍，但不完全知道要研究的数学主题（例如：数学地址的哪个领域派生出方程式以“最小化成本函数”？）。建议的另一主题（技能和课程工作需要成为数据分析师）仅提及分析数据所需的各种技能。《数学家统计学导论》线程不适用，因为我还没有数学学位。一个类似的线程，数学家希望获得等同于质量统计程度的知识有一本令人难以置信的统计书籍清单，不过我还是想从一堆生锈的代数开始着手数学，然后再往上走。那么，对于那些从事机器学习和数据挖掘工作的人来说，您认为数学的哪些领域对您的工作至关重要？您会建议以什么顺序为数据挖掘和机器学习做准备的数学主题？这是我到目前为止的清单和顺序：代数前微积分结石线性代数可能性统计信息（此处有许多不同的子字段，但不知道如何进行细分）至于数据挖掘和机器学习，通过我目前的工作，我可以访问有关网站/应用程序活动，客户/订阅交易和房地产数据（静态和时间序列）的记录。我希望将数据挖掘和机器学习应用于这些数据集。谢谢！编辑：为了后代的缘故，我想为CMU的Geoffrey Gordon / Alex Smola的机器学习入门课程分享一个有用的数学自我评估。

30 machine-learning references data-mining

2

为什么在执行逐步选择后p值会产生误导？

让我们考虑例如线性回归模型。我听说，在数据挖掘中，基于AIC标准执行逐步选择后，查看p值来检验每个真实回归系数为零的零假设是一种误导。我听说应该将模型中剩余的所有变量都视为具有与零不同的真实回归系数。谁能解释我为什么？谢谢。

28 multiple-regression predictive-models data-mining stepwise-regression

1

标准和球形k均值算法之间的区别

我想了解一下，标准和球形k均值聚类算法之间的主要实现区别是什么。在每个步骤中，k均值都会计算元素向量和聚类质心之间的距离，并将文档重新分配给这个质心最接近的质心。然后，重新计算所有质心。在球面k均值中，所有向量均被归一化，距离度量为余弦不相似性。这是全部，还是还有其他东西？

28 clustering data-mining algorithms k-means

9

统计和数据挖掘软件工具，用于处理大型数据集

目前，我必须分析大约2000万条记录并建立预测模型。到目前为止，我已经试用了Statistica，SPSS，RapidMiner和R。在这些Statistica中似乎最适合处理数据挖掘，并且RapidMiner用户界面也非常方便，但是Statistica，RapidMiner和SPSS似乎仅适用于较小的数据集。谁能为大型数据集推荐一个好的工具？谢谢！

27 large-data software data-mining

7

机器学习科学家的日常工作是什么？

我是德国大学的CS学硕士，现在写论文。如果要继续攻读博士学位或在该行业找到工作，我将在两个月内做出非常艰难的决定。我做博士学位的原因：我是一个非常好奇的人，我觉得我仍然缺乏太多知识。我想学很多东西，博士学位会为我提供帮助，因为我可以做更多的好课程并阅读大量论文，并成为数据挖掘和机器学习方面的专家。我喜欢数学，但是在本科（不好的大学）里并不擅长数学。现在在这个德国大学，我觉得我发展了很多很棒的数学技能，我想提高它，因为我真的很喜欢数学！（在本科生和一生中，我的数学真的很糟糕，但是现在我发现我的数学很好！）我将处理具有智力挑战性的工作。我需要说实话，我也不想看到其他人比我更高学位的人。因此，如果我走进街上去见有博士学位的人，我不必说“哦，这个家伙比我聪明”。我宁愿站在另一边。;）我不做博士学位的原因：我在互联网上读过关于做博士学位还是不做博士学位的信息。我发现，在大多数情况下，拥有博士学位的人所做的工作与拥有硕士学位的人所做的工作相同。（这是计算机科学的普遍观察，而不是关于ML / DM）。我可以开始职业生涯并在1或2年内赚很多钱，然后我可能可以创办自己的公司。还不清楚的是：我仍然不知道最终我的最终目标是什么。有一家著名的小公司吗？还是成为著名科学家？我仍然没有这个问题的答案。为了帮助我做出决定，我想知道两件事：拥有行业硕士学位的数据科学家/机器学习者的工作感觉如何？你做什么样的工作？尤其是当我以机器学习科学家的身份在亚马逊上阅读这些广告时，我总是想知道它们的作用。与以前相同的问题，但有博士学位。您做的事情与大师不同吗？我要应对具有挑战性的有趣问题吗？还是一些无聊的东西？稍微说明一下：我见过一个拥有机器学习博士学位的人（在德国），并且在一家致力于推广机器学习软件的公司中工作。据我了解，他的大部分工作是训练人们使用方法和软件（决策树等）。如果我能从一些著名的优秀公司中获得有关德国/瑞士的经验的答案，那就太好了。

25 machine-learning data-mining careers

3

LSA与PCA（文档集群）

我正在研究文档聚类中使用的各种技术，并且想清除一些有关PCA（主要成分分析）和LSA（潜在语义分析）的疑问。第一件事-它们之间有什么区别？我知道在PCA中，SVD分解应用于术语协方差矩阵，而在LSA中，它是术语文档矩阵。还有别的事吗？第二-它们在文档聚类过程中的作用是什么？根据到目前为止的读物，我推断出它们的目的是减少维数，减少噪声并将项之间的关系纳入表示。在执行PCA或LSA之后，将传统算法（如k均值或凝聚法）应用于缩减后的词项空间，并使用典型的相似性度量（如余弦距离）。如果我错了，请纠正我。第三-是否在应用PCA / LSA之前对TF / IDF术语向量进行了标准化是否重要？并且在那之后是否应该将它们再次标准化？第四-假设我对LSA / PCA减少的术语空间进行了一些聚类。现在，我应该如何为结果集群分配标签？由于尺寸与实际单词不符，因此这是一个难题。我想到的唯一想法是使用原始项向量计算每个聚类的质心，并选择权重最大的项，但这听起来并不十分有效。有针对此问题的一些特定解决方案吗？我什么都找不到。我将非常感谢您澄清这些问题。

25 clustering pca data-mining svd lsa

3

多标签数据准确性的衡量标准是什么？

考虑一个为您提供KnownLabel矩阵和PredictedLabel矩阵的方案。我想相对于KnownLabel矩阵来衡量PredictedLabel矩阵的优势。但是这里的挑战是，KnownLabel矩阵只有几行只有一个1，而其他几行却有很多1（这些实例被多重标记）。下面给出了KnownLabel矩阵的示例。 A =[1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1] 在上面的矩阵中，数据实例1和2是单个标签数据，数据实例3和4是两个标签数据，数据实例5是三个标签数据。现在，我已经使用算法对数据实例的PredictedLabel矩阵进行了处理。我想知道各种可用于衡量PredictedLabel矩阵相对于KnownLabel矩阵的良好性的度量。我可以将它们之间的frobeinus规范差异视为衡量标准之一。但是我正在寻找诸如准确性(=Correctly_predicted_instancetotal_instance)(=Correctly_predicted_instancetotal_instance)(= \frac{\text{Correctly_predicted_instance}}{\text{total_instance}}) 在这里，我们如何为多个数据实例定义？Correctly_predictedCorrectly_predicted\rm Correctly\_predicted

25 machine-learning data-mining multilabel

2

损失函数和决策函数有什么区别？

我看到这两个功能都是诸如Gradient Boosting Regressors之类的数据挖掘方法的一部分。我看到这些也是单独的对象。两者之间的关系一般如何？

23 regression classification data-mining decision-theory

Questions tagged «data-mining»