统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


6
二项式和Beta分布之间的关系
我不是程序员而是统计学家,所以我希望这个问题不要太幼稚。 它发生在随机执行的采样程序执行中。如果我对程序状态进行N = 10个随机时间采样,则可以看到函数Foo在例如这些采样中的I = 3上执行。我对这能告诉我有关Foo执行的实际时间F的时间感兴趣。 我知道我是二项分布的,均值F * N。我也知道,给定I和N,F遵循beta分布。实际上,我已经通过程序验证了这两个分布之间的关系,即 cdfBeta(I, N-I+1, F) + cdfBinomial(N, F, I-1) = 1 问题是我对这种关系没有直觉。我无法“想象”它为什么起作用。 编辑:所有答案都是具有挑战性的,尤其是@whuber,我仍然需要了解,但整理订单统计数据非常有帮助。尽管如此,我已经意识到我应该问一个更基本的问题:给定I和N,F的分布是什么?每个人都指出它是Beta,我知道。我终于从维基百科(先前的共轭)中弄清楚了Beta(I+1, N-I+1)。使用程序进行探索之后,这似乎是正确的答案。所以,我想知道我是否错。而且,我仍然对上面显示的两个CDF之间的关系,为什么它们求和为1,以及它们甚至与我真正想知道的事情有什么关系感到困惑。

3
负概率/概率振幅是否在量子力学之外具有应用?
量子力学将概率论广义化为负/虚数,主要用于解释干涉图,波/粒子对偶性以及诸如此类的怪异事物。但是,可以将其更抽象地视为贝叶斯概率的非可交换性(引自Terrence Tao)。我对这些事情很好奇,尽管绝不是专家。量子力学之外还有其他应用吗?只是好奇。

5
从统计学的角度来看,能否通过观察性研究使用倾向评分来推断因果关系?
问题:从统计学家(或从业者)的角度来看,可以通过观察研究(而非实验)使用倾向评分来推断因果关系吗? 拜托,不要发动火焰战争或狂热的辩论。 背景:在统计博士计划中,我们仅通过工作组和一些主题会议来探讨因果关系。但是,其他部门(例如HDFS,社会学)中有一些非常杰出的研究人员正在积极使用它们。 我已经目睹了关于此问题的一些激烈辩论。我的目的不是在这里开始。也就是说,您遇到了哪些参考资料?你有什么观点?例如,我听说过有人反对将倾向得分作为一种因果推理技术,这是由于忽略了变量偏差而无法推断因果关系的原因-如果遗漏了一些重要内容,则会打破因果关系链。这是一个无法解决的问题吗? 免责声明:这个问题可能没有正确的答案-单击cw会很酷,但是我个人对响应非常感兴趣,并希望获得一些很好的参考,其中包括实际示例。

9
统计和数据挖掘软件工具,用于处理大型数据集
目前,我必须分析大约2000万条记录并建立预测模型。到目前为止,我已经试用了Statistica,SPSS,RapidMiner和R。在这些Statistica中似乎最适合处理数据挖掘,并且RapidMiner用户界面也非常方便,但是Statistica,RapidMiner和SPSS似乎仅适用于较小的数据集。 谁能为大型数据集推荐一个好的工具? 谢谢!


4
在Scrabble中不从一包字母中提取单词的可能性
假设您有一个带有nnn磁贴的袋子,每个磁贴上都有一个字母。有nAnAn_A以字母“A”,瓷砖nBnBn_B与“B”,等等,和n∗n∗n_*通配符”砖(我们有n=nA+nB+…+nZ+n∗n=nA+nB+…+nZ+n∗n = n_A + n_B + \ldots + n_Z + n_*)。假设您有一本单词数量有限的字典。您可以从袋子中挑选kkk块瓷砖,而无需更换。给定所选的kkk图块,您如何计算(或估计)从字典中形成零个单词的概率? 对于不熟悉Scrabble(TM)的用户,可以使用通配符来匹配任何字母。因此,单词[ BOOT ]可以用图块“ B”,“ *”,“ O”,“ T”“拼写”。 为了对问题的规模有一些了解,kkk很小,例如7,nnn大约为100,并且字典包含大约100,000个大小为kkk或更小的单词。 编辑: “形成单词”是指长度不超过的单词kkk。因此,如果单词[ A ]在字典中,那么即使从包中画出一个“ A”,也可以“形成一个单词”。如果可以假设字典中存在长度为1的单词,则可以大大简化通配符的问题。如果有的话,通配符的任何抽签会自动匹配长度为1个字的单词,因此,人们可以专注于没有通配符的情况。因此,问题的较滑形式在词典中没有1个字母的单词。 另外,我应该明确指出从书包中提取字母的顺序并不重要。人们不必按单词的“正确”顺序绘制字母。




6
为什么较小的权重会导致正规化模型更简单?
大约一年前,我完成了Andrew Ng的机器学习课程,现在正在写我的高中数学探索性知识,介绍Logistic回归的工作原理和优化性能的技术。这些技术之一当然是正则化。 正则化的目的是通过扩展成本函数以包括模型简化的目标来防止过度拟合。我们可以通过将权重的每一个乘以平方,再乘以一些正则化参数,来对权重的大小进行惩罚,从而实现这一目标。 现在,机器学习算法将旨在减小权重的大小,同时保持训练集的准确性。我们的想法是,我们将到达中间的某个点,在这里我们可以生成一个模型,该模型可以对数据进行泛化,而不会因为复杂度降低而无法适应所有随机噪声。 我的困惑是为什么我们要惩罚砝码的大小?为什么较大的权重创建更复杂的模型,为什么较小的权重创建更简单/平滑的模型?吴安德(Andrew Ng)在他的演讲中声称,这种解释很难讲,但我想我现在正在寻找这种解释。 Ng教授确实给出了一个示例,说明新的成本函数如何使要素的权重(即x ^ 3和x ^ 4)趋于零,从而降低了模型的程度,但这并不能创建一个完整的模型。说明。 我的直觉是,具有较小指数的特征将比具有较小指数的特征更易于接受(因为具有较小权重的特征就像函数的基础一样)。较小的权重意味着对高阶特征的较小“贡献”。但是这种直觉不是很具体。

2
精确调用曲线(PR曲线的AUC)和平均精确度(AP)下的面积
平均精度(AP)是精度调用曲线(PR曲线的AUC)下的面积吗? 编辑: 这里有一些关于PR AUC和AP差异的评论。 AUC通过精度的梯形插值获得。另一种通常通常等效的指标是平均精度(AP),以info.ap返回。这是每次召回新的阳性样本时获得的精度平均值。如果精度是由常数段内插的,则它与AUC相同,并且是TREC最常使用的定义。 http://www.vlfeat.org/overview/plots-rank.html 此外,scikit-learn中的auc和average_precision_score结果不相同。这很奇怪,因为在文档中我们有: 根据预测分数计算平均精度(AP)该分数对应于精度调用曲线下的面积。 这是代码: # Compute Precision-Recall and plot curve precision, recall, thresholds = precision_recall_curve(y_test, clf.predict_proba(X_test)[:,1]) area = auc(recall, precision) print "Area Under PR Curve(AP): %0.2f" % area #should be same as AP? print 'AP', average_precision_score(y_test, y_pred, average='weighted') print 'AP', average_precision_score(y_test, y_pred, average='macro') print 'AP', …

1
lmer混合效应模型的predict()函数
问题: 我读过其他文章,这些文章predict不适用于lmer[R]中的混合效果{lme4}模型。 我尝试通过玩具数据集探索这个主题... 背景: 数据集是根据此来源改编的,可作为... require(gsheet) data <- read.csv(text = gsheet2text('https://docs.google.com/spreadsheets/d/1QgtDcGJebyfW7TJsB8n6rAmsyAnlz1xkT3RuPFICTdk/edit?usp=sharing', format ='csv')) 这些是第一行和标题: > head(data) Subject Auditorium Education Time Emotion Caffeine Recall 1 Jim A HS 0 Negative 95 125.80 2 Jim A HS 0 Neutral 86 123.60 3 Jim A HS 0 Positive 180 204.00 4 Jim A …

4
使用scikit-learn(或任何其他python框架)集成不同类型的回归器
我正在尝试解决回归任务。我发现3个模型对于不同的数据子集运行良好:LassoLARS,SVR和Gradient Tree Boosting。我注意到,当我使用所有这三个模型进行预测,然后制作“真实输出”和这3个模型的输出的表格时,我看到每次至少有一个模型确实接近真实输出,尽管另外两个可能相对较远。 当我计算出最小可能的误差时(如果我从每个测试示例的“最佳”预测变量中获取预测结果),我得到的误差要比任何模型的误差都要小得多。因此,我考虑过尝试将这3种不同模型的预测结合到某种整体中。问题是,如何正确执行此操作?我的所有3个模型都是使用scikit-learn构建和调整的,是否提供了某种可用于将模型打包到集合中的方法?这里的问题是,我不想只是对所有三个模型的平均预测,我想通过加权来做到这一点,应该根据特定示例的属性确定加权。 即使scikit-learn不提供此类功能,如果有人知道如何解决该任务-为数据中的每个示例计算每种模型的权重,也将是一件很好的事情。我认为这可以通过在所有这三个模型之上构建一个单独的回归器来完成,该回归器将尝试为这三个模型中的每个模型输出最佳权重,但是我不确定这是否是最佳方法。

2
如何在聚类中同时使用二进制变量和连续变量?
我需要在k均值中使用二进制变量(值0和1)。但是k均值仅适用于连续变量。我知道有些人仍然在k均值中使用这些二进制变量,而忽略了k均值仅用于连续变量的事实。这对我来说是不可接受的。 问题: 那么在k均值/层次聚类中使用二进制变量的统计/数学正确方法是什么? 如何在SAS / R中实施解决方案?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.