统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

1
一个简单的逻辑回归模型如何在MNIST上实现92%的分类精度?
即使MNIST数据集中的所有图像都居中,具有相似的比例并且面朝上且没有旋转,但它们的笔迹差异很大,这使我感到困惑,线性模型如何实现如此高的分类精度。 据我所能想象的,鉴于明显的笔迹变化,数字应该在784维空间中线性不可分割,即应该有一点点(尽管不是很复杂)非线性边界将不同的数字分开,类似于引人注目的XØ [RXORXOR示例,其中正类别和负类别无法通过任何线性分类器分开。在我看来,多类逻辑回归如何在具有完全线性特征(无多项式特征)的情况下产生如此高的准确性令我感到困惑。 例如,给定图像中的任何像素,数字222和333不同手写体变化可以使该像素发光或不发光。因此,通过一组学习的权重,每个像素可以使数字看起来像222以及333。只有结合像素值,才可以说出数字是222还是333。对于大多数数字对都是如此。因此,逻辑回归如何盲目地将决策独立于所有像素值(根本不考虑像素间的依赖性),从而能够实现如此高的准确性。 我知道我在某个地方错了,或者只是高估了图像中的变化。但是,如果有人可以帮助我直观地了解数字如何“几乎”线性可分,那将是很棒的。

3
何时使用广义估计方程与混合效应模型?
我已经很高兴将混合效果模型用于纵向数据已有一段时间了。我希望我能适应lmer中的AR关系(我认为我做不到这一点是对的吗?),但我不认为这非常重要,因此我不必担心太多。 我刚刚遇到了广义估计方程(GEE),它们似乎比ME模型具有更大的灵活性。 冒着问一个笼统的问题的风险,是否有任何建议适合于不同的任务?我看过一些比较它们的论文,它们的形式通常是: “在这个高度专业化的领域,不要将GEE用于X,不要将ME模型用于Y”。 我没有找到更多一般性建议。谁能启发我? 谢谢!
63 mixed-model  gee 

9
贝叶斯方法更简单,更实用或更方便的情况列表
贝叶斯主义者和常客之间的统计数据之间存在许多争论。我通常认为这些内容令人反感(尽管我认为它已经消失了)。另一方面,我遇到了几个对这个问题完全务实的人,他们说有时进行频繁分析会更方便,有时进行贝叶斯分析会更容易。我觉得这种观点实用而令人耳目一新。 在我看来,列出此类案件会有所帮助。因为统计分析太多,并且由于我认为通常进行频率分析更为实用(在WinBUGS中编码t检验比在R中执行基于频率的版本所需的单个函数调用要复杂得多。 (例如),最好列出比贝叶斯方法更简单,更实用和/或更方便的贝叶斯方法。 (Two answers that I have no interest in are: 'always', and 'never'. I understand people have strong opinions, but please don't air them here. If this thread becomes a venue for petty squabbling, I will probably delete it. My goal here is to develop a resource that …

10
塔莱布与黑天鹅
塔莱布(Taleb)的书《黑天鹅》(The Black Swan)在几年前问世时是《纽约时报》的畅销书。这本书现在是第二版。在JSM(年度统计会议)上与统计学家会面后,Taleb在某种程度上减轻了对统计学的批评。但是本书的重点是统计数据不是很有用,因为它依赖于正态分布和非常罕见的事件:“黑天鹅”不具有正态分布。 您认为这是有效的批评吗?Taleb是否缺少统计建模的一些重要方面?至少可以在估计发生概率的意义上预测稀有事件吗?

3
包含反对无效假设重要性检验的论点的参考文献?
在过去的几年中,我阅读了许多反对在科学中使用零假设重要性检验的论文,但并不认为要保留一个持久的清单。一位同事最近要求我提供这样的列表,所以我想我要请这里的所有人来帮助构建它。首先,这是我到目前为止的事情: Johansson(2011)“向不可能的事物致敬:p值,证据和可能性。” Haller&Kraus(2002)“对意义的误解:学生与老师分享的一个问题。” Wagenmakers(2007)“解决普遍存在的p值问题的实用解决方案。” Rodgers(2010)“数学和统计建模的认识论:一场安静的方法论革命”。 Dixon(1998)“为什么科学家重视p值。” Glover&Dixon(2004)“似然比:经验心理学家的简单而灵活的统计数据。”

8
PCA后跟旋转(例如varimax)是否仍然是PCA?
我试图重现从SPSS一些研究(使用PCA)在R.根据我的经验,principal() 功能从包psych是差一点的唯一功能(或者,如果我没记错的话,死的)来匹配输出。为了匹配与SPSS中相同的结果,我必须使用parameter principal(..., rotate = "varimax")。我见过一些论文谈论它们如何进行PCA,但是基于SPSS的输出和旋转的使用,听起来更像是因子分析。 问题:即使旋转(使用varimax),PCA还是PCA吗?我的印象是,这实际上可能是因子分析……如果不是这样,我遗漏了哪些细节?



6
为什么k均值聚类算法仅使用欧几里得距离度量?
在效率或功能方面是否有特定目的,为什么k-means算法不使用余弦(不)相似度作为距离度量,而只能使用欧几里得范数?通常,当考虑或使用除欧几里得以外的其他距离时,K均值方法会符合并正确吗? [由@ttnphns添加。这个问题有两个方面。“非欧氏距离”可以涉及两个数据点之间的距离或数据点与聚类中心之间的距离。到目前为止,都尝试了两种方法来解决答案。]

3
如何实际从randomForest :: getTree()绘制示例树?[关闭]
任何人都有关于如何从以下位置实际绘制几个示例树的库或代码建议: getTree(rfobj, k, labelVar=TRUE) (是的,我知道您不应该在操作上进行此操作,RF是一个黑匣子,依此类推。我想在视觉上检查树,以查看是否有任何违反直觉的变量,需要进行调整/组合/离散化/转换,检查我的编码因子的效果如何,等等) 先前的问题,没有合适的答案: 如何使随机森林更具解释性? 同时从随机森林中获取知识 我实际上想绘制一个样本树。所以,现在就不要与我争论。我不是在问varImpPlot(变量重要性图)或partialPlot或MDSPlot,或这些其他图,我已经知道了,但是它们不能代替查看示例树。是的,我可以目视检查的输出getTree(...,labelVar=TRUE)。 (我想plot.rf.tree()贡献将是非常受欢迎的。)

4
关于不确定性的自举估计的假设
我赞赏引导程序在获得不确定性估计中的有用性,但一直困扰着我的一件事是,与那些估计相对应的分布是样本定义的分布。通常,认为我们的采样频率看起来与基础分布完全相似似乎是一个坏主意,那么,为什么基于采样频率定义基础分布的分布来导出不确定性估计是合理的/可以接受的呢? 另一方面,这可能并不比我们通常所做的其他分布假设差(可能更好),但我仍然想更好地理解其理由。

8
如果A和B与C相关,为什么A和B不一定相关?
我凭经验知道情况就是如此。我刚刚开发了遇到这个难题的模型。我也怀疑这不一定是是/否答案。我的意思是,如果A和B都与C相关,那么这可能对A和B之间的相关性有一定的暗示。但是,这种暗示可能很弱。这可能只是一个指示方向,仅此而已。 这就是我的意思。假设A和B与C的相关性均为0.5。鉴于此,A和B之间的相关性很可能为1.0。我认为也可能是0.5甚至更低。但是,我认为这不太可能是负面的。你同意吗? 另外,如果您正在考虑使用标准的皮尔逊相关系数或斯皮尔曼(秩)相关系数,是否有暗示?我最近的经验观察与Spearman相关系数有关。

8
贝叶斯:似然函数的奴隶?
拉里·瓦瑟曼(Larry Wasserman)教授在他的《所有统计》一书中提出了以下示例(11.10,第188页)。假设我们有一个密度,使得,其中是已知的(负,可积)函数,而归一化常数是未知的。ffff(x)=cg(x)f(x)=cg(x)f(x)=c\,g(x)c > 0gggc>0c>0c>0 我们对无法计算情况感兴趣。例如,在非常高维的样本空间上,可能是pdf。c=1/∫g(x)dxc=1/∫g(x)dxc=1/\int g(x)\,dxfff 众所周知,即使未知,也有一些模拟技术可让我们从采样。因此,难题是:我们如何从这样的样本中估算?fffcccccc Wasserman教授描述了以下贝叶斯解决方案:让为先验条件。可能性为 因此,后 不依赖于样本值。因此,贝叶斯不能使用样本中包含的信息来推断。ππ\picccLx(c)=∏i=1nf(xi)=∏i=1n(cg(xi))=cn∏i=1ng(xi)∝cn.Lx(c)=∏i=1nf(xi)=∏i=1n(cg(xi))=cn∏i=1ng(xi)∝cn. L_x(c) = \prod_{i=1}^n f(x_i) = \prod_{i=1}^n \left(c\,g(x_i)\right) = c^n \prod_{i=1}^n g(x_i) \propto c^n \, . X 1,... ,X Ñ Çπ(c∣x)∝cnπ(c)π(c∣x)∝cnπ(c) \pi(c\mid x) \propto c^n \pi(c) x1,…,xnx1,…,xnx_1,\dots,x_nccc 瓦瑟曼教授指出:“贝叶斯是似然函数的奴隶。当似然出错时,贝叶斯推论也将如此”。 我对其他堆垛机的问题是:关于这个特定示例,贝叶斯方法有什么问题(如果有)? PS正如Wasserman教授在回答中所解释的那样,该示例归因于Ed George。

3
逻辑回归中的残差是什么意思?
在回答这个问题时,约翰·克里斯蒂(John Christie)建议通过评估残差来评估逻辑回归模型的拟合度。我熟悉如何解释OLS中的残差,它们与DV具有相同的比例,并且非常清楚地知道y与模型预测的y之间的差异。但是对于逻辑回归,过去我通常只检查模型拟合的估计值,例如AIC,因为我不确定残差对逻辑回归意味着什么。在稍微看一下R的帮助文件后,我发现R中有五种类型的glm残差可用c("deviance", "pearson", "working","response", "partial")。帮助文件是指: Davison,AC和Snell,EJ(1991)残留和诊断。在:统计理论与建模。为了纪念David Cox爵士,FRS编辑。欣克利,DV,里德,N。和斯内尔,EJ,查普曼和霍尔。 我没有那个副本。是否有简短的方法来描述如何解释这些类型中的每一种?在逻辑条件下,残差平方和会提供一种有意义的模型拟合度量,还是采用信息准则会更好?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.