统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

8
在“大数据”时代采样是否有意义?
或更“会是”吗?大数据使统计数据和相关知识变得更加重要,但似乎不重视抽样理论。 我已经看到围绕“大数据”的这种炒作,并且不禁怀疑我为什么要分析所有内容?是否没有理由设计/实施/发明/发现“抽样理论”?我不想分析数据集的整个“人口”。仅仅因为您可以做到并不意味着您应该这样做(愚蠢是一种特权,但您不应该滥用它:) 所以我的问题是:分析整个数据集在统计上是否相关?您可能要做的最好是,如果您进行采样,则将误差降到最低。但是,最小化该错误的成本真的值得吗?“信息价值”真的值得在大型并行计算机上分析大数据时所付出的努力,时间成本等吗? 即使对整个人群进行分析,其结果充其量也只能是猜测,而正确的可能性更高。可能比抽样要高一点(或者会更高吗?)通过分析总体与分析样本所获得的见解是否会大相径庭? 还是我们应该接受它,因为“时代变了”?考虑到足够的计算能力,将抽样作为一项活动变得不那么重要了:) 注意:我不是要开始辩论,而是在寻找答案,以了解大数据为何会执行其功能(即分析所有内容)而无视采样理论(或不这样做)。

10
如何确定正确的群集数量?
我们找到了聚类中心,并在k均值聚类中将点分配给k个不同的聚类箱,这是一种非常著名的算法,几乎可以在网上的每个机器学习包中找到。但是在我看来,缺失和最重要的部分是选择正确的k。最好的价值是什么?而且,什么是最好的? 我使用MATLAB进行科学计算,其中考虑轮廓图是决定此处讨论的 k的一种方法。但是,我会对贝叶斯方法更感兴趣。任何建议表示赞赏。



2
事后测试之前是否需要进行全局测试?
我经常听到,只有在ANOVA本身很重要的情况下,才能使用ANOVA之后的事后测试。 但是,事后测试会调整以使I类全局错误率保持在5%,不是吗?ppp 那么,为什么我们首先需要进行全局测试? 如果我们不需要全局测试,那么“事后”术语是否正确? 还是有多种事后测试,有些假设了重要的整体测试结果,而另一些则没有这种假设?


5
在多元回归中为多个比较调整p值是一个好主意吗?
假设您是一名社会科学研究员/计量经济学家,试图找到有关服务需求的相关预测因子。您有2个描述需求的结果/因变量(使用服务“是/否”和次数)。您有10个预测变量/独立变量,可以从理论上解释需求(例如,年龄,性别,收入,价格,种族等)。运行两个单独的多元回归将得出20个系数估计及其p值。如果回归中有足够的自变量,您迟早会发现至少一个在因变量和自变量之间具有统计显着相关性的变量。 我的问题是:如果我想在回归中包括所有自变量,则为多个测试校正p值是一个好主意吗?非常感谢对以前工作的任何引用。

6
数学家统计学入门
对于已经精通概率的数学家来说,如何很好地介绍统计学?我有两种不同的询问动机,这很可能导致不同的建议: 我想更好地了解概率论者考虑的许多问题背后的统计动机。 我想知道如何更好地解释蒙特卡洛模拟的结果,有时我会做一些数学猜想。 我很可能最好的方法不是去寻找“概率统计”之类的东西,而只是去一个更入门的来源。
54 references 

7
具有大量功能(> 10K)的最佳PCA算法?
我之前在StackOverflow上问过这个问题,但由于它在SO上没有任何答案,因此似乎在这里更合适。这是统计和编程之间的交集。 我需要编写一些代码来进行PCA(主成分分析)。我浏览了众所周知的算法并实现了这一算法,据我所知,它等效于NIPALS算法。它可以很好地找到前2-3个主成分,但是收敛似乎很慢(大约数百到数千次迭代)。以下是我需要的详细信息: 当处理大量特征(10,000到20,000数量级)和数百个样本量的样本时,该算法必须高效。 它必须在没有像样的线性代数/矩阵库的情况下可以合理地实现,因为目标语言是D,但尚不存在,即使有,我也不想将其作为对相关项目的依赖项添加。 附带说明一下,在同一个数据集上,R看起来非常快地找到了所有主成分,但是它使用了奇异值分解,这不是我想自己编写的东西。

19
数理统计视频
先前曾有一个问题寻求有关数学统计学教科书的建议 有人知道关于数学统计的任何在线视频讲座吗?我找到的最接近的是: 机器学习 计量经济学 更新:下面提到的许多建议都是良好的统计数据-101型视频。但是,我特别想知道是否有任何视频可以提供统计数据的严格数学表示。即,可能与课程相关的视频使用了在mathoverflow讨论中提到的教科书

10
保持验证与交叉验证
在我看来,坚持验证是没有用的。也就是说,将原始数据集分为两部分(训练和测试)并将测试得分用作泛化度量,这是没有用的。 K折交叉验证似乎可以更好地概括(因为它在每个点上进行训练和测试)。那么,为什么我们要使用标准的保留验证?甚至谈论它?

5
关于PCA如何从几何问题(具有距离)转变为线性代数问题(具有特征向量)的直观解释是什么?
我读过很多关于PCA,包括各种教程和问题(如这一个,这一个,这一个,而这一个)。 PCA试图优化的几何问题对我来说很清楚:PCA试图通过最小化重建(投影)误差来找到第一个主成分,这同时使投影数据的方差最大化。 当我第一次阅读该书时,我立即想到了线性回归之类的东西。也许您可以根据需要使用梯度下降法解决它。 但是,当我看到通过使用线性代数并找到特征向量和特征值来解决优化问题时,我的想法震惊了。我根本不了解线性代数的这种用法如何发挥作用。 所以我的问题是:PCA如何从几何优化问题变成线性代数问题?有人可以提供直观的解释吗? 我不是在寻找像一个回答这一个,说:“当你解决PCA的数学问题,它最终被等同于找到协方差矩阵的特征值和特征向量。” 请解释为什么特征向量出来是主要成分,为什么特征值出来是投影到它们上的数据的方差 顺便说一句,我是软件工程师,而不是数学家。 注意:上图是从本PCA教程中获取并修改的。


4
协方差和独立性?
我从课本中得知不能保证X和Y是独立的。但是,如果它们是独立的,则它们的协方差必须为0。有人可以提供吗?COV (X,Y)= 0冠状病毒(X,ÿ)=0\text{cov}(X,Y)=0

5
关于iid假设在统计学习中的重要性
在统计学习中,隐式或显式地,总是假设训练集由输入/响应元组是从同一个联合分布中独立得出的,D ={ X, y }D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}ñNN(X一世,ÿ一世)(Xi,yi)({\bf{X}}_i,y_i) P( X,ÿ)P(X,y)\mathbb{P}({\bf{X}},y) p (X,ÿ)= p (y| X)p (X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) 和通过特定的学习算法试图捕获的关系。从数学上讲,该iid假设写道:p (ÿ| X)p(y|X)p( y \vert {\bf{X}}) (X一世,ÿ一世)〜P(X,ÿ),∀ 我= 1 ,。。。,N(X一世,ÿ一世) 独立于 (XĴ,ÿĴ),∀ 我≠ Ĵ ∈ { 1 ,。。。,N}(Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.