统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答


5
标准化和标准化之间有什么区别?
在工作中,我们正在讨论此问题,因为我的老板从未听说过标准化。在线性代数中,归一化似乎是指矢量除以其长度。在统计中,标准化似乎是指减去均值再除以其SD。但是它们似乎也可以与其他可能性互换。 创建某种通用分数时,它由不同的指标组成,它们具有不同的平均值和不同的SD,您是否会进行标准化,标准化或其他?有人告诉我,这只是采取每个指标并将其分别除以SD的问题。然后将两者相加。这将导致可用于判断两个指标的通用评分。222 例如,假设您有乘地铁上班的人数(在纽约市)和有开车上班的人数(在纽约市)。 车⟶ ÿ火车⟶ XTrain⟶x\text{Train} \longrightarrow x 汽车⟶ ÿCar⟶y\text{Car} \longrightarrow y 如果您想创建一个通用分数来快速报告交通波动,则不能只添加和因为会有更多的人乘坐火车。纽约有800万人居住,还有游客。每天有数百万人乘火车,数十万人乘汽车。因此,需要将它们转换为相似的规模才能进行比较。均值(y )均值(x )mean(x)\text{mean}(x)平均(ÿ)mean(y)\text{mean}(y) 如果均值(x )= 8 ,000 ,000mean(x)=8,000,000\text{mean}(x) = 8,000,000 和平均(ÿ) = 800 ,000mean(y)=800,000\text{mean}(y) = 800,000 您可以将&归一化然后求和吗?您会标准化和然后求和吗?还是将它们除以各自的SD然后求和?为了得到一个数字,当波动时,表示总流量波动。y x yXxxÿyyXxxÿyy 任何供参考的文章或章节,将不胜感激。谢谢! 这也是我正在尝试做的另一个例子。 假设您是一名大学院长,并且您正在讨论入学要求。您可能希望学生具有至少一定的GPA和一定的考试分数。如果两者的规模相同,那就太好了,因为您可以将两者加在一起,然后说:“至少7.0的任何人都可以被录取。” 这样,如果一个预期的学生的GPA为4.0,他们可能会低至3.0的测试分数并仍然被录取。相反,如果某人的GPA为3.0,则仍然可以以4.0的测试分数被录取。 但这不是那样。ACT是36分制,大多数GPA是4.0(有些是4.3,很烦)。由于我不能仅仅添加ACT和GPA来获得某种通用分数,因此我该如何对其进行转换以便将它们添加进去,从而创建通用分数。然后作为院长,我可以自动接受分数超过特定阈值的任何人。甚至自动接受分数在前95%以内的所有人。 可以归一化吗?标准化?或只是将它们除以SD然后求和?

8
因果关系暗示吗?
关联并不表示因果关系,因为可能有很多解释。但是因果关系是否暗示相关性?凭直觉,我认为因果关系的存在必然意味着一定的相关性。但是我的直觉并不总是在统计学上对我有用。因果关系暗示吗?


9
数值示例,以了解期望最大化
我试图很好地掌握EM算法,以便能够实现和使用它。我花了一整天的时间阅读该理论和一篇论文,其中使用EM使用来自雷达的位置信息来跟踪飞机。老实说,我认为我不完全理解基本思想。有人可以给我指出一个数值示例,该示例显示EM的几次迭代(3-4),以解决一个更简单的问题(例如估算高斯分布的参数或正弦序列的序列或拟合直线)。 即使有人可以将我指向一段代码(带有合成数据),我也可以尝试单步执行代码。


6
为什么在原假设下p值均匀分布?
最近,我发现在Klammer等人的论文中。p值应均匀分布的声明。我相信作者,但不明白为什么会这样。 Klammer,AA,Park,CY和Stafford Noble,W.(2009)SEQUEST XCorr函数的统计校准。蛋白质组研究杂志。8(4):2106-2113。
115 p-value  uniform 

16
如果每千人中有900人说汽车是蓝色的,那么它是蓝色的概率是多少?
最初是由于我们对模型对自然文本进行分类所做的一些工作而引起的,但是我已经对其进行了简化……也许太多了。 您有一辆蓝色的汽车(通过客观的科学测量-它是蓝色的)。 您将其显示给1000个人。 900说它是蓝色的。100不。 您将此信息提供给看不见汽车的人。他们只知道900个人说它是蓝色,而100个人则不是。您对这些人(千人)一无所知。 基于此,您问人:“汽车发蓝的概率是多少?” 这引起了我所问者之间的巨大分歧!如果有的话,正确的答案是什么?
114 probability 


2
推导多元正态分布的条件分布
我们有一个多元法向向量Y∼N(μ,Σ)Y∼N(μ,Σ){\boldsymbol Y} \sim \mathcal{N}(\boldsymbol\mu, \Sigma)。考虑将μμ\boldsymbol\mu和YY{\boldsymbol Y}划分为 μ=[μ1μ2]μ=[μ1μ2]\boldsymbol\mu = \begin{bmatrix} \boldsymbol\mu_1 \\ \boldsymbol\mu_2 \end{bmatrix} Y=[y1y2]Y=[y1y2]{\boldsymbol Y}=\begin{bmatrix}{\boldsymbol y}_1 \\ {\boldsymbol y}_2 \end{bmatrix} 将\ Sigma的类似分区划分ΣΣ\Sigma为 [Σ11Σ21Σ12Σ22][Σ11Σ12Σ21Σ22] \begin{bmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{21} & \Sigma_{22} \end{bmatrix} 然后,(y1|y2=a)(y1|y2=a)({\boldsymbol y}_1|{\boldsymbol y}_2={\boldsymbol a}),给定第二个分区的第一个分区的条件分布为 N(μ¯¯¯¯,Σ¯¯¯¯)N(μ¯,Σ¯)\mathcal{N}(\overline{\boldsymbol\mu},\overline{\Sigma}),其均值 μ¯¯¯¯=μ1+Σ12Σ22−1(a−μ2)μ¯=μ1+Σ12Σ22−1(a−μ2) \overline{\boldsymbol\mu}=\boldsymbol\mu_1+\Sigma_{12}{\Sigma_{22}}^{-1}({\boldsymbol a}-\boldsymbol\mu_2) 和协方差矩阵 Σ¯¯¯¯=Σ11−Σ12Σ22−1Σ21Σ¯=Σ11−Σ12Σ22−1Σ21 \overline{\Sigma}=\Sigma_{11}-\Sigma_{12}{\Sigma_{22}}^{-1}\Sigma_{21} 实际上,这些结果也已在Wikipedia中提供,但是我不知道μ¯¯¯¯μ¯\overline{\boldsymbol\mu}和Σ¯¯¯¯Σ¯\overline{\Sigma}是如何得出的。这些结果至关重要,因为它们是推导卡尔曼滤波器的重要统计公式。有人能提供我推导μ¯¯¯¯μ¯\overline{\boldsymbol\mu}和\ overline {\ Sigma}的推导步骤Σ¯¯¯¯Σ¯\overline{\Sigma}吗?非常感谢你!


10
神经网络和深度神经网络之间有什么区别,为什么深度神经网络工作得更好?
我还没有看到用这些术语准确说明的问题,这就是为什么我要提出一个新问题。 我感兴趣的不是神经网络的定义,而是了解深度神经网络的实际区别。 有关更多上下文:我知道什么是神经网络以及反向传播如何工作。我知道DNN必须具有多个隐藏层。但是,十年前,我在课堂上了解到,就神经网络能够表示的功能而言,具有多层或一层(不计算输入和输出层)是等效的(请参见Cybenko的通用逼近定理),并且更多的层使分析变得更加复杂而又不提高性能。显然,情况已不再如此。 我猜想可能是错误的,区别在于训练算法和属性,而不是结构,因此,如果答案能强调使DNN成为可能的原因(例如数学证明或随机玩网络),我将不胜感激。?)和期望(收敛例如,速度?)

13
XKCD的Frequentists vs.Bayesians漫画有什么问题?
这张xkcd漫画(Frequentists vs. Bayesians)取笑了一个得出明显错误结果的常客统计学家。 然而,在我看来,他的推理实际上是正确的,因为它遵循标准的频繁论者方法。 所以我的问题是“他是否正确地采用了常客主义方法?” 如果否:在这种情况下正确的常客推断是什么?如何将有关太阳稳定性的“先验知识”整合到频率论方法中? 如果是:wtf?;-)


19
最有趣的统计悖论
因为我发现他们着迷,所以我想听听这个社区中人们最感兴趣的统计悖论以及原因。
112 paradox 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.