统计和大数据

6

采访中有人问我这个问题。假设我们有一个形式为的相关矩阵 ⎡⎣⎢1个0.60.80.61个γ0.8γ1个⎤⎦⎥[10.60.80.61γ0.8γ1]\begin{bmatrix}1&0.6&0.8\\0.6&1&\gamma\\0.8&\gamma&1\end{bmatrix} 给定该相关矩阵，要求我查找gamma的值。我以为我可以对特征值做些什么，因为它们都应该大于或等于0（矩阵应该是正半定数）-但我认为这种方法不会产生答案。我想念一个把戏。您能否提供解决该问题的提示？

20 pearson-r correlation-matrix

1

逐步回归引起的咆哮

我很了解回归模型中逐步/向前/向后选择的问题。有许多研究人员谴责这些方法并指出更好的选择。我很好奇是否存在任何统计分析的故事：使用逐步回归；根据最终模型得出了一些重要结论结论是错误的，对个人，研究或组织产生负面影响我的想法是，如果逐步方法不好，那么使用它们在“现实世界”中应该会有后果。

20 regression stepwise-regression history

2

F统计遵循F分布的证明

鉴于这个问题：证明OLS模型中的系数服从具有（nk）自由度的t分布我很想知道为什么 F=(TSS−RSS)/(p−1)RSS/(n−p),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, 其中是模型参数的数量，是观测值的数量，是总方差，是残差，遵循分布。Ñ Ť 小号小号ř 小号小号˚F p - 1 ，ñ - ppppnnnTSSTSSTSSRSSRSSRSSFp−1,n−pFp−1,n−pF_{p-1,n-p} 我必须承认，我什至没有尝试证明这一点，因为我不知道从哪里开始。

20 regression hypothesis-testing least-squares f-distribution f-statistic

1

自适应MCMC可以信任吗？

我正在阅读有关自适应MCMC的信息（例如，参见《马尔可夫链蒙特卡洛手册》第4章，布鲁克斯等人，2011年；Andrieu和Thoms，2008年）。 nnnp(n)p(n)p(n)limn→∞p(n)=0limn→∞p(n)=0\lim_{n \rightarrow \infty} p(n) = 0 该结果是（后验的）直观的，渐近的。由于适应量趋于零，因此最终不会与遍历无关。我担心的是有限的时间会发生什么。我们如何知道在给定的有限时间内适应性并不会破坏遍历性，并且采样器正在从正确的分布中采样？如果完全有道理，一个人应该做多少磨合以确保早期适应不会使链条产生偏差？该领域的从业者是否信任自适应MCMC？我问的原因是因为我已经看到许多最近的方法，这些方法尝试以已知的其他各种更复杂的方式（包括再生或整体方法）以其他更复杂的方式建立适应性（例如，选择过渡是合法的）取决于其他平行链状态的运算符）。可替代地，仅在老化期间（例如在Stan中）执行调整，而不在运行时执行。所有这些努力向我暗示，罗伯茨和罗森塔尔的自适应MCMC（实施起来非常简单）并不可靠；但也许还有其他原因。那么具体的实现又如何呢？比如自适应都市（Hario等，2001）？参考文献 Rosenthal，JS（2011）。最佳提案分配和自适应MCMC。马尔可夫链手册蒙特卡罗，93-112。 Andrieu，C.和Thoms，J.（2008年）。关于自适应MCMC的教程。统计与计算，18（4），343-373。 Roberts，GO和Rosenthal，JS（2007）。自适应马尔可夫链蒙特卡罗算法的耦合和遍历性。应用概率杂志，458-475。 Haario H.，Saksman E.和Tamminen J.（2001）。自适应Metropolis算法。伯努利（Bernoulli），223-242。

20 simulation mcmc random-generation metropolis-hastings

3

在工作环境中进行正确的统计？

我不确定此问题所属的位置：交叉验证或工作场所。但是我的问题与统计模糊不清。在我作为“数据科学实习生”工作期间出现了这个问题（或者我猜是问题）。我正在建立此线性回归模型并检查残差图。我看到明显的异方差迹象。我记得异方差会扭曲许多检验统计数据，例如置信区间和t检验。因此，根据我在大学中学到的知识，我使用了加权最小二乘。我的经理看到了这一点，并建议我不要这样做，因为“我使事情变得复杂”，这对我来说根本不是一个非常令人信服的理由。另一个示例是“删除解释变量，因为其p值无关紧要”。确实，从逻辑角度来看，这种建议是没有意义的。据我了解，不重要的p值可能是由于不同的原因造成的：机会，使用错误的模型，违反假设等。另一个例子是，我使用k倍交叉验证来评估我的模型。根据结果，仅比C V m o d e l 2好。但是我们对于模型1 确实有一个较低的R 2，其原因与拦截有关。但是，我的主管似乎更喜欢模型2，因为它具有更高的R 2。他的原因（例如R 2CVmodel1CVmodel1CV_{model 1}CVmodel2CVmodel2CV_{model 2}R2R2R^2R2R2R^2R2R2R^2 是鲁棒的，或者交叉验证是机器学习方法，而不是统计方法）似乎还不足以说服我改变主意。作为刚大学毕业的人，我很困惑。我非常热衷于应用正确的统计信息来解决现实世界中的问题，但是我不知道下列哪一项是正确的：我自己了解的统计信息是错误的，因此我只是在犯错误。理论统计量与公司的构建模型之间存在巨大差异。尽管统计理论是正确的，但人们只是不遵循它。管理器未正确使用统计信息。 2017年4月17日更新：我已决定攻读博士学位。在统计中。谢谢大家的答复。

20 careers

1

小波域高斯过程：什么是协方差？

我一直在阅读Maraun等人的文章《小波域中的非平稳高斯过程：综合，估计和有效测试》（2007年），该类定义了可由小波域中的乘数指定的一类非平稳GP。这样一个GP的实现是：其中是白噪声，是相对于小波的连续小波变换，是标度为且时间为的乘数（类似傅立叶系数），是重构小波小波逆变换。s （t ）= MHm （b ，a ）宽Gη（吨），s(t)=Mhm(b,a)Wgη(t), s(t) = M_h m(b,a) W_g \eta(t)\, , W g g m （b ，a ）a b M h hη（吨）η(t)\eta(t)w ^GWgW_gGggm （b ，a ）m(b,a)m(b,a)一种aabbb中号HMhM_hHhh 本文的一个关键结果是，如果乘数仅缓慢变化，则实现本身仅是“弱”依赖于和的实际选择。因此，指定了过程。他们继续创建一些重要的测试，以帮助根据实现推断小波乘数。g h m （b ，a ）m （b ，a ）m(b,a)m(b,a)GggHhhm （b ，a ）m(b,a)m(b,a) 两个问题： 1.我们如何评价标准GP可能性是？p （D ）= N（0 ，ķ）p(D)=N(0,K)p(D) = \mathcal{N}(0,K) …

20 normal-distribution stochastic-processes gaussian-process fourier-transform wavelet

5

掷骰子直到其落到除4以外的任何数字上。结果大于4的概率是多少？

玩家将获得公平的六面骰子。为了赢球，她必须掷出大于4的数字（即5或6）。如果她掷4，则必须再次掷。她获胜的几率是多少？我认为赢得的概率可以递归表示为：P（W）P（w ^）P(W) P（W）= P（- [R = 5 ∪ [R = 6 ）+ P(r=4)⋅P(W)P(W)=P(r=5∪r=6)+P(r=4)⋅P(W) P(W) = P(r = 5 \cup r = 6) + P(r = 4) \cdot P(W) 通过在Java中运行一百万次试验，我将为，如下所示：P(W)P(W)P(W)0.39990.39990.3999 import java.util.Random; public class Dice { public static void main(String[] args) { int runs = 1000000000; int wins = 0; …

20 probability

3

为了最大程度地正确猜测抛硬币的结果，我是否应该始终选择最可能的结果？

这不是功课。我有兴趣了解我的逻辑是否适合此简单的统计问题。假设我有一个2面硬币，翻转头部的概率为，翻转末端的概率为。假设所有翻转都有独立的概率。现在，假设我想最大程度地预测下一次翻转时硬币是正面还是反面的机会。如果，则我可以随机猜测正面或反面，而我正确的可能性为。P(H)P(H)P(H)P （H ）= 0.5 0.51−P(H)1−P(H)1-P(H)P(H)=0.5P(H)=0.5P(H) = 0.50.50.50.5 现在，假设，如果我想最大化我正确猜测的机会，我是否应该总是猜测概率为尾巴？0.8P(H)=0.2P(H)=0.2P(H) = 0.20.80.80.8 如果我有一个3面模具，并且将1、2或3滚动的概率为，和，则进一步采取这一步骤，我是否应该总是猜2以最大程度地提高正确猜的机会？还有另一种方法可以让我更准确地猜测吗？P （2 ）= 0.5 P （3 ）= 0.4P（1 ）= 0.1P(1)=0.1P(1)=0.1P（2 ）= 0.5P(2)=0.5P(2)=0.5P（3 ）= 0.4P(3)=0.4P(3)=0.4

20 probability

4

学习和推理之间有什么区别？

机器学习研究论文经常将学习和推理视为两个独立的任务，但是我不清楚这是什么区别。例如，在本书中，他们将贝叶斯统计用于这两种任务，但没有提供这种区分的动机。我有几个模糊的想法，可能是什么，但我希望看到一个明确的定义，也许还要反驳或扩展我的想法：推断某个数据点的潜在变量的值与学习该数据的合适模型之间的区别。提取方差（推断）与学习方差之间的差异，以便能够提取方差（通过学习输入空间/过程/世界的动态）。神经科学的类比可能是短期增强/抑制（记忆痕迹）与长期增强/抑制。

20 machine-learning terminology

1

我们如何从几何混合中模拟？

如果是我可以从中模拟的已知密度，即可以使用的密度。并且如果乘积是可积的，是否有通用方法可以使用的模拟器？ķ Π我= 1 ˚F 我（X ）α 我f1,…,fkf1,…,fkf_1,\ldots,f_k˚F 我∏i=1kfi(x)αiα1,…,αk>0∏i=1kfi(x)αiα1,…,αk>0\prod_{i=1}^k f_i(x)^{\alpha_i}\qquad \alpha_1,\ldots,\alpha_k>0fifif_i

20 simulation monte-carlo geometric-mean scalability finite-mixture-model

7

为什么对称正定（SPD）矩阵如此重要？

我知道对称正定（SPD）矩阵的定义，但想了解更多。从直觉上为什么它们如此重要？这就是我所知道的。还有什么？对于给定的数据，协方差矩阵为SPD。协方差矩阵是一项重要的指标，有关直观说明，请参见这篇出色的文章。如果是SPD ，则二次形式是凸的。凸性对于可以确保本地解决方案是全局解决方案的函数是很好的属性。对于凸问题，有很多好的算法可以解决，但对于非凸问题则没有。甲12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cAAA 当为SPD时，二次形式的优化解与线性系统的解相同。因此，我们可以在两个经典问题之间进行转换。这很重要，因为它使我们能够使用在另一个域中发现的技巧。例如，我们可以使用共轭梯度法求解线性系统。减少1AAA甲X=bminimize 12x⊤Ax−b⊤x+cminimize 12x⊤Ax−b⊤x+c\text{minimize}~~~ \frac 1 2 x^\top Ax-b^\top x +cAx=bAx=bAx=b 有许多很好的算法（快速，数值稳定）对SPD矩阵更有效，例如Cholesky分解。编辑：我不是想问一下SPD矩阵的身份，而是属性背后的直觉来显示重要性。例如，正如@Matthew Drury所提到的，如果矩阵是SPD，则特征值都是正实数，但是为什么所有正数都重要。@Matthew Drury对流动有一个很好的答案，这就是我想要的。

20 mathematical-statistics optimization covariance-matrix intuition linear-algebra

1

通过“频谱分解”的岭回归使用收缩系数的证明

我已经了解了岭回归如何将系数在几何上缩小为零。此外，我知道如何在特殊的“正交案例”中证明这一点，但是我对通过“频谱分解”在一般案例中的工作方式感到困惑。

20 regression multiple-regression regularization ridge-regression svd

3

为什么AUC = 1甚至分类器对一半样本进行了错误分类？

我正在使用一个返回概率的分类器。为了计算AUC，我使用了pROC R-package。分类器的输出概率为： probs=c(0.9865780, 0.9996340, 0.9516880, 0.9337157, 0.9778576, 0.8140116, 0.8971550, 0.8967585, 0.6322902, 0.7497237) probs显示出现“ 1”级的可能性。如图所示，分类器已将所有样本分类为“ 1”类。真实标签向量为： truel=c(1, 1, 1, 1, 1, 0, 0, 0, 0, 0) 如图所示，分类器对5个样本进行了错误分类。但是，AUC是： pROC::auc(truel, probs) Area under the curve: 1 你能告诉我为什么会发生吗？

20 machine-learning auc

9

我们如何知道滚动1和2的概率是1/18？

自从我第一次上概率课以来，我一直在想以下问题。通常通过“有利事件”与总可能事件之比来引入计算概率。滚动两个6面骰子的情况下，可能的事件数量为，如下表所示。363636 1234561(1,1)(2,1)(3,1)(4,1)(5,1)(6,1)2(1,2)(2,2)(3,2)(4,2)(5,2)(6,2)3(1,3)(2,3)(3,3)(4,3)(5,3)(6,3)4(1,4)(2,4)(3,4)(4,4)(5,4)(6,4)5(1,5)(2,5)(3,5)(4,5)(5,5)(6,5)6(1,6)(2,6)(3,6)(4,6)(5,6)(6,6)1234561(1,1)(1,2)(1,3)(1,4)(1,5)(1,6)2(2,1)(2,2)(2,3)(2,4)(2,5)(2,6)3(3,1)(3,2)(3,3)(3,4)(3,5)(3,6)4(4,1)(4,2)(4,3)(4,4)(4,5)(4,6)5(5,1)(5,2)(5,3)(5,4)(5,5)(5,6)6(6,1)(6,2)(6,3)(6,4)(6,5)(6,6)\begin{array} {|c|c|c|c|c|c|c|} \hline &1 & 2 & 3 & 4 & 5 & 6 \\ \hline 1 & (1,1) & (1,2) & (1,3) & (1,4) & (1,5) & (1,6) \\ \hline 2 & (2,1) & (2,2) & (2,3) & (2,4) & (2,5) & (2,6) \\ \hline 3 & …

20 probability dice

5

为什么我们对正态分布的使用有偏差和误导性的标准偏差公式？

第一次进行正态分布蒙特卡洛模拟时，我感到有些震惊，发现个样本的标准偏差的平均值（样本大小均为n = 2）要小得多比，即平均\ sqrt {\ frac {2} {\ pi}}倍，即用于生成总体的\ sigma。但是，这是众所周知的，如果很少记起，并且我确实知道，或者我不会进行模拟。这是一个模拟。100100100100100100√n = 2ñ=2n=2 σ2π--√2π \sqrt{\frac{2}{\pi }}σσ\sigma 这是一个使用100，n = 2，\ text {SD}和\ text {E}（s_ {n = 2}）= \ sqrt \的估计量来预测N（0,1）的 95％置信区间的示例frac {\ pi} {2} \ text {SD}。ñ（0 ，1 ）ñ（0，1个）N(0,1)n = 2ñ=2n=2标清标清\text{SD}Ë （小号n = 2）= π2--√标清Ë（sñ=2）=π2标清\text{E}(s_{n=2})=\sqrt\frac{\pi}{2}\text{SD} RAND() RAND() Calc Calc N(0,1) N(0,1) SD …

20 normal-distribution standard-deviation expected-value unbiased-estimator umvue