统计和大数据

5

辛普森悖论是世界范围内入门级统计课程中讨论的经典难题。但是，我的课程很满意，只是注意到存在问题并且没有提供解决方案。我想知道如何解决这个矛盾。也就是说，当面对辛普森悖论时，根据数据的划分方式，两个不同的选择似乎在争夺最佳选择，一个应该选择哪个呢？为了使问题更具体，让我们考虑相关Wikipedia文章中给出的第一个示例。它基于有关肾结石治疗的真实研究。假设我是一名医生，并且检查发现患者患有肾结石。仅使用表中提供的信息，我想确定是否应该采用治疗A或治疗B。似乎，如果我知道结石的大小，那么我们应该首选治疗A。但是如果不知道，那么我们应该更喜欢治疗B。但是请考虑另一种可行的方式来获得答案。如果结石很大，我们应该选择A，如果结石很小，我们应该再次选择A。因此，即使我们不知道结石的大小，通过案例的方法，我们也应该选择A。这与我们先前的推理相矛盾。所以：一位病人走进我的办公室。测试显示它们有肾结石，但没有提供有关它们大小的信息。我推荐哪种治疗方法？是否有解决此问题的公认方法？维基百科暗示使用“因果贝叶斯网络”和“后门”测试的解决方案，但我不知道这些是什么。

35 simpsons-paradox

1

分位数回归：哪些标准误差？

summary.rq来自quantreg插图的功能为分位数回归系数的标准误差估计提供了多种选择。在哪些特殊情况下，每种情况都变得最佳/理想？如在Koenker（1994）中所述，“等级”通过反转等级检验产生估计参数的置信区间。默认选项假定错误是iid，而选项iid = FALSE则实施了Koenker Machado（1999）的建议。有关其他参数，请参见rq.fit.br的文档。假定误差为iid的“ iid”，如KB（1978）所示，计算渐近协方差矩阵的估计。假定条件分位数函数的局部（以τ为单位）线性（以x为单位）并使用稀疏性的局部估计来计算Huber三明治估计的“ nid”。 “ ker”使用Powell（1990）提出的三明治的核估计。 “ boot”实现了几种可能的用于估计标准错误的自举选项之一。我已经阅读了至少20篇经验论文，无论是在时间序列还是在横截面尺寸上都应用了该论文，还没有提到标准误差的选择。

35 r standard-error quantile-regression estimators

2

广义线性模型中链接函数的目的

链接函数作为广义线性模型的组成部分的目的是什么？我们为什么需要它？维基百科指出：将链接函数的域与分布函数均值的范围进行匹配可能很方便这样做的好处是什么？

35 regression generalized-linear-model link-function irls

2

R中lm中的调整后R平方公式是什么，应如何解释？

调整后的R平方在R中使用的确切公式是什么lm() ？我该怎么解释？调整后的r平方公式似乎存在一些公式来计算调整后的R平方。 Wherry的公式：1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} 麦克尼马尔公式：1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} 洛德公式：1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} 斯坦因公式：1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) 教科书说明根据菲尔德的教科书《使用R发现统计信息》（2012年，第273页），R使用了Wherry方程，“告诉我们如果该模型是从采样样本中得出的，则Y可以解释多少差异”。他没有给出Wherry的配方。他建议（手动）使用Stein的公式来检查模型的交叉验证程度。 Kleiber / Zeileis，《应用计量经济学与R》（2008年，第59页）声称它是“ Theil的R平方调整后的值”，并且没有确切说明其解释与多个R平方的差异。 Dalgaard在Introductory Statistics with R（2008，p。113）中写道：“如果[调整后的R平方]乘以100％，则可以解释为'％方差减少'”。他没有说这对应哪个公式。我以前曾想并广泛地读到R平方会给模型增加其他变量而受到惩罚。现在，使用这些不同的公式似乎需要不同的解释。我还研究了有关堆栈溢出的一个相关问题（在单变量最小二乘回归中，多个R平方和调整R平方之间有什么区别？），以及UPenn的Wharton学校统计词典。问题哪个公式用于通过R调整的r平方 lm()？我该怎么解释？

35 r regression r-squared lm shrinkage

3

如何解释随机森林的OOB和混淆矩阵？

我从某人那里获得了R脚本来运行随机森林模型。我修改并运行了一些员工数据。我们正在尝试预测自愿离职。以下是一些其他信息：这是一个分类模型，其中0 =员工留下，1 =员工终止，我们目前仅查看十二个预测变量，数据“不平衡”，因为术语记录约占7占总记录集的百分比。我使用各种mtry和ntree选择来运行模型，但是选择了以下内容。OOB是6.8％，我认为这很好，但是混淆矩阵似乎在讲另一个预测术语的方法，因为错误率非常高，达到92.79％。我认为我不能依靠和使用此模型是正确的，因为预测术语的高错误率？还是可以做一些事情来使用RF并获得较小的错误率来预测术语？ FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100) ntree OOB 1 2 100: 6.97% 0.47% 92.79% 200: 6.87% 0.36% 92.79% 300: 6.82% 0.33% 92.55% 400: 6.80% 0.29% 92.79% 500: 6.80% 0.29% 92.79% > print(FOREST_model) Call: randomForest(formula = theFormula, data = trainset, mtry = 3, ntree …

35 r classification error random-forest

3

如何取多元正态密度的导数？

假设我具有多元正态N(μ,Σ)N(μ,Σ)N(\mu, \Sigma)密度。我想获得第二（局部的）衍生物WRT μμ\mu。不知道如何取矩阵的导数。维基说在矩阵中逐个元素地取导数。我正在使用拉普拉斯逼近 logPN(θ)=logPN−12(θ−θ^)TΣ−1(θ−θ^).log⁡PN(θ)=log⁡PN−12(θ−θ^)TΣ−1(θ−θ^).\log{P}_{N}(\theta)=\log {P}_{N}-\frac{1}{2}{(\theta-\hat{\theta})}^{T}{\Sigma}^{-1}(\theta-\hat{\theta}) \>. 模式是 θ = μ。θ^=μθ^=μ\hat\theta=\mu 我得到Σ−1=−∂2∂θ2logp(θ^|y),Σ−1=−∂2∂θ2log⁡p(θ^|y),{\Sigma}^{-1}=-\frac{{{\partial }^{2}}}{\partial {{\theta }^{2}}}\log p(\hat{\theta }|y),这究竟是怎么来的呢？我所做的： logP(θ|y)=−k2log2π−12log|Σ|−12(θ−θ^)TΣ−1(θ−θ^)log⁡P(θ|y)=−k2log⁡2π−12log⁡|Σ|−12(θ−θ^)TΣ−1(θ−θ^)\log P(\theta|y) = -\frac{k}{2} \log 2 \pi - \frac{1}{2} \log \left| \Sigma \right| - \frac{1}{2} {(\theta-\hat \theta)}^{T}{\Sigma}^{-1}(\theta-\hat\theta) 因此，我将导数wrt取到θθ\theta，首先是有转置，其次是矩阵。所以，我被困住了。注意：如果我的教授遇到此问题，则是指该讲座。

35 self-study normal-distribution matrix

7

选择要包含在多元线性回归模型中的变量

我目前正在使用多元线性回归建立模型。在摆弄我的模型之后，我不确定如何最好地确定要保留哪些变量以及要除去哪些变量。我的模型从DV的10个预测变量开始。当使用所有10个预测变量时，有4个被认为是重要的。如果仅删除一些明显不正确的预测变量，那么一些最初不重要的预测变量将变得很重要。这使我想到了一个问题：如何确定要在模型中包括哪些预测变量？在我看来，您应该对所有预测变量运行一次模型，删除不重要的预测变量，然后重新运行。但是，如果只删除其中一些预测变量会使其他预测变量变得重要，那么我想知道我是否对所有这些方法都采用了错误的方法。我认为该主题与我的问题类似，但是我不确定我是否正确解释了讨论内容。也许这更多是一个实验性设计主题，但也许有人可以分享一些经验。

35 regression multiple-regression feature-selection modeling model-selection

2

普通英语中的复合对称是什么？

我最近意识到，将混合模型的相关结构设置为复合对称性时，仅将主体作为随机因素而将其他因素作为固定因素的混合模型等效于ANOVA。因此，我想知道在混合（即分裂图）方差分析的背景下复合对称是什么意思，充其量只能用简单的英语进行解释。除了复合对称性以外，lme还提供其他类型的相关结构，例如 corSymm 通用相关矩阵，没有其他结构。或不同类型的空间相关性。因此，我有一个相关的问题，关于在设计实验的环境中（对象间和对象内的因素）建议使用其他类型的相关结构？如果答案能指向一些针对不同相关结构的参考文献，那就太好了。

35 correlation anova mixed-model lme4-nlme

5

识别交互作用的最佳实践是什么？

除了从字面上测试模型（x1:x2或x1*x2 ... xn-1 * xn）中每个可能的变量组合之外。您如何确定您的独立（希望）变量之间是否应该存在交互作用？尝试识别交互的最佳实践是什么？有没有可以使用或可以使用的图形技术？

35 regression modeling interaction

4

单尾假设检验的理由

我了解两尾假设检验。您有（vs.）。的 -值是概率至少极端如所观察到的数据生成。ħ 1 = ¬ ħ 0：θ ≠ θ 0 p θH0：θ = θ0H0:θ=θ0H_0 : \theta = \theta_0H1个= ¬ 高0：θ ≠ θ0H1=¬H0:θ≠θ0H_1 = \neg H_0 : \theta \ne \theta_0pppθθ\theta 我不理解单尾假设检验。在这里，（相对于）。p值的定义不应从上面改变：它仍然应该是生成至少与所观察到的极端数据一样大的概率。但是我们不知道，只是它是。ħ 1 = ¬ ħ 0：θ > θ 0 θ θ θ 0H0：θ ≤ θ0H0:θ≤θ0H_0 : \theta\le\theta_0H1个= ¬ 高0：θ > θ0H1=¬H0:θ>θ0H_1 …

35 hypothesis-testing

5

R中'comment'函数的良好用法是什么？

我刚刚comment在R中发现了该函数。示例： x <- matrix(1:12, 3,4) comment(x) <- c("This is my very important data from experiment #0234", "Jun 5, 1998") x comment(x) 这是我第一次使用此功能，并且想知道它的常见/有用用法。由于在Google中搜索“ R评论”并找到相关结果非常困难，因此我希望这里的人可以与他分享经验。

35 r

13

您会推荐哪些统计博客？

您会推荐哪些统计研究博客，为什么？

35 references

3

池层是在辍学层之前还是之后添加的？

我正在创建一个卷积神经网络（CNN），其中有一个卷积层，后跟一个池化层，我想应用dropout来减少过度拟合。我有种感觉，应该在池化层之后应用辍学层，但是我真的没有什么可以支持的。在何处添加辍学图层？在池化层之前还是之后？

35 deep-learning conv-neural-network dropout

5

为什么增加样本大小会降低（抽样）方差？

大图：我试图了解增加样本数量如何增加实验的功效。我的讲师的幻灯片用2个正态分布的图片对此进行了解释，一个是零假设，一个是替代假设，它们之间的决策阈值c。他们认为，增加样本量将降低方差，从而导致较高的峰度，从而减少曲线下的共享区域，从而降低II型错误的可能性。小图：我不知道更大的样本量如何降低方差。我假设您只是计算样本方差并将其用作正态分布中的参数。我试过了：谷歌搜索，但大多数被接受的答案有0赞或仅仅是示例思考：根据大数定律，每个值最终应根据我们假设的正态分布稳定在其可能值附近。因此，方差应该收敛到我们假设的正态分布的方差。但是，该正态分布的方差是多少，它是一个最小值吗？也就是说，我们可以确定样本方差减小到那个值吗？

35 variance sampling power

2

人为全球变暖的证据达到“黄金标准”：他们是如何做到的？

Reuter在2019年2月25日发表的文章中的这一消息目前已成为新闻：人为全球变暖的证据达到“黄金标准” [科学家]说，人们对人类活动正在升高地球表面的热量的信心达到了“五西格玛”水平，这是一个统计量表，这意味着只有在这种情况下，如果存在没有变暖。我相信这是指本文“庆祝气候变化科学三大关键事件的周年纪念日”，其中包含一个图，如下图所示（这是一个草图，因为我找不到原始的，类似的开源图像免费图片在这里找到）。来自同一研究小组的另一篇文章似乎是更原始的来源（此处使用1％的有效度而不是）。5个σ5σ5\sigma 该图显示了三个不同研究组的测量结果：遥感系统，卫星应用和研究中心以及位于汉斯维尔的阿拉巴马大学。该图显示了信噪比随趋势长度变化的三个上升曲线。所以，在某种程度上科学家在测量了全球变暖（或气候变化？）的人为信号水平，这显然是一些证据的科学标准。5个σ5σ5\sigma 对我来说，这样的图具有很高的抽象水平，它引发了许多问题，并且总的来说，我对“他们是如何做到的？”这个问题感到好奇。。我们如何用简单的单词（不是那么抽象）来解释这个实验，又如何解释级别的含义？††^{\dagger}5个σ5σ5\sigma 我在这里问这个问题是因为我不想讨论气候。相反，我想要有关统计内容的答案，尤其是要弄清楚使用/声明的语句的含义。5个σ5σ5 \sigma ††^\dagger什么是原假设？他们如何设置实验以获得人为信号？信号的影响大小是多少？只是一个很小的信号，而我们现在只是因为噪声在减小而测量，还是信号在增大？为创建统计模型做出什么样的假设，通过它们它们可以确定5 sigma阈值的交叉点（独立性，随机效应等）？为什么不同研究组的三个曲线不同，它们具有不同的噪声还是具有不同的信号？对于后者，对于概率和外部有效性的解释意味着什么？

35 p-value intuition application communication climate