统计和大数据

2

题负二项式（NB）分布的方差始终大于其均值。当样本均值大于其方差时，尝试以最大似然或矩估计拟合NB的参数将失败（没有有限参数的解决方案）。但是，从NB分布获取的样本的平均值可能大于方差。这是R中的可复制示例。 set.seed(167) x = rnbinom(100, size=3.2, prob=.8); mean(x) # 0.82 var(x) # 0.8157576 NB将产生无法估计参数的样本的可能性为非零（通过最大似然法和矩量法）。可以对此样本给出合理的估计吗？当没有为所有样本定义估计量时，估计理论怎么说？关于答案 @MarkRobinson和@Yves的答案使我意识到参数化是主要问题。NB的概率密度通常写为 P(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!}(1-p)^rp^k 或 P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X=k)=Γ(r+k)Γ(r)k!(rr+m)r(mr+m)k.P(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!} \left(\frac{r}{r+m}\right)^r \left(\frac{m}{r+m}\right)^k. 在第一个参数化下，每当样本的方差小于均值时，最大似然估计为，因此关于p不能说有用。根据第二，它是（∞ ，ˉ X），所以我们可以给的合理估计米。最后，@ MarkRobinson表明我们可以使用r解决无限值问题(∞,0)(∞,0)(\infty, 0)ppp(∞,x¯)(∞,x¯)(\infty, \bar{x})mmm代替r。r1+rr1+r\frac{r}{1+r}rrr 总之，这个估计问题从根本上没有错，只是您不能总是对每个样本给出和p的有意义的解释。公平地说，这两个答案中都包含了这些想法。我选择@MarkRobinson中的那个作为他给出的补码的正确选择。rrrppp

17 estimation maximum-likelihood negative-binomial

2

聚类—克莱因伯格不可能定理的直觉

我一直在考虑写一篇有关Kleinberg（2002）的有趣分析的博客文章，该文章探讨了聚类的困难。克莱伯格（Kleinberg）概述了三个看似直观的聚类功能，然后证明不存在这种功能。有许多聚类算法可以满足这三个标准中的两个。但是，没有一个功能可以同时满足这三个条件。简要和非正式地，他概述了三个愿望： Scale-Invariance：如果我们对数据进行转换以使所有内容在各个方向上均等地伸展，则聚类结果不应更改。一致性：如果我们拉伸数据以使聚类之间的距离增加和/或聚类内的距离减小，则聚类结果不应更改。丰富性：理论上，聚类函数应该能够产生任意的数据点分区/聚类（在不知道任何两点之间的成对距离的情况下）问题：（1）是否有一个良好的直觉，几何图形可以显示这三个标准之间的不一致？（2）这是指本文的技术细节。您必须阅读上面的链接才能理解问题的这一部分。在本文中，定理3.1的证明对于我而言有些困难。我被困在：“让是一个满足一致性的聚类函数。我们声称，对于中的任何分区，都存在正实数，从而该对是强制。”Γ ＆Element; 范围（˚F ）一个< b （一，b ）ΓfffΓ∈Range(f)Γ∈Range(f)\Gamma \in \text{Range}(f)a<ba<ba < b(a,b)(a,b)(a, b)ΓΓ\Gamma 我不知道这是怎么回事...下面的分区不是（例如，群集之间的最小距离大于群集内的最大距离）的反例吗？a>ba>ba > b 编辑：这显然不是一个反例，我使自己感到困惑（请参阅答案）。其他论文： Ackerman和Ben-David（2009）。聚类质量的度量：聚类的公理集指出“一致性”公理的一些问题

17 mathematical-statistics clustering intuition hierarchical-clustering

2

LOESS和LOWESS之间的区别

LOESS和LOWESS有什么区别？从维基百科，我只能看到LOESS是LOWESS的概括。它们的参数是否略有不同？

17 nonparametric loess

5

我们应该在应用统计学课程中教授峰度吗？如果是这样，怎么办？

至少在直观的基础上，可以相对较好地定义中心趋势，散布和偏斜；这些事物的标准数学度量也相对符合我们的直觉概念。但是峰度似乎有所不同。这非常令人困惑，并且与关于分布形状的任何直觉都不太匹配。应用环境中峰度的典型解释是使用Microsoft Excel [ 1 ]从商业和管理应用统计中摘录的内容：[1][1]^{[1]} 峰度是指分布的峰值程度或相反的平坦度。如果尾部的数据值多于正态分布的期望值，则峰度为正。相反，如果尾部的数据值少于正态分布中的预期，则峰度为负。除非您至少有四个数据值，否则Excel无法计算此统计信息。除了“峰度”和“峰度过高”（在本书中，通常使用前者指其他作者称为后者）之间的混淆之外，还用“峰度”或“平坦度”来解释。然后将注意力转移到尾部有多少个数据项上。同时考虑“峰”和“尾”是必要的— Kaplansky [ 2 ][2][2]^{[2]}1945年抱怨说，当时的许多教科书错误地指出峰度与分配峰相比正常分布峰有多高有关，而没有考虑尾部。但是显然必须同时考虑峰的顶部和尾部的形状，这使得直觉更难掌握，上面引述的摘录通过将尾部的峰度和重度相提并论，好像这些概念相同，从而跳过了这一点。此外，对峰度的这种经典的“峰尾”解释仅适用于对称和单峰分布（实际上，该文本中所示的示例都是对称的）。然而，解释峰度的“正确”通用方法，无论是用“峰”，“尾巴”还是“肩”，都已经争议了数十年。[ 2 ] [ 3 ] [ 4 ] [ 5 ] [ 6 ][2][3][4][5][6][2][3][4][5][6]^{[2][3][4][5][6]} 是否有一种直观的方法来在应用的环境中教授峰度，当采用更严格的方法时不会出现矛盾或反例？在这类应用数据分析课程中，峰度甚至在数学统计课中都什至是一个有用的概念吗？如果分布的“峰值”是一个直观上有用的概念，我们是否应该通过L矩[ 7 ]来教授它？[7][7]^{[7]} [1][1][1] Herkenhoff，L.和Fogli，J.（2013）。使用Microsoft Excel进行业务和管理的应用统计。纽约，纽约：施普林格。 [2][2][2]卡普兰斯基，I。（1945）。“有关峰度的常见错误”。美国统计协会杂志，40（230）：259。 [3][3][3]达林顿，理查德·B（1970）。“峰变真的是'峰顶'吗？”。美国统计学家 24（2）：19-22 [4][4][4]摩尔，JJA。（1986）“峰度的含义：达林顿重新审查”。美国统计学家 40（4）：283–284 [5][5][5] Balanda，Kevin P.和MacGillivray，HL（1988年）。“ 峰度：评论综述”。美国统计学家 42（2）：111–119 [6][6][6] DeCarlo，LT（1997）。“ 关于峰度的含义和使用 ”。心理方法，2（3），292。芝加哥 [7][7][7] Hosking，JRM（1992）。“矩还是L矩？比较两个分布形状量度的示例”。美国统计学家46（3）：186–189

17 descriptive-statistics kurtosis teaching l-moments

2

为什么样本的CDF均匀分布

我在这里读到，给定样本来自cdf的连续分布，该样本对应于X1,X2,...,XnX1,X2,...,Xn X_1,X_2,...,X_n FXFX F_X Ui=FX(Xi)Ui=FX(Xi) U_i = F_X(X_i) 遵循标准均匀分布。我已经使用Python中的定性模拟对此进行了验证，并且我很容易就能验证这种关系。 import matplotlib.pyplot as plt import scipy.stats xs = scipy.stats.norm.rvs(5, 2, 10000) fig, axes = plt.subplots(1, 2, figsize=(9, 3)) axes[0].hist(xs, bins=50) axes[0].set_title("Samples") axes[1].hist( scipy.stats.norm.cdf(xs, 5, 2), bins=50 ) axes[1].set_title("CDF(samples)") 结果如下图：我无法理解为什么会这样。我认为这与CDF的定义及其与PDF的关系有关，但是我缺少一些东西... 如果有人可以指点我阅读有关该主题的文章或帮助我获得对该主题的直觉，我将不胜感激。编辑：CDF看起来像这样：

17 pdf uniform cdf intuition

3

什么时候不应该使用集成分类器？

通常，在目标是准确预测样本外类成员身份的分类问题中，我什么时候不应该使用集合分类器？这个问题与为什么不总是使用集成学习紧密相关？。这个问题问为什么我们不一直使用合奏。我想知道是否存在某些情况，即合奏比非合奏更糟（不仅仅是“不更好，更浪费时间”）。通过“整体分类器”，我专门指的是诸如AdaBoost和随机森林之类的分类器，而不是例如滚动自带的增强支持向量机。

17 classification boosting ensemble bagging

2

回归分析和曲线拟合之间的区别

有人可以向我解释回归分析和曲线拟合（线性和非线性）之间的实际差异，并举个例子吗？似乎两者都试图找到两个变量（因变量与独立变量）之间的关系，然后确定与所提出的模型相关的参数（或系数）。例如，如果我有一组数据，例如： Y = [1.000 1.000 1.000 0.961 0.884 0.000] X = [1.000 0.063 0.031 0.012 0.005 0.000] 有人可以建议这两个变量之间的相关公式吗？我很难理解这两种方法之间的区别。如果您希望用其他数据集来支持您的答案，那是可以的，因为那似乎很难适应（也许仅对我而言）。上面的数据集代表接收器工作特性（ROC）曲线的和y轴，其中y是真实的阳性率（TPR），x是错误的阳性率（FPR）。xxxyyyyyyxxx 我正在尝试拟合曲线，或者根据我最初的问题（还不确定）进行回归分析，以估计任何特定FPR的TPR（反之亦然）。首先，在两个自变量（TPR和FPR）之间找到这样的曲线拟合函数在科学上是否可以接受？第二，如果我知道实际否定案例和实际肯定案例的分布不正常，找到这样的函数在科学上是可以接受的吗？

17 regression multiple-regression fitting roc curve-fitting

3

描述统计量是否具有p值？

我被要求找到用于描述性统计的p值。但是，据我了解，p值用于测试统计。如果我没记错的话，那么在原假设为真的情况下，p值是观察到与检验统计数据一样极端的值的概率。

17 hypothesis-testing descriptive-statistics inference

1

如何计算黄土的预测间隔？

我有一些数据是使用R中的LOESS模型拟合的，给了我这个：数据具有一个预测变量和一个响应，并且是异方差的。我还添加了置信区间。问题在于间隔是该行的置信区间，而我对预测间隔感兴趣。例如，底部面板比顶部面板更具可变性，但是不会在间隔中捕获。这个问题有点相关：从多项式回归中了解置信带，尤其是@AndyW的答案，但是在他的示例中，他使用了interval="predict"中存在的相对简单的论点predict.lm，但从中没有predict.loess。所以我有两个非常相关的问题：如何获得LOESS的逐点预测间隔？我如何预测将捕获该间隔的值，即生成一堆最终看起来看起来像原始数据的随机数？我可能不需要黄土，应该使用其他东西，但是我不熟悉我的选择。基本上，它应该使用局部回归或多元线性回归来拟合线，从而为线提供误差估计，此外，还为不同的解释变量提供了不同的方差，因此我可以在某些x值处预测响应变量（y）的分布。

17 r regression prediction-interval loess

1

均匀随机地绘制n个间隔，至少一个间隔与所有其他间隔重叠的概率

随机绘制Ñnn从间隔[ 0 ，1 ][0,1][0,1]，其中每个端点A，B是从均匀分布之间选择[ 0 ，1 ][0,1][0,1]。至少一个间隔与所有其他间隔重叠的概率是多少？

17 probability

1

套袋的理论保证是什么

我（大约）听说：套袋是一种减少预测器/估计器/学习算法的方差的技术。但是，我从未见过这种说法的正式数学证明。有谁知道为什么这在数学上是正确的？似乎这是一个广为接受/已知的事实，我希望直接引用它。如果没有，我会感到惊讶。另外，有人知道这对偏差有什么影响吗？是否有任何其他理论上的保证可以保证任何人都知道并认为很重要并想分享的方法？

17 machine-learning mathematical-statistics bagging

2

对Echo State Networks的直观解释是什么？

我是递归神经网络（RNN）的新手，并且仍在学习概念。我从抽象的角度理解，回声状态网络（ESN）能够（重新）产生，即使在删除输入后输入序列，即信号。但是，我发现Scholarpedia文章太难于完全理解和理解。有人可以以最简单的形式解释学习的数学原理。

17 neural-networks

2

与Jeffreys不同，先验的示例导致后验不变

我将在两周前在这里提出的问题重新发布“答案”：为什么Jeffreys事前有用？不过，这确实是一个问题（我当时也无权发表评论），所以我希望可以这样做：在上面的链接中，讨论了Jeffreys Prior的有趣特征是，在重新参数化模型时，所得后验分布给出了服从变换施加的约束的后验概率。比方说，如那里所讨论的，从所述成功概率移动时θθ\theta在Beta-伯努利例如赔率ψ=θ/(1−θ)ψ=θ/(1−θ)\psi=\theta/(1-\theta)，它应该是的情况下，该后验满足P(1/3≤θ≤2/3∣X=x)=P(1/2≤ψ≤2∣X=x)P(1/3≤θ≤2/3∣X=x)=P(1/2≤ψ≤2∣X=x)P(1/3\leq\theta\leq 2/3\mid X=x)=P(1/2\leq\psi\leq 2\mid X=x)。我想创建一个将θθ\theta转换为奇数ψψ\psi的Jeffreys先验不变性的数值示例，更有趣的是，缺少其他先验（例如Haldane，均等或任意先验）。现在，如果成功概率的后验是Beta（对于任何Beta先验，不仅是Jeffreys），则赔率的后验遵循具有相同参数的第二种Beta分布（请参阅Wikipedia）。然后，正如下面的数字示例中突出显示的那样（至少对我来说），对于Beta优先级的任何选择（与alpha0_U和一起玩）都是不变的beta0_U，这不仅是Jeffreys，参见。程序的输出。 library(GB2) # has the Beta density of the 2nd kind, the distribution of theta/(1-theta) if theta~Beta(alpha,beta) theta_1 = 2/3 # a numerical example as in the above post theta_2 = 1/3 odds_1 = theta_1/(1-theta_1) # the corresponding odds odds_2 = theta_2/(1-theta_2) …

17 bayesian mathematical-statistics fisher-information jeffreys-prior invariance

2

对于什么（对称）分布，样本意味着比样本中位数更有效的估计器？

我一直认为，样本中位数比样本均值对集中趋势的度量更为可靠，因为它忽略了离群值。因此，我很惊讶地得知（在另一个问题中），对于从正态分布中抽取的样本，样本均值的方差小于样本中位数的方差（至少对于大）。nñn 我从数学上理解为什么这是真的。有没有一种“哲学的”方式看待这一点，从而有助于直觉何时使用中位数而不是其他分布的均值？是否有数学工具可以帮助快速回答特定分布的问题？

17 distributions median intuition mean efficiency

2

的分布是什么

我有四个独立的均匀分布的变量a,b,c,da,b,c,da,b,c,d中，每个在 [0,1][0,1][0,1]。我想计算(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc。我计算的分布u2=4bcu2=4bcu_2=4bc是（因此），并且的等于f2(u2)=−14lnu24f2(u2)=−14ln⁡u24f_2(u_2)=-\frac{1}{4}\ln\frac{u_2}{4}u2∈(0,4]u2∈(0,4]u_2\in(0,4]u1=(a−d)2u1=(a−d)2u_1=(a-d)^2f1(u1)=1−u1−−√u1−−√.f1(u1)=1−u1u1.f_1(u_1)=\frac{1-\sqrt{u_1}}{\sqrt{u_1}}.现在，总和的分布为（也独立）因为。这里必须是因此积分等于现在我将其插入Mathematica并得到u1+u2u1+u2u_1+u_2u1,u2u1,u2u_1,\, u_2fu1+u2(x)=∫+∞−∞f1(x−y)f2(y)dy=−14∫401−x−y−−−−√x−y−−−−√⋅lny4dy,fu1+u2(x)=∫−∞+∞f1(x−y)f2(y)dy=−14∫041−x−yx−y⋅ln⁡y4dy,f_{u_1+u_2}(x)=\int_{-\infty}^{+\infty}f_1(x-y)f_2(y)dy=-\frac{1}{4}\int_0^4\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy,y∈(0,4]y∈(0,4]y\in(0,4]x>yx>yx>yfu1+u2(x)=−14∫x01−x−y−−−−√x−y−−−−√⋅lny4dy.fu1+u2(x)=−14∫0x1−x−yx−y⋅ln⁡y4dy.f_{u_1+u_2}(x)=-\frac{1}{4}\int_0^{x}\frac{1-\sqrt{x-y}}{\sqrt{x-y}}\cdot\ln\frac{y}{4}dy.fu1+u2(x)=14[−x+xlnx4−2x−−√(−2+lnx)].fu1+u2(x)=14[−x+xln⁡x4−2x(−2+ln⁡x)].f_{u_1+u_2}(x)=\frac{1}{4}\left[-x+x\ln\frac{x}{4}-2\sqrt{x}\left(-2+\ln x\right)\right]. 我制作了四个独立的集合，每个集合分别由数字组成，并绘制了的直方图：a,b,c,da,b,c,da,b,c,d10610610^6(a−d)2+4bc(a−d)2+4bc(a-d)^2+4bc 并绘制了：fu1+u2(x)fu1+u2(x)f_{u_1+u_2}(x) 通常，该图与直方图相似，但在区间大部分为负（根在2.27034处）。正部分的积分。(0,5)(0,5)(0,5)≈0.77≈0.77\approx 0.77 哪里错了？或者我在哪里缺少什么？编辑：我缩放直方图以显示PDF。编辑2：我想我知道推理的问题所在-集成限制。因为和，所以我不能简单地。该图显示了我必须集成的区域：y∈(0,4]y∈(0,4]y\in (0,4]x−y∈(0,1]x−y∈(0,1]x-y\in(0,1]∫x0∫0x\int_0^x 这意味着我有为（这就是为什么我的一部分是正确的），中和 in。不幸的是，Mathematica无法计算后两个积分（嗯，它的确计算了第二个积分，因为输出中有一个虚构的单位会破坏一切... ）。 Ý ∈ （0 ，1 ] ˚F ∫ X X - 1个 Ÿ ∈ （1 ，4 ] ∫ 4 X - 1 Ÿ ∈ （4 ，5 ]∫x0∫0x\int_0^xy∈(0,1]y∈(0,1]y\in(0,1]fff∫xx−1∫x−1x\int_{x-1}^xy∈(1,4]y∈(1,4]y\in(1,4]∫4x−1∫x−14\int_{x-1}^4y∈(4,5]y∈(4,5]y\in (4,5] 编辑3：看来Mathematica可以使用以下代码计算最后三个积分： (1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,0,u1}, Assumptions ->0 <= u2 <= u1 …

17 distributions random-variable pdf uniform mathematica