统计和大数据

2

人们经常说置换测试没有假设，但是这肯定是不正确的。例如，如果我的样本之间存在某种关联，我可以想象对标签进行置换将不是正确的选择。唯一想到我发现的问题就是维基百科的这句话：“置换检验背后的一个重要假设是，观察值在原假设下是可以互换的。” 我不明白。排列检验的假设是什么？这些假设如何与不同的可能排列方案联系在一起？

22 hypothesis-testing permutation-test resampling

3

解释部分依赖图的y轴

该问题是从Stack Overflow 迁移而来的，因为可以通过交叉验证来回答。迁移 5年前。我已经阅读了有关局部依赖图的其他主题，其中大多数都是关于如何使用不同的程序包实际绘制它们，而不是如何准确地解释它们，所以：我一直在阅读并创建大量的部分依赖图。我知道他们用我模型中所有其他变量（χc）的平均影响来衡量变量χs对函数ƒS（χS）的边际影响。较高的y值表示它们对准确预测我的课程有更大的影响。但是，我对这种定性解释不满意。我的模型（随机森林）正在预测两个谨慎的类。“是的树”和“没有树”。TRI是一个变量，已被证明是一个很好的变量。我开始认为Y值显示出正确分类的可能性。示例：y（0.2）表明TRI值>〜30时，有20％的机会正确识别True Positive分类。相反地 y（-0.2）显示TRI值<〜15具有20％的机会正确识别真阴性分类。文献中做出的一般解释听起来像是“大于TRI 30的值开始对模型中的分类产生积极影响”，仅此而已。对于可能潜在地谈论您的数据太多的情节来说，这听起来很模糊和毫无意义。另外，我的所有图的y轴范围都在-1到1之间。我还看到了其他的-10至10等图。这是您要预测多少个类的函数吗？我想知道是否有人可以解决这个问题。也许告诉我如何解释这些情节或一些可以帮助我的文献。也许我对此读得太远了？我已经非常详尽地阅读了统计学习的要素：数据挖掘，推理和预测，这是一个很好的起点，但仅此而已。

22 r classification data-visualization random-forest interpretation

1

为什么方差的采样分布是卡方分布？

该声明样本方差的样本分布是自由度等于的卡方分布，其中是样本大小（假设感兴趣的随机变量是正态分布的）。nn−1n−1n-1nnn 资源我的直觉这对我来说有点直觉，1）因为卡方检验看起来像是平方和； 2）卡方分布只是正态分布的平方和。但是，我对此仍然不太了解。题这句话是真的吗？为什么？

22 distributions normal-distribution sampling chi-squared sample-size

2

平均绝对比例误差（MASE）的解释

平均绝对比例误差（MASE）是对预测准确性的一种度量，由 Koehler＆Hyndman（2006）。 MASE=MAEMAEin−sample,naiveMASE=MAEMAEin−sample,naiveMASE=\frac{MAE}{MAE_{in-sample, \, naive}} 其中是实际预测产生的平均绝对误差；而M A E i n − s a m p lMAEMAEMAE是天真预测产生的平均绝对误差（例如，积分I（1MAEin−sample,naiveMAEin−sample,naiveMAE_{in-sample, \, naive}样本内数据计算出）时间序列。I(1)I(1)I(1) （查看 Koehler＆Hyndman（2006）的文章以获取精确的定义和公式。）意味着实际的预测确实恶化了样品的比幼稚预测样品一样，在平均绝对误差的条款。因此，如果平均绝对误差是预测准确性的相关度量（取决于当前的问题），则 M A S E > 1MASE>1MASE>1MASE>1MASE>1MASE>1MASE>1表示，如果我们期望超出预期范围，则应放弃实际预测，而采用幼稚的预测样本数据非常类似于样本中的数据（因为我们只知道样本中的幼稚预测执行得很好，而不是样本外）。题：作为在此提出一个预测竞争的标杆Hyndsight博客文章。一个明显的基准应该不是 M A S E =MASE=1.38MASE=1.38MASE=1.38吗？MASE=1MASE=1MASE=1 当然，这个问题并不特定于特定的预测竞赛。我希望在更一般的背景下帮助您理解这一点。我猜：我看到的唯一合理的解释是，由于结构的变化，天真的预测在样本外的表现要比样本中的表现差得多。然后可能已经太具有挑战性的实现。MASE<1MASE<1MASE<1 参考文献： Hyndman，Rob J.和Anne B. Koehler。“ 另一种方法是对预测准确性的度量。 ”国际预测杂志》 22.4（2006年）：679-688。 Hyndsight博客文章。

22 time-series forecasting accuracy mase

2

您如何找到加权最小二乘回归的权重？

在WLS回归过程中，我有些失落。我已经获得了数据集，我的任务是测试是否存在异方差性，如果可以，我应该运行WLS回归。我进行了测试，并发现了异方差的证据，因此我需要运行WLS。有人告诉我WLS基本上是转换模型的OLS回归，但是我对找到转换函数有些困惑。我读过一些文章，建议转换可以是OLS回归的残差平方的函数，但是如果有人可以帮助我走上正确的道路，我将不胜感激。

22 regression heteroscedasticity weighted-regression

5

如何分割数据集以进行时间序列预测？

我有一家面包店的历史销售数据（每天3年以上）。现在，我想构建一个模型来预测未来的销售量（使用工作日，天气变量等功能）。我应该如何分割数据集以拟合和评估模型？是否需要按时间顺序进行训练/验证/测试拆分？然后，我将对火车和验证集进行超参数调整吗？（嵌套）交叉验证是否是解决时序问题的错误策略？编辑这是我跟随@ ene100建议的URL之后遇到的一些链接：罗布·海恩德曼（Rob Hyndman）在理论上和实践中（使用R代码）描述“滚动预测的起源” 滚动预测原点的其他术语是“前行优化”（此处或此处），“滚动范围”或“移动原点” 似乎这些技术在不久的将来不会集成到scikit-learn中，因为“这些技术的需求和符号性尚不清楚”（在此处说明）。而这是时间序列交叉验证其他建议。

22 cross-validation partitioning

2

尽管数据有些变化，为什么在混合模型中我得到的随机效应的方差为零？

我们使用以下语法运行了混合效果逻辑回归： # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) 主题和项目是随机效果。我们得到一个奇怪的结果，即该主题词的系数和标准偏差均为零； Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: GoalEncoding ~ 1 + Group + (1 | Subject) …

22 r mixed-model stata glmm lme4-nlme

4

Fisher的LSD是否像他们所说的那样糟糕？

当我们在两组上进行实验（小样本量（通常每个治疗组的样本量约为7〜8））时，我们使用t检验来检验差异。但是，当我们执行方差分析（显然用于两个以上的小组）时，我们使用类似Bonferroni（成对比较的LSD /＃）或Tukey的方法，并且作为一名学生，我已经被警告远离使用费舍尔最小有效差（LSD）。现在的问题是，LSD类似于成对t检验（是吗？），因此它唯一不能解释的是我们正在进行多次比较。如果说ANOVA本身很重要，那么当与6个小组打交道时，这有多重要？换句话说，使用Fisher的LSD是否有科学/统计上的理由？

22 anova multiple-comparisons post-hoc bonferroni fishers-lsd

3

不合适的先验如何导致正确的后验分布？

我们知道，在适当分配优先权的情况下， P（θ | X）= P（X| θ ）P（θ ）P（X）P（θ∣X）=P（X∣θ）P（θ）P（X）P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} α P（X| θ ）P（θ ）∝P（X∣θ）P（θ） \propto P(X \mid \theta)P(\theta)。该步骤的通常的理由是，边缘分布XXX，P（X）P（X）P(X)，是相对于恒定θθ\theta和导出后验分布时可因此被忽略。但是，如果先验不正确，您如何知道后验分布实际上存在？这个看似循环的论点似乎有些缺失。换句话说，如果我假设后验存在，那么我就会理解如何推导后验的机制，但是我似乎缺少关于为何甚至存在的理论依据。 PS我也认识到，在某些情况下，先验错误会导致后验错误。

22 distributions bayesian prior posterior

3

为什么是最大可能性而不是预期可能性？

为什么获得参数的最大似然估计如此常见，但实际上您从未听说过预期似然参数估计（即，基于期望值而不是似然函数的模式）？这主要是出于历史原因，还是出于实质性的技术或理论原因？使用预期似然估计而不是最大似然估计是否有明显的优势和/或劣势？有没有在预期的似然估计一些地区的常规使用？

22 probability mathematical-statistics maximum-likelihood optimization expected-value

5

如何保持对大型数据集的探索性分析？

当我在一个大数据集（许多样本，许多变量）上进行探索性分析时，我经常发现自己身上有数百个派生变量，以及成千上万的不同地块，而没有真正的方式来跟踪前进的方向。代码最终像意大利面条一样，因为从一开始就没有方向。有什么建议的方法可以使探索性分析保持整洁？特别是，您如何处理勘探的多个分支（包括无用的分支）以及不同版本的地块？作为参考，我正在研究地球科学数据（随时间变化的许多变量，有时甚至随着空间的变化）。我通常使用Python或R，并将所有内容存储在git中，并且也一直在尝试IPython Notebook。但是，如果答案对所有领域的人来说都是通用的并且有用其他类型的（大型？）数据，那将是很好的。

22 eda project-management

2

聚类二进制矩阵

我有一个尺寸为250k x 100 的二进制特征的半小矩阵。每行是一个用户，列是某些用户行为的二进制“标签”，例如“ likes_cats”。 user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 我想让用户适合5-10个集群，并分析负载以查看是否可以解释用户行为组。似乎有很多方法可以在二元数据上拟合聚类-我们认为什么是此数据的最佳策略？ PCA 制作Jaccard相似度矩阵，拟合层次集群，然后使用顶部的“节点”。 K中位数 K-类固醇前肢？艾格尼丝到目前为止，我在使用分层群集方面取得了一些成功，但是我真的不确定这是最好的方法。 tags = read.csv("~/tags.csv") d = dist(tags, method = "binary") hc = …

22 r clustering binary-data

3

理解辛普森的悖论：安德鲁·盖尔曼（Andrew Gelman）的性别和身高收入递减示例

安德鲁·盖尔曼（Andrew Gelman）在他最近的一篇博客文章中说：我认为反事实或潜在的结果对于辛普森悖论没有必要。我之所以这样说，是因为人们可以用无法操纵的变量设置辛普森悖论，或者不能直接对其进行操纵。辛普森悖论是一个更普遍的问题的一部分，如果您添加更多的预测变量，回归系数会改变，但实际上没有必要翻转符号。这是我在教学中使用的示例，说明了这两点：我可以进行回归分析，以预测来自性别和身高的收入。我发现性别的系数为 10,000 美元（即，比较一个身高相同的男人和女人，平均而言，这个男人会多赚10,000 美元），而身高系数为 500 美元（即，比较两个男人或两个女人不同高度的平均高大的人会使$ 500多家每高度英寸）。我如何解释这些系数？我觉得身高系数很容易解释（很容易想象将两个相同性别的不同身高的人进行比较），的确，在不控制性别的情况下，身高回归似乎有些“错误” 身材矮小的人之间的差异可以通过男女之间的差异来“解释”。但是上述模型中的性别系数似乎很难解释：例如，为什么要比较一个身高66英寸的男人和一个女人？那将是一个矮个子男人和一个高个子女人的比较。所有这些推理似乎都是模糊的因果关系，但我认为使用潜在的结果来思考它是没有道理的。我仔细考虑了一下（甚至在帖子中发表了评论），并认为这里有些事情需要更清楚地理解。在解释性别之前，还可以。但我看不出比较矮个子和个高个子的女人背后的问题是什么。这是我的观点：实际上，这更有意义（假设男人的平均身高更高）。出于完全相同的原因，您不能比较“矮个子男人”和“矮个子女人”，即收入差异在某种程度上由身高差异来解释。高个子男人和高个子女人也是如此，矮个子女人和高个子男人更是如此（可以这么说）。因此，基本上只有在比较矮个子和高个子的情况下才消除身高的影响（这有助于解释性别系数）。难道不是流行的匹配模型背后的类似基础概念的钟声吗？辛普森悖论背后的想法是，人口效应可能与亚群体效应不同。从某种意义上说，这与他的观点2和他承认不应单独控制身高（我们所说的是忽略变量偏差）有关。但是我不能将其与关于性别系数的争论联系起来。也许您可以更清楚地表达它？或评论我的理解？

22 regression interaction simpsons-paradox

2

弹性网逻辑回归中选择最佳alpha

我正在使用glmnetR中的程序包通过在的网格上从0到1 选择lambda值来对医疗数据集执行弹性网逻辑回归。我的缩写代码如下：αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for (i in 1:11) {print(min(elasticnet[[i]]$cvm))} 对于从到每个alpha值，以为增量输出平均交叉验证误差：0.00.00.01.01.01.00.10.10.1 [1] 0.2080167 [1] 0.1947478 [1] 0.1949832 [1] 0.1946211 [1] 0.1947906 [1] 0.1953286 [1] 0.194827 [1] 0.1944735 [1] 0.1942612 [1] 0.1944079 [1] 0.1948874 根据我在文献中所读的内容，的最佳选择是使cv错误最小化。但是在整个Alpha范围内，误差有很多变化。我看到了几个局部最小值，全局最小值为。αα\alpha0.1942612alpha=0.8 安全alpha=0.8吗？或者，带来的变动，我应该重新运行cv.glmnet更多的交叉验证倍（如而不是），或者是更大数量的之间的增量，并得到CV错误路径清晰的画面？10 α202020101010αα\alphaalpha=0.01.0

22 machine-learning cross-validation glmnet elastic-net

3

R中的wilcox.test（）的W统计量与U统计量是否相同？

我最近一直在阅读有关Mann-Whitney U考试的信息。事实证明，要在R中执行此测试，您实际上需要运行Wilcoxon测试！我的问题：wilcox.testR中的W统计量与U统计量是否相同？

22 r wilcoxon-mann-whitney