统计和大数据

3

我是数据挖掘/机器学习/等方面的新手。并且一直在阅读有关将多个模型和同一模型的运行组合起来以改善预测的几种方法。通过阅读几篇论文（在理论和希腊字母上通常很有趣并且很出色，但是在代码和实际示例上却很短），我的印象是它应该像这样：我采用一个模型（knn，RF等），并获得0到1之间的分类器列表。我的问题是如何合并这些分类器列表中的每一个？我是否在训练集中运行相同的模型，以使进入最终模型的列数相同或还有其他技巧？如果有任何建议/示例包含R代码，那就太好了。注意：这是针对训练集中有100k行，测试集中有70k和10列的数据集。

20 r random-forest k-nearest-neighbour ensemble

4

相互比较p值有什么意义？

我有两个人口（男人和女人），每个人口包含样本。对于每个样本，我都有两个属性A和B（第一年平均成绩和SAT分数）。我分别对A和B使用了t检验：两者都发现两组之间存在显着差异。A（和B（。p = 0.008 p = 0.002100010001000p = 0.008p=0.008p=0.008p = 0.002p=0.002p=0.002 可以断言属性B比属性A更好地被识别（更重要）吗？还是t检验只是是或否（有效或无效）度量？更新：根据这里的评论以及我在Wikipedia上所读的内容，我认为答案应该是：删除无意义的p值并报告效果大小。有什么想法吗？

20 statistical-significance t-test p-value effect-size

2

贝叶斯可信区间过程的决策理论依据是什么？

（要了解我为什么写这篇文章，请查看我对这个问题的回答下方的评论。） III型错误和统计决策理论为错误的问题提供正确的答案有时被称为III型错误。统计决策理论是不确定性下决策的形式化。它提供了一种概念框架，可以帮助避免III型错误。该框架的关键要素称为损失函数。它包含两个参数：第一个是世界的真实状态（的相关子集）（例如，在参数估计问题中，真实参数值）；第二个是一组可能动作中的一个元素（例如，在参数估计问题中，估计θ）θθ\thetaθ^)θ^)\hat{\theta})。输出对与世界上每种可能的真实状态有关的每种可能的动作所造成的损失进行建模。例如，在参数估计问题中，一些众所周知的损失函数是：绝对误差损失L(θ,θ^)=|θ−θ^|L(θ,θ^)=|θ−θ^|L(\theta, \hat{\theta}) = |\theta - \hat{\theta}| 平方误差损失L(θ,θ^)=(θ−θ^)2L(θ,θ^)=(θ−θ^)2L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2 哈尔瓦里安的LINEX损失L(θ,θ^;k)=exp(k(θ−θ^))−k(θ−θ^)−1, k≠0L(θ,θ^;k)=exp⁡(k(θ−θ^))−k(θ−θ^)−1, k≠0L(\theta, \hat{\theta}; k) = \exp(k(\theta - \hat{\theta})) - k(\theta - \hat{\theta}) - 1,\text{ } k \ne0 检查答案以找到问题在某些情况下，可能会试图通过着重于制定正确的损失函数并继续进行其余的决策理论方法（此处未详述）来避免III型错误。这不是我的简要介绍–毕竟，统计学家已经掌握了许多行之有效的技术和方法，即使它们并非源自这种方法。但是，在我看来，最终结果是绝大多数统计学家都不了解也不在乎统计决策理论，而且我认为他们不在了。对于那些统计学家，我认为他们之所以会发现统计决策理论在避免III类错误方面很有价值，是因为它提供了一个框架，可以在其中询问任何建议的数据分析程序：该程序可以最佳地应对什么损失函数（如果有）？也就是说，在什么决策情况下，它到底能提供最佳答案？后预期损失从贝叶斯角度来看，损失函数就是我们所需要的。我们几乎可以忽略决策理论的休息-几乎可以肯定，做的最好的事情是尽量减少后预期损失，也就是找到动作aaa最小化L~(a)=∫ΘL(θ,a)p(θ|D)dθL~(a)=∫ΘL(θ,a)p(θ|D)dθ\tilde{L}(a) = \int_{\Theta}L(\theta, a)p(\theta|D)d\theta。？（至于非贝叶斯观点嗯，这是频率论决策理论的定理-具体来说，沃尔德的完全类定理 -即最佳动作永远是尽量减少贝叶斯后验预期损失相对于一些（可能是不当）这个结果的困难在于它是一个存在定理，没有给出关于使用哪个先验的指导，但是它有效地限制了我们可以“反转”以弄清楚到底是哪个问题的过程的类别。特别是，反转任何非贝叶斯程序的第一步是弄清楚它复制或近似哪个贝叶斯程序（如果有）。嘿，青色，您知道这是一个问答网站，对吗？最后，这使我提出了一个统计问题。在贝叶斯统计中，当为单变量参数提供间隔估计时，两个常见的可信间隔过程是基于分位数的可信间隔和最高后验密度可信间隔。这些程序背后的损失函数是什么？

20 bayesian credible-interval decision-theory

2

AdaBoost是更少还是更容易过度拟合？

我已经阅读了各种（看似）矛盾的陈述，与其他学习方法相比，AdaBoost（或其他增强技术）是否更趋于过度拟合。有充分的理由相信彼此吗？如果依赖，它依赖什么？AdaBoost减少/更多倾向于过度拟合的原因是什么？

20 machine-learning boosting

2

是否存在两个分布之间的Hellinger距离的无偏估计量？

在一个观察密度为的分布的分布的环境中，我想知道是否存在一个对密度为另一分布即的Hellinger距离的无偏估计量（基于）。X1,…,XnX1,…,XnX_1,\ldots,X_nfffXiXiX_if0f0f_0H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.

20 pdf unbiased-estimator distance-functions functional-data-analysis hellinger

5

实验设计中有什么障碍？

关于实验设计中的块概念，我有两个问题：（1）块和因子之间有什么区别？（2）我试图阅读一些书，但有一些不清楚的地方：作者似乎总是认为“阻碍因素”与其他因素之间没有相互作用，这是对的，如果是，为什么？

20 experiment-design interaction interpretation

4

“大p，小n”结果摘要

有人能指出我关于“大小 ”结果的调查论文吗？我对这个问题如何在不同的研究环境中表现出来很感兴趣，例如回归，分类，Hotelling检验等。pppñnn

20 regression classification multivariate-analysis

2

允许比较混合效应模型（主要是随机效应）

我一直在研究使用R中的lme4包进行的混合效果建模。我主要使用该lmer命令，因此我将通过使用该语法的代码提出问题。我想可能是一个简单的普遍问题，可以比较lmer使用基于相同数据集的似然比构造的任何两个模型吗？我相信答案必须是“否”，但我可能是错误的。我已经阅读了有关随机效应是否必须相同的信息，而随机效应的含义是什么呢？因此，我将举几个例子。我将从使用单词刺激的重复测量数据中获取它们，也许像Baayen（2008）这样的东西在解释中会很有用。假设我有一个模型，其中有两个固定效果预测变量，我们将它们称为A和B，还有一些随机效果……感知它们的单词和主题。我可能会构建如下模型。 m <- lmer( y ~ A + B + (1|words) + (1|subjects) ) （请注意，我故意data =将其排除在外，REML = FALSE为了清晰起见，我们假设我的意思总是）现在，以下模型中，哪些可以与上述模型的似然比进行比较，哪些不可以？ m1 <- lmer( y ~ A + B + (A+B|words) + (1|subjects) ) m2 <- lmer( y ~ A + B + (1|subjects) ) m3 <- lmer( y ~ A …

20 r mixed-model lme4-nlme likelihood-ratio

4

是否有任何参数和非参数统计检验？

是否有任何参数和非参数统计检验？采访小组提出了这个问题。这是有效的问题吗？

20 nonparametric terminology parametric

2

重要性测试或交叉验证？

选择相关变量的两种常见方法是重要性检验和交叉验证。每个人都试图解决什么问题？我何时会选择一个而不是另一个？

20 cross-validation feature-selection

8

关于“实验室笔记本”软件的想法？

因此，这很奇怪，尽管实际上我认为这对任何站点都非常合适，所以我认为我会在我的数据处理专家中尝试一下。我从生物学学到流行病学和生物统计学，但仍然肯定有该领域的一些习惯。其中之一是保留实验室笔记本。它对于记录思想，决策，关于分析的沉思等等很有用。所有这些都集中在一个地方，所有的事情都发生了，所以我以后可以回顾分析并了解我的所作所为。但是，最好将其转移到21世纪。特别是因为即使实验室笔记本系统对于一个人来说足够体面并记录决策，还是能够附加来自EDA的图表，来自讨论特定数据集的数据管理员的电子邮件等，这还是很好的。我猜想这将涉及从许多不同的地方联合起来组装我自己的系统，但是目前有人在使用系统并有任何建议吗？

20 references software eda

2

插入符号重采样方法

我正在使用caretR中的库来测试各种建模过程。该trainControl对象允许指定一种重采样方法。所述方法在被描述的文档部分2.3，其中包括：boot，boot632，cv，LOOCV，LGOCV，repeatedcv和oob。尽管其中一些方法易于推断，但并非所有这些方法都明确定义。这些重采样方法对应的程序是什么？

20 r resampling caret

6

何时从回归模型中删除一项？

任何人都可以建议以下是否有意义：我正在处理具有4个预测变量的普通线性模型。我有两种想法是否放弃最不重要的任期。它的 -值超过0.05一点点。我主张将其沿以下方向删除：将这个术语的估计值乘以（例如）该变量的样本数据的四分位数范围，可以使保持这个术语对整个模型的临床效果具有一定意义。由于此数字非常低，大约等于该变量在临床环境中进行测量时可以在典型的日内值范围内，因此我认为该变量在临床上不具有重大意义，因此可以删除以给出更简化的模型，甚至尽管降低它会稍微降低调整后的R 2。pppR2R2R^2

20 regression model-selection

2

二项式回归和逻辑回归之间有什么区别？

我一直认为逻辑回归只是二项式回归的一种特殊情况，其中链接函数是逻辑函数（而不是概率函数）。但是，通过阅读我遇到的另一个问题的答案，听起来我可能会感到困惑，并且逻辑回归和具有逻辑联系的二项式回归之间存在差异。有什么不同？

20 regression logistic binomial

2

使用矩计算整数流的近似分位数？

从math.stackexchange迁移。我正在处理一长串整数，并考虑跟踪片刻，以便能够大致计算出该流的各种百分位数而无需存储大量数据。从几分钟开始计算百分位数的最简单方法是什么。有没有一种更好的方法仅涉及存储少量数据？

20 algorithms mathematical-statistics moments