统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

2
排列检验的假设是什么?
人们经常说置换测试没有假设,但是这肯定是不正确的。例如,如果我的样本之间存在某种关联,我可以想象对标签进行置换将不是正确的选择。唯一想到我发现的问题就是维基百科的这句话:“置换检验背后的一个重要假设是,观察值在原假设下是可以互换的。” 我不明白。 排列检验的假设是什么?这些假设如何与不同的可能排列方案联系在一起?

3
解释部分依赖图的y轴
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 5年前。 我已经阅读了有关局部依赖图的其他主题,其中大多数都是关于如何使用不同的程序包实际绘制它们,而不是如何准确地解释它们,所以: 我一直在阅读并创建大量的部分依赖图。我知道他们用我模型中所有其他变量(χc)的平均影响来衡量变量χs对函数ƒS(χS)的边际影响。较高的y值表示它们对准确预测我的课程有更大的影响。但是,我对这种定性解释不满意。 我的模型(随机森林)正在预测两个谨慎的类。“是的树”和“没有树”。TRI是一个变量,已被证明是一个很好的变量。 我开始认为Y值显示出正确分类的可能性。示例:y(0.2)表明TRI值>〜30时,有20%的机会正确识别True Positive分类。 相反地 y(-0.2)显示TRI值<〜15具有20%的机会正确识别真阴性分类。 文献中做出的一般解释听起来像是“大于TRI 30的值开始对模型中的分类产生积极影响”,仅此而已。对于可能潜在地谈论您的数据太多的情节来说,这听起来很模糊和毫无意义。 另外,我的所有图的y轴范围都在-1到1之间。我还看到了其他的-10至10等图。这是您要预测多少个类的函数吗? 我想知道是否有人可以解决这个问题。也许告诉我如何解释这些情节或一些可以帮助我的文献。也许我对此读得太远了? 我已经非常详尽地阅读了统计学习的要素:数据挖掘,推理和预测,这是一个很好的起点,但仅此而已。

1
为什么方差的采样分布是卡方分布?
该声明 样本方差的样本分布是自由度等于的卡方分布,其中是样本大小(假设感兴趣的随机变量是正态分布的)。nn−1n−1n-1nnn 资源 我的直觉 这对我来说有点直觉,1)因为卡方检验看起来像是平方和; 2)卡方分布只是正态分布的平方和。但是,我对此仍然不太了解。 题 这句话是真的吗?为什么?

2
平均绝对比例误差(MASE)的解释
平均绝对比例误差(MASE)是对预测准确性的一种度量,由 Koehler&Hyndman(2006)。 MASE=MAEMAEin−sample,naiveMASE=MAEMAEin−sample,naiveMASE=\frac{MAE}{MAE_{in-sample, \, naive}} 其中是实际预测产生的平均绝对误差; 而M A E i n − s a m p lMAEMAEMAE是天真预测产生的平均绝对误差(例如,积分I(1MAEin−sample,naiveMAEin−sample,naiveMAE_{in-sample, \, naive}样本内数据计算出)时间序列。I(1)I(1)I(1) (查看 Koehler&Hyndman(2006)的文章以获取精确的定义和公式。) 意味着实际的预测确实恶化了样品的比幼稚预测样品一样,在平均绝对误差的条款。因此,如果平均绝对误差是预测准确性的相关度量(取决于当前的问题),则 M A S E &gt; 1MASE&gt;1MASE&gt;1MASE>1MASE&gt;1MASE&gt;1MASE>1表示,如果我们期望超出预期范围,则应放弃实际预测,而采用幼稚的预测样本数据非常类似于样本中的数据(因为我们只知道样本中的幼稚预测执行得很好,而不是样本外)。 题: 作为在此提出一个预测竞争的标杆Hyndsight博客文章。一个明显的基准应该不是 M A S E =MASE=1.38MASE=1.38MASE=1.38吗?MASE=1MASE=1MASE=1 当然,这个问题并不特定于特定的预测竞赛。我希望在更一般的背景下帮助您理解这一点。 我猜: 我看到的唯一合理的解释是,由于结构的变化,天真的预测在样本外的表现要比样本中的表现差得多。然后可能已经太具有挑战性的实现。MASE&lt;1MASE&lt;1MASE<1 参考文献: Hyndman,Rob J.和Anne B. Koehler。“ 另一种方法是对预测准确性的度量。 ”国际预测杂志》 22.4(2006年):679-688。 Hyndsight博客文章。

2
您如何找到加权最小二乘回归的权重?
在WLS回归过程中,我有些失落。我已经获得了数据集,我的任务是测试是否存在异方差性,如果可以,我应该运行WLS回归。 我进行了测试,并发现了异方差的证据,因此我需要运行WLS。有人告诉我WLS基本上是转换模型的OLS回归,但是我对找到转换函数有些困惑。我读过一些文章,建议转换可以是OLS回归的残差平方的函数,但是如果有人可以帮助我走上正确的道路,我将不胜感激。

5
如何分割数据集以进行时间序列预测?
我有一家面包店的历史销售数据(每天3年以上)。现在,我想构建一个模型来预测未来的销售量(使用工作日,天气变量等功能)。 我应该如何分割数据集以拟合和评估模型? 是否需要按时间顺序进行训练/验证/测试拆分? 然后,我将对火车和验证集进行超参数调整吗? (嵌套)交叉验证是否是解决时序问题的错误策略? 编辑 这是我跟随@ ene100建议的URL之后遇到的一些链接: 罗布·海恩德曼(Rob Hyndman)在理论上和实践中(使用R代码)描述“滚动预测的起源” 滚动预测原点的其他术语是“前行优化”(此处或此处),“滚动范围”或“移动原点” 似乎这些技术在不久的将来不会集成到scikit-learn中,因为“这些技术的需求和符号性尚不清楚”(在此处说明)。 而这是时间序列交叉验证其他建议。

2
尽管数据有些变化,为什么在混合模型中我得到的随机效应的方差为零?
我们使用以下语法运行了混合效果逻辑回归: # fit model fm0 &lt;- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) 主题和项目是随机效果。我们得到一个奇怪的结果,即该主题词的系数和标准偏差均为零; Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: GoalEncoding ~ 1 + Group + (1 | Subject) …

4
Fisher的LSD是否像他们所说的那样糟糕?
当我们在两组上进行实验(小样本量(通常每个治疗组的样本量约为7〜8))时,我们使用t检验来检验差异。但是,当我们执行方差分析(显然用于两个以上的小组)时,我们使用类似Bonferroni(成对比较的LSD /#)或Tukey的方法,并且作为一名学生,我已经被警告远离使用费舍尔最小有效差(LSD)。 现在的问题是,LSD类似于成对t检验(是吗?),因此它唯一不能解释的是我们正在进行多次比较。如果说ANOVA本身很重要,那么当与6个小组打交道时,这有多重要? 换句话说,使用Fisher的LSD是否有科学/统计上的理由?

3
不合适的先验如何导致正确的后验分布?
我们知道,在适当分配优先权的情况下, P(θ | X)= P(X| θ )P(θ )P(X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} α P(X| θ )P(θ )∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta)。 该步骤的通常的理由是,边缘分布XXX,P(X)P(X)P(X),是相对于恒定θθ\theta和导出后验分布时可因此被忽略。 但是,如果先验不正确,您如何知道后验分布实际上存在?这个看似循环的论点似乎有些缺失。换句话说,如果我假设后验存在,那么我就会理解如何推导后验的机制,但是我似乎缺少关于为何甚至存在的理论依据。 PS我也认识到,在某些情况下,先验错误会导致后验错误。

3
为什么是最大可能性而不是预期可能性?
为什么获得参数的最大似然估计如此常见,但实际上您从未听说过预期似然参数估计(即,基于期望值而不是似然函数的模式)?这主要是出于历史原因,还是出于实质性的技术或理论原因? 使用预期似然估计而不是最大似然估计是否有明显的优势和/或劣势? 有没有在预期的似然估计一些地区的常规使用?

5
如何保持对大型数据集的探索性分析?
当我在一个大数据集(许多样本,许多变量)上进行探索性分析时,我经常发现自己身上有数百个派生变量,以及成千上万的不同地块,而没有真正的方式来跟踪前进的方向。代码最终像意大利面条一样,因为从一开始就没有方向。 有什么建议的方法可以使探索性分析保持整洁?特别是,您如何处理勘探的多个分支(包括无用的分支)以及不同版本的地块? 作为参考,我正在研究地球科学数据(随时间变化的许多变量,有时甚至随着空间的变化)。我通常使用Python或R,并将所有内容存储在git中,并且也一直在尝试IPython Notebook。但是,如果答案对所有领域的人来说都是通用的并且有用其他类型的(大型?)数据,那将是很好的。

2
聚类二进制矩阵
我有一个尺寸为250k x 100 的二进制特征的半小矩阵。每行是一个用户,列是某些用户行为的二进制“标签”,例如“ likes_cats”。 user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 我想让用户适合5-10个集群,并分析负载以查看是否可以解释用户行为组。似乎有很多方法可以在二元数据上拟合聚类-我们认为什么是此数据的最佳策略? PCA 制作Jaccard相似度矩阵,拟合层次集群,然后使用顶部的“节点”。 K中位数 K-类固醇 前肢? 艾格尼丝 到目前为止,我在使用分层群集方面取得了一些成功,但是我真的不确定这是最好的方法。 tags = read.csv("~/tags.csv") d = dist(tags, method = "binary") hc = …

3
理解辛普森的悖论:安德鲁·盖尔曼(Andrew Gelman)的性别和身高收入递减示例
安德鲁·盖尔曼(Andrew Gelman)在他最近的一篇博客文章中说: 我认为反事实或潜在的结果对于辛普森悖论没有必要。我之所以这样说,是因为人们可以用无法操纵的变量设置辛普森悖论,或者不能直接对其进行操纵。 辛普森悖论是一个更普遍的问题的一部分,如果您添加更多的预测变量,回归系数会改变,但实际上没有必要翻转符号。 这是我在教学中使用的示例,说明了这两点: 我可以进行回归分析,以预测来自性别和身高的收入。我发现性别的系数为 10,000 美元(即,比较一个身高相同的男人和女人,平均而言,这个男人会多赚10,000 美元),而身高系数为 500 美元(即,比较两个男人或两个女人不同高度的平均高大的人会使$ 500多家每高度英寸)。 我如何解释这些系数?我觉得身高系数很容易解释(很容易想象将两个相同性别的不同身高的人进行比较),的确,在不控制性别的情况下,身高回归似乎有些“错误” 身材矮小的人之间的差异可以通过男女之间的差异来“解释”。但是上述模型中的性别系数似乎很难解释:例如,为什么要比较一个身高66英寸的男人和一个女人?那将是一个矮个子男人和一个高个子女人的比较。所有这些推理似乎都是模糊的因果关系,但我认为使用潜在的结果来思考它是没有道理的。 我仔细考虑了一下(甚至在帖子中发表了评论),并认为这里有些事情需要更清楚地理解。 在解释性别之前,还可以。但我看不出比较矮个子和个高个子的女人背后的问题是什么。这是我的观点:实际上,这更有意义(假设男人的平均身高更高)。出于完全相同的原因,您不能比较“矮个子男人”和“矮个子女人”,即收入差异在某种程度上由身高差异来解释。高个子男人和高个子女人也是如此,矮个子女人和高个子男人更是如此(可以这么说)。因此,基本上只有在比较矮个子和高个子的情况下才消除身高的影响(这有助于解释性别系数)。难道不是流行的匹配模型背后的类似基础概念的钟声吗? 辛普森悖论背后的想法是,人口效应可能与亚群体效应不同。从某种意义上说,这与他的观点2和他承认不应单独控制身高(我们所说的是忽略变量偏差)有关。但是我不能将其与关于性别系数的争论联系起来。 也许您可以更清楚地表达它?或评论我的理解?

2
弹性网逻辑回归中选择最佳alpha
我正在使用glmnetR中的程序包通过在的网格上从0到1 选择lambda值来对医疗数据集执行弹性网逻辑回归。我的缩写代码如下:αα\alpha alphalist &lt;- seq(0,1,by=0.1) elasticnet &lt;- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for (i in 1:11) {print(min(elasticnet[[i]]$cvm))} 对于从到每个alpha值,以为增量输出平均交叉验证误差:0.00.00.01.01.01.00.10.10.1 [1] 0.2080167 [1] 0.1947478 [1] 0.1949832 [1] 0.1946211 [1] 0.1947906 [1] 0.1953286 [1] 0.194827 [1] 0.1944735 [1] 0.1942612 [1] 0.1944079 [1] 0.1948874 根据我在文献中所读的内容,的最佳选择是使cv错误最小化。但是在整个Alpha范围内,误差有很多变化。我看到了几个局部最小值,全局最小值为。αα\alpha0.1942612alpha=0.8 安全alpha=0.8吗?或者,带来的变动,我应该重新运行cv.glmnet更多的交叉验证倍(如而不是),或者是更大数量的之间的增量,并得到CV错误路径清晰的画面?10 α202020101010αα\alphaalpha=0.01.0


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.