统计和大数据

对统计,机器学习,数据分析,数据挖掘和数据可视化感兴趣的人的问答

4
卡明(2008)声称,复制过程中获得的p值的分布仅取决于原始p值。怎么可能是真的?
我一直在阅读杰夫·卡明(Geoff Cumming)在2008年发表的论文《复制和区间:值只是模糊地预测未来,但置信区间的确好得多》pppppp (《 Google学术搜索》中的〜200篇引文),并且被其核心观点之一所迷惑。这是卡明(Cumming)反对并主张置信区间的一系列论文之一。但是,我的问题与这场辩论无关,仅涉及关于一项具体主张。pppppp 让我引用摘要: 本文显示,如果初始实验的结果是两尾,则复制中 的单尾值有机会落在区间,的机会,,充分一个的机会。值得注意的是,该间隔(称为间隔)是如此之大,无论样本大小如何。p=.05p=.05p= .0580%80%80\%ppp(.00008,.44)(.00008,.44)(.00008, .44)10%10%10\%p&lt;.00008p&lt;.00008p < .0000810%10%10\%p&gt;.44p&gt;.44p > .44ppp 卡明(Cumming)声称,此“区间”以及实际上在复制原始实验(具有相同的固定样本大小)时将获得的的整个分布仅取决于原始值和不依赖于真实效果尺寸,功率,样本大小,或其他任何东西:ppppppppppobtpobtp_\mathrm{obt} 可以推导的概率分布,而无需知道或假设(或幂)的值。[...]我们不假设任何有关先验知识,而仅使用信息 [观察到的组间差异]给出了作为给定的计算基础和间隔的分布的 。pppδδ\deltaδδ\deltaMdiffMdiffM_\mathrm{diff}δδ\deltapobtpobtp_\mathrm{obt}pppppp \quad\quad\quad 我对此感到困惑,因为在我看来,的分布很大程度上取决于幂,而原始本身并没有提供任何有关幂的信息。实际效果大小可能是,然后分布是均匀的;或真实效果的大小可能很大,那么我们应该期望大多数很小。当然,可以先假设一些可能的效果大小并对其进行积分,但是卡明似乎声称这不是他正在做的事情。ppppobtpobtp_\mathrm{obt}δ=0δ=0\delta=0ppp 问题:这到底是怎么回事? 请注意,此主题与以下问题有关:重复实验的哪个部分在第一个实验的95%置信区间内将具有影响大小?@whuber提供了一个很好的答案。卡明(Canmming)对此主题发表了一篇论文,内容为:卡明(Cumming)和Maillardet,2006年,置信区间和复制:下一个均值将落在哪里?-但是这一点很明确,没有问题。 我还注意到,卡明的主张在2015年《自然方法》论文中被重复了好几次。善变的值会产生PPP某些人可能遇到的不可再现的结果(在Google学术搜索中已被引用约100次): 重复实验的值将有很大变化。实际上,很少重复进行实验。我们不知道下一个可能有多大差异。但它可能会大不相同。例如,不管实验的统计能力如何,如果单次重复实验的值为,则重复实验返回值在到之间的可能性为(变化为(原文如此,会更大)。PPPPPPPPP0.050.050.0580%80%80\%PPP0000.440.440.4420%20%20\%PPP (请注意,顺便说一下,怎么样,不管卡明的说法是否正确,自然的方法报导援引它不准确:根据卡明,它只有以上的概率。是的,纸张也说:“20%CHAN g e“。Pfff。)10%10%10\%0.440.440.44

2
封闭形式套索解的推导
minβ(Y−Xβ)T(Y−Xβ)minβ(Y−Xβ)T(Y−Xβ)\min_\beta (Y-X\beta)^T(Y-X\beta)∥β∥1≤t‖β‖1≤t\|\beta\|_1 \leq tβlassoj=sgn(βLSj)(|βLSj|−γ)+βjlasso=sgn(βjLS)(|βjLS|−γ)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\gamma)^+ XXX
52 lasso 


5
神经网络与支持向量机:第二种绝对优越吗?
我阅读过许多论文的作者都断言,支持向量机是解决其回归/分类问题的上乘技术,他们意识到通过神经网络无法获得相似的结果。比较经常指出 SVM,而不是NN, 有很强的创立理论 由于二次编程,达到全局最优 选择适当数量的参数没有问题 不太容易过拟合 需要更少的内存来存储预测模型 产生更具可读性的结果和几何解释 是认真对待的一个被广泛接受的思想吗?不要引用免费午餐定理或类似的陈述,我的问题是关于这些技术的实际使用。 另一方面,NN肯定会面对哪种抽象问题?

6
随机森林模型的预测是否具有预测间隔?
如果运行randomForest模型,则可以基于该模型进行预测。有没有一种方法可以获取每个预测的预测间隔,以使我知道模型如何“确定”其答案。如果可能的话,是仅仅基于整个模型的因变量的可变性,还是根据特定预测所遵循的特定决策树,其间隔会变宽还是变窄?

3
方差分析假设正态性/残差的正态分布
ANOVA上的Wikipedia页面列出了三个假设,即: 案例独立性–这是简化统计分析模型的假设。 正态性–残差的分布是正态的。 方差的均等(或“同质”),称为均方差... 这里的兴趣点是第二个假设。几个资料来源列出了不同的假设。有人说原始数据是正常的,有人说残差。 弹出几个问题: 残差的正态性和正态分布是否是同一个人(根据Wikipedia条目,我会说正态性是一个属性,并且与残差不直接相关(但可以是残差的属性(括号内的深层嵌套文本,怪异)))? 如果没有,应该采用哪种假设?一?都? 如果正态分布残差的假设是正确的假设,我们是否仅通过检查原始值的直方图的正态性来犯一个严重的错误?

2
卡方检验和等比例检验之间的关系是什么?
假设我有三个具有四个互斥特征的人口。我从每个总体中随机抽取样本,并针对我要测量的特征构建交叉表或频率表。我的说法是否正确: 如果我想测试总体与特征之间是否存在任何关系(例如,一个总体是否具有较高的特征之一频率),我应该进行卡方检验,看看结果是否显着。 如果卡方检验显着,则仅表明人口与特征之间存在某种关系,而没有关系。 此外,并非所有特征都需要与人口有关。例如,如果不同的总体具有特征A和B的显着不同的分布,但没有特征C和D的分布,则卡方检验可能仍然具有显着性。 如果我想衡量一个特定的特性是否受影响人口,那么我可以运行相同比例的测试(我已经看到了这个被称为Z测试,或prop.test()在R)在这一点特点。 换句话说,prop.test()当卡方检验表明存在显着关系时,使用来更准确地确定两组类别之间关系的性质是否合适?

8
Excel作为统计工作台
似乎很多人(包括我在内)都喜欢在Excel中进行探索性数据分析。某些限制(例如,电子表格中允许的行数)是很麻烦的,但是在大多数情况下,并非无法使用Excel来处理数据。 但是,McCullough和Heiser撰写的一篇论文却大声尖叫,如果您尝试使用Excel,您将错误地获得所有结果-甚至可能会陷入困境。 本文是正确的还是有偏见的?作者听起来确实讨厌微软。

14
高斯(正态)分布最令人惊讶的特征是什么?
可以通过明确给出其密度来定义上的标准化高斯分布: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} 或其特征功能。 就像在这个问题中提到的那样,它也是样本均值和方差是独立的唯一分布。 您知道高斯测量的其他令人惊讶的替代特征是什么?我会接受最令人惊讶的答案

10
用距离矩阵聚类
我有一个(对称)矩阵M,表示每对节点之间的距离。例如, ABCDEFGHIJKL 0 20 20 20 40 60 60 60 100 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 D 20 20 20 0 60 80 80 80 …
52 clustering 

2
人工神经网络ANN如何用于无监督聚类?
我了解如何artificial neural network (ANN)使用反向传播以监督方式训练,以通过减少预测误差来改善拟合。我听说ANN可以用于无监督学习,但是如何在没有某种成本函数来指导优化阶段的情况下做到这一点呢?使用k-means或EM算法时,有一个函数,每次迭代搜索都在增加该函数。 我们如何使用ANN进行聚类,以及它使用什么机制对同一地点的数据点进行分组? (以及增加更多层带来了哪些额外的功能?)




5
什么时候不平衡数据真的是机器学习中的问题?
使用logistic回归,SVM,决策树,装袋和许多其他类似问题时,我们已经对不平衡数据提出了多个问题,这使它成为一个非常受欢迎的话题!不幸的是,每个问题似乎都是特定于算法的,我没有找到任何处理不平衡数据的通用准则。 引用Marc Claesen的答案之一,处理不平衡数据 (...)在很大程度上取决于学习方法。大多数通用方法都有一种(或几种)方法来解决此问题。 但是,到底什么时候我们应该担心数据不平衡?哪些算法最受它影响,哪些能够处理?我们需要哪种算法来平衡数据?我知道在像这样的问答网站上讨论每种算法都是不可能的,我宁愿寻找有关何时可能出现问题的一般准则。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.