1 为什么用Levene检验方差相等而不是F比? SPSS使用Levene检验来评估独立小组t检验程序中方差的均一性。 为什么Levene检验优于两组方差比的简单F比? 21 hypothesis-testing anova variance t-test heteroscedasticity
3 如何计算NPS(净发起人得分)结果中的误差幅度? 我将让Wikipedia解释如何计算NPS: 通过在0到10的评分等级上向客户提出一个问题来获得净发起人得分,其中“极有可能”是10,“完全没有可能”是0:“您向我们推荐公司的可能性有多大?朋友还是同事?” 根据他们的回答,客户可分为三类之一:促销员(9-10级),被动员(7-8级)和批评者(0-6级)。然后从促进者的百分比中减去批评者的百分比,以获得净促进者得分(NPS)。NPS可以低至-100(每个人都是破坏者)或高至+100(每个人都是启动子)。 几年来我们一直定期进行这项调查。每次我们都会收到数百个回复。结果分数在一段时间内变化了20-30分。我正在尝试弄清楚哪些得分变动很重要(如果有)。 如果这真的太困难了,那么我也有兴趣尝试根据计算的基础找出误差范围。每个“桶”(促销者,被动者,批评者)的误差幅度是多少?甚至,如果我只看分数的平均值,将每次调查的数据减少到一个数字,误差幅度是多少?那能带我到任何地方吗? 这里的任何想法都是有帮助的。除了“不使用NPS”。这个决定是我改变的能力! 21 hypothesis-testing statistical-significance standard-error multinomial nps
5 高p值的强相关系数示例 我想知道,是否可能有一个非常强的相关系数(例如0.9或更高)和高p值(例如0.25或更高)? 这是一个相关系数较低,p值较高的示例: set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0.03908927,p = 0.6994 高相关系数,低p值: y <- rnorm(100) x <- rnorm(100)+2*y cor.test(x,y) cor = 0.8807809,p = 2.2e-16 低相关系数,低p值: y <- rnorm(100000) x <- rnorm(100000)+.1*y cor.test(x,y) cor = 0.1035018,p = 2.2e-16 高相关系数,高p值:??? 21 r hypothesis-testing correlation
4 如何测试我的分布是否为多峰? 当我绘制数据的直方图时,它有两个峰值: 这是否意味着潜在的多峰分布?我dip.test在R(library(diptest))中运行,输出为: D = 0.0275, p-value = 0.7913 我可以得出结论,我的数据具有多模式分布? 数据 10346 13698 13894 19854 28066 26620 27066 16658 9221 13578 11483 10390 11126 13487 15851 16116 24102 30892 25081 14067 10433 15591 8639 10345 10639 15796 14507 21289 25444 26149 23612 19671 12447 13535 10667 11255 8442 11546 15958 21058 … 21 r hypothesis-testing distributions self-study histogram
2 样本数量少会导致类型1错误吗? 我了解到,小样本量可能会导致功效不足和2型错误。但是,我觉得小样本通常可能不可靠,并可能偶然导致任何结果。真的吗? 21 hypothesis-testing small-sample
4 如何将新向量投影到PCA空间上? 执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列? 21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial
2 FPR(误报率)与FDR(误发现率) 以下引文来自Storey&Tibshirani(2003)的著名研究论文《统计意义对于全基因组研究》: 例如,假阳性率为5%意味着研究中平均5%的真正无效特征将被称为显着。FDR(错误发现率)为5%意味着在所有被称为重要功能的特征中,其中平均5%确实是无效的。 有人可以使用简单的数字或视觉示例来解释这意味着什么吗?我很难理解它的含义。我仅在FDR或FPR上找到了各种帖子,但没有找到进行具体比较的地方。 如果这方面的专家可以举例说明一个人比另一个人好,或者两者都好或坏的情况,那将特别好。 20 hypothesis-testing false-discovery-rate type-i-and-ii-errors confusion-matrix false-positive-rate
4 如果“比较”是“计划中的”,您是否仍需要校正多个比较? 我正在审查已执行> 15次单独的2x2卡方测试的论文。我建议他们需要对多个比较进行更正,但是他们回答说所有比较都是已计划的,因此这不是必需的。 我觉得这一定是不正确的,但找不到任何明确说明是否存在这种情况的资源。 有人可以帮助吗? 更新: 感谢您的所有非常有帮助的回复。为了响应@gung要求提供有关研究和分析的更多信息的要求,他们正在三种情况下,在两种情况下比较两种类型参与者(学生,非学生)的计数数据。多个2x2卡方检验正在针对每种类型的参与者在每种条件下比较每个时间段(如果有意义;例如,学生,条件1,时间段1与时间段2),因此所有分析都在测试相同的假设。 20 hypothesis-testing multiple-comparisons
2 F统计遵循F分布的证明 鉴于这个问题:证明OLS模型中的系数服从具有(nk)自由度的t分布 我很想知道为什么 F=(TSS−RSS)/(p−1)RSS/(n−p),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, 其中是模型参数的数量,是观测值的数量,是总方差,是残差,遵循分布。Ñ Ť 小号小号ř 小号小号˚F p - 1 ,ñ - ppppnnnTSSTSSTSSRSSRSSRSSFp−1,n−pFp−1,n−pF_{p-1,n-p} 我必须承认,我什至没有尝试证明这一点,因为我不知道从哪里开始。 20 regression hypothesis-testing least-squares f-distribution f-statistic
2 是否有需要高度一致性的统计应用程序? 我想知道是否有人知道或统计中是否存在需要估算器的强一致性而不是弱一致性的应用程序。也就是说,强一致性对于应用程序是必不可少的,并且应用程序不能以弱一致性工作。 20 hypothesis-testing theory asymptotics estimators consistency
3 p值0.04993是否足以拒绝原假设? 在Wilcoxon符号秩统计显着性检验中,我们遇到了一些数据,得出值为。在的阈值下,此结果是否足以拒绝原假设,还是更安全地说该检验没有结论,因为如果将p值四舍五入到小数点后三位,则它变为?0.04993 p < 0.05 0.050ppp0.049930.049930.04993p < 0.05p<0.05p < 0.050.0500.0500.050 20 hypothesis-testing statistical-significance p-value
3 我使用什么测试来确认残差呈正态分布? 我有一些数据可以从绘制残差随时间变化的图表中看到,这几乎是正常的,但我想确定。如何测试误差残差的正态性? 20 hypothesis-testing normal-distribution assumptions
3 测试光谱密度峰值的重要性 有时我们使用频谱密度图来分析时间序列中的周期性。通常,我们通过视觉检查来分析该图,然后尝试得出有关周期性的结论。但是,统计学家是否开发了任何测试来检查图中的峰值是否与白噪声在统计上有所不同?R专家是否开发了用于频谱密度分析和进行此类测试的软件包?如果有人可以帮助,那就太好了。 问候, 体育。 20 r time-series hypothesis-testing
10 零假设是哪一个?科学理论,逻辑学和统计学之间的冲突? 我很难理解设定原假设的基本逻辑。在这个答案中,显然公认的命题被陈述为:零假设是不会有影响的假设,一切都会保持不变,也就是说,在阳光下没有新事物。 然后,另一种假设就是您试图证明的假设,例如,一种新药兑现了诺言。 现在从科学理论和一般逻辑学来的我们知道,我们只能伪造命题,我们无法证明某些东西(没有数量的白色天鹅可以证明所有天鹅都是白色的,但是一只黑天鹅可以证明它)。这就是为什么我们试图证明原假设的原因,这不等于证明替代假设-这就是我开始怀疑的地方-我将举一个简单的例子: 假设我想找出窗帘后面是哪种动物。不幸的是,我无法直接观察到该动物,但是我进行了一项测试,该测试使我知道了该动物的腿数。现在,我有以下逻辑推理: 如果动物是狗,那么它将有4条腿。 如果我进行测试并发现它有4条腿,则不能证明它是狗(可以是马,犀牛或任何其他4条腿的动物)。但是,如果我发现它没有四只脚,则可以肯定地证明它不能是狗(假设是健康的动物)。 转化为药物有效性,我想了解幕后药物是否有效。我唯一会得到的数字就是给我效果的数字。如果效果是肯定的,则没有任何证据(4条腿)。如果没有效果,我就证明该药的有效性。 我认为所有这些都与常识相反,唯一有效的零假设必须是 该药物有效(即:如果该药物有效,您将看到效果)。 因为这是我唯一可以反驳的事情-直到下一轮我会尝试更加具体,依此类推。因此,是由零假设来说明影响,而替代假设则是默认假设(无影响)。 为什么统计检验似乎使它倒退? PS:你甚至不能否定上述假设得到有效等价假说,所以你不能说“的药物是不是有效”的零假设,因为只有逻辑上等同的形式是“如果你看到没有效果的药物会不会是有效”一词,却无济于事,因为现在得出的结论就是您想要找到的! PPS:只是为了阅读到目前为止的答案,以供澄清:如果您接受科学理论,则只能伪造陈述而不能证明它们,唯一在逻辑上一致的是选择零假设作为新理论-然后可以伪造的。因为如果您伪造现状,您将一无所获(现状被反驳,但新理论远未得到证明!)。而且,如果您不能伪造它,那么您也不会处于更好的位置。 20 hypothesis-testing philosophical
1 关于《纽约时报》滥用统计方法的文章 我指的是这篇文章:http : //www.nytimes.com/2011/01/11/science/11esp.html 考虑以下实验。假设有理由相信硬币的重量略偏于头部。在测试中,硬币在1,000的硬币中冒出527次。 这是否是代币已加权的重要证据? 古典分析说是的。有了一个公平的硬币,在1,000次翻转中获得527个或更多的磁头的机会就小于传统分界点的20分之一或5%。换句话说,实验发现加权硬币的证据“具有95%的置信度”。 然而,许多统计学家并不买账。20个中的一个是一千次掷出526以上的任何头的概率。即,它是翻转概率527,翻转概率528、529等等的总和。 但是实验并未找到该范围内的所有数字。他们发现只有一个-527。因此,这些专家说,如果硬币被加权,则计算得到那个数字-527的概率会更准确,然后将硬币与获得相同数字的概率进行比较。公平。 统计学家保罗·斯派克曼(Paul Speckman)和心理学家杰夫·劳德(Jeff Rouder)一起提供了例子,统计学家可以证明这个比率不能高于4:1。 第一个问题:这对我来说是新的。有没有人提供我可以找到精确计算的参考,和/或您可以通过自己给我精确计算来帮助我,和/或您可以指出一些可以在其中找到相似示例的材料吗? 贝叶斯设计了一种方法,可以在出现新证据时更新假设的可能性。 因此,在评估给定发现的强度时,贝叶斯分析(发音为BAYZ-ee-un)会纳入研究以外的已知概率(如果有)。 它可能被称为“是的,正确的”效果。如果一项研究发现金橘可将心脏病风险降低90%,一种疗法可在一周内治愈酒精成瘾,敏感的父母生女孩的可能性是男孩的两倍,那么贝叶斯的反应与本地怀疑论者:是的,对。研究结果与世界上可观察到的结果进行权衡。 在至少一个医学领域–诊断筛选测试–研究人员已经使用已知的概率来评估新发现。例如,一项新的测谎测试可能具有90%的准确率,可以正确标记10个骗子中的9个。但是,如果将其提供给100个已知已经包括10个骗子的人群,那么这项测试的效果就不那么令人印象深刻了。 它可以正确识别10个撒谎者中的9个,并且错失1个;但错误地将其他90个中的9个标识为说谎。将所谓的“真实肯定”(9)除以测试标记的总人数(18),得出的准确率为50%。“假阳性”和“假阴性”取决于人口中已知的比率。 第二个问题:您如何用这种方法正确判断一个新发现是否“真实”?并且:由于使用了一些预先设定的先验概率,这是否不像5%屏障那样任意? 20 hypothesis-testing bayesian statistics-in-media