Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

2
为什么Wilks 1938年的证明不适用于错误指定的模型?
在1938年著名的论文中(“ 用于检验复合假设的似然比的大样本分布 ”,《数学统计年鉴》 9:60-62),塞缪尔·威尔克斯推导了(对数似然比)的渐近分布。对于嵌套假设,在正确指定了较大假设的前提下。极限分布为(卡方),具有自由度,其中是较大假设中的参数数,χ 2 ħ - 米ħ 米2 × L L R2×大号大号[R2 \times LLRχ2χ2\chi^2ħ - 米H-米h-mHHh米米m是嵌套假设中自由参数的数量。然而,众所周知,当假设被错误指定时(即,当较大的假设不是采样数据的真实分布时),该结果将不成立。 谁能解释为什么?在我看来,Wilks的证明应该仍然可以进行较小的修改。它依靠最大似然估计(MLE)的渐近正态性,但对于错误指定的模型仍然适用。唯一的不同是有限多元法线的协方差矩阵:对于正确指定的模型,我们可以使用反Fisher信息矩阵来近似协方差矩阵,而使用错误指定,可以使用协方差矩阵的三明治估计()。正确指定模型后,后者简化为Fisher信息矩阵的逆矩阵(因为 J − 1 K J − 1 J = KĴ− 1Ĵ-1个J^{-1}Ĵ− 1ķĴ− 1Ĵ-1个ķĴ-1个J^{-1} K J^{-1}Ĵ= KĴ=ķJ = K)。在AFAICT中,只要我们具有MLE的多元正态的可逆渐近协方差矩阵(Wilks论文中的),Wilks证明并不关心协方差矩阵的估计值从哪里来。 C− 1C-1个c^{-1}

4
为什么贝叶斯方法不需要多次测试校正?
安德鲁·盖尔曼(Andrew Gelman)写了一篇广泛的文章,论述为什么贝叶斯AB测试不需要多个假设校正:为什么我们(通常)不必担心多重比较,2012年。 我不太了解:为什么贝叶斯方法不需要多次测试更正? A ~ Distribution1 + Common Distribution B ~ Distribution2 + Common Distribution C ~ Distribution3 + Common Distribution Common Distribution ~ Normal 我的理解是,以上显示的贝叶斯方法解释了所有假设的共同基础分布(与常客Bonferroni修正不同)。我的推理正确吗?

4
Stouffer的Z评分方法:如果我们将
我正在使用相同的原假设进行独立的统计检验,并希望将结果合并为一个NNN值。似乎有两种“可接受的”方法:Fisher方法和Stouffer方法。ppp 我的问题是关于斯托弗的方法。对于每个单独的测试,我都获得z得分。在零假设下,它们中的每一个都具有标准正态分布,因此和∑ z i遵循方差N的正态分布。因此斯托夫的方法表明计算Σ ž 我/ √ziziz_iΣziΣzi\Sigma z_iNNN,应该以单位方差正态分布,然后将其用作联合z得分。Σzi/N−−√Σzi/N\Sigma z_i / \sqrt{N} 这是合理的,但是这是我想出的另一种方法,对我来说也很合理。由于每个的来自一个标准正态分布,平方和小号= Σ ž 2 我应来自与卡方分布Ñ自由度。因此,可以使用具有N个自由度的累积卡方分布函数来计算S并将其转换为p值(p = 1 - X N(S ),其中X N是CDF)。ziziz_iS=Σz2iS=Σzi2S=\Sigma z^2_iNNNSSSpppNNNp=1−XN(S)p=1−XN(S)p=1−X_N(S)XNXNX_N 但是,我什至找不到这种方法。有没有用过?它有名字吗?与斯托弗的方法相比,优点/缺点是什么?还是我的推理有缺陷?

5
非参数测试究竟能完成什么工作?您将如何处理结果?
我觉得这可能是在其他地方提出来的,但并不是我需要的基本描述类型。我知道非参数依赖于中位数而不是平均值进行比较。我也相信它依赖于“自由度”(?)而不是标准偏差。如果我错了,请纠正我。 我已经做了相当不错的研究,或者我想尝试去理解这个概念,背后的工作原理,测试结果的真正含义,以及/或者甚至对测试结果做些什么。但是,似乎没人敢涉足这一领域。 为了简单起见,让我们继续进行曼恩·惠特尼(Mann-Whitney)U检验,我注意到它很受欢迎(并且似乎也被滥用和过度使用,以迫使一个人的“方形模型陷入一个圆孔”)。如果您也想随意描述其他测试,尽管我一旦理解了其中的一个,就可以以类似的方式了解其他t检验,从而了解其他测试。 假设我对我的数据进行了非参数测试,然后得到了以下结果: 2 Sample Mann-Whitney - Customer Type Test Information H0: Median Difference = 0 Ha: Median Difference ≠ 0 Size of Customer Large Small Count 45 55 Median 2 2 Mann-Whitney Statistic: 2162.00 p-value (2-sided, adjusted for ties): 0.4156 我熟悉其他方法,但是这里有什么不同?我们是否应该希望p值小于0.05?“曼恩·惠特尼统计”是什么意思?有什么用吗?这里的信息是否只是验证或不验证是否应该使用我拥有的特定数据源? 我在回归和基础知识方面有相当丰富的经验,但对这种“特殊”非参数化的东西很好奇-我知道这会有它自己的缺点。 试想一下,我是五年级生,看看你能不能对我解释一下。

3
安全地确定A / B测试的样本量
我是一位寻求构建A / B测试工具的软件工程师。我没有扎实的统计背景,但最近几天一直在做大量阅读工作。 我将遵循此处描述的方法,并在下面总结相关要点。 该工具将使设计人员和领域专家可以配置网站,以将在特定URL处接收到的流量划分为两个或多个URL。例如,可以在http://example.com/hello1和http://example.com/hello2之间分配到达http://example.com/hello1的流量。流量将在目标URL之间平均分配,并且将比较每个目标URL上的营销过程的性能。 在此实验中,样本大小N将对应于访问者。该测试将衡量“转化”,该术语描述访问者何时在营销过程中采取特定行动。转化率以百分比表示,并且期望更高的转化率。这使测试成为独立比例的比较。该工具需要能够容易地用于产生安全结果的测试。选择适当的值N很重要。 在上面的链接文章中,采用两个独立比例的幂分析来查找N。这种方法需要事先知道控件的转换率,并指定目标所需的转换改进。它还指定了95%的显着性水平和80%的统计功效。 问题: 这是确定N声音的方法吗?如果是这样,在开始测试之前确定对照转化率的最安全方法是什么? 有没有确定N不需要预先知道控件转换率的合理方法? 链接文章中的方法是否合理?如果没有,您是否可以将我链接到任何可访问且易于消化的方法?

2
如何比较和验证混合效应模型?
通常如何比较(线性)混合效果模型?我知道可以使用似然比检验,但是如果一个模型不是另一个正确模型的“子集”,这将不起作用? 模型df的估算是否总是简单明了?固定效应数量+估计的方差成分数量?我们是否忽略随机效应估计? 验证呢?我的第一个想法是交叉验证,但是考虑到数据的结构,随机折叠可能不起作用。“遗漏一个主题/集群”的方法是否合适?那把一个观察结果留在外面怎么办? 锦葵Cp可解释为模型预测误差的估计。通过AIC进行模型选择会尝试最大程度地减少预测误差(因此,如果误差是高斯型,我相信Cp和AIC应该选择相同的模型)。这是否意味着AIC或Cp可以用于根据预测误差从一些非嵌套模型的集合中选择“最佳”线性混合效应模型?(前提是它们适合相同的数据)BIC是否仍然更有可能在候选人中选择“真实”模型? 我还给人的印象是,在通过AIC或BIC比较混合效果模型时,我们仅将固定效果计算为“参数”,而不是实际模型df。 关于这些主题有没有好的文献?是否值得研究cAIC或mAIC?他们在AIC之外是否有特定的应用程序?

2
为什么在假设检验中原假设始终是点值而不是范围?
这在某种程度上与我提出的另一个问题有关。我的问题是,在进行假设检验时,当替代假设是一个范围时,原假设仍然是一个点值。例如,当测试相关系数是否大于0.5时,原假设是“ correlation = 0.5”而不是“ correlation <= 0.5”。为什么会这样呢?(或者我弄错了吗?)

1
使用Benjamini-Hochberg,p值或q值进行多重假设检验校正?
给定从独立测试生成的p值列表(按升序排列),可以使用Benjamini-Hochberg过程进行多次测试校正。对于每个p值,Benjamini-Hochberg过程使您可以计算每个p值的错误发现率(FDR)。也就是说,在p值排序的列表中的每个“位置”,它将告诉您其中有多少比例可能是对原假设的错误拒绝。 我的问题是,这些FDR值是被称为“ q值 ”,还是被称为“ 校正后的p值 ”,或者完全称为其他值? EDIT 2010-07-12:我想更全面地描述我们正在使用的更正程序。首先,我们按未校正的原始p值对测试结果进行递增排序。然后,我们遍历列表,使用BH校正计算出我一直解释为“如果我们要拒绝此假设以及列表中所有测试的零假设的FDR期望值”,则alpha等于观察到的,各个迭代的未校正p值。然后,我们一直称其为“ q值”,以保留先前的校正值(迭代i-1的FDR)或当前值(i的最大值)的最大值,以保持单调性。 以下是一些代表此过程的Python代码: def calc_benjamini_hochberg_corrections(p_values, num_total_tests): """ Calculates the Benjamini-Hochberg correction for multiple hypothesis testing from a list of p-values *sorted in ascending order*. See http://en.wikipedia.org/wiki/False_discovery_rate#Independent_tests for more detail on the theory behind the correction. **NOTE:** This is a generator, not a function. …

2
排列检验的假设是什么?
人们经常说置换测试没有假设,但是这肯定是不正确的。例如,如果我的样本之间存在某种关联,我可以想象对标签进行置换将不是正确的选择。唯一想到我发现的问题就是维基百科的这句话:“置换检验背后的一个重要假设是,观察值在原假设下是可以互换的。” 我不明白。 排列检验的假设是什么?这些假设如何与不同的可能排列方案联系在一起?

2
回归中的Wald检验(OLS和GLM):t分布与z分布
我了解Wald回归系数检验基于渐近成立的以下属性(例如Wasserman(2006):All Statistics,第153、214-215页): 其中表示估计的回归系数,\ widehat {\ operatorname {se}}(\ hat {\ beta})表示回归系数的标准误差,\ beta_ {0}是相关值(\ beta_ {0}通常为0,以测试系数是否为与0明显不同)。这样大小\阿尔法 Wald检验是:拒绝H_ {0}时(β^- β0)SEˆ(β^)〜ñ(0 ,1 )(β^-β0)SE^(β^)〜ñ(0,1个) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}SEˆ(β^)SE^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}| w ^| > zα / 2|w ^|>žα/2|W|> z_{\alpha/2},其中 w ^= β^SEˆ(β^)。w ^=β^SE^(β^)。 W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. 但是,当您使用lmR 进行线性回归时,将使用ŤŤt值而不是žžz值来测试回归系数是否显着不同于0(带有summary.lm)。此外,glmR中的输出有时会给出žžz,有时会给出ŤŤt作为测试统计量。显然,假设色散参数已知时使用z值,而模拟色散参数则使用t值(请参阅此链接)。žžzŤŤt 有人可以解释一下,为什么即使系数和其标准误的比率被假定为标准正态分布,但有时还是将ŤŤt用于Wald检验? 回答问题后进行编辑 这篇文章还为问题提供了有用的信息。


4
给定足够大的样本量,除非真实的效果量正好为零,否则测试将始终显示出显着的结果。为什么?
我对Wikipedia的文章有关效应大小的说法感到好奇。特别: 除非人口效应大小恰好为零,否则非零统计比较将始终显示统计上有意义的结果 我不确定这意味着什么/暗示什么,更不用说支持它的论点了。我想毕竟是一种效应,是一种统计量,即从一个样本计算出的值及其自身的分布。这是否意味着效果永远不会仅因随机变化(我理解这意味着不重要)而引起?我们是否仅考虑效果是否足够强-绝对值高? 我正在考虑我最熟悉的效果:Pearson相关系数r似乎与此矛盾。为什么会有在统计上有意义?如果小,我们的回归线 [R[Rr[R[Rrÿ= a x + b = r (sÿsX) =ϵx+bÿ=一种X+b=[R(sÿsX)=ϵX+b y=ax+b = r\left(\frac {s_y}{s_x}\right) = \epsilon x+b 对于ϵϵ\epsilon小,接近于0,F检验将可能包含一个包含0的斜率的置信区间。这不是反例吗?

3
内曼·皮尔森引理
我 从Mood,Graybill和Boes 撰写的《统计理论概论》一书中 阅读了Neyman–Pearson引理。但是我还不了解引理。 谁能用简单的话向我解释这个引理?它说明了什么? Neyman-Pearson Lemma:令是的随机样本,其中是两个已知值和,并且固定。X1,…,XnX1,…,XnX_1,\ldots,X_nf(x;θ)f(x;θ)f(x;\theta)θθ\thetaθ0θ0\theta_0θ1θ1\theta_10&lt;α&lt;10&lt;α&lt;10<\alpha<1 让 k∗k∗k^*是正的常数和C∗C∗C^*是的一个子集XX\mathscr X满足:Pθ0[(X1,…,Xn)∈C∗]=α(1)(1)Pθ0[(X1,…,Xn)∈C∗]=α \tag 1 P_{\theta_0}[(X_1,\ldots,X_n)\in C^*] = \alpha λ=L(θ0;x1,…,xn)L(θ1;x1,…,xn)=L0L1≤k∗if (x1,…,xn)∈C∗(2)(2)λ=L(θ0;x1,…,xn)L(θ1;x1,…,xn)=L0L1≤k∗if (x1,…,xn)∈C∗\tag 2 \lambda=\frac{L(\theta_0;x_1,\ldots,x_n)}{L(\theta_1;x_1,\ldots,x_n)} = \frac{L_0}{L_1} \le k^*\quad \text{if } (x_1,\ldots,x_n)\in C^* andλ≥k∗ if (x1,…,xn)∈C¯∗andλ≥k∗ if (x1,…,xn)∈C¯∗\text{and}\quad \lambda\ge\quad k^* \text{ if } (x_1,\ldots,x_n)\in \bar C^* 然后将试验γ∗γ∗\gamma^*对应于临界区域C∗C∗C^*是一个最有力的尺寸的测试αα\alpha的H0:θ=θ0H0:θ=θ0\mathscr H_0:\theta=\theta_0与H1:θ=θ1H1:θ=θ1\mathscr H_1:\theta=\theta_1 用言语表达,我了解到这两个标准 (1)P [拒绝零假设| 原假设为真] =显着性水平 …

3
比较和对比,p值,显着性水平和I型错误
我想知道是否有人可以简要介绍p值的定义和使用,显着性水平和I类错误。 我了解p值的定义是“获得至少与我们实际观察到的数据一样极端的测试统计信息的概率”,而显着性水平只是用来衡量p值是否有意义的任意临界值。 。I类错误是拒绝原假设为零的错误。但是,我不确定重要性级别和I类错误之间的区别,这是不是一个相同的概念? 例如,假设有一个非常简单的实验,我将硬币掷1000次并计算它落在“头”上的次数。我的零假设H0是正面= 500(无偏硬币)。然后,将我的显着性水平设置为alpha = 0.05。 我将硬币翻转1000次,然后计算p值,如果p值&gt; 0.05,则我无法拒绝原假设,如果p值&lt;0.05,则我拒绝原假设。 现在,如果我重复进行此实验,每次计算p值,或者拒绝或未能拒绝原假设,并保持对我拒绝/失败拒绝的计数,那么我最终将拒绝5%的原假设实际上是正确的,对吗?这是类型I错误的定义。因此,如果执行重复实验,Fisher重要性检验中的重要性水平实质上就是Neyman-Pearson假设检验中的I型错误。 现在关于p值,如果我从上一个实验中获得了0.06的p值,并且我进行了多次实验并计算了所有从0到0.06得到p值的值,那么我也将没有拒绝真实零假设的可能性为6%?

2
“研究者的意图”和阈值/ p值
我正在阅读John Kruschke的“进行贝叶斯数据分析”幻灯片,但实际上对他对t检验和/或整个零假设重要性检验框架的解释存在疑问。他认为p值定义不明确,因为它们取决于研究者的意图。 他特别给出了两个实验室的示例(第3-6页),它们收集了比较两种治疗方法的相同数据集。一个实验室致力于从12个受试者中收集数据(每个条件6个),而另一个实验室则在固定的时间内收集数据,这恰好会产生12个受试者。根据滑动时,临界 -值对的不同这两个数据收集计划之间:对于前者,但对于后者!Ťttp &lt; 0.05p&lt;0.05p<0.05Ť暴击= 2.33tcrit=2.33t_{\textrm{crit}}=2.33Ť暴击= 2.45tcrit=2.45t_{\textrm{crit}}=2.45 我现在找不到的博客文章建议固定持续时间方案具有更大的自由度,因为他们可以从11、13或任何其他数量的主题收集数据,而固定N方案通过定义为。ñ= 12N=12N=12 有人可以向我解释: 为什么这些条件之间的临界值会有所不同? (假设是一个问题)如何针对不同的停止标准进行校正/比较? 我知道根据显着性设置停止标准(例如,直到为止的样本)会增加I型错误的可能性,但这似乎没有发生,因为这两个停止规则都不取决于分析。p &lt; 0.05p&lt;0.05p<0.05

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.