Questions tagged «p-value»

在常识假设检验中, p-值是在假设无效的假设为真的情况下,结果大于或大于观察结果的概率。

2
Kolmogorov–Smirnov检验:随着样本量的增加,p值和ks检验的统计量减少
为什么p值和ks检验统计量会随着样本数量的增加而减少?以以下Python代码为例: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y = norm(0, 4.1).rvs(n) print ks_2samp(x, y) 结果是: Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508) Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247) Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662) Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896) Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855) Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19) 凭直觉,我理解随着n的增长,测试“更加确定”了两种分布是不同的。但是,如果样本量很大,那么在诸如此类的相似性测试(如安德森·达林检验)或t检验中有什么意义,因为在这种情况下,当n很大时,总会发现分布是“明显”不同!?现在我想知道p值的意义到底是什么。它在很大程度上取决于样本量...如果p> 0.05而您希望降低样本量,则只需获取更多数据即可。如果p <0.05且您希望它更高,则删除一些数据。 同样,如果两个分布相同,则ks检验统计量将为0,p值为1。但是在我的示例中,随着n的增加,ks检验统计量表明分布随时间变得越来越相似(减小)。 ,但根据p值,它们会随着时间变得越来越多(也有所减少)。

3
为什么用于贝叶斯因子和p值的临界值如此不同?
我想了解贝叶斯因子(BF)。我相信它们就像两个假设的似然比。因此,如果BF为5,则意味着H1的可能性是H0的5倍。值3-10表示中度证据,而值> 10表示有力证据。 但是,对于P值,传统上将0.05作为截止值。在此P值下,H1 / H0似然比应约为95/5或19。 那么,为什么BF的截止值> 3,而P值的截止值> 19?这些值也不是很接近。

5
为什么我们拒绝0.05级而不是0.5级的原假设(就像我们在分类中所做的那样)
假设检验类似于分类问题。可以这么说,对于观察(主题),我们有2个可能的标签-有罪与无罪。令“非罪”为原假设。如果我们从分类的观点来看问题,我们将训练一个分类器,该分类器在给定数据的情况下预测受试者属于这两个分类中的每一个的概率。然后,我们将选择概率最高的类别。在那种情况下,0.5的概率将是自然阈值。如果我们将不同的成本分配给误报与误报错误,我们可能会更改阈值。但是很少有我们会极端地将阈值设置为0.05,即仅在概率为0.95或更高的情况下才将主体分配为“有罪”类别。但是如果我了解得很好,当我们将相同的问题视为假设检验的问题时,这就是我们作为标准实践所做的事情。在后一种情况下,仅当“非罪犯”的概率小于5%时,我们才不会分配标签“非罪犯”(等同于分配标签“有罪”)。如果我们真正想避免对无辜者定罪,也许这可能是有道理的。但是,为什么在所有领域和所有情况下都应遵循此规则? 确定采用哪种假设等同于在给定数据的情况下定义真相的估计量。在最大似然估计中,我们接受给定数据的可能性更高的假设-尽管绝对可能性更大,但不一定。参见下图: 如果预测变量的值大于3(例如4),则使用最大似然方法在此示例中我们会偏爱替代假设,尽管从零假设得出该值的可能性将大于0.05。 虽然我开始撰写该帖子的示例可能会引起感慨,但我们可以想到其他情况,例如技术改进。当数据告诉我们新解决方案是一种改进的可能性大于非新解决方案的可能性时,为什么要对状态现状给予这样的优势?

1
非参数自举p值与置信区间
语境 这有点类似于此问题,但我认为这并非完全相同。 当您寻找有关如何执行自举假设检验的说明时,通常会指出,使用经验分布作为置信区间是可以的,但是您需要从原假设下的分布中正确地自举以获得p-值。例如,请参阅对此问题的公认答案。在互联网上进行的一般搜索似乎似乎可以找到类似的答案。 不使用基于经验分布的p值的原因是,大多数时候我们没有平移不变性。 例 让我举一个简短的例子。我们有一个硬币,我们想进行一个单面测试,看看正面的频率是否大于0.5 我们执行试验,得到个头。该测试的真实p值为。n=20n=20n = 20k=14k=14k = 14p=0.058p=0.058p = 0.058 另一方面,如果我们从20个磁头中引导14个,则可以有效地从且的二项分布中进行采样。通过减去0.2来偏移此分布,当针对获得的经验分布测试观察值0.7时,我们将得到几乎没有显着结果。n=20n=20n = 20p=1420=0.7p=1420=0.7p = \frac{14}{20}=0.7 在这种情况下,差异很小,但是当我们测试的成功率接近1时,差异会更大。 题 现在让我提出我的问题的实质:对于置信区间,同样的缺陷也成立。实际上,如果置信区间具有规定的置信度水平则在无效假设下不包含参数的置信区间等效于在重要性水平为拒绝无效假设。αα\alpha1−α1−α1- \alpha 为什么基于经验分布的置信区间被广泛接受而p值却未被接受? 是否存在更深层的原因,或者人们是否没有那么自信的保守度? Peter Dalgaard 在这个答案中给出的答案似乎与我的观点一致。他说: 这种推理方式没有什么特别错误的,至少没有(比)CI的计算差很多。 (很多)从哪里来?这意味着以这种方式生成p值会稍差一些,但在这一点上没有详细说明。 最后的想法 同样在《埃夫隆(Efron)和蒂布希尔尼(Tibshirani)的引言》中,它们为置信区间分配了很多空间,但没有为p值分配空间,除非它们是在适当的零假设分布下生成的,除了关于有关置换测试的章节中的置信区间和p值。 让我们也回到我链接的第一个问题。我同意迈克尔·切尔尼克(Michael Chernick)的回答,但他再次重申,在某些情况下,基于经验自举分布的置信区间和p值同样不可靠。它没有解释为什么您会发现很多人告诉您间隔是正确的,但p值却不正确。

2
p值的两个定义:如何证明它们的等价性?
我正在阅读拉里·瓦瑟曼(Larry Wasserman)的《所有统计》一书,目前正在阅读有关p值的信息(第187页)。首先让我介绍一些定义(我引用): 定义1的拒绝区域中的试验的幂函数RRR由下式定义 β(θ)=Pθ(X∈R)β(θ)=Pθ(X∈R)\beta(\theta)=P_{\theta}(X\in R) 的测试的大小被定义为 如果测试的大小小于或等于\ alpha,则称该测试具有\ alpha级别。α=supθ∈Θ0β(θ)α=supθ∈Θ0β(θ)\alpha = \sup_{\theta\in\Theta_0}\beta(\theta)αα\alphaαα\alpha 这基本上说αα\alpha,大小是类型I的错误的“最大”概率。然后通过(I quote)定义ppp值。 定义2假设对于每个α∈(0,1)α∈(0,1)\alpha\in(0,1)我们都有一个带有拒绝区域R_ \ alpha的大小αα\alpha测试。然后, p \ text {-value} = \ inf \ {\ alpha:T(X ^ n)\ in R_ \ alpha \} 其中X ^ n =(X_1,\ dots,X_n)。RαRαR_\alphap-value=inf{α:T(Xn)∈Rα}p-value=inf{α:T(Xn)∈Rα}p\text{-value}=\inf\{\alpha:T(X^n)\in R_\alpha\}Xn=(X1,…,Xn)Xn=(X1,…,Xn)X^n=(X_1,\dots,X_n) 对我来说,这意味着:给定特定的αα\alpha有一个测试和拒绝区域RαRαR_\alpha以便α=supθ∈Θ0(α)Pθ(T(Xn)∈Rα)α=supθ∈Θ0(α)Pθ(T(Xn)∈Rα)\alpha=\sup_{\theta\in\Theta_{0}(\alpha)}P_\theta(T(X^n)\in R_\alpha)。对于ppp值,我只需取所有\ alpha中的最小值即可αα\alpha。 问题1如果是这种情况,那么对于任意小的,我可以清楚地选择。我对定义2的错误解释是什么,即它的确切含义是什么?εα=ϵα=ϵ\alpha = \epsilonϵϵ\epsilon 现在,Wasserman连续并陈述了一个定理,以具有我所熟悉的值的“等效”定义(我引用):ppp 定理假设大小检验的形式为 然后, 其中,是的观测值。拒绝 H …

2
p值的微妙之处:更大等于更大
当我阅读Wassermann的《所有统计》一书时,我注意到p值的定义有些微妙,我无法理解。Wassermann非正式地将p值定义为 [..] 观察测试统计值等于或大于实际观察值的概率(在下)。H0H0H_0 重点已添加。正式上也一样(定理10.12): 假设大小测试的形式为αα\alpha 仅当T(X ^ n)\ ge c_ \ alpha时拒绝H_0。H0H0H_0T(Xn)≥cαT(Xn)≥cαT(X^n) \ge c_\alpha 然后, p-value=supθ∈Θ0Pθ0[T(Xn)≥T(xn)]p-value=supθ∈Θ0Pθ0[T(Xn)≥T(xn)]\text{$p$-value} = \sup_{\theta\in\Theta_0} P_{\theta_0}[T(X^n) \ge T (x^n)] 其中xnxnx^n是X ^ n的观测值XnXnX^n。如果Θ0={θ0}Θ0={θ0}\Theta_0=\{\theta_0\}则 p-value=Pθ0[T(Xn)≥T(xn)]p-value=Pθ0[T(Xn)≥T(xn)]\text{$p$-value} = P_{\theta_0}[T(X^n) \ge T (x^n)] 此外,Wassermann将Pearson的χ2χ2\chi^2检验(和其他类似的检验)的p值定义为: p-value=P[χ2k−1>T].p-value=P[χk−12>T].\text{$p$-value} = P[\chi^2_{k-1} > T]. 我想澄清的部分是第一个定义中的大等号(≥≥\ge)和第二个定义中的大号(>>>)。我们为什么不写≥T≥T\ge T,它会匹配“ 等于或大于极限” 的第一引号? 这是绝对的方便,以便我们将p值计算为吗?我注意到R也使用带有符号的定义,例如in 。1−F(T)1−F(T)1-F(T)>>>chisq.test

1
基于另一项测试的结果进行假设测试的论文
众所周知,根据另一个统计检验的结果选择一个统计检验是有问题的,因为p值难以解释(例如,根据另一个检验结果(例如正态性)选择统计检验) 。但是,这仍然是许多应用程序中的标准做法,通常似乎在应用论文中并未引起注意或讨论。翻阅文献,我找不到真正讨论这种现象的论文。 我希望能获得与任何出版物有关的链接,这些出版物与基于另一种统计测试的结果来选择统计测试有关,尤其是应用科学家可以访问的出版物。


3
Z得分和p值有什么区别?
在网络主题算法中,返回统计信息的p值和Z分数似乎很常见:“输入网络包含子图G的X个副本”。满足要求的子图被视为主题 p值<A, Z得分> B和 X> C,对于某些用户定义(或社区定义)的A,B和C。 这激发了一个问题: 问题:p值和Z得分有什么区别? 和子问题: 问题:是否存在相同统计的p值和Z分数可能提出相反假设的情况?上面列出的第一条件和第二条件是否基本相同?



1
自举重要性测试的两种方法
使用引导程序,我使用两种方法计算重要性测试的p值: 在原假设下重新采样并计算结果至少与原始数据得出的结果一样极端 在替代假设下进行重采样,并计算结果与原始结果的距离至少与与原假设对应的值一样远 我相信第一种方法完全正确,因为它遵循ap值的定义。我对第二个不太确定,但是它通常会给出非常相似的结果,并让我想起Wald测试。 我对吗?两种方法都正确吗?它们是否相同(对于大样本)? 两种方法的示例(在DWin的问题和Erik的回答后进行编辑): 示例1.让我们构造一个类似于两个样本T检验的自举测试。方法1将从一个样本中重新采样(通过合并原始两个样本获得)。方法2将分别从两个样本中重新采样。 示例2.让我们构造一个x₁…xₐ和y₁…yₐ之间的相关性的自举测试。方法1将假定没有相关性,并重新采样允许(xₑ,yₔ)对,其中e≠ə。方法2将编译原始(x,y)对的引导程序样本。 示例3.让我们构造一个引导测试来检查硬币是否公平。方法1将创建随机样本,设置Pr(head)= Pr(tail)= 1/2。方法2将重新采样实验头/尾值的样本,并将比例与½进行比较。

5
如何用非参数测试(例如排列测试)测试交互作用?
我有两个类别/名义变量。它们每个只能采用两个不同的值(因此,我总共有4种组合)。 每个值组合都带有一组数字值。因此,我有4组数字。为了更具体,让我们说我有male / female和young / old作为标称变量,而我有weight从属数字“输出”。 我知道从过渡male到female会改变平均体重,而这些变化在统计上是有意义的。因此,我可以计算一个gender因子。这同样适用于age变量。我知道,从过渡young到old不改变平均重量,我可以计算出相应的age系数。 现在,我真正想看看的是数据是否证明从年轻女性到老年男性的转变更多地是性别和年龄因素的结合。换句话说,我想知道数据是否证明存在“ 2D效果”,或者换句话说,年龄和性别效果不是独立的。例如,男性变老可能会使体重增加1.3倍,而女性则相应增加1.1倍。 当然,我可以计算两个提到的因素(男性的年龄因素和女性的年龄因素),它们是不同的。但是我想计算出这种差异的统计意义。这种差异有多真实。 如果可能的话,我想做一个非参数测试。是否可以通过混合四组,重新组合,重新拆分和计算某些东西来做我想做的事情。

3
G检验与Pearson的卡方检验
我在列联表中测试独立性。我不知道G检验或Pearson的卡方检验是否更好。样本数量为数百,但单元格计数较低。如Wikipedia页面所述,对于G检验,卡方分布的近似值比对Pearson的卡方检验更好。但是我正在使用蒙特卡洛模拟来计算p值,所以这两个测试之间有什么区别吗?ñ× Mñ×中号N \times M

3
R中的glm-哪个pvalue表示整个模型的拟合优度?
我正在R(通用线性模型)中运行glms。我以为我知道pvalues-直到我看到调用glm的摘要不会为您提供代表整个模型的压倒性pvalue-至少不是在线性模型可以做到的地方。 我想知道这是否作为系数表顶部的Intercept的p值给出。因此,在下面的示例中,尽管Wind.speed..knots和canopy_density对模型可能很重要,但是我们如何知道模型本身是否很重要?我如何知道是否信任这些价值观?我是否想知道(Intercept)的Pr(> | z |)代表模型的重要性?这个模特重要吗?谢谢! 我应该注意,运行F检验不会给出pvalue,因为我收到一条错误消息,指出在二项式族上运行F检验是不合适的。 Call: glm(formula = Empetrum_bin ~ Wind.speed..knots. + canopy_density, family = binomial, data = CAIRNGORM) Deviance Residuals: Min 1Q Median 3Q Max -1.2327 -0.7167 -0.4302 -0.1855 2.3194 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.8226 1.2030 1.515 0.1298 Wind.speed..knots. -0.5791 0.2628 -2.203 0.0276 * …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.