Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

1
卡方测试可用于哪种特征选择?
在这里,我问其他人在监督学习中通常使用卡方检验来进行特征选择和结果选择的做法。如果我理解正确,他们是否测试每个功能和结果之间的独立性,并比较每个功能的测试之间的p值? 在http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test中, 皮尔逊卡方检验是一种统计检验,应用于分类数据集,以评估两组之间观察到的差异是偶然产生的可能性。 ... 独立性测试评估列联表中表示的关于两个变量的成对观测值是否彼此独立(例如,轮询来自不同国籍的人的答复,以查看其国籍是否与答复相关)。 那么,由测试测试其独立性的两个变量是否应该是分类的或离散的(除分类之外允许排序),而不是连续的? 从http://scikit-learn.org/stable/modules/feature_selection.html,他们 执行χ2χ2\chi^2测试到虹膜数据集到只检索最佳的两个特征。 在虹膜数据集中,所有特征都是数字值和连续值,结果是类标签(分类)。卡方独立性检验如何应用于连续要素? 要将卡方独立性检验应用于数据集,我们是否首先通过装仓(即先将要素的连续域离散化为仓,然后将其替换为仓中的要素值)来将连续要素转换为离散要素)? 几个容器中的出现形成多项式特征(每个容器中都发生或不发生),因此卡方独立性检验可以应用于它们,对吗? 顺便说一句,我们可以将卡方独立性检验应用于任何特征和结果吗? 对于结果部分,我们不仅可以通过卡方独立性检验,通过对连续结果进行分箱来选择用于分类的特征,还可以为回归选择特征,对吗? scikit学习网站还说 计算每个非负要素与类之间的卡方统计量。 此分数可用于从X中选择测试卡方统计量具有最高值的n_features特征,该特征必须仅包含非负特征,例如布尔值或频率 (例如,文档分类中的术语计数),相对于类。 为什么测试需要非阴性功能? 如果这些特征没有符号,但是是分类的或离散的,则测试仍然可以应用到它们吗?(请参阅我的第1部分) 如果特征是负的,我们总是可以对它们的域进行归类,并用它们的出现替换它们(就像我对将测试应用于虹膜数据集所猜测的那样,请参阅第2部分),对吗? 注意:我猜Scikit Learn遵循一般原则,这就是我在这里要的。如果没有,那还是可以的。

3
“反转”的夏皮罗-威尔克
根据维基百科,Sharipo-Wilk检验测试零假设()“总体呈正态分布”。H0H0H_0 我正在寻找类似的正态性检验,其 “总体不是正态分布”。H0H0H_0 具有这样的试验中,我要计算一个 -值拒绝ħ 0在显着性水平α IFF p &lt; α ; 证明我的人口呈正态分布。pppH0H0H_0αα\alphap &lt; αp&lt;αp < \alpha 请注意,使用Sharipo-Wilk检验并接受 iff p &gt; α是不正确的方法,因为这从字面上意味着“我们没有足够的证据证明H0不成立”。H0H0H_0p &gt; αp&gt;αp > \alpha 相关线程-p -value的含义ppp,正常性测试没用吗?,但看不到我的问题的解决方案。 问题:我应该使用哪种测试?它在R中实现吗?

2
MANOVA的原假设是什么?
背景 为了分析不同组之间某个连续变量之间的差异(由类别变量给出),可以执行单向方差分析。如果存在多个解释性(分类)变量,则可以执行阶乘方差分析。如果要分析几个连续变量(即几个响应变量)之间的差异,则必须执行多元ANOVA(MANOVA)。 题 我几乎不了解如何对多个响应变量执行类似于ANOVA的测试,更重要的是,我不了解原假设是什么。是原假设: “对于每个响应变量,所有组的均值均相等”, 还是 “对于至少一个响应变量,所有组的均值相等”, 还是还有其他东西?H0H0H_0

3
I型和II型错误的概率是否负相关?
在我作为助教的基础统计课上,这位教授说,随着I型错误的概率增加,II型错误的概率降低,反之亦然。因此,这向我表明。αα\alphaββ\betaρα ,β&lt; 0ρα,β&lt;0\rho_{\alpha, \beta} < 0 但是对于一般的假设检验,如何证明这一点呢?总体而言,该说法是否正确? 我可以尝试一个特定的情况(例如和),但是显然,这不足以解决这个问题。H0:μ = μ0H0:μ=μ0H_0: \mu = \mu_0H1个:μ &lt; μ0H1个:μ&lt;μ0H_1: \mu < \mu_0

1
假设检验和科学方法
阅读该主题的答案,我开始怀疑假设检验与科学方法之间的关系。虽然我对两者都有很好的了解,但我很难绘制它们之间的精确联系。 从高层次上讲,科学方法可以归结为: 做出猜想和假设(理论) 根据这一理论做出预测 进行实验和观察 测试并接受新理论,如果 数据比其他理论更准确地符合预测 新理论并不比其他可能的替代方案复杂 从高层次上看,我认为科学方法遵循的是“假设是否合格”方法,这与统计假设检验中的“如果不合适则拒绝”方法形成对比。这个对吗?如果是这样,为什么会这样呢?他们不是从根本上追求同一目标吗?推断最能解释观察结果的理论或模型?

2
p值的微妙之处:更大等于更大
当我阅读Wassermann的《所有统计》一书时,我注意到p值的定义有些微妙,我无法理解。Wassermann非正式地将p值定义为 [..] 观察测试统计值等于或大于实际观察值的概率(在下)。H0H0H_0 重点已添加。正式上也一样(定理10.12): 假设大小测试的形式为αα\alpha 仅当T(X ^ n)\ ge c_ \ alpha时拒绝H_0。H0H0H_0T(Xn)≥cαT(Xn)≥cαT(X^n) \ge c_\alpha 然后, p-value=supθ∈Θ0Pθ0[T(Xn)≥T(xn)]p-value=supθ∈Θ0Pθ0[T(Xn)≥T(xn)]\text{$p$-value} = \sup_{\theta\in\Theta_0} P_{\theta_0}[T(X^n) \ge T (x^n)] 其中xnxnx^n是X ^ n的观测值XnXnX^n。如果Θ0={θ0}Θ0={θ0}\Theta_0=\{\theta_0\}则 p-value=Pθ0[T(Xn)≥T(xn)]p-value=Pθ0[T(Xn)≥T(xn)]\text{$p$-value} = P_{\theta_0}[T(X^n) \ge T (x^n)] 此外,Wassermann将Pearson的χ2χ2\chi^2检验(和其他类似的检验)的p值定义为: p-value=P[χ2k−1&gt;T].p-value=P[χk−12&gt;T].\text{$p$-value} = P[\chi^2_{k-1} > T]. 我想澄清的部分是第一个定义中的大等号(≥≥\ge)和第二个定义中的大号(&gt;&gt;>)。我们为什么不写≥T≥T\ge T,它会匹配“ 等于或大于极限” 的第一引号? 这是绝对的方便,以便我们将p值计算为吗?我注意到R也使用带有符号的定义,例如in 。1−F(T)1−F(T)1-F(T)&gt;&gt;>chisq.test

1
测试两个回归系数是否显着不同(理想情况下为R)
如果这是一个重复的问题,请指出正确的方法,但是我在这里发现的相似问题还不够相似。假设我估计模型Y=α+βX+uY=α+βX+uY=\alpha + \beta X + u 并找到。但是,事实证明,我怀疑,尤其是。因此,我估计了模型并找到了重要证据。然后如何测试是否?我考虑过运行另一个回归并测试。这是最好的方法吗?X = X 1 + X 2 ∂ ý / ∂ X 1 ≠ ∂ ý / ∂ X 2 ∂ ý / ∂ X 1 &gt; ∂ ý / ∂ X 2 Ŷ = α + β 1 X 1 + β 2 …

2
通过重新运行实验来验证Web A / B测试-这有效吗?
某天,一家a / b测试公司举行的网络研讨会上,其驻地“数据科学家”解释说,您应该通过重新运行实验来验证结果。前提是,如果您选择95%的置信度,则有5%(1/20)的假阳性机会。如果您以相同的约束条件重新运行实验,那么现在会有1/400(我假设他们将其确定为0.05 ^ 2 = 1/400) 这是有效的声明吗?(即“两次运行,两次统计显着性获胜=假阳性概率的1/400”)?这是提高您的显着性水平的更好方法吗? 从业务的角度来看,我所关心的是通过重新运行实验,使更多的用户接触到劣等的页面(处理),从而失去了潜在的销售额。

1
弗里德曼测试与威尔科克森测试
我正在尝试评估监督型机器学习分类算法的性能。观察结果属于名义类别(目前为2类,不过我想将其概括为多类问题),这些样本来自99名受试者。 我想回答的问题之一是,如果算法在输入类别之间的分类准确度方面存在显着差异。对于二元分类的情况,我正在使用配对的Wilcoxon检验来比较受试者之间各类之间的平均准确性(因为基础分布是非正态的)。为了将此程序推广到多类问题,我特别使用了Friedman检验。 但是,在二进制IV的情况下,通过这两种方法获得的p值变化很大,Wilcoxon检验屈服,p &lt; .001而p = .25Friedman检验。这使我相信我对弗里德曼测试的结构有基本的误解。 在这种情况下,使用弗里德曼检验来比较所有受试者重复测量准确性的结果是否合适? 我获得这些结果的R代码(subject是对象标识符,acc精度DV和expected观察等级IV): &gt; head(subject.accuracy, n=10) subject expected acc 1 10 none 0.97826087 2 10 high 0.55319149 3 101 none 1.00000000 4 101 high 0.68085106 5 103 none 0.97826087 6 103 high 1.00000000 7 104 none 1.00000000 8 104 high 0.08510638 9 105 none …

1
基于另一项测试的结果进行假设测试的论文
众所周知,根据另一个统计检验的结果选择一个统计检验是有问题的,因为p值难以解释(例如,根据另一个检验结果(例如正态性)选择统计检验) 。但是,这仍然是许多应用程序中的标准做法,通常似乎在应用论文中并未引起注意或讨论。翻阅文献,我找不到真正讨论这种现象的论文。 我希望能获得与任何出版物有关的链接,这些出版物与基于另一种统计测试的结果来选择统计测试有关,尤其是应用科学家可以访问的出版物。

1
等价的零假设
假设是来自正态分布的简单随机样本。X1,X2,...,XnX1,X2,...,XnX_1, X_2, \, ... \, , X_n(μ,σ2)(μ,σ2)(\mu,\sigma^2) 我有兴趣进行以下假设检验: 对于给定的常数。H0:|μ|≤cH1:|μ|&gt;c,H0:|μ|≤cH1:|μ|&gt;c, H_0: | \mu| \le c \\ H_1: |\mu| > c, c&gt;0c&gt;0c > 0 我正在考虑以与通常的生物等效性测试情况类似的方式执行两个单侧检验(TOST),其中null为代替,但是我不知道这是否有意义或正确。ttt|μ|≥c|μ|≥c|\mu| \ge c 我的想法是执行单面测试 和 并且如果值之一小于显着性水平拒绝全局零假设。H01:μ≤cH11:μ&gt;cH01:μ≤cH11:μ&gt;c H_{01} : \mu \le c \\ H_{11} : \mu > c H02:μ≥−cH12:μ&lt;−c,H02:μ≥−cH12:μ&lt;−c, H_{02} : \mu \ge -c \\ H_{12} : \mu < …

2
t检验和单向方差分析是否都是Wald检验?
通过用费希尔在样本均值处的正态分布信息估算样本均值的标准偏差,可以将用于检验正态分布样本均值是否等于常数的t检验称为Wald检验。但是t检验中的检验统计量具有学生t分布,而Wald检验中的检验统计量渐近具有卡方分布。我想知道如何解释吗? 在单向方差分析中,检验统计量定义为类间差异与类内差异之间的比率。我想知道这是否也是Wald测试?但是单向方差分析中的检验统计量具有F分布,而Wald检验中的检验统计量渐近地具有卡方分布。我想知道如何解释吗? 感谢致敬!

4
贝叶斯无信息先验与惯常主义原假设:是什么关系?
我在这里的博客文章中看到了这张图片。 令我感到失望的是,阅读这份声明并没有像我给这个家伙带来同样的面部表情。 那么,零假设是频繁主义者如何表达无信息先验的陈述意味着什么?是真的吗 编辑:我希望有人可以提供一个慈善的解释,使这个说法正确,即使从某种意义上来说也是这样。

1
韦尔奇测验的自由度是否总是小于合并测验的DF?
我正在教授基础统计课程,我们正在对两个具有不等方差的独立样本进行t检验(韦尔奇检验)。在我看到的示例中,Welch检验使用的调整后的自由度始终小于或等于。 ñ1个+ n2− 2ñ1个+ñ2-2n_1+n_2-2 总是这样吗?韦尔奇检验是否总是降低(或保持不变)合并t检验(等方差)的自由度? 并且在同一主题上,如果样本标准偏差相等,那么Welch检验的DF是否减少为?我看了一下公式,但是代数变得凌乱。ñ1个+ n2− 2ñ1个+ñ2-2n_1+n_2-2

2
为什么在引导假设检验中应在零假设下对数据进行重新采样?
引导程序方法在假设检验中的直接应用是通过对自举样本进行重复计算来估计测试统计信息的置信区间 (将从引导程序采样的统计信息称为)。如果假设参数(通常等于0)位于的置信区间之外,则我们拒绝。θ^θ^\hat{\theta}θ^θ^\hat{\theta}θ∗^θ∗^\hat{\theta^*}H0H0H_0θ0θ0\theta_0θ∗^θ∗^\hat{\theta^*} 我读过,这种方法缺乏力量。在Hall P.和Wilson SR的文章“引导假设检验的两个准则”(1992年)中,它被写为第一条准则,即应该对重新采样,而不是在。这是我不了解的部分。θ∗^- θ^θ∗^-θ^\hat{\theta^*} - \hat{\theta}θ∗^- θ0θ∗^-θ0\hat{\theta^*} - \theta_0 这不就是措施的估计只是偏置?对于无偏估计量,此表达式的置信区间应始终小于,但是我看不到与测试什么关系?我在哪里都看不到我们放置有关。θ∗^- θ^θ∗^-θ^\hat{\theta^*} - \hat{\theta}θ∗^θ∗^\hat{\theta^*}θ∗^- θ0θ∗^-θ0\hat{\theta^*} - \theta_0θ^= θ0θ^=θ0\hat{\theta}=\theta_0θ0θ0\theta_0 对于那些无法访问本文的人,本文引用紧随其后的相关段落: 要理解为什么这很重要,请注意如果在中,测试将涉及拒绝 是“太大”。如果与真实值很远 (即,如果严重错误),则差异 与的非参数引导分布相比,它看起来永远不会太大。比较有意义的是的分布 。事实上,如果真值 ISH0H0H_0∣∣θ^- θ0∣∣|θ^-θ0|\left| \hat{\theta} - \theta_0\right|θ0θ0\theta_0θθ\thetaH0H0H_0∣∣θ^- θ0∣∣|θ^-θ0|\left|\hat{\theta} - \theta_0 \right|∣∣θ^- θ0∣∣|θ^-θ0|\left| \hat{\theta} - \theta_0\right|∣∣θ∗^- θ^∣∣|θ∗^-θ^|\left| \hat{\theta^*} - \hat{\theta}\right|θθ\thetaθ1个θ1个\theta_1那么自举测试的功效将增加为1,原因是增加,前提是测试基于重采样 | ^ θ * - θ | 上,但是电源至多降低至显着性水平(如| …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.