Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。


1
低差异序列中的加扰和相关(Halton / Sobol)
我目前正在一个项目中,在其中使用低差异/准随机点集(例如Halton和Sobol点集)生成随机值。这些本质上是维向量,它们模仿d维均匀(0,1)变量,但分布较好。从理论上讲,它们应该有助于减少项目另一部分中我的估算值的差异。dddddd 不幸的是,我一直在与他们合作时遇到问题,关于它们的许多文献都很密集。因此,我希望从有经验的人那里获得一些见识,或者至少想出一种凭经验评估发生了什么的方法: 如果您曾与他们合作: 到底是什么?它对生成的点流有什么影响?特别是,当生成的点的尺寸增加时,会产生影响吗? 为什么如果我通过MatousekAffineOwen加扰生成两个Sobol点流,则会得到两个不同的点流。当我对Halton点使用反基数加扰时,为什么不是这种情况?这些点集是否还存在其他加扰方法-如果是,是否有MATLAB实现? 如果您尚未与他们合作: 假设我有个假设为随机数的序列S 1,S 2,... ,S n,那么我应该使用哪种类型的统计数据来表明它们之间没有关联?我需要证明什么n才是统计上有意义的?另外,我怎么会做同样的事情,如果我有ň序列小号1,s ^ 2,... ,小号ñ的d维随机[ 0 ,1 ]的载体?nnnS1,S2,…,SnS1,S2,…,SnS_1, S_2, \ldots,S_nnnnnnnS1,S2,…,SnS1,S2,…,SnS_1, S_2, \ldots,S_nddd[0,1][0,1][0,1] 红衣主教回答的后续问题 从理论上讲,我们可以将任何加扰方法与任何低差异序列配对吗?MATLAB只允许我对Halton序列应用反基数加扰,并且想知道这仅仅是实现问题还是兼容性问题。 我正在寻找一种方法,使我可以生成彼此不相关的两个(t,m,s)网。MatouseAffineOwen可以允许我这样做吗?如果我使用确定性加扰算法并简单地决定选择每个以k为质数的'kth'值,该怎么办?

3
帮助您选择适当的分析技术和测试的流程图
作为需要统计知识但不是经过正式培训的统计学家的人,我发现有一个流程图(或某种决策树)来帮助我选择解决特定问题的正确方法(例如,“需要这个并且知道那个并且认为数据是正态分布的吗?使用技术X。如果数据不是正态,则使用Y或Z“。 经过一番谷歌搜索后,我看到了几次尝试,尝试了各种覆盖范围和质量(目前尚不可用)。在图书馆查阅的统计教科书中,我也看到了类似的流程图。 奖励是一个交互式站点,除了仅提供图表之外,它还将提供额外的信息(例如假设),并指出如何在流行的统计数据包中执行这些技术。“需要在R中进行ANOVA吗?您需要软件包X,这是一个教程”。 我作为社区Wiki问题问,希望有更好的资源我找不到。由于统计是一个很大的主题,我认为这样的流程图将适合具有初学者或中级水平知识的人可以采用的技术。任何更复杂的事情都需要经过正规培训的人员。

3
费舍尔这句话是什么意思?
我到处都看到这个名言,但每次都无法理解重点。 一个人暂时拒绝假设的情况,作为惯常做法,当重要性达到1%或更高水平时,肯定会被误以为不超过1%的此类决定。因为当假设正确时,他只会在这些情况的1%中被误解,而当假设错误时,他在误解中永远不会被误解。[...]但是,这种计算是荒谬的学术研究,因为实际上没有科学工作者每年都有固定的意义水平,在任何情况下,他都拒绝假设。他宁愿根据自己的证据和想法对每一个具体案件都下定决心。不应忘记,为进行测试而选择的案例显然是一个高度选择的案例,并且即使对于一个工人也无法指定选择条件;同样,在所使用的论点中选择一个特定的审判所表明的实际重要性水平显然是不合法的,就好像使用这一水平是他一生的习惯。 (统计方法和科学推断,1956年,第42-45页) 更具体地说,我不明白 为什么选择用于“高度选择”测试的案例?假设您想知道一个区域内人员的平均身高是否小于165厘米,然后决定进行测试。据我所知,标准程序是从该区域抽取随机样本并测量其高度。如何高度选择? 假设案例是经过高度选择的,但是这与重要性级别的选择有什么关系?再次考虑上面的例子,如果您的抽样方法(我认为是费舍尔所说的选择条件)是歪斜的,并且以某种方式偏爱高个子,那么整个研究就会毁了,而对显着性水平的主观确定无法挽救它。 实际上,我什至不知道什么是“特定试验所表明的实际重要性水平”。它是该实验的值,还是一些著名的预设值(如著名的0.05),还是其他?ppp


2
Benjamini-Hochberg调整后的p值的公式是什么?
我了解该程序及其控制的内容。那么在BH程序中用于多次比较的调整后的p值的公式是什么? 刚才我意识到原始的BH不会产生调整后的p值,只是调整了(非)拒绝条件:https : //www.jstor.org/stable/2346101。无论如何,戈登·史密斯(Gordon Smyth)还是在2002年引入了调整后的BH p值,因此该问题仍然适用。p.adjust与method 一样在R中实现BH。

1
R中的wilcox.test和coin :: wilcox_test有什么区别?
R中存在这两个函数,但我不知道它们之间的区别。似乎当wilcox.test使用时correct=FALSE,和wilcox_test(在硬币包装中)使用时,它们仅返回相同的p值distribution="aymptotic"。对于其他值,它们返回不同的p值。而且wilcox.test始终为我的数据集返回W = 0,而与参数的设置无关: x = c(1, 1, 1, 3, 3, 3, 3) 和 y = c(4, 4, 6, 7, 7, 8, 10) 另外,当我尝试使用除R以外的其他工具(一些可在线使用,其他作为Excel附加组件)时,有时它们报告的p值不同。 那么我怎么知道哪个工具给出了“正确的” p值呢? 是否存在“正确的” p值,或者如果一些工具给出的p值<0.05,我应该感到高兴吗?(有时这些工具没有提供像R这样的众多参数化可能性。) 我在这里想念什么?


5
为什么我们需要替代假设?
当我们进行测试时,我们最终会得到两个结果。 1)我们拒绝零假设 2)我们不能拒绝零假设。 我们不会谈论接受替代假设。如果我们不谈论接受替代假设,为什么我们根本需要替代假设? 这是更新: 有人可以给我两个例子: 1)拒绝原假设等于接受替代假设 2)拒绝原假设不等于接受替代假设

1
单边置信区间能否覆盖95%
我想知道给定a (-尾)的alpha水平的假设.05,我们能否谈论95%的 置信区间? 例如,我们可以为单面Z或t检验分别构造“单面”和“两面”置信区间吗?给定单边检验,每个置信区间的“解释”是什么? 我对此有些困惑吗?

2
变量选择的方法相互冲突:AIC,p值或两者?
据我了解,基于p值的变量选择(至少在回归上下文中)存在很大缺陷。出于相似的原因,基于AIC(或类似方法)的变量选择似乎也被认为存在缺陷,尽管这似乎还不清楚(例如,请参见我的问题和有关此主题的一些链接:“逐步模型选择”到底是什么?)。 但是说您确实选择了这两种方法之一来选择模型中的最佳预测变量集。 Burnham and Anderson 2002(模型选择和多模型推断:一种实用的信息理论方法,第83页)指出,不应将基于AIC的变量选择与基于假设检验的变量选择混合:“对原假设和信息理论方法的检验应不能一起使用;它们是非常不同的分析范例。” 另一方面,Zuur等。2009年(《具有生态学扩展的混合效应模型,R》第541页)似乎主张使用AIC首先找到最佳模型,然后使用假设检验执行“微调”:“缺点是AIC可能比较保守。 ,一旦AIC选择了最佳模型,您可能需要进行一些微调(使用从方法一获得的假设检验)。” 您会看到这如何使两本书的读者对采用哪种方法感到困惑。 1)这些只是统计思维的不同“阵营”和统计学家之间的分歧话题吗?这些方法之一现在是否只是简单地“过时”,但在撰写本文时被认为适当?还是从一开始就是一个明显的错误? 2)在这种情况下是否适合使用这种方法?例如,我来自生物学背景,我经常试图确定哪些变量似乎影响或推动了我的反应。我经常有很多候选的解释变量,我试图找出哪些是“重要的”(相对而言)。另外,请注意,候选预测变量的集合已经减少到被认为具有某些生物学相关性的变量,但是它可能仍然包括5-20个候选预测变量。

7
将结果称为“接近”或“某种”有意义是错误的吗?
关于类似问题的普遍共识是:将结果称为“高度重要”是错误的吗?“高度显着”是一种有效的(尽管不是特定的)方式,用于描述p值远低于预设的显着性阈值的关联强度。但是,如何描述稍微高于阈值的p 值呢?我已经看到一些论文使用诸如“有些重要”,“几乎重要”,“接近重要性”之类的术语。我发现这些术语有些不切实际,在某些情况下,这是一种界限分明的卑鄙的方式,可以从有意义的结果中排除有意义的结果。这些术语可以用来描述“仅仅错过”您的p值临界值的结果吗?

1
如何测试分配是否遵循幂定律?
我有关于多少用户发布多少问题的数据。例如, [UserCount, QuestionCount] [2, 100] [9, 10] [3, 80] ... ... 这意味着2个用户每个发布了100个问题,9个用户每个发布了10个问题,依此类推。那么,如何确定UserCount, QuestionCount分布是否遵循幂律? 我找到了poweRlaw软件包。但是,我只能传递一组数字来进行评估。(此软件包中提供的示例是单词频率。)那么,如何使用此软件包?还是我有什么问题?我也有每个用户的问题计数的数据,即[100, 100, 10, 10, 10 ... ]。如果我将此数据传递给程序包,我将得到什么?


1
在相同数据上,ANOVA检验的值与多个检验的值相比可以小多少?
简介:注意到今天这个问题引起了人们的注意: “ 当成对t检验都不存在时,方差分析会很重要吗? ”,我认为我可能能够以一种有趣的方式对其进行重新构架,以得到自己的答案。 。 当将统计显着性理解为简单的二分法,并仅根据ppp或\ alpha的较高值来判断时,可能会出现各种不一致的结果(以面值计)αα\alpha。@Glen_b 对上述问题的回答提供了以下情况的有用示例: ANOVA FFF检验为具有四个水平的一个自变量(IV)产生pF&lt;.05pF&lt;.05p_F<.05,但是 pt&gt;.08pt&gt;.08p_t>.08对于所有两个样本ttt检验,p_t&gt; .08,用于比较与IV的每对四个水平对应的观测值之间相同因变量(DV)的差异。 尽管通过这个问题进行了事后成对比较的Bonferroni校正,但发生了类似的情况:Anova重复测量很重要,但是使用Bonferroni校正的所有多重比较都不是吗?前面提到的情况在多元回归中的检验也略有不同: 为什么有可能获得显着的F统计量(p &lt;.001)但无显着的回归t检验?:pF&lt;.001,pβt&gt;.09pF&lt;.001,pβt&gt;.09p_F<.001,p_{\beta t}>.09 回归如何显着但所有预测变量都不显着? 在@whuber的答案中,pF=.0003,pβt&gt;.09pF=.0003,pβt&gt;.09p_F=.0003,p_{\beta t}>.09 我打赌,在这样的情况下,一些(但不是全部)成对比较(或回归系数显着性检验)值必须相当接近如果相应综合测试可以实现。我看到@Glen_b的第一个示例就是这种情况,其中,,最大的成对差给出最小的。一般情况下必须这样吗?更具体地说:α p &lt; α pppαα\alphap&lt;αp&lt;αp <\alphap ˚F = 0.046 p 吨 = 0.054F(3,20)=3.19F(3,20)=3.19F_{(3,20)}=3.19pF=.046pF=.046p_F=.046pt=.054pt=.054p_t=.054 问题:如果ANOVA检验对连续DV的一个多静脉IV的影响产生,那么在比较每对IV水平的所有两个样本检验中,最低的值有多高?最小成对意义是否可以高达?p F = .05 p t p t = .50FFFpF=.05pF=.05p_F=.05ppptttpt=.50pt=.50p_t=.50 我欢迎仅解决此特定问题的答案。但是,为了进一步激发这个问题,我将详细阐述并提出一些潜在的反问。欢迎您也解决这些问题,甚至在您愿意时也可以忽略特定的问题,尤其是在特定问题得到明确答案的情况下。 重要性:考虑一下,如果用连续的无效假设证据的强度来判断统计显着性,那么和之间的差异的重要性降低了多少(我认为是罗恩·费舍尔的方法?),而不是用高于或低于阈值的二分法来表示在选择是否拒绝零批发时可接受的错误概率。“ hacking ”是一个已知的问题,部分原因是由于对的解释而引入了不必要的漏洞,因此臭名昭著p t = .06pF=.04pF=.04p_F=.04pt=.06pt=.06p_t=.06p p …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.