Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

3
根据另一个结果(例如正态性)选择统计检验
因此,我听说它说,根据另一个统计检验的结果选择一个统计检验不是一个好主意。这对我来说似乎很奇怪。例如,当其他一些测试表明残差不是正态分布时,人们经常选择使用非参数测试。这种方法似乎已被广泛接受,但似乎与本段的第一句话不一致。我只是希望对这个问题进行澄清。



2
如何测试数据样本是否符合伽玛分布族?
我有一个从连续随机变量X生成的数据样本。从我使用R绘制的直方图中,我想也许X的分布服从一定的Gamma分布。但是我不知道这种伽马分布的确切参数。 我的问题是如何测试X的分布是否属于Gamma分布族?拟合检验有一些好处,例如Kolmogorov-Smirnov检验,Anderson-Darling检验等,但是使用这些检验的限制之一是应事先知道理论分布的参数。谁能告诉我如何解决这个问题?

2
使用统计显着性检验验证聚类分析结果
我正在调查使用统计显着性检验(SST)来验证聚类分析的结果。我发现了有关该主题的几篇论文,例如 “ 对于高维,低样本量数据聚类的统计显着性科幻通过” 刘,玉峰等人。(2008年) Bock(1985)的 “ 关于聚类分析中的一些显着性检验 ” 但是我有兴趣找到一些争论说SST 不适合验证聚类分析结果的文献。我发现声称它的唯一来源是软件供应商的网页 澄清: 我对测试是否因聚类分析而发现了重要的聚类结构感兴趣,因此,我想了解支持或驳斥“关于事后测试探索性数据结果的可能性”的论文。用来寻找聚类的分析”。 我刚刚发现了Milligan和Hirtle于2003年发表的一篇论文《聚类和分类方法》,该论文说,例如,使用ANOVA将是无效的分析,因为数据没有对组进行随机分配。

1
Spearman相关系数差异的显着性检验
(非常感谢您的快速回复!我在提出问题方面做得很差,所以让我重试。) 我不知道如何找出两个Spearman相关系数之间的差异是否在统计上显着。我想知道如何找到它。 我想发现的原因是在以下论文中:Gabrilovich和Markovitch 撰写的基于Wikipedia的自然语言处理语义解释(《人工智能研究杂志》 34(2009)443-498)。 在表2(p。457)中,作者表明他们的方法(ESA-Wikipedia)比其他方法具有更高的统计学上显着的Spearman相关性,并且我想这样做也是为了证明我的方法比以前的方法更好一些问题的方法。 我不知道他们如何计算统计显着性,我想知道。该论文的作者确实指出,Spearman的等级相关被视为Pearson的相关。我不确定这是否是正确的方法。我有两个Spearman的相关性,我想知道它们之间的差异是否在统计上显着。 我知道网站(例如http://faculty.vassar.edu/lowry/rdiff.html)提供了在线计算器,用于获取两个Pearson相关性之间的差异。对于两个Spearman相关系数之间的差异,我找不到类似的在线计算器。 Peter Flom提供的链接中的解决方案 注意:这些过程仅支持Spearman的相关性低于0.6。 令 =观察到的集合相关性的Fisher变换, z_B =观察到的集合B的相关性的Fisher变换。zAzAz_AAAAzBzBz_BBBB 对于,让,其中是费希尔转换集的所述的一左通过删除 ,重新排序并重新计算相关性获得的相关性。(每个 基于对;每个删除都是临时的,仅对于i而言,不是永久的。)对集合重复。i=1,…,ni=1,…,ni = 1,\dots,nyAi=nzA−(n−1)zA′iyAi=nzA−(n−1)zA′iy_{A_i} = nz_A- (n - 1)z_{A'i}zA′izA′iz_{A'i}AAA(xi,yi)(xi,yi)(x_i,y_i)zA′izA′iz_{A'i}n−1n−1n-1BBB y¯A=∑yAi/ny¯A=∑yAi/n\bar y_A = \sum y_{A_i}/n是已知的Fisher变换。重复集。BBB vy¯A=∑(yAi−y¯A)2/(n(n−1))vy¯A=∑(yAi−y¯A)2/(n(n−1))v_{\bar y_A} = \sum (y_{A_i}-\bar y_A)^2 /(n(n-1))是的方差。重复集。y¯Ay¯A\bar y_ABBB 使用异方差(Welch-Satterthwaite)检验比较两个粗略估计:ttt nAnBABt=y¯A−y¯Bvy¯A+vy¯B−−−−−−−−√,df=(vy¯A+vy¯B)2v2y¯AnA−1+v2y¯BnB−1t=y¯A−y¯Bvy¯A+vy¯B,df=(vy¯A+vy¯B)2vy¯A2nA−1+vy¯B2nB−1 t = \frac{\bar y_A - \bar y_B}{\sqrt{v_{\bar y_A} + v_{\bar …

5
卡方可以用来比较比例吗?
我已经读过,卡方检验对于查看样本是否与一组预期值显着不同很有用。 例如,这是有关人们最喜欢的颜色的调查结果表(总共n = 15 + 13 + 10 + 17 + 55 = 55): red,blue,green,yellow 15,13,10,17 卡方检验可以告诉我该样本是否与人们喜欢每种颜色的概率相同的零假设显着不同。 问题:可以对喜欢某种颜色的总受访者的比例进行测试吗?如下所示: red,blue,green,yellow 0.273,0.236,0.182,0.309 当然,这里0.273 + 0.236 + 0.182 + 0.309 = 1。 如果在这种情况下不适合使用卡方检验,那将是什么检验?谢谢! 编辑:我在下面尝试了@RomanLuštrik的答案,并得到以下输出,为什么我没有得到p值,为什么R说“卡方近似可能不正确”? > chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0)) Chi-squared test for given probabilities data: c(0, 0, 0, 8, 6, 2, 0, 0) X-squared …

1
套索的LARS与坐标下降
使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点? 我主要对性能方面感兴趣(我的问题往往有N成千上万且p小于20。)但是,任何其他见解也将受到赞赏。 编辑:自从我发布问题以来,chl亲切地指出了Friedman等人的论文[2],其中坐标下降比其他方法快得多。如果是这样,作为执业医生,我是否应该忘掉LARS来支持协调下降? [1]埃弗隆·布拉德利;海蒂·特雷弗;约翰·斯通,伊恩和蒂布希拉尼·罗伯特(2004)。“最小角度回归”。统计年鉴32(2):第407-499页。 [2] Jerome H. Friedman,Trevor Hastie,Rob Tibshirani,“通过坐标下降的广义线性模型的正则化路径”,《统计软件》,第1卷。33,第1期,2010年2月。


1
测试两个独立样本是否存在相同的偏斜?
哪些检验可用于检验两个独立样本的零假设,即它们来自具有相同偏斜的总体?有一个经典的1样本测试来检查偏斜是否等于一个固定数字(该测试涉及第6个采样矩!);有2个样本测试的直接翻译吗? 是否存在不涉及大量数据的技术?(我期待以'bootstrap it'的形式回答:已知Bootstrap技术适合于此问题吗?)

1
GBM软件包与使用GBM的插入符
我一直在使用进行模型调整caret,但随后使用该gbm软件包重新运行模型。据我了解,caret程序包使用gbm的输出应相同。然而,data(iris)使用RMSE和R ^ 2作为评估指标,使用进行的快速测试显示模型中的差异约为5%。我想使用来找到最佳模型性能,caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。 我的问题是: 1)为什么即使这两个软件包应该相同,我仍会看到这两个软件包之间的差异(我知道它们是随机的,但5%的差异还是很大的,尤其是当我没有使用iris建模时使用的很好的数据集时) 。 2)同时使用这两个软件包有什么优点或缺点? 3)不相关:使用iris数据集时,最佳interaction.depth值为5,但高于我所阅读的最大值,使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活? library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

2
没有UMP时如何定义拒绝区域?
考虑线性回归模型 y=Xβ+uy=Xβ+u\mathbf{y}=\mathbf{X\beta}+\mathbf{u}, u∼N(0,σ2I)u∼N(0,σ2I)\mathbf{u}\sim N(\mathbf{0},\sigma^2\mathbf{I}), E(u∣X)=0E(u∣X)=0E(\mathbf{u}\mid\mathbf{X})=\mathbf{0}。 设与。ħ 1:σ 2 0 ≠ σ 2H0:σ20=σ2H0:σ02=σ2H_0: \sigma_0^2=\sigma^2H1:σ20≠σ2H1:σ02≠σ2H_1: \sigma_0^2\neq\sigma^2 我们可以推导出,其中。并且是灭者矩阵的典型表示法,其中是因变量在上回归了。ð我中号(X)=Ñ×ķ中号X中号XŶ= ÿ ÿ ÿXyTMXyσ2∼χ2(n−k)yTMXyσ2∼χ2(n−k)\frac{\mathbf{y}^T\mathbf{M_X}\mathbf{y}}{\sigma^2}\sim \chi^2(n-k)dim(X)=n×kdim(X)=n×kdim(\mathbf{X})=n\times kMXMX\mathbf{M_X}MXy=y^MXy=y^\mathbf{M_X}\mathbf{y}=\hat{\mathbf{y}}y^y^ \hat{\mathbf{y}}yy\mathbf{y}XX\mathbf{X} 我正在阅读的书指出: 之前,我曾问过应该使用什么标准来定义拒绝区域(RR),请参阅此问题的答案,主要的是选择使测试尽可能强大的RR。 在这种情况下,备选方案是双边复合假设,通常不需要UMP检验。而且,根据书中给出的答案,作者没有显示他们是否研究了RR的功能。尽管如此,他们还是选择了两尾RR。为什么会这样,因为该假设没有“单方面”确定RR? 编辑:此图像作为练习4.14的解决方案,在本书的解决方案手册中。

2
您观察到n次投掷k个头。硬币公平吗?
在一次采访中我被问到。有没有“正确”的答案?(n,k)=(400,220)(n,k)=(400,220)(n, k) = (400, 220) 假设抛掷是同性的,正面的概率为。那么,在400次抛掷中头部的分布应该接近于法线(200,10 ^ 2),这样220头部的平均值就会偏离平均值2个标准差。观察到这种结果的可能性(即,在任一方向上均距平均值多2个SD)略小于5%。p=0.5p=0.5p=0.5 面试官告诉我,基本上,“如果我观察到均值> = 2 SD,就会得出结论,其他事情还在继续。我敢打赌这枚硬币是公平的。” 这是合理的-毕竟,这就是大多数假设检验所做的。但这就是故事的结局吗?对于面试官来说,这似乎是“正确”的答案。我要问的是,有些细微差别是否合理。 我忍不住指出,在这种抛硬币的情况下,判定硬币不公平是一个奇怪的结论。我说对吗?我会在下面解释。 首先,我-我也会假设大多数人-对硬币有很深的了解:它们很可能是公平的。当然,这取决于我们所说的公平-一种可能性是将“公平”定义为“具有接近0.5(例如介于0.49和0.51之间)的可能性”。 (你也可以定义“公平”为指的正面的概率正好是0.50,在这种情况下,有一个完全公平的硬币现在似乎相当取消可能。) 您的先验可能不仅取决于您对硬币的一般看法,还取决于上下文。如果您从自己的口袋里掏出硬币,那么您几乎可以肯定这是公平的。如果您的魔术师朋友从他的钱包中拿出硬币,那么您以前的朋友可能会加大双头硬币的重量。 无论如何,要想出一个合理的先验就很容易了:(i)使硬币很可能是公平的;(ii)即使观察了220个头,也使后验非常相似。然后,您会得出结论,尽管观察到结果均值2 SD,但该代币很可能是公平的。 实际上,您还可以构建一些示例,其中在400次抛掷中观察220个头,这会使您的后方对硬币保持更大的重量,例如,如果所有不公平的硬币的正面概率都为。{0,1}{0,1}\{0, 1\} 谁能为我阐明一下? 在写完这个问题之后,我想起了我以前听说过这种大局的情况,这不是林德利的“悖论”吗? Whuber在评论中加入了一个非常有趣的链接:您可以装模,但不能偏向硬币。从第3页: 不能说硬币的正面概率为p,因为硬币可以完全由抛掷的方式确定,除非将硬币抛向空中并快速旋转并抛向空中。无弹跳,在这种情况下,p = 1/2。 太酷了!这以一种有趣的方式与我的问题联系在一起:假设我们知道硬币被“迅速旋转抛向空中,并被弹跳而没有跳动”。那么我们绝对不应该拒绝硬币是公平的假设(这里的“公平”现在意味着“以上述方式抛硬币时,p = 1/2”),因为我们有效地拥有了将所有概率置于硬币是公平的。也许在某种程度上可以证明为什么在观察到220个头之后我不愿意拒绝null。

4
当两个样本的均值显着不同但差异似乎很小时该怎么办
我有两个样本(在两种情况下)。平均值相差大约是标准池的两倍。开发。得到的T值大约为10。虽然很高兴知道我已经得出结论说,均值不相同,但在我看来,这是由大n决定的。查看数据的直方图,我当然不认为像p值这样的小值确实可以代表数据,并且老实说,引用它并不太舒服。我可能在问错问题。我在想的是:好的,方法是不同的,但这真的很重要,因为分布共享大量重叠吗?ñ ≈ 70n≈70n \approx 70ŤTT 贝叶斯测试在这里有用吗?如果是这样,那么从哪里开始是个好地方,那么使用谷歌搜索并没有产生任何有用的东西,但是我可能没有问正确的问题。如果这是错误的事情,那么有人有什么建议吗?还是与定量分析相反,这仅仅是讨论的重点吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.