Questions tagged «hypothesis-testing»

假设检验评估数据是否与给定假设不一致,而不是随机波动的影响。

2
卡方拟合优度检验的事后检验
我正在对三个类别进行卡方拟合优度(GOF)测试,并且特别想测试每个类别中的人口比例是否相等(即每个组中的比例为1/3)的零值: 观察到的数据 组1 组2 组3 总计 686 928 1012 2626 因此,对于此GOF测试,预期计数为2626(1/3)= 875.333,该测试得出的p值非常显着<0.0001。 现在,很明显,第1组与第2组和第3组明显不同,第2组和第3组也不大可能明显不同。但是,如果我确实想对所有这些进行正式测试并能够为每种情况提供p值,那么什么是合适的方法? 我在网上搜索了所有内容,似乎有不同的意见,但没有正式的文档。我想知道是否有文本或经过同行评审的论文可以解决这个问题。 对于我来说,似乎很合理的方法是,根据显着的总体检验,对每对比例的差异进行z检验,并可能对值进行校正(例如,可能是Bonferroni)。αα\alpha

2
测试IID采样
您将如何测试或检查采样是否为IID(独立且完全相同)?请注意,我不是指高斯和完全分布式,而只是IID。 我想到的想法是,将样本重复分成相等大小的两个子样本,执行Kolmogorov-Smirnov检验,并检查p值的分布是否均匀。 欢迎对该方法发表任何评论,并提出任何建议。 开始赏金后的澄清: 我正在寻找可用于非时间序列数据的常规测试。

1
基础科学中的顺序假设检验
我是一名药理学家,以我的经验,几乎所有基础生物医学研究论文都使用Student's t检验(以支持推理或符合期望...)。几年前,引起我注意的是,学生t检验不是可以使用的最高效的检验:顺序检验可为任何样本量提供更大的功效,或者平均等效功效的样本量要小得多。 在临床研究中使用了复杂程度不同的顺序程序,但我从未见过在基本的生物医学研究出版物中使用过这种程序。我注意到,入门级的统计教科书也没有这些内容,大多数基础科学家都可能会看到。 我的问题有三点: 鉴于顺序测试具有非常重要的效率优势,为什么没有更广泛地使用它们? 序贯方法的使用是否有缺点,这意味着不鼓励非统计学家使用序贯方法? 是否向统计专业的学生教授顺序测试程序?


1
lmer模型使用哪种多重比较方法:lsmeans或glht?
我正在使用具有一个固定效果(条件)和两个随机效果(由于主题设计和配对而导致的参与者)的混合效果模型分析数据集。该模型是使用lme4包生成的exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 接下来,我针对没有固定效果(条件)的模型对该模型进行了似然比检验,结果有显着差异。我的数据集中有3个条件,因此我想进行多重比较,但不确定使用哪种方法。我在CrossValidated和其他论坛上发现了许多类似的问题,但我仍然很困惑。 据我所见,人们建议使用 1.该lsmeans包- lsmeans(exp.model,pairwise~condition)这给了我下面的输出: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …


3
使用glm()代替简单的卡方检验
我有兴趣更改glm()R中使用的原假设。 例如: x = rbinom(100, 1, .7) summary(glm(x ~ 1, family = "binomial")) 检验的假设p = 0.5p=0.5p = 0.5。如果我想将null更改为ppp =某个任意值,该glm()怎么办? 我知道也可以使用prop.test()和来完成此操作chisq.test(),但是我想探讨一下使用glm()来测试与分类数据有关的所有假设的想法。

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
贝叶斯假设检验在推理和决策理论的框架中意味着什么?
我的背景主要是机器学习,我试图学习贝叶斯假设检验的含义。我对概率的贝叶斯解释表示满意,并且在概率图形模型的背景下我对此很熟悉。但是,令我感到困惑的是在统计推断的背景下“假设”一词的含义。 我想我对机器学习所使用的词汇与统计和推理中通常使用的词汇感到困惑。 在监督学习的背景下,我通常认为该假设是将示例映射到其标签即的预测功能H:X→ Yh:X→ÿh:\mathcal{X} \rightarrow \mathcal{Y}。但是,在我看来,假设在我所做的阅读中并不具有相同的含义。让我粘贴我正在阅读的阅读摘要: 如果仔细阅读,它还会显示: 观察到的数据有不同的模型... 他们使用单词模型吗?对我而言,单词模型让我想到了一组功能,如果我们选择特定的预测功能。即功能的假设类别。例如,可以是二次函数的假设类(2级多项式)。但是,在我看来,他们在此摘录中使用单词模型和假设作为同义词(在我看来,它们是完全不同的单词)。Hd2Hd2\mathcal{H_{d2}} 然后继续提到我们可以对假设进行先验(在贝叶斯环境中要做的完全合理的事情): pH(高米),米= { 0 ,1 ,。。。,M− 1 }pH(H米), 米={0,1,。。。,中号-1}p_H(H_m), \ \ \ \ \ m=\{0, 1, ..., M-1 \} 我们也可以用当前的假设来表征数据: pÿ| H(⋅ | H米),米= { 0 ,1 ,。。。,M − 1 }pÿ|H(⋅|H米), 米={0,1,。。。,中号-1}p_{y|H}( \cdot |H_m), \ \ \ \ \ m=\{0, 1, …

1
我应该对高度偏斜的数据使用t检验吗?请科学证明吗?
我有一个高度偏斜的(看起来像指数分布)数据集有关用户参与的样本(例如,帖子数),样本大小不同(但不少于200个),我想比较它们的平均值。为此,我使用了两个样本的不成对t检验(以及当样本具有不同的方差时,使用带有Welch因子的t检验)。据我所知,对于非常大的样本,样本不是正态分布的都没关系。 有人回顾了我所做的事情后说,我使用的测试不适合我的数据。他们建议在使用t检验之前对样本进行对数转换。 我是一个初学者,因此使用“参与度指标的对数”回答我的研究问题确实让我感到困惑。 他们错了吗?我错了吗?如果它们是错误的,是否有我可以引用/展示的书籍或科学论文?如果我错了,应该使用哪个测试?

1
进行单尾Kolmogorov-Smirnov测试是否有意义?
进行单尾KS测试是否有意义并且可行?这样的检验的原假设是什么?还是KS测试天生就是两尾测试? 我将从一个有助于理解D分布的答案中受益(我正在研究Massey于1951年发表的论文,并发现描述具有挑战性,例如和是差异的最小和最小) CDF的差异的非绝对值是多少?)。 d -d+D+D^{+}d-D−D^{-} 跟进问题:如何获得和?我遇到的许多出版物都是表值,而不是,和 CDF 。D + D − D n D + D −pppd+D+D^{+}d-D−D^{-}dñDnD_{n}d+D+D^{+}d-D−D^{-} 更新:我刚刚发现了相关的问题单边Kolmogorov-Smirnov检验中的原假设是什么?,在撰写此文章之前,我在初次扫描时就错过了。

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

3
Neyman-Pearson引理能适用于简单的null和Alternative不属于同一分布族的情况吗?
当简单的null和简单的替代项不属于同一分布族时,是否可以适用Neyman-Pearson引理?从它的证明,我不明白为什么不能。 例如,当简单null为正态分布而简单替代为指数分布时。 当两者都属于不同的分布族时,似然比检验是否是对复合零值进行测试的好方法? 谢谢并恭祝安康!

1
随机检验和置换检验之间的区别
在文献中,术语“随机化”和“置换”可互换使用。许多作者都说“置换(aka随机化)测试”,反之亦然。 充其量我相信差异是微妙的,这取决于他们对数据的假设以及可以得出的结论。我只需要检查我的理解是否正确,或者我是否缺少更深的区别。 排列检验假设数据是从基础总体分布(总体模型)中随机抽取的。这意味着从置换检验得出的结论通常适用于来自总体的其他数据[3]。 随机化检验(随机化模型)“使我们能够放弃典型心理学研究的令人难以置信的假设-从指定分布中随机抽样” [2]。但是,这意味着得出的结论仅适用于测试中使用的样品[3]。 当然,区别仅在于人口的定义。如果我们将人群定义为“所有患有疾病且适合治疗的患者”,则排列检验对该人群有效。但是,由于我们将人群限制在适合治疗的人群中,因此它实际上是一项随机检验。 参考文献: [1] Philip Good,置换检验:关于检验假设的重采样方法的实用指南。 [2] Eugene Edgington和Patric Onghena,随机检验。 [3] Michael Ernst,置换方法:精确推断的基础

4
测试时间序列在统计上的显着差异?
我有两个证券A和B在相同时间段内以相同频率采样的时间序列。我想测试两个价格之间在时间上是否存在统计上的显着差异(我的零假设是差异为零)。具体来说,我使用价格差异作为市场效率的代理。想象一下,A和B是有价证券及其综合等价物(即,两者都声称拥有完全相同的现金流量)。如果市场有效,则两者的价格应完全相同(除非交易成本不同,等等),或者价格差为零。这就是我要测试的。最好的方法是什么? 我可能已经在“差异”时间序列(即AB时间序列)上直观地进行了双向t检验,并测试了 = 0。但是,我怀疑可能会有更强大的测试,其中考虑了潜在的同方差或异常值。总的来说,使用证券价格时需要注意什么?μ0μ0\mu_0

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.