Questions tagged «t-test»

一种将两个样本的平均值或一个样本的平均值(甚至参数估计值)与指定值进行比较的测试;发明人的笔名也称为“学生t检验”。

4
可靠的均值t检验
我正在尝试针对随机变量(针对该变量的轻度到中度偏斜和峰度),针对局部替代测试零。遵循Wilcox在“稳健估计和假设检验简介”中的建议之后,我基于修整后的均值,中位数以及位置的M估计值(Wilcox的“一步”过程)对测试进行了研究。在使用非偏斜但具有正态分布的分布进行测试时,就功率而言,这些强大的测试确实优于标准t检验。E[X]=0E[X]=0E[X] = 0E[X]>0E[X]>0E[X] > 0XXX 但是,当使用偏斜的分布进行检验时,根据原假设,这些单面检验要么过于宽松,要么过于保守,这分别取决于该分布是左偏斜还是右偏斜。例如,对于1000个观察值,基于中位数的测试实际上将拒绝〜40%的时间,即名义5%的水平。原因很明显:对于偏斜的分布,中位数和均值是完全不同的。但是,在我的应用程序中,我确实需要测试均值,而不是中位数,而不是修整后的均值。 是否有t检验的更强大版本可以实际测试均值,但不能偏斜和峰度? 理想情况下,该程序在无偏斜,高峰度的情况下也能很好地工作。“单步”测试几乎足够好,“弯曲”参数设置得较高,但是在没有偏斜的情况下,它不如经过修剪的均值测试强大,并且在保持偏斜下的废品标称水平方面有些麻烦。 背景:我真正关心平均值而不是平均值的原因是,该测试将用于金融应用程序。例如,如果您想测试某个投资组合是否具有正的预期对数回报,则该平均值实际上是适当的,因为如果您投资该投资组合,您将体验到所有的回报(这是平均值乘以样本数),而不是中位数的重复项。也就是说,我真的很在乎RV的和。nnnnnnXXX

2
了解线性回归的t检验
我正在尝试找出如何对线性回归执行一些假设检验(零假设没有相关性)。我遇到的每个指南和关于该主题的页面似乎都在使用t检验。但是我不明白线性回归的t检验实际上意味着什么。除非我有完全错误的理解或心理模型,否则将使用t检验比较两个人群。但是,回归变量和回归变量不是相似总体的样本,甚至可能不是同一单位,因此比较它们是没有意义的。 那么,在线性回归上使用t检验时,我们实际上在做什么呢?

3
Logistic回归还是T检验?
一群人回答一个问题。答案可以是“是”或“否”。研究人员想知道年龄是否与答案的类型有关。 通过进行逻辑回归来评估该关联,其中年龄是解释变量,答案类型(是,否)是因变量。通过计算分别回答“是”和“否”的组的平均年龄,并通过进行T检验以比较均值来分别解决。 两种测试都是在不同的人的建议下进行的,但他们都不确定哪种方法是正确的。鉴于研究问题,哪种测试更好? 对于假设检验,p值不显着(回归)和显着(T检验)。样本少于20例。

8
未配对t检验的最小样本量
是否有“规则”来确定t检验有效所需的最小样本量? 例如,需要在两个总体的均值之间进行比较。一个种群中有7个数据点,而另一种群中只有2个数据点。不幸的是,该实验非常昂贵且耗时,并且获取更多数据是不可行的。 可以使用t检验吗?为什么或者为什么不?请提供详细信息(人口方差和分布未知)。如果不能使用t检验,可以使用非参数检验(Mann Whitney)吗?为什么或者为什么不?

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
我应该对高度偏斜的数据使用t检验吗?请科学证明吗?
我有一个高度偏斜的(看起来像指数分布)数据集有关用户参与的样本(例如,帖子数),样本大小不同(但不少于200个),我想比较它们的平均值。为此,我使用了两个样本的不成对t检验(以及当样本具有不同的方差时,使用带有Welch因子的t检验)。据我所知,对于非常大的样本,样本不是正态分布的都没关系。 有人回顾了我所做的事情后说,我使用的测试不适合我的数据。他们建议在使用t检验之前对样本进行对数转换。 我是一个初学者,因此使用“参与度指标的对数”回答我的研究问题确实让我感到困惑。 他们错了吗?我错了吗?如果它们是错误的,是否有我可以引用/展示的书籍或科学论文?如果我错了,应该使用哪个测试?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 


2
方差不等的t检验中非整数自由度的解释
SPSS t检验程序在比较2个独立均值时报告2次分析,其中1次假设均等方差,1次假设均等方差。假设方差相等时的自由度(df)始终是整数值(等于n-2)。如果未假定等方差,则df为非整数(例如11.467),并且不接近n-2。我正在寻求对用于计算这些非整数df的逻辑和方法的解释。

2
报告Welch t检验的自由度
不等方差的Welch t检验(也称为Welch-Satterthwaite或Welch-Aspin)通常具有非整数的自由度。报告测试结果时应如何引用这些自由度? 根据各种消息来源,“通常在查询标准t表之前先四舍五入为最接近的整数” *-这很有意义,因为这种舍入方向是保守的。**一些较旧的统计软件也可以这样做(例如,版本之前的Graphpad Prism 6),一些在线计算器仍然可以使用。如果已使用此程序,则报告四舍五入的自由度似乎是适当的。(尽管使用一些更好的软件可能更合适!) 但是绝大多数现代软件包都使用小数部分,因此在这种情况下,似乎应该引用小数部分。我看不出引用多于两个小数位是适当的,因为千分之一的自由度只会对p值产生微不足道的影响。 环顾Google学者,我可以看到一些论文用df整数,小数点后一位或小数点后两位。是否有关于使用多少精度的准则?此外,如果软件使用完整的小数部分,应在引用DF进行四舍五入向下到的数字的期望数目(例如7.5845...→7.57.5845...→7.57.5845... \rightarrow 7.5至1个DP或→7→7\rightarrow 7作为整体数目),为是适当的与保守计算,或者对我来说似乎更明智,按常规取整(至最接近的整数),以使7.5845...→7.67.5845...→7.67.5845... \rightarrow 7.6至1 dp或→8→8\rightarrow 8至最接近的整数? 编辑:除了了解报告非整数df的理论上最合理的方法外,了解人们在实践中的工作也将是一件好事。大概期刊和风格指南有其自己的要求。我很好奇,像APA这样需要有影响力的风格指南。据我所知(他们的手册不能在线免费获得),APA普遍认为几乎所有内容都应显示到小数点后两位,除了p值(可能是2或3 dp)和百分比(四舍五入为整数)。最接近的百分比) -覆盖回归斜率,吨统计,˚F统计,χ2χ2\chi^2统计资料等等。考虑到第二个小数位在有效位数上的差异非常大,这很不合逻辑,并且在2.47中表示的精度与982.47中的精度完全不同,但是这可能解释了我在不科学的样本中看到的带有两个小数位的Welch df的数量。 ∗∗*例如Ruxton,GD不等方差t检验是学生t检验和Mann–Whitney U检验的未充分使用的替代方法,行为生态学(2006年7月/八月)17(4):688-690 doi:10.1093 / beheco / ark016 ∗∗∗∗**虽然韦尔奇-萨特思韦特近似本身可能会或可能不会是保守的,在它不是保守的,舍去自由度的情况下是没有整体补偿的保证。

1
Kolmogorov–Smirnov检验与t检验
我在理解2个样本KS检验的解释以及与2组之间的常规t检验有何不同方面遇到一些困难。 可以说我有男性和女性在做一些任务,而我从这项任务中收集了一些分数。我的最终目标是确定男性和女性在这项任务上的表现是否不同 因此,我可以做的一件事就是在两组之间进行测试。我可以做的另一件事是计算男性和女性的ECDF,绘制它们,然后进行2个样本KS测试。我会得到这样的东西: KS测试 KS检验的原假设是2组连续得分分布来自同一人群 进行KS测试时,我得到:D = 0.18888,p值= 0.04742 首先,我想检查一下我对结果的解释是否正确。在这里,我将拒绝原假设,并说男性和女性得分分布来自不同的人群。换句话说,男性和女性得分的分布彼此不同。 更具体地说,男性在此任务上获得较低分数的可能性更高,这就是我从情节中得出的两种性别之间的差异 T检验 现在在测试中,将在得分变量上测试男性和女性均值之间的差异。 让我们想象一下在此任务中男性表现比女性差的情况。在这种情况下,男性得分的分布将以低均值为中心,而女性得分的分布将以高均值为中心。这种情况与上面的情节是一致的,因为男性获得较低分数的可能性更高。 如果t检验显着,我可以得出结论,女性平均得分明显高于男性。或从人口角度而言,女性分数是从平均数高于男性人口的人口中得出的,这听起来与堪萨斯州得出的结论是来自不同人口的结论非常相似。 有什么不同? 因此,我在KS和t测试用例中得出的结论是相同的。男性相对于女性表现较差。那么,使用一种测试优于另一种测试有什么好处?使用KS测试是否可以获得任何新知识? 我认为,男性的分布以低均值为中心,女性的分布以高均值为中心是导致显着t检验的原因。但是,基于同样的事实,男性得分较低值的可能性更高,这将使该图看起来像上面,并进行有效的KS检验。因此,两种检验的结果都具有相同的根本原因,但也许有人可能会说,KS检验不仅考虑了分布的均值,而且还考虑了分布的形状,但是有可能解析出原因仅从测试结果中得出哪些重要的KS测试? 那么在测试中运行KS测试有什么价值呢?并假设我可以满足这个问题的t检验的假设


2
独立样本t检验:真的需要对大样本数据进行正态分布吗?
假设我要测试两个独立样本是否具有不同的均值。我知道基础分布不正常。 如果我理解正确,则我的检验统计量就是平均值,并且对于足够大的样本量,即使没有样本,平均值也应呈正态分布。因此,在这种情况下,参数显着性检验应该有效,对吗?我已阅读了与此相关的令人困惑和令人困惑的信息,因此,我希望获得一些确认(或解释我错了的原因)。 另外,我已经读过,对于大样本量,我应该使用z统计量而不是t统计量。但是实际上,t分布将收敛于正态分布,并且两个统计量应该相同,不是吗? 编辑:以下是一些描述z检验的资料。他们都声明必须按正态分布人口: 在这里,它说:“无论使用哪种Z检验,都假定抽取样本的总体是正常的。” 而在这里,对于Z测试的要求,被列为“两正态分布,但独立的群体,σ被称为”。

1
在相同数据上,ANOVA检验的值与多个检验的值相比可以小多少?
简介:注意到今天这个问题引起了人们的注意: “ 当成对t检验都不存在时,方差分析会很重要吗? ”,我认为我可能能够以一种有趣的方式对其进行重新构架,以得到自己的答案。 。 当将统计显着性理解为简单的二分法,并仅根据ppp或\ alpha的较高值来判断时,可能会出现各种不一致的结果(以面值计)αα\alpha。@Glen_b 对上述问题的回答提供了以下情况的有用示例: ANOVA FFF检验为具有四个水平的一个自变量(IV)产生pF&lt;.05pF&lt;.05p_F<.05,但是 pt&gt;.08pt&gt;.08p_t>.08对于所有两个样本ttt检验,p_t&gt; .08,用于比较与IV的每对四个水平对应的观测值之间相同因变量(DV)的差异。 尽管通过这个问题进行了事后成对比较的Bonferroni校正,但发生了类似的情况:Anova重复测量很重要,但是使用Bonferroni校正的所有多重比较都不是吗?前面提到的情况在多元回归中的检验也略有不同: 为什么有可能获得显着的F统计量(p &lt;.001)但无显着的回归t检验?:pF&lt;.001,pβt&gt;.09pF&lt;.001,pβt&gt;.09p_F<.001,p_{\beta t}>.09 回归如何显着但所有预测变量都不显着? 在@whuber的答案中,pF=.0003,pβt&gt;.09pF=.0003,pβt&gt;.09p_F=.0003,p_{\beta t}>.09 我打赌,在这样的情况下,一些(但不是全部)成对比较(或回归系数显着性检验)值必须相当接近如果相应综合测试可以实现。我看到@Glen_b的第一个示例就是这种情况,其中,,最大的成对差给出最小的。一般情况下必须这样吗?更具体地说:α p &lt; α pppαα\alphap&lt;αp&lt;αp <\alphap ˚F = 0.046 p 吨 = 0.054F(3,20)=3.19F(3,20)=3.19F_{(3,20)}=3.19pF=.046pF=.046p_F=.046pt=.054pt=.054p_t=.054 问题:如果ANOVA检验对连续DV的一个多静脉IV的影响产生,那么在比较每对IV水平的所有两个样本检验中,最低的值有多高?最小成对意义是否可以高达?p F = .05 p t p t = .50FFFpF=.05pF=.05p_F=.05ppptttpt=.50pt=.50p_t=.50 我欢迎仅解决此特定问题的答案。但是,为了进一步激发这个问题,我将详细阐述并提出一些潜在的反问。欢迎您也解决这些问题,甚至在您愿意时也可以忽略特定的问题,尤其是在特定问题得到明确答案的情况下。 重要性:考虑一下,如果用连续的无效假设证据的强度来判断统计显着性,那么和之间的差异的重要性降低了多少(我认为是罗恩·费舍尔的方法?),而不是用高于或低于阈值的二分法来表示在选择是否拒绝零批发时可接受的错误概率。“ hacking ”是一个已知的问题,部分原因是由于对的解释而引入了不必要的漏洞,因此臭名昭著p t = .06pF=.04pF=.04p_F=.04pt=.06pt=.06p_t=.06p p …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.