Questions tagged «t-test»

一种将两个样本的平均值或一个样本的平均值(甚至参数估计值)与指定值进行比较的测试;发明人的笔名也称为“学生t检验”。

4
相互比较p值有什么意义?
我有两个人口(男人和女人),每个人口包含样本。对于每个样本,我都有两个属性A和B(第一年平均成绩和SAT分数)。我分别对A和B使用了t检验:两者都发现两组之间存在显着差异。A(和B(。p = 0.008 p = 0.002100010001000p = 0.008p=0.008p=0.008p = 0.002p=0.002p=0.002 可以断言属性B比属性A更好地被识别(更重要)吗?还是t检验只是是或否(有效或无效)度量? 更新:根据这里的评论以及我在Wikipedia上所读的内容,我认为答案应该是:删除无意义的p值并报告效果大小。有什么想法吗?

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
在检验和检验之间选择
背景:我正在向工作中的同事进行假设检验的介绍,并且对它的大部分内容都了解得很好,但是有一个方面是我将自己束之高阁,试图理解并向他人解释。 这就是我想知道的(如果错误,请更正!) 如果方差已知,则统计量将是正常的;如果方差未知,则遵循分布ttt CLT(中心极限定理):样本平均值的采样分布对于足够大的大约是(对于高度偏斜的分布,可能是,最大可能是)nnn303030300300300 该 -配送可以认为是正常的自由度ttt&gt;30&gt;30> 30 如果满足以下条件,则使用 -test:zzz 已知总体正态和方差(对于任何样本量) 总体正常,方差未知且(由于CLT)n&gt;30n&gt;30n>30 人口二项式,,np&gt;10np&gt;10np>10nq&gt;10nq&gt;10nq>10 如果满足以下条件,则使用检验:ttt 总体正常,方差未知,n&lt;30n&lt;30n<30 不了解总体或方差且,但样本数据看起来正常/通过测试等,因此可以认为总体正常n&lt;30n&lt;30n<30 所以我剩下: 对于样本和(?),不知道有关总体和方差的已知/未知信息。&gt;30&gt;30>30&lt;≈300&lt;≈300<\approx 300 所以我的问题是: 当抽样分布看起来非正态时,您可以假设在什么样本量下(对总体分布或方差一无所知)均值的抽样分布是正态的(即CLT已经加入)?我知道有些发行版需要,但是有些资源似乎说每当时就使用 -test 。n&gt;300n&gt;300n>300zzzn&gt;30n&gt;30n>30 对于我不确定的情况,我想我看一下数据是否正常。现在,如果样本数据看起来正常,我是否应该使用 -test(因为假设总体正常,并且因为)?zzzn&gt;30n&gt;30n>30 我不确定的案例样本数据在哪里看起来不正常呢?在任何情况下,您仍然会使用检验或检验,还是总是希望转换/使用非参数检验?我知道,由于CLT,在的某个值处,均值的采样分布将近似于正态,但是样本数据不会告诉我值是多少。样本数据可能是非正态的,而样本均值遵循正态/。在某些情况下,您会进行转换/使用非参数检验,而实际上均值的采样分布是正态/但您无法分辨吗? tttzzznnnnnntttttt

2
配对t检验是线性混合效应建模的特例
我们知道,配对t检验只是单向重复测量(或对象内)ANOVA以及线性混合效应模型的一种特殊情况,可以用Rme中的lme()函数的lme()函数进行演示如下所示。 #response data from 10 subjects under two conditions x1&lt;-rnorm(10) x2&lt;-1+rnorm(10) # Now create a dataframe for lme myDat &lt;- data.frame(c(x1,x2), c(rep("x1", 10), rep("x2", 10)), rep(paste("S", seq(1,10), sep=""), 2)) names(myDat) &lt;- c("y", "x", "subj") 当我运行以下配对t检验时: t.test(x1, x2, paired = TRUE) 我得到了这个结果(由于随机生成器,您将得到不同的结果): t = -2.3056, df = 9, p-value = 0.04657 …

1
是否进行统计检验以比较两个大小为1和3的样本?
对于一个生态项目,我的实验室小组将醋添加到4个装有等量池塘水的水箱,1个无伊乐藻的对照(一种水生植物)和3个各含相同伊乐藻的处理液中。添加醋的目的是降低pH。假设是装有伊乐藻的水箱会更快地回到其正常pH值。确实是这样。我们每天测量每个水箱的pH值大约两个星期。最终所有的水箱都恢复到其自然pH值,但是对于装有伊乐藻的水箱,这花费的时间要短得多。 当我们告诉教授我们的实验设计时,他说没有可以对数据进行统计学检验以将对照与治疗进行比较的统计检验。那是因为对照没有重复项(我们只使用了一个对照槽),所以无法计算方差,因此无法比较对照和处理的样本均值。所以我的问题是,这是真的吗?我绝对明白他的意思。例如,如果您仅举一男一女的身高,就无法得出有关他们各自人口的结论。但是我们做了3种治疗,差异很小。假设控制中的方差相似是合理的吗? 更新: 感谢您的出色回答。我们从湿地中获得了更多的水和伊乐藻,并决定我们将再次使用较小的水箱进行实验,但是这次使用了5个对照和5种处理方法。我们将把它与原始数据结合起来,但是水箱的起始pH值足够不同,以至于认为新实验是从与原始实验相同的种群中采样似乎无效。 我们考虑添加不同数量的伊乐藻,并尝试将pH修复的速度(以直到pH恢复至其原始值所需的时间来衡量)与伊乐藻的数量相关联,但我们认为这是不必要的。我们的目的仅是表明伊乐藻具有积极的作用,而并非针对pH对不同数量的伊乐藻的确切反应建立某种预测模型。确定最佳的伊乐藻数量,但这可能只是可以存活的最大数量。由于增加大量社区时会发生各种复杂的变化,因此尝试对数据拟合回归曲线不会特别有意义。电极死亡,分解,新生物开始占主导地位,依此类推。

2
当数据不是正态分布时,如何测试两组均值之间的差异?
我将消除所有生物学上的细节和实验,只引用眼前的问题以及我在统计学上所做的事情。我想知道它是否正确,如果不正确,如何进行。如果数据(或我的解释)不够清楚,我将尝试通过编辑来更好地解释。 假设我有两个组/观测值X和Y,大小分别为和N y = 40。我想知道这两个观察的平均值是否相等。我的第一个问题是:ñX= 215Nx=215N_x=215ñÿ= 40Ny=40N_y=40 如果满足假设,在这里使用参数两样本t检验是否有意义?我问这是因为据我了解,通常在尺寸较小时使用它吗? 我绘制了X和Y的直方图,并且它们不是正态分布的,这是两次样本t检验的假设之一。我的困惑是,我认为它们是两个人口,这就是为什么我检查正态分布。但是接下来我要进行两次样本t检验... 是吗? 根据中心极限定理,我了解到如果您多次执行抽样(根据人口规模是否进行重复)并每次计算样本平均值,那么样本将近似呈正态分布。并且,此随机变量的均值将很好地估计总体均值。因此,我决定在X和Y上执行此操作1000次,并获得样本,然后为每个样本的平均值分配一个随机变量。情节是非常正态分布的。X和Y的平均值分别为4.2和15.8(与总体+-0.15相同),方差分别为0.95和12.11。 我对这两个观测值(每个有1000个数据点)进行了t检验,它们具有不相等的方差,因为它们有很大差异(0.95和12.11)。零假设被拒绝了。 这有道理吗?这种正确/有意义的方法还是两个样本的z检验足够了还是完全错误的? 为了确保(在原始X和Y上)我也执行了非参数Wilcoxon检验,并且在那里也令人信服地拒绝了原假设。如果我以前的方法完全错误,我认为进行非参数检验是好的,除了统计功效之外? 在两种情况下,均值均存在显着差异。但是,我想知道这两种方法中的一种还是两种都是错误的/完全错误的,如果是,那有什么替代方法?

2
日志转换是否是对非正常数据进行t测试的有效技术?
在审查一篇论文时,作者指出:“在进行t检验以满足正态性的前提假设之前,使用自然对数对表现出偏态分布的连续结果变量进行了转换。” 这是分析非正态数据的可接受方法,尤其是在基础分布不一定是对数正态的情况下吗? 这可能是一个非常愚蠢的问题,但我之前从未见过。

2
学生考试是沃尔德考试吗?
学生考试是沃尔德考试吗? 我已经从Wasserman的《All Statistics》中阅读了Wald测试的描述。 在我看来,Wald检验包括t检验。那是对的吗?如果不是,那么什么使t检验而不是Wald检验?

3
如何模拟具有统计意义的数据?
我正在读10年级,正在寻找模拟机器学习科学博览会项目的数据的方法。最终模型将用于患者数据,并将预测一周中某些时间与其在单个患者数据内对药物依从性的影响之间的相关性。坚持值将是二进制的(0表示未服用药物,1表示已服用药物)。我正在寻找一种机器学习模型,该模型能够从一周中的时间之间的关系中学习,并将一周分为21个时间段,一天中的每个时间段分为三个时间段(1是星期一上午,2是星期一下午,等等。)。我正在寻找模拟1,000名患者的数据。每位患者将获得30周的数据。我想插入与一周的时间和遵守相关的某些趋势。例如,在一个数据集中,我可以说一周中的第7个时隙与依从性在统计上有显着关系。为了确定该关系是否具有统计显着性,要求我执行两个样本t检验,将一个时隙与其他每个时隙进行比较,并确保显着性值小于0.05。 但是,与其模拟自己的数据并检查我插入的趋势是否显着,不如倒退工作,也许我使用一个程序,要求我在一定的时隙内分配一个重要的趋势,并坚持执行。二进制数据中包含我所要求的趋势,以及其他时隙中的二进制数据,其中包含一些噪声但没有产生统计上显着的趋势。 是否有任何程序可以帮助我实现这样的目标?或者也许是python模块? 任何帮助(甚至对我的项目的一般性评论)将不胜感激!!

1
为什么t检验和ANOVA为两组比较给出不同的p值?
在有关ANOVA的Wikipedia文章中,它说 ANOVA以其最简单的形式提供了几组均值是否相等的统计检验,因此将t检验推广到了两组以上。 我的理解是,在进行两组比较时,方差分析与t检验相同。 但是,在下面的简单示例中(R),ANOVA和t检验给出了相似但略有不同的p值。谁能解释为什么? x1=rnorm(100,mean=0,sd=1) x2=rnorm(100,mean=0.5,sd=1) y1=rnorm(100,mean=0,sd=10) y2=rnorm(100,mean=0.5,sd=10) t.test(x1,x2)$p.value # 0.0002695961 t.test(y1,y2)$p.value # 0.8190363 df1=as.data.frame(rbind(cbind(x=x1,type=1), cbind(x2,type=2))) df2=as.data.frame(rbind(cbind(x=y1,type=1), cbind(y2,type=2))) anova(lm(x~type,df1))$`Pr(&gt;F)`[1] # 0.0002695578 anova(lm(x~type,df2))$`Pr(&gt;F)`[1] # 0.8190279

3
高度偏斜数据的t检验
我有一个包含成千上万次医疗费用数据观察值的数据集。该数据向右偏斜,并且有很多零。对于两组人来说看起来像这样(在这种情况下,这两个年龄段每个&gt; 3000 obs): Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4536.0 302.6 395300.0 Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4964.0 423.8 721700.0 如果我对此数据执行Welch的t检验,我会得到一个结果: Welch Two Sample t-test data: x and y t = -0.4777, df = 3366.488, p-value = 0.6329 alternative …

2
逻辑回归和t检验的功效如何比较?
逻辑回归和t检验的功效是否相等?如果是这样的话,它们应该是“等效数据密度”,这意味着在给定的固定alpha为0.05的情况下,相同数量的基础观测值会产生相同的功效。考虑两种情况: [参数t检验]:从二项式观察中抽取30个抽签,然后将所得值取平均值。对于A组(发生的二项式Pr为0.70),此操作完成30次;对于B组(发生的二项式Pr为0.75),完成30次。每组产生30个均值,代表从二项式分布中得出的1800次抽奖的摘要。进行58df t检验以比较均值。 [逻辑回归]:使用代表组成员身份的虚拟编码斜率执行逻辑回归,并进行1800次抽奖。 我的问题分为两部分: 给定的alpha为0.05,这些方法的功效是相同还是不同?为什么?我如何证明呢? 问题1的答案是否对进入t检验的样本量,t检验中每个组的样本量,基本的二项式概率或其他因素敏感?如果是这样,我怎么能(不用模拟)知道功率确实不同,什么样的变化会产生什么样的功率变化?或者,提供制定出的R代码,以使用仿真解决问题。


3
“测试统计”是值还是随机变量?
我是一名正在上我的第一门统计学课程的学生。我对“测试统计”一词感到困惑。 在下面的内容中(我在一些教科书中看到了这一点),似乎是根据特定样本计算得出的特定值。 吨= ¯ X - μ 0ŤŤtt = x¯¯¯- μ0s / n--√Ť=X¯-μ0s/ñ t=\frac{\overline{x} - \mu_0}{s / \sqrt{n}} 但是,在下面的内容(我在其他一些教科书中也看到过)中,似乎是一个随机变量。 Ť = ¯ X - μ 0ŤŤTŤ= X¯¯¯¯- μ0小号/ n--√Ť=X¯-μ0小号/ñ T=\frac{\overline{X} - \mu_0}{S / \sqrt{n}} 那么,“测试统计”一词是指特定值还是随机变量,或者两者都表示?

3
使用t检验比较两个分类器准确性结果的统计显着性
我想比较两个分类器在统计上的准确性。两个分类器都在同一数据集上运行。这使我相信我应该使用我一直在阅读的样本进行t检验。 例如: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 这是要使用的正确测试吗?如果是这样,我如何计算分类器之间的准确性差异是否显着? 还是我应该使用其他测试?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.