Questions tagged «t-test»

一种将两个样本的平均值或一个样本的平均值(甚至参数估计值)与指定值进行比较的测试;发明人的笔名也称为“学生t检验”。

3
在Box-Cox转换后的数据中以原始单位表示答案
对于某些测量,分析结果会以转换后的比例适当显示。但是,在大多数情况下,最好以原始的度量标准显示结果(否则您的工作或多或少就毫无价值)。 例如,在对数转换的数据的情况下,由于记录值的均值不是均值的对数,因此会出现原始标度解释的问题。在对数刻度上取均值估计值的对数,而在原始刻度上不给出均值估计值。 但是,如果日志转换后的数据具有对称分布,则以下关系成立(因为日志保留顺序): 均值[ log(是)] = 中位数[ log(是)] = 日志[ 中位数(Y)]Mean[log⁡(Y)]=Median[log⁡(Y)]=log⁡[Median(Y)]\text{Mean}[\log (Y)] = \text{Median}[\log (Y)] = \log[\text{Median} (Y)] (对数值的对数是原始测量范围的中位数)。 因此,我只能对原始度量标准上的中位数差异(或比率)做出推断。 如果总体大致正常且具有大约标准偏差,则两样本t检验和置信区间最为可靠,因此我们可能会倾向于将Box-Cox变换用作正态假设成立(我也认为这也是方差稳定变换)。 但是,如果将t工具应用于Box-Cox转换后的数据,则会推断出转换后的数据在方式上的差异。我们如何以原始的测量尺度来解释那些?(转换后的值的平均值不是转换后的平均值)。换句话说,在转换后的尺度上对均值的估计值进行逆转换,不会在原始尺度上给出均值的估计值。 在这种情况下,我还可以仅推断中位数吗?有没有可以让我回到原始状态的方法的转换? 这个问题最初是在这里发表评论的

4
当两个样本的均值显着不同但差异似乎很小时该怎么办
我有两个样本(在两种情况下)。平均值相差大约是标准池的两倍。开发。得到的T值大约为10。虽然很高兴知道我已经得出结论说,均值不相同,但在我看来,这是由大n决定的。查看数据的直方图,我当然不认为像p值这样的小值确实可以代表数据,并且老实说,引用它并不太舒服。我可能在问错问题。我在想的是:好的,方法是不同的,但这真的很重要,因为分布共享大量重叠吗?ñ ≈ 70n≈70n \approx 70ŤTT 贝叶斯测试在这里有用吗?如果是这样,那么从哪里开始是个好地方,那么使用谷歌搜索并没有产生任何有用的东西,但是我可能没有问正确的问题。如果这是错误的事情,那么有人有什么建议吗?还是与定量分析相反,这仅仅是讨论的重点吗?

1
距离差的统计意义
我在二维网格上有3000多个矢量,具有近似均匀的离散分布。一些向量对满足一定条件。注意:该条件仅适用于向量对,不适用于单个向量。我有大约1500个这样的对的列表,我们称其为组1。组2包含所有其他向量对。我想找出第1组中一对向量之间的距离是否明显小于两个向量之间的平均距离。我怎样才能做到这一点? 统计检验:中心极限定理适用于我的情况吗?也就是说,我可以采用距离样本的方法,并使用学生的t检验比较满足条件的样本的方法与不满足条件的样本的方法吗?否则,什么统计检验适用于此? 样本数量和样本数量:我知道这里有两个变量,对于两个组中的每一个,我需要获取n个大小为m的样本,并取每个样本的平均值。有没有选择n和m的原则方法?它们应该尽可能大吗?还是只要它们具有统计意义,就应该尽可能地少?这两个组的名称是否应该相同?还是对于包含更多向量对的第2组,它们应该更大?

1
t检验的“近似正常”评估
我正在使用Welch的t检验来测试均值。底层分布远非正常分布(比此处相关讨论的示例更偏斜)。我可以获取更多数据,但希望有一些原则性的方法来确定在多大程度上可以这样做。 是否有一个很好的试探法可以评估样本分布是否可以接受?与正常性的哪些偏差最令人担忧? 是否还有其他方法(例如,对样本统计数据依赖引导置信区间)会更有意义?

1
t.test返回错误“数据本质上是恒定的”
R version 3.1.1 (2014-07-10) -- "Sock it to Me" > bl <- c(140, 138, 150, 148, 135) > fu <- c(138, 136, 148, 146, 133) > t.test(fu, bl, alternative = "two.sided", paired = TRUE) Error in t.test.default(fu, bl, alternative = "two.sided", paired = TRUE) : data are essentially constant 然后,我仅更改fu数据集中的一个字符: …
12 r  t-test 

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
如何执行自举测试以比较两个样本的均值?
我有两个严重偏斜的样本,正在尝试使用自举比较t统计量的均值。 正确的做法是什么? 我正在使用的过程 当我知道原始数据或观察到的数据不是正态分布时,我会担心在最后一步中使用标准误差的适当性。 这是我的步骤: 引导程序-随机抽样替换(N = 1000) 为每个引导程序计算t统计量以创建t分布: T(b)=(X¯¯¯¯b1−X¯¯¯¯b2)−(X¯¯¯¯1−X¯¯¯¯2)σ2xb1/n+σ2xb2/n−−−−−−−−−−−−−√T(b)=(X¯b1−X¯b2)−(X¯1−X¯2)σxb12/n+σxb22/n T(b) = \frac{(\overline{X}_{b1}-\overline{X}_{b2})-(\overline{X}_1-\overline{X}_2) }{\sqrt{ \sigma^2_{xb1}/n + \sigma^2_{xb2}/n }} 通过获取t分布的和百分位数来估计t置信区间α/2α/2\alpha/21−α/21−α/21-\alpha/2 通过以下方式获取置信区间: CIL=(X¯¯¯¯1−X¯¯¯¯2)−T_CIL.SEoriginalCIL=(X¯1−X¯2)−T_CIL.SEoriginal CI_L = (\overline{X}_1-\overline{X}_2) - T\_{CI_L}.SE_{original} CIU=(X¯¯¯¯1−X¯¯¯¯2)+T_CIU.SEoriginalCIU=(X¯1−X¯2)+T_CIU.SEoriginal CI_U = (\overline{X}_1-\overline{X}_2) + T\_{CI_U}.SE_{original} ,其中 SE=σ2X1/n+σ2X2/n−−−−−−−−−−−−√SE=σX12/n+σX22/n SE = \sqrt{ \sigma^2_{X1}/n + \sigma^2_{X2}/n } 查看置信区间落在哪里,以确定均值是否存在显着差异(即非零) 我也查看了Wilcoxon秩和,但由于分布严重偏斜(例如,第75个== 95%),因此给出的结果并不十分合理。因此,我想进一步探讨自举t检验。 所以我的问题是: 这是合适的方法吗? 当我知道观测到的数据严重偏斜时,使用SE合适吗? 可能重复:首选哪种方法,引导测试或非参数基于等级的测试?

1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
未配对的t检验需要哪些正态假设?他们什么时候见面?
如果我们希望进行配对的t检验,则要求(如果我理解正确的话)是匹配的度量单位之间的平均差应正态分布。 在成对的t检验中,即铰接式(AFAIK)要求匹配的度量单位之间的差异将呈正态分布(即使两个比较组中每个组的分布均不呈正态)。 但是,在不成对的t检验中,我们不能谈论匹配的单位之间的差异,因此我们要求两组的观察值是正常的,以使它们的均值差异是正常的。这引出我的问题: 两个非正态分布是否有可能使它们的均值之差呈正态分布?(因此,据我所知,满足了我们对它们执行未配对t检验的必要要求)。 更新:(谢谢大家的回答)我看到我们正在寻找的一般规则确实是均值的差将是正常的,由于CLT,这似乎是一个很好的假设(在足够大的n下)。对于这对于不成对的t检验如何起作用,这对我来说是令人惊奇的(不足为奇,仅是令人惊奇的),但对于单样本t检验,效果却不佳。这是一些R代码来说明: n1 <- 10 n2 <- 10 mean1 <- 50 mean2 <- 50 R <- 10000 # diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2))) # hist(diffs) P <- numeric(R) MEAN <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) y2 <- runif(n2, 0, …

2
线性回归中t检验和方差分析之间的差异
我想知道线性回归中t检验和ANOVA之间有什么区别? 是t检验来检验任何一个斜率和截距是否均值为零,而方差分析是用来检验所有斜率是否均均值为零吗?这是它们之间的唯一区别吗? 在简单的线性回归中,即只有一个预测变量的情况下,只有一个斜率可以估计。那么,t检验和ANOVA是否等效?如果是的话,假设它们使用不同的统计量(t检验使用t统计量,而ANOVA则使用F统计量),怎么做?

1
加权数据的两样本T检验
我想执行两个样本的T检验,以测试两个独立样本之间的差异,每个样本都遵循T检验的假设(每个分布都可以假设是独立的,并且与正态分布相同且方差相等) 。基本的两样本T检验的唯一复杂之处在于对数据进行了加权。我使用加权平均值和标准偏差,但是加权N会人为地增加样本的大小,因此会使结果产生偏差。这仅仅是用未加权的Ns代替加权的Ns的情况吗?
12 t-test 

1
检验vs检验?
我正试图弄清楚检验和检验之间的区别。Ťttžzz 据我所知,对于这两种测试,都使用相同的测试统计量,其形式如下 b^− CSEˆ(b^)b^-CSE^(b^)\frac{\hat{b} - C}{\widehat{\operatorname{se}}(\hat{b})} 其中是一些样本统计信息,是某个参考(位置)常量(取决于测试的详细信息),而是标准错误。b^b^\hat{b}CCCSEˆ(b^)SE^(b^)\widehat{\operatorname{se}}(\hat{b})b^b^\hat{b} 那么,这两类测试之间的唯一区别是,在检验的情况下,上面的检验统计量遵循(对于某些样本确定的自由度),而在检验,相同的检验统计量遵循标准正态分布。(这反过来表明,选择检验还是检验取决于样本是否足够大。)ŤŤtŤŤtdddžžzñ(0 ,1 )ñ(0,1个)\mathcal{N}(0, 1)žžzŤŤt 这个对吗?

1
如果样本呈正态分布,但差异不大,可以使用配对t检验吗?
我有一个实验的数据,其中我在相同的初始条件下应用了两种不同的处理方法,在每种情况下,结果都是0到500之间的整数。我想使用配对t检验来确定两种疗法产生的效果是否显着不同。对于每个处理组的结果是正态分布,但差异在每对之间不正态分布(非对称+一个长尾巴)。 在这种情况下,可以使用配对t检验,还是违反正态性假设,这意味着我应该使用某种非参数检验?

2
多元线性回归的最少观察数
我正在做多元线性回归。我有21个观察值和5个变量。我的目的只是找到变量之间的关系 我的数据是否足以进行多元回归? t检验结果显示我的3个变量不显着。我是否需要对重要变量再次进行回归(或者我的第一次回归足以得出结论)?我的相关矩阵如下 var 1 var 2 var 3 var 4 var 5 Y var 1 1.0 0.0 0.0 -0.1 -0.3 -0.2 var 2 0.0 1.0 0.4 0.3 -0.4 -0.4 var 3 0.0 0.4 1.0 0.7 -0.7 -0.6 var 4 -0.1 0.3 0.7 1.0 -0.7 -0.9 var 5 -0.3 -0.4 …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.