统计和大数据 t-test

5

假设我有两个数据组，分别标记为A和B（每个数据组包含200个样本和1个特征），我想知道它们是否不同。我可以： a）进行统计检验（例如t检验）以查看它们是否在统计上不同。 b）使用监督机器学习（例如，支持向量分类器或随机森林分类器）。我可以对部分数据进行训练，然后对其余部分进行验证。如果之后机器学习算法正确地对其余部分进行分类，那么我可以确定样本是可区分的。 c）使用无监督算法（例如K-Means），然后将所有数据分为两个样本。然后，我可以检查找到的这两个样本是否与我的标签A和B一致。我的问题是：这三种不同方式如何重叠/排斥？ b）和c）对任何科学论证有用吗？如何从方法b）和c）中获得样品A和B之间差异的“重要性”？如果数据具有多个功能而不是1个功能，将会发生什么变化？如果它们包含不同数量的样本（例如100对300）会怎样？

29 machine-learning hypothesis-testing t-test unsupervised-learning supervised-learning

5

如何在机器学习中处理分层/嵌套数据

我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入：{年龄，性别，国家/地区，城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

3

当成对t检验都不存在时，方差分析是否有意义？

如果没有成对t检验，单向（组或“水平”）ANOVA可能会报告显着差异？ñ> 2ñ>2N>2ñ（N− 1 ）/ 2ñ（ñ-1个）/2N(N-1)/2 在这个答案中 @whuber写道：众所周知，即使在任何一对均值的单独[未调整的成对] t检验都不会产生显着结果的情况下，全局ANOVA F检验也可以检测均值的差异。因此显然有可能，但我不知道如何。什么时候发生，这种情况背后的直觉是什么？也许有人可以提供这种情况的简单玩具示例？进一步说明：显然可能存在相反的情况：总体ANOVA可能不显着，而某些成对的t检验错误地报告了显着差异（即，那些都是假阳性）。我的问题是关于标准的，未经多次比较t检验的调整。如果使用调整后的测试（例如Tukey的HSD程序），那么即使整体ANOVA仍然没有一个是有意义的。这在几个问题中都涉及到，例如，如何获得显着的总体ANOVA，但与Tukey的过程没有成对的显着差异？和显着的方差分析相互作用，但非显着的成对比较。更新。我的问题最初是指通常的两样本成对t检验。但是，正如@whuber在评论中指出的那样，在方差分析的背景下，t检验通常被理解为事后对比，它使用对所有组进行汇总的组内方差的ANOVA估计（这不是两个组中发生的事情） -样本t检验）。因此，我的问题实际上有两个不同的版本，对它们的回答都被肯定。见下文。

29 statistical-significance anova t-test post-hoc

2

如何统计比较机器学习分类器的性能？

基于估计的分类准确性，我想测试一个分类器在基础集上是否比另一个分类器在统计上更好。对于每个分类器，我从基本集中随机选择一个训练和测试样本，训练模型并测试模型。每个分类器我都会做十次。因此，每个分类器有十个估计分类精度的度量。如何在基础数据集上统计测试是否比更好。哪种t检验适合使用？Ç 升一个小号小号我˚F我ë - [R 1C升一种ss一世F一世Ë[R1个classifier 1Ç 升一个小号小号我˚F我ë - [R 2C升一种ss一世F一世Ë[R2classifier 2

29 machine-learning classification t-test

1

从lmer模型计算效果的可重复性

我刚刚碰到了这篇论文，该论文描述了如何通过混合效应建模来计算测量的可重复性（又称可靠性，又称类内相关性）。R代码为： #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

6

对部分配对和部分未配对的数据进行t检验

研究人员希望对多个数据集进行综合分析。在某些数据集中，有对A和B的观测值配对。在其他数据集中，有未配对的A和/或B数据。我正在寻找此类部分配对数据的t检验改编或似然比检验的参考。我愿意（现在）假设方差相等的正态性，并且每个研究的A总体均值是相同的（B均相同）。

28 hypothesis-testing t-test paired-data change-scores

4

如何进行仅包含样本数量，样本平均值和总体平均值的学生t检验？

学生的检验要求样本标准偏差。但是，我怎么计算的当只有样本量和样本平均已知？tttssssss 例如，如果样本大小为，样本平均值为，那么我将尝试创建相同样本的列表，每个样本的值均为。预期样本标准偏差为。这将在检验中产生零除问题。494949112112112494949112112112000ttt 其他数据： ACME北部工厂工人的平均收入为$200$200\$200。据报道，在ACME南部工厂随机抽取494949名工人，他们的年收入$112$112\$112。这种差异具有统计意义吗？我是否正确地说人口平均数为$200$200\$200？

28 t-test standard-deviation small-sample

2

何时使用Wilcoxon秩和检验代替未配对的t检验？

这是弗兰克·哈雷尔（Frank Harrell）在这里写的后续问题：以我的经验，准确的t分布所需的样本大小通常大于手头的样本大小。正如您所说，Wilcoxon符号秩检验非常高效，而且功能强大，因此我几乎总是喜欢它而不是t检验如果我理解正确，则在比较两个不匹配样本的位置时，如果样本量较小，我们宁愿使用Wilcoxon秩和检验而不是不配对t检验。从理论上讲，即使我们两组的样本量相对较大，我们还是更愿意使用Wilcoxon秩和检验而不是不成对的t检验吗？我对这个问题的动机来自观察到的是，对于单个样本t检验，将其用于偏小分布的不太小的样本会产生错误的I型错误： n1 <- 100 mean1 <- 50 R <- 100000 P_y1 <- numeric(R) for(i in seq_len(R)) { y1 <- rexp(n1, 1/mean1) P_y1[i] <- t.test(y1 , mu = mean1)$p.value } sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572 # "wrong" type I error

26 t-test wilcoxon-mann-whitney

1

关于t检验死亡的报道是否被大大夸大了？

通过阅读CV历来经典，我遇到了一个想澄清的声明。这是该帖子，我的问题是关于结束语：“我必须注意，我刚刚讲授的所有知识都已过时；现在我们有了计算机，我们可以做得比t检验更好。正如弗兰克所说，您可能想在被教您进行t检验的任何地方使用Wilcoxon检验。” 不必担心是否合理地假设样本均值的分布是否足以进行t检验是正常的，这显然是一个巨大的优势。而且我发现计算机可以轻而易举地排列两个数据矢量之间的长长的差异列表...我记得很多年前是手动完成的，但是我离题了... 那么，t检验真的已经成为过去吗？置换测试呢？在通常需要编写几行代码的意义上，它们是否太特别？

25 hypothesis-testing t-test permutation-test wilcoxon-mann-whitney

5

当样本的分布为非正态分布时，独立样本的t检验有多强？

我已经读过，当样本的分布偏离正态分布时，t检验是“合理可靠的”。当然，重要的是差异的抽样分布。我有两组数据。这些组之一在因变量上有很大的偏差。两组的样本量都非常小（一组中n = 33，另一组中n = 45）。我是否应该假设在这些条件下，我的t检验对于违反正态性假设会很可靠？

24 t-test assumptions normality-assumption robust

6

五点李克特项目的分组差异

接下来是这个问题：假设您想测试一下李克特（Likert）项目的5点（例如，对生活的满意度：不满意）对两组（例如，男性和女性）的集中趋势的差异。我认为t检验在大多数情况下都足够准确，但是对组均值之间的差异进行自举检验通常可以提供更准确的置信区间估计。您将使用什么统计检验？

22 t-test ordinal-data likert scales

1

常用统计检验为线性模型

（更新：我对此进行了更深入的研究，并将结果发布在此处）命名统计测试的列表非常庞大。许多常见检验依赖于简单线性模型的推论，例如，单样本t检验只是y =β+ε，它是针对零模型y =μ+ε进行检验的，即β=μ，其中μ为零值-通常为μ= 0。我发现这对教学目的比死记硬背地学习命名模型，何时使用它们以及它们的假设好像它们之间没有任何关系相比更具启发性。这种方法促进并不能增进理解。但是，我找不到一个很好的资源来收集这些信息。我对基本模型之间的等效性感兴趣，而不是对它们的推断方法感兴趣。尽管据我所知，所有这些线性模型的似然比检验得出的结果与“经典”推论相同。下面是我已经了解迄今为止等价，忽略误差项ε∼N(0,σ2)ε∼N(0,σ2)\varepsilon \sim \mathcal N(0, \sigma^2)，并假设所有零假设是的效果由于缺少：单样本t检验： y=β0H0:β0=0y=β0H0:β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0。配对样本t检验： y2−y1=β0H0:β0=0y2−y1=β0H0:β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 这与成对差异的一样本t检验相同。两样本t检验： y=β1∗xi+β0H0:β1=0y=β1∗xi+β0H0:β1=0y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0 其中x是指标（0或1）。 Pearson相关： y=β1∗x+β0H0:β1=0y=β1∗x+β0H0:β1=0y = \beta_1 * x …

22 regression correlation anova t-test linear-model

1

为什么用Levene检验方差相等而不是F比？

SPSS使用Levene检验来评估独立小组t检验程序中方差的均一性。为什么Levene检验优于两组方差比的简单F比？

21 hypothesis-testing anova variance t-test heteroscedasticity

3

针对某些值测试模型系数（回归斜率）

在R，当我有一个（广义）线性模型（lm，glm，gls，glmm，...），我怎样才能测试系数（回归斜率）对大于0的任何其它值？在模型摘要中，会自动报告系数的t检验结果，但仅用于与0进行比较。我想将其与另一个值进行比较。我知道我可以使用一个小技巧与reparametrizing y ~ x为y - T*x ~ x，其中T是测试值，并运行此重新参数模型，但我追求简单的解决方案，这将可能在原有的模式工作。

20 r regression t-test

5

配对与非配对t检验

假设我有20只老鼠。我以某种方式配对了老鼠，所以我得到了10对。出于这个问题的目的，它可能是随机配对，或者可能是明智的配对，例如试图配对来自同一窝，同性别，体重相似的小鼠，或者可能是故意的愚蠢配对，例如尝试将体重不相等的老鼠配对。然后，我使用随机数将每对中的一只鼠标分配给对照组，另一只鼠标分配给待治疗组。我现在做实验，只治疗要治疗的小鼠，否则不理会刚才的安排。当要分析结果时，可以使用未配对的t检验或配对的t检验。答案会以什么方式（如果有）不同？（我基本上对需要估计的任何统计参数的系统差异感兴趣。）我之所以这样问，是因为我最近参与的一篇论文被生物学家批评为使用配对t检验而不是未配对t检验。当然，在实际实验中，这种情况并不像我所描述的那样极端，我认为配对是有充分理由的。但是生物学家不同意。在我看来，在我绘制的情况下，即使配对不合适，也无法通过配对t检验而不是未配对检验来错误地提高统计显着性（降低p值）。但是，如果小鼠配对不当，可能会使统计意义恶化。这是正确的吗？

20 t-test paired-data

Questions tagged «t-test»