Questions tagged «post-hoc»

“事后”是指在收集数据之后决定的分析,而不是“先验”。

6
事后测试有什么问题?
我的统计教授这么说,我看过的所有书都说:事后测试是不科学的。您必须首先从理论中得出假设,然后再收集数据并进行分析。 但是我真的不明白问题是什么。 假设,我看到了不同颜色汽车的销售数据,并形成了这样的假设:从售出的不同颜色的汽车中,街上最大的汽车组应该是白色的。因此,有一天我坐在某个街道上,记下经过我的所有汽车的所有颜色。然后,我做一些测试,找到任何东西。 现在,假设我很无聊,有一天坐在某个街道上,记下经过我的所有汽车的所有颜色。由于我喜欢图表,因此我绘制了一个漂亮的直方图,发现白色汽车构成了最大的组。因此,我认为也许街上的大多数汽车都是白色的,并进行了一些测试。 事后检验的结果或结果解释与理论驱动的假设检验有何不同?为什么? *事后测试的反义词是什么? 我想补充一点,我们关于宇宙的大部分知识(地球绕太阳运动)是事后根据观测推论得出的。 在我看来,在物理学上完全可以假设过去一千年来太阳在东方升起并不是偶然的。
15 post-hoc 


4
Sidak还是Bonferroni?
我在SPSS中使用广义线性模型来研究16种不同植物上毛虫的平均数量差异(非正态,使用Tweedie分布)。 我想进行多个比较,但是不确定是否应该使用Sidak或Bonferroni校正测试。两种测试有什么区别?这个比那个好吗?

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
如何使用混合效应模型对交互作用词进行事后比较?
我正在研究一个数据集,以评估干燥对沉积物微生物活动的影响。目的是确定干燥的影响是否随沉积物类型和/或沉积物中深度的变化而变化。 实验设计如下: 第一因子沉积物对应于三种沉积物类型(编码为Sed1,Sed2,Sed3)。对于每种沉积物,在三个地点进行采样(Sed1为3个地点,Sed2为3个地点,Sed3为3个地点)。 网站编码:Site1,Site2,...,Site9。 下一个因素是水文:在每个站点内,在干地和湿地(编码为干/湿)中进行采样。 在每个上一个图中,以两个深度(D1,D2)一式三份进行采样。 总共有n = 108个样本= 3个沉积物* 3个地点* 2个水文学* 2个深度* 3个重复项。 我lme()在R(nlme软件包)中使用该函数,如下所示: Sediment <- as.factor(rep(c("Sed1","Sed2","Sed3"),each=36)) Site <- as.factor(rep(c("Site1","Site2","Site3","Site4","Site5", "Site6","Site7","Site8","Site9"),each=12)) Hydrology <- as.factor(rep(rep(c("Dry","Wet"),each=6),9)) Depth <- as.factor(rep(rep(c("D1","D2"),each=3),18)) Variable <- rnorm(108) mydata <- data.frame(Sediment,Site,Hydrology,Depth,Variable) mod1 <- lme(Variable ~ Sediment*Hydrology*Depth, data=mydata, random=~1|Site/Hydrology/Depth) anova(mod1) 我想进行事后比较,以测试一个术语是否有意义。 我能够做到这一点,以获得简单的主要效果(例如,沉积物): summary(glht(mod1,linfct=mcp(Sediment="Tukey"))) 但是该glht()功能不适用于交互条件。 我发现以下方法可以用于两向方差分析: mod1 <- lme(Variable~Sediment*Hydrology, …

3
弗里德曼测验后如何正确应用Nemenyi事后测验
我正在比较多种数据集上多种算法的性能。由于不能保证这些性能指标呈正态分布,因此我选择了基于Demšar(2006)的Friedman检验和Nemenyi事后检验。 然后,我发现另一篇论文,除了建议其他方法(例如Quade测试和随后的Shaffer post-hoc测试)之外,它们以不同的方式应用Nemenyi测试。 如何正确应用Nemenyi事后测试? 1.使用学生化范围统计信息吗? 在Demšar的论文中,它表示如果平均秩差大于的临界距离CD,则拒绝零假设(两种算法没有性能差异 CD=qαk(k+1)6N−−−−−−−√CD=qαk(k+1)6N CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}} “临界值qα基于学生化范围统计量除以 ”2–√.2.\sqrt{2}. 经过一番挖掘后,我发现可以为某些alpha查找“临界值”,例如在的表中α=0.05α=0.05\alpha = 0.05查找无限的自由度(在每个表的底部)。 2.还是使用正态分布? 就在我以为自己知道该怎么做的时候,我发现另一篇论文再次让我感到困惑,因为它们仅使用正态分布。Demšar在第12页指出了类似的事情: 使用这些方法比较第i和第j分类器的测试统计量为 z值用于从正态分布表中找到相应的概率,然后将其与适当的。这些测试在调整值以补偿多次比较的方式上有所不同。z=(Ri−Rj)k(k+1)6N−−−−−√z=(Ri−Rj)k(k+1)6N z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}} αα\alphaαα\alpha 在此段落中,他正在谈论将所有算法与控制算法进行比较,但是这句话“它们调整方式的不同……以补偿多次比较”表明,这也应适用于Nemenyi检验。 因此,对我而言,合乎逻辑的是,根据正态分布的检验统计量计算p值,然后除以来校正该值。zzzk(k−1)/2k(k−1)/2k(k-1)/2 但是,这会产生完全不同的等级差异,从而拒绝原假设。现在,我陷入了困境,不知道该采用哪种方法。我强烈倾向于使用正态分布的方法,因为它对我来说更简单,更合乎逻辑。我也不需要查找表中的值,也不必绑定到某些重要值。 再说一次,我从未使用过学生化的距离统计数据,而且我也不了解。

1
在multcomp :: glht中对具有交互作用的混合效应模型(lme4)进行事后测试
我正在R(lme4包)中的线性混合效应模型上执行事后测试。我正在使用multcomp包(glht()函数)执行事后测试。 我的实验设计是重复测量,具有随机阻塞效应。这些模型被指定为: mymod <- lmer(variable ~ treatment * time + (1|block), data = mydata, REML = TRUE) 而不是在这里附上我的数据,我叫了数据的工作过warpbreaks的内multcomp包装。 data <- warpbreaks warpbreaks$rand <- NA 我添加了一个额外的随机变量来模拟我的“阻止”效果: warpbreaks$rand <- rep(c("foo", "bar", "bee"), nrow(warpbreaks)/3) 这模仿了我的模型: mod <- lmer(breaks ~ tension * wool + (1|rand), data = warpbreaks) 我知道“ 其他Multcomp示例-2 Way Anova”中的示例。该示例使您可以比较的张力水平wool。 如果我想做相反的事情-比较wool内的水平tension怎么办?(在我的情况下,这将是在时间水平(三至六月,七月,八月)内比较治疗水平(二至零,一)。 我已经提出了以下代码来执行此操作,但是它似乎不起作用(请参见下面的错误消息)。 …

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

2
对于三向重复测量方差分析,什么是有效的事后分析?
我已经执行了三向重复测量方差分析;事后分析有效吗? 这是一个完全平衡的设计(2x2x2),其中一个因素具有重复进行内部测量的功能。我知道R中重复测量ANOVA的多变量方法,但是我的第一个直觉是继续进行ANOVA的简单aov()风格: aov.repeated <- aov(DV ~ IV1 * IV2 * Time + Error(Subject/Time), data=data) DV =响应变量 IV1 =自变量1(2个级别,A或B) IV2 =自变量2(2个级别,是或否) IV3 =时间(2级,之前或之后) 主题=主题ID(总共40个主题,每个IV1级别20个:nA = 20,nB = 20) summary(aov.repeated) Error: Subject Df Sum Sq Mean Sq F value Pr(>F) IV1 1 5969 5968.5 4.1302 0.049553 * IV2 1 3445 3445.3 2.3842 …

1
全都在家里;但是我们也包括姻亲吗?
假设我有两个或更多因素的实验。构造了一个整体方差分析,然后我们进行了两组或更多组事后测试,即多次比较。我的问题是,应该使用多少个家庭,以及多少个家庭作为这些事后测试的多重性调整的基础。 一个例子是Tukey关于EDA的书中的翘曲断裂数据集。有两个因素:(wool两个级别)和tension(三个级别)。方差分析表为: Source Df Sum Sq Mean Sq F value Pr(>F) wool 1 450.7 450.67 3.7653 0.0582130 tension 2 2034.3 1017.13 8.4980 0.0006926 wool:tension 2 1002.8 501.39 4.1891 0.0210442 Residuals 48 5745.1 119.69 显然,模型中需要交互。因此,我们决定比较每个因素的水平,同时保持另一个因素不变。结果如下,其中一些注释将在以后引用: *** Pairwise comparisons of tension for each wool *** *** All combined: Family T *** wool …

4
可以将Mann-Whitney检验用于Kruskal-Wallis之后的事后比较吗?
我进行了模拟,将动物放置在敌对环境中,并定时观察使用某种生存方法可以生存多长时间。它可以使用三种方法来生存。我使用每种生存方法对动物进行了300次模拟。所有模拟都在相同的环境中进行,但存在一定的随机性,因此每次都不同。我计算每次模拟中动物存活多少秒。活得更长些更好。我的数据如下所示: Approach 1, Approach 2, Approach 2 45,79,38 48,32,24 85,108,44 ... 300 rows of these 我不确定在此之后所做的一切,所以请让我知道我是否在做愚蠢和错误的事情。我试图找出使用特定方法在寿命上是否存在统计差异。 我对每个样本都进行了Shapiro测试,结果以很小的p值返回,因此我认为数据没有被标准化。 行上的数据彼此之间没有关系。每个模拟使用的随机种子是不同的。结果,我认为数据没有配对。 由于数据未标准化,不成对并且存在两个以上的样本,因此我进行了Kruskal Wallis检验,得出p值为0.048。然后,我继续工作,选择了曼·惠特尼。真的不确定是否应该在这里使用Mann Whitney。 我通过执行曼恩·惠特尼(Mann Whitney)测试将每种生存方法与其他方法进行了比较,即{(方法1,方法2),(方法1,方法3),(方法2,方法3)}。使用双尾检验在两对之间(方法2,方法3)之间没有统计学意义的发现,但是使用单尾检验存在显着性差异。 问题: 我不知道像这样使用Mann Whitney是否有意义。 我不知道我应该用一两个尾巴的曼·惠特尼(Mann Whitney)。

1
Tukey HSD测试如何比未校正的t.test P值更具意义?
我来自“ 双向ANOVA的事后成对比较 ”(对此帖子),它显示了以下内容: dataTwoWayComparisons <- read.csv("http://www.dailyi.org/blogFiles/RTutorialSeries/dataset_ANOVA_TwoWayComparisons.csv") model1 <- aov(StressReduction~Treatment+Age, data =dataTwoWayComparisons) summary(model1) # Treatment is signif pairwise.t.test(dataTwoWayComparisons$StressReduction, dataTwoWayComparisons$Treatment, p.adj = "none") # no signif pair TukeyHSD(model1, "Treatment") # mental-medical is the signif pair. (输出附在下面) 有人可以解释为什么在配对(未调整的p值)t检验失败时,Tukey HSD能够找到有效的配对吗? 谢谢。 这是代码输出 > model1 <- aov(StressReduction~Treatment+Age, data =dataTwoWayComparisons) > summary(model1) # Treatment is signif …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.