首先,我认为您的第一个问题和第一个R模型彼此不兼容。在R中,当我们使用-1
或编写公式时+0
,我们抑制了截距。因此,lm(y ~ group + x:group - 1)
防止你能告诉我们,如果拦截显著从0不同,在同样的,在你的下面的两个型号,TH +1
是多余的,截距被自动估计R.我会建议你使用参考单元编码(也称为“虚拟编码”)代表您的小组。也就是说,G 组,创建 G− 1新变量,选择一组作为默认变量,并在每个新变量中为该组的单位分配0。然后,每个新变量都用于表示其他组之一的成员资格;属于给定组的单位在相应变量中用1表示,在其他位置用0表示。返回系数时,如果截距为“显着”,则默认组的截距为非零。不幸的是,针对其他组的标准重要性测试不会告诉您它们是否不同于0,而是告诉您它们是否不同于默认组。要确定它们是否不同于0,请将其系数添加到截距中,然后将总和除以其标准误差即可得到其t值。斜率的情况将类似:X会告诉您默认组的斜率是否与0显着不同,并且交互作用条件会告诉您这些组的斜率是否与默认组不同。可以像截距一样构造其他组相对于0的斜率的测试。更好的方法是只使用没有任何组指标变量或交互作用项的“受限”模型,并使用来对整个模型进行测试anova()
,这将告诉您您的组是否根本没有显着差异。
说了这些话,您的主要问题是做所有这些事情是否可以接受。这里的根本问题是多重比较的问题。这是一个长期而棘手的问题,有很多意见。(您可以通过仔细研究使用此关键字标记的问题来找到有关CV的此主题的更多信息。)尽管对此主题的看法肯定有所不同,但我认为如果分析是正交的,没有人会为您在同一数据集上运行许多分析而感到fault惜。 。一般来说,正交对比是搞清楚的情况下想过如何来比较一组G彼此分组,但事实并非如此;您的问题不寻常(而且我认为很有趣)。就我所知,如果您只是想将数据集划分为G分离子集,并对每个子集运行一个简单的回归模型,应该可以。更为有趣的问题是,是否可以将“折叠”分析视为与单个分析集合正交?我不这么认为,因为您应该能够使用组分析的线性组合来重新创建折叠分析。
一个稍微不同的问题是这样做是否真的有意义。您进行了初步分析的图像,发现这些组在本质上有意义的方式上彼此不同;将这些不同的群体组合成一个分散的整体有什么意义?例如,假设组在截距上有所不同(某种程度上),那么至少某些组没有 0截距。如果只有一个这样的组,那么如果该组具有ñG= 0在相关人群中。或者,假设存在正好有两个正负一组的非零截距的正好有2个组,则只有当ñ这些组的数量与截距的发散量成反比。我可以在这里继续(还有更多可能性),但重点是您在询问有关组大小如何与参数值差异相关的问题。 坦白说,这些对我来说都是奇怪的问题。
我建议您遵循上面概述的协议。即,对组进行虚拟编码。然后,将包含所有虚拟变量和交互作用项的完整模型拟合。在没有这些术语的情况下拟合简化模型,然后执行嵌套模型测试。如果做不同不知何故组,(希望)先验(理论上驱动)正交对比跟进,以更好地了解如何在群不同。(和情节-永远,永远绘制。)