当解释变量之一可能具有二次项和三次项时,我该如何建模?


10

我衷心希望我对这个问题的表述方式能够得到明确的回答-如果没有,请让我知道,我会再试一次!我还应该注意,我将使用R进行这些分析。

plant performance (Ys)怀疑有几种措施受到了我实施的四种治疗的影响- flower thinning (X1), fertilization (X2), leaf clipping (X3)biased flower thinning (X4)。对于所有可能的Y,N至少为242,因此我的样本量很大。所有地块都进行了稀疏或不间断处理,但每个地块也经历了其他三种处理方式中的一种(也只有一种)(或没有,也有对照地块)。该设计的目的是测试其他三种处理是否能够“掩盖”或“增强”细化效果。因此,通过设计,后三种处理(X2-X4)不能相互作用彼此,因为他们没有交叉,但他们可以每疏花互动-他们可能会做。

我的明确假设是:1)开花稀疏将很重要,并且2)X1*X2, X1*X3, and X1*X4,花卉稀疏与其他三种处理之间的相互作用项也将很重要。就是说,疏花应该很重要,但是其他三种处理方式却应该大大改变疏花的方式。

我想将所有这些信息包括在混合模型中:

Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)

但是有一个困扰:我有充分的理由相信细化对Y的影响是非线性的。它们可能是二次方的,但在某些情况下甚至可能是三次方的。这是因为细化对性能的影响很可能在更高的细化水平下更快地增加。如果我尝试通过为X1添加二次项和三次项来通过上述等式对这种非线性关系进行建模,那么我不确定如何对交互项进行建模-我应该包括X1的所有可能组合(X1)^ 2,以及(X1)^ 3 * X2,X3和X4?因为即使有我拥有的数据点的数量,这似乎也要尝试估计很多参数,而且我不确定如何解释得到的结果。就是说,我没有生物学上的理由认为这将是对情况进行建模的不明智的方式。

因此,对于如何解决此问题,我有三点想法:

  1. 首先拟合一个较小的模型,例如Y ~ X1 + X1^2 + X^3 + Random effects,其唯一目的是弄清楚细化和Y之间的关系是线性,二次还是立方,然后通过平方根或立方根转换细化以适当地线性化关系。从那里,可以使用转换后的变量对交互项进行建模。
  2. 假设重要的相互作用(如果发生)仅影响X1项之一(即,仅线性,二次或三次项),并相应地对相互作用进行建模。我什至不确定这种方法是否有意义。
  3. 只需将“完全模型”与细化项和上述其他处理之间的所有可能交互项拟合即可。然后,删除无关紧要的交互项,并使用图形和其他技术来解释结果。

考虑到我对假设检验而不是模型选择感兴趣,这些方法中的哪一种(如果有的话)最有意义,为什么?特别是,如果上面的#1 没有意义,那为什么呢?我已经阅读了这篇文章这篇文章,并尝试去理解它们对我的意义,但是任何进一步阅读的资料也将不胜感激!

Answers:


7

这些方法均无法正常工作。方法3.接近了,但随后您说您会删掉无关紧要的条款。这是有问题的,因为共线性使得无法找到要删除的项,并且如果您要保留I型错误,这将在假设检验中给您错误的自由度。

根据问题中的有效样本量和信噪比,我建议将所有乘积和主效应项拟合为模型,并使用绘图和“块检验”(相关项的多个df检验,即,整体互动测试,非线性互动测试,整体效果测试(包括主效果+互动等)。rms当为多元正态时,使用R 包可以轻松地对标准单变量模型和纵向模型进行此操作。例:Y

# Fit a model with splines in x1 and x2 and tensor spline interaction surface
# for the two.  Model is additive and linear in x3.
# Note that splines typically fit better than ordinary polynomials
f <- ols(y ~ rcs(x1, 4) * rcs(x2, 4) + x3)
anova(f)   # get all meaningful hypothesis tests that can be inferred
           # from the model formula
bplot(Predict(f, x1, x2))    # show joint effects
plot(Predict(f, x1, x2=3))   # vary x1 and hold x2 constant

当您看到anova表格时,您会看到标All Interactions有行的行,这些行在整个模型中测试了所有交互条件的综合影响。对于单个预测变量,这仅在预测变量与多个变量交互时才有用。该print方法中有一个选项,anova.rms可以按表格中的每一行准确显示要针对零进行测试的参数。所有这些都可以与分类和连续预测变量混合使用。

如果要使用普通多项式,请使用pol代替rcs

不幸的是,我还没有实现混合效果模型。


1
感谢您的回答。我以前从未使用过样条曲线,但我想我理解您的示例。我有几个后续问题,如果可以吗?1.在查看ols的方差分析结果时,如您的示例所示,因素下的“所有相互作用”是什么意思?也就是说,所有的相互作用是什么?2.在混合模型方法中是否允许类似方法?我认为我一直需要随机因素。您的示例是否与例如lme4兼容?3.如果某些相互作用的治疗是绝对的,这种方法会起作用吗?例如,如果X2是2级因子,该怎么办?
Bajcz 2014年

2

我热衷于使用非参数平滑回归来评估因变量和预测变量之间关系的函数形式,即使随后我要估计参数回归模型也是如此。尽管我经常发现非线性关系,但即使主要影响是强烈非线性的,我也从未发现过非线性相互作用相互作用项。我的结论是:交互作用不必由与其所包含的预测变量相同的功能形式组成。


因此,要澄清一下,您的主意是,如果我选择选项#2,我可以放心地将交互项与线性X1项包括在内,而不必担心“高阶交互项”,例如X1 ^ 2 * X3等吗?
Bajcz 2014年

1
@Bajcz好吧...我猜我在说两件事:(1)我设法通过仅线性交互遇到的数据集获得了数据,但也(2)我想看一下(使用非参数回归)并让数据告诉我是否应该考虑非线性替代方案。[对非线性项采用模型拟合或假设检验方法是IMO错误的处理方法,因为这需要例如基于(例如)多项式项的任意集合而不是数据本身进行推断。]
亚历克西斯

3
没有充分的理由相信相互作用更可能是线性的。我遇到了很好的非线性相互作用的例子。“查找”和“让数据告诉您”的想法充斥着推理问题,包括不良的置信区间覆盖问题。
弗兰克·哈雷尔

1
@FrankHarrell谢谢!您的第一句话恰好是我在上述评论中试图传达的内容(2)(我的过去经验将来可能会发生很大变化)。OTOH:不让数据说话是将建模假设的工件推论到有关实际数据的推论的一种很好的策略。
亚历克西斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.