统计人员是否假设不能为植物浇水,还是我使用错误的搜索词进行曲线回归?


18

几乎所有我读到线性回归和GLM归结为:y=f(x,β),其中是一个非增或非递减的函数和是你估计参数并检验假设。有数十种链接函数以及和转换,以使成为的线性函数f(x,β)xβyxyf(x,β)

现在,如果删除的非递增/非递减要求f(x,β),则我仅知道两个用于拟合参数化线性化模型的选择:trig函数和多项式。两者都会在每个预测的y与整个集合之间造成人为的依赖性X,因此使其非常不稳健,除非事先有理由认为您的数据实际上是由循环或多项式过程生成的。

这不是某种神秘的边缘情况。这是水与农作物产量之间的实际常识关系(一旦田间水深足够,农作物产量将开始减少),或者是早餐时消耗的卡路里与数学测验表现之间的热量,或工厂工人的数量之间的常识关系。以及它们产生的小部件数量...简而言之,几乎在任何使用线性模型的现实生活中,数据覆盖的范围都足够大,您可以避免收益递减成负收益。

我尝试查找“凹”,“凸”,“曲线”,“非单调”,“浴缸”等术语,但我忘记了其他几个。很少有相关问题,甚至更少可用的答案。因此,实际上,如果您具有以下数据(R代码,y是连续变量x和离散变量组的函数):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

散点图

您可能首先尝试进行Box-Cox转换,看看它是否具有机械意义,否则,您可能会使用具有逻辑或渐近链接函数的非线性最小二乘模型进行拟合。

因此,当您发现完整的数据集看起来像这样时,为什么要完全放弃参数模型而又回到样条线这样的黑盒方法...

plot(y~x,updown,col=group);

我的问题是:

  • 为了找到代表此类功能关系的链接功能,我应该搜索哪些术语?

要么

  • 为了教自己如何设计链接函数到此类函数关系或扩展当前仅用于单调响应的现有函数,我应该阅读和/或搜索什么?

要么

  • 哎呀,甚至什么StackExchange标签最适合此类问题!

4
我不知道你在问什么 您想拟合的非单调函数...多项式回归或正弦回归又是什么问题?还有...“链接功能” ...您一直在使用该词...我认为这并不意味着您认为的含义。X
Jake Westfall

5
(1)您的R代码有语法错误:group不应用引号引起来。(2)该图很漂亮:红点显示出线性关系,而黑点可以通过多种方式拟合,包括分段线性回归(通过变化点模型获得),甚至可能是指数关系。但是,我推荐使用这些方法,因为应该通过了解有关数据产生的原因以及相关学科的理论动机来指导建模选择。它们可能是您进行研究的更好的起点。
ub

1
@whuber谢谢!修复了代码。关于理论动机:这些首先来自何处?我的替补科学家合作者会很高兴地将预测变量二分,并对它们进行t检验。因此,我不得不找到一种方法来停止浪费数据,方法是找到一种数学关系,该数学关系捕获从“ y与x呈正相关”到“ y对x的响应很小”到“ y与x负相关”的过渡。否则,我必须总结一下,例如Michaelis和Menten在发现酶,底物和产物之间的关系时所做的事情。
f1r3br4nd

1
这些东西“扭结”的点是事先知道的吗?
Glen_b-恢复莫妮卡

3
挑衅性标题+1和实际上有意义的跟进
Stumpy Joe Pete

Answers:


45

关于链接函数和单调性的问题中的评论是一个红色鲱鱼。 底层它们似乎是一个隐含的假设,一个广义线性模型(GLM),通过表达的响应的期望作为单调函数˚F的线性组合X β解释变量X,是不够灵活以考虑非单调响应。事实并非如此。ÿFXβX


一个可行的例子也许可以说明这一点。在1948年的一项研究(于1977年死后发表,从未经过同行评审)中,J。Tolkien报告了一项植物浇水实验的结果,该实验从萌发开始的三个月中,对13组24 向日葵(向日葵)进行了适量的浇水。增长。施加的总量从1英寸到25英寸不等,以2英寸为增量。

图1

对浇水有明显的正面反应,对浇水有强烈的负面反应。较早的工作基于离子迁移的假设动力学模型,假设可能有两种竞争机制可以解释这种行为:一种导致对少量水的线性响应(以生存的对数比值衡量),而另一种是- -一个抑制因子-以指数方式起作用(这是强烈的非线性效应)。使用大量的水,抑制因子将压倒水的积极作用,并显着增加死亡率。

为(未知)抑制率(每单位水量)。该模型断言数ÿ幸存者的组大小中Ñ接收X英寸水柱应该有一个二项式 Ñ ˚F β 0 + β 1 X - β 2 EXP κ X 分布,其中˚F是链接函数将对数几率转换为概率。这是二项式GLM。因此,尽管它在x中显然是非线性κÿñX

二项式ñFβ0+β1个X-β2经验值κX
FX给定的任何值它是线性在其参数β 0β 1,和β 2。“线性”在GLM设置具有在这个意义上,应理解˚F - 1Ë [ ÿ ] 是这些参数,其系数的线性组合已知为每个X。它们是:它们等于1(的系数β 0),X本身(的系数β 1),和- EXPκβ0β1个β2F-1个Ë[ÿ]X1个β0Xβ1个(系数 β 2)。-经验值κXβ2

该模型虽然有些新颖,但参数并不完全线性,但可以通过使用标准软件拟合该模型,方法是最大化任意的可能性,并选择该最大值最大的κ。这是从数据开始的代码:κκR

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

没有技术上的困难;计算仅需1/30秒。

图2

蓝色曲线是响应的拟合期望 Ë[ÿ]

Ë[ÿ]XR

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

问题的答案是:

为了找到代表此类功能关系的链接功能,我应该搜索哪些术语?

:这不是链接功能的目的。

为了扩展现有的仅用于单调响应的现有[链接功能],我应该寻找什么?

没什么:这是基于对响应建模的误解。

显然,在构建回归模型时,应首先关注使用或构造哪些解释变量。如本例所示,请从过去的经验和理论中寻求指导。


很棒的答案!这是小说中的实际数据吗?
Cam.Davidson.Pilon

1
@Cam数据没有进入最终裁切:-)。(恐怕情况
真是令人

1
κ

5
κκχ21个

1
@zipzapboing我在这里给出的示例很特殊,因为它是由基础理论提供的。当此类信息可用时,它可以作为选择模型的有力指南。但是,在许多情况下,没有此类信息,或者仅希望预期的响应会随回归变量而单调变化。可能要指出的最基本的原因是希望响应随回归变量而有所不同,并且对于数据中回归变量的范围,导数的变化很小:线性响应可以很好地近似。
ub

9

内地看着他桌上垂死的植物……显然不是

@whuber在评论中说:“建模选择应该通过了解产生数据的方式以及相关学科的理论所为。”,您问到了如何去做。

Michaelis和Menten动力学实际上是一个非常有用的例子。这些方程式可以通过一些假设(例如,底物与其复合物处于平衡状态,不消耗酶)和某些已知原理(质量作用定律)开始得出。穆雷的《数学生物学:绪论》在第6章中推导了这一推论(我敢打赌,其他许多书也会这样做!)。

更一般而言,它有助于建立模型和假设的“库”。我确定您所在的领域有一些公认的,经过时间考验的模型。例如,如果某物正在充电或放电,我将达到指数以将其电压建模为时间的函数。反之,如果我在电压-时间曲线图中看到类似指数的形状,我的第一个猜想就是电路中的某些东西正在电容性放电,如果我不知道它是什么,我会尝试找到它。理想情况下,理论可以帮助您建立模型并提出新的实验建议。

ÿ=ķ-X+H2一氧化碳2 是因为蒸腾作用减少了吗?)和洪水(细菌吞噬了根?)可能暗示了每片的特定形式。


8

从某人的角度来看,我有一个相当非正式的回应,一个人把自己的科学生涯的一半时间花在板凳上,另一半花在计算机上,玩统计数据。我试图发表评论,但时间太长。

您会发现,如果我是一名科学家,正在观察您所获得的结果类型,我会很兴奋。各种单调关系很无聊,很难区分。但是,您向我们展示的关系类型暗示了一种非常特殊的效果。它为理论家提供了一个绝佳的游乐场,让他们提出关于关系是什么,关系在极端情况下如何变化的假设。它为台式科学家提供了一个很好的游乐场,让他们能够了解正在发生的事情并在条件下进行广泛的实验。

从某种意义上说,我宁愿您正在展示的案例,也不知道如何拟合一个简单的模型(但能够得出一个新的假设),而不是拥有一个简单的关系,易于建模但更难于进行机械研究的关系。但是,在我的实践中,我还没有遇到过这样的情况。

最后,还有一个考虑因素。如果您正在寻找一种显示黑色与红色(在您的数据中)不同的测试-作为一名前替补科学家,我说为什么还要打扰?从图中很清楚。


5

对于这样的数据,我可能至少要考虑线性样条曲线。

您可以很容易地在lm或glm中完成这些操作。

如果采用这种方法,您的问题将是选择结数和结位置。一种解决方案可能是考虑相当数量的可能位置,并使用套索之类的方法或其他正则化和选择方法来识别一小部分;不过,您需要在推论中考虑这种选择的影响。


但是,样条回归不是说“没有一个描述响应形状的未知函数,我们将仅测试关于其他变量如何使曲线向上/向下移动或倾斜”的假设吗?如果一种处理改变了形状本身,该怎么办?如果这种交互作用意义重大,该如何解释?
2013年

2
替代品的通用性如何?即使对于一般情况,您也可以通过多种方法比较拟合,并假设非参数函数与非参数函数相同。加性模型和广义加性模型可以处理此类比较。
Glen_b-恢复莫妮卡

作为比您讨论的更普遍的案例的一个示例(参考文献中讨论了各种其他方法),如果可以理解,请看一下本文( J.Roca-Pardiñas 等人,2006年,“基于Bootstrap的通用加性模型中逐条曲线交互作用的测试方法:评估与决策相关的前额叶皮层神经活动”,《医学统计学》,7月30日; 25(14):2483-501。在那篇论文中,他们使用自举(和分箱来减少计算负担),但是这里提到了其他方法。
Glen_b-恢复莫妮卡

更基本和较旧的参考文献可能是Hastie和Tibshirani(1990),广义加性模型(例如,参见p265)。另外,请看这里,尤其是幻灯片34上的最后一个方程式。在那儿,它还解释了如何gam在R包中使用这种模型mgcv
Glen_b-恢复莫妮卡

2

我没有时间阅读您的整个文章,但是您似乎主要担心的是,回复的功能形式可能会随着治疗而改变。有解决此问题的技术,但是它们是数据密集型的。
以您的特定示例为例:

G是生长W是水T是处理

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

在过去的十年中,对半参数回归进行了大量研究,这些有关函数形式的内容越来越多地易于管理。但是,归根结底,统计数据是在玩数字,并且仅在建立对观察现象的直觉时才有用。反过来,这需要了解数字的播放方式。帖子的语气表明愿意将婴儿与洗澡水一起扔出去。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.