拟合优度以及选择线性回归或泊松的模型


19

我需要针对我的研究中的两个主要难题提出一些建议,这是对三大制药和创新案例的研究。每年的专利数量是因变量。

我的问题是

  • 好的模型最重要的标准是什么?什么更重要或更重要?是大多数还是所有变量都是有意义的?是“ F统计”的概率吗?它是“调整后的R平方”的值吗?

  • 第二,如何确定最合适的研究模型?除了专利是​​计数变量(可能是泊松计数)之外,我还有一些解释性变量,例如资产回报率,研发预算,重复合伙人(不是二进制变量的百分比),公司规模(员工)等等。我应该做线性回归还是泊松?


5
Kjetil给出了很好的详细答案。与他的论点相一致的更快,更简短的观点是,您标记为“第二”是真正重要的问题。您首先提到的是偶然的。
尼克·考克斯

Answers:


31

最重要的是模型背后的逻辑。您的变量“每年的专利数量”是一个计数变量,因此显示了Poisson回归。这是具有(通常)对数链接功能的GLM(广义线性模型),而通常的线性回归是具有身份链接的高斯GLM。在这里,真正重要的是日志链接功能,它比错误分布(泊松或高斯)更重要。

变量“专利”是一个广泛的变量:请参见密集和广泛的属性。对于密集变量,例如温度,线性模型(带有标识链接)通常是合适的。但是对于一个广泛的变量,它是不同的。认为您的制药公司之一分裂成两个不同的公司。然后,专利必须在两家新公司之间分配。协变量,回归中的会发生什么?诸如雇员数量和研发预算之类的变量也必须分开。X

从广义上讲,在此背景下,强化变量是独立于公司规模的变量,而广泛变量取决于(通常线性地)取决于公司规模。因此,从某种意义上讲,如果我们在回归方程中有许多不同的广泛变量,那么我们将反复测量尺寸效应。这似乎是多余的,所以我们应该尽可能以密集的形式表示变量,例如每位员工的RD预算(或占总预算的百分比),同样的收入等。广泛。有关 此广泛/密集变量问题的另一讨论,请参见@onestop对与相关回归变量进行处理的答案。

让我们从代数角度看一下: 是专利,预算(每位员工),原始公司的员工,而 和是拆分后的相应变量。如上所述,假设是唯一的广义协变量(当然与也是协变量)。P 1B 1E 1 P 2B 2E 2 E PPËP1个1个Ë1个P22Ë2ËP

然后,在拆分之前,我们得到了模型,身份链接,其中保留了随机部分: 假设拆分后的分数为所以对于拆分后的公司1我们得到 因为但。第二家公司也是如此。因此,该模型非常复杂地取决于公司规模,仅取决于的回归系数α 1 - α α P

P=μ+β1个Ë+β2
α1个-α
αP=αμ+αβ1个Ë+αβ2P1个=αμ+β1个Ë1个+αβ21个
P1个=αPË1个=αË1个=Ë与公司规模无关,规模会影响所有其他参数。这使得难以解释结果,尤其是,如果在您的数据中您拥有规模不同的公司,那么您将如何解释这些系数?与基于其他数据等的其他研究进行比较,变得异常复杂。

现在,让我们看看使用日志链接功能是否可以帮助您。同样,我们编写没有干扰项的理想化模型。变量如上。

首先,拆分前的模型: 拆分后,对于公司1,我们得到: 这看起来几乎是正确的,除了一个问题,对的依赖部分还没有完全解决。因此,我们看到必须以对数刻度使用大量可协变量的雇员数量。然后,再试一次,我们得到:

P=经验值μ+β1个Ë+β2
P1个=经验值日志α经验值μ+β1个Ë+β2P1个=经验值日志α+μ+β1个Ë+β21个
Ë

分割前的模型: 分割后: 其中是新的截距。现在,我们将模型放入一种形式,其中所有参数(截距除外)的解释都与公司规模无关。

P=经验值μ+β1个日志Ë+β2
P1个=经验值日志α经验值μ+β1个日志Ë+β2P1个=经验值日志α+μ+β1个日志Ë+β21个P1个=经验值1个-β日志α+μ+β1个日志Ë1个+β21个P1个=经验值μ+β1个日志Ë1个+β21个
μ

这使结果的解释变得更加容易,并且与使用其他数据的研究进行比较,随时间变化的趋势等等。您不能使用带有标识链接的大小无关解释的参数来实现此形式。

结论:使用具有对数链接函数的GLM,可能是泊松回归或负二项式,或者... 链接函数的重要性要大几个数量级!

综上所述,在为诸如计数变量之类的广泛的响应变量构建回归模型时。

  1. 尝试以密集形式表达协变量。

  2. 必须保留为广义的协变量:将它们记录下来(上面的代数取决于最多有一个广义的协变量)。

  3. 使用日志链接功能。

然后,其他标准(例如基于拟合的标准)可用于辅助决策(例如干扰项的分布)。


3
我以为Poisson回归具有对数链接功能的GLS回归?
秀节目Bob

1
通常,是的,但是您也可以考虑具有同一性(或其他,例如平方根)链接的泊松回归。但是我的论点表明,通常情况下,您需要日志链接。
kjetil b halvorsen

@ kjetil b halvorsen,纠正项时的是什么?1个-βμ
garej
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.