我需要针对我的研究中的两个主要难题提出一些建议,这是对三大制药和创新案例的研究。每年的专利数量是因变量。
我的问题是
好的模型最重要的标准是什么?什么更重要或更重要?是大多数还是所有变量都是有意义的?是“ F统计”的概率吗?它是“调整后的R平方”的值吗?
第二,如何确定最合适的研究模型?除了专利是计数变量(可能是泊松计数)之外,我还有一些解释性变量,例如资产回报率,研发预算,重复合伙人(不是二进制变量的百分比),公司规模(员工)等等。我应该做线性回归还是泊松?
我需要针对我的研究中的两个主要难题提出一些建议,这是对三大制药和创新案例的研究。每年的专利数量是因变量。
我的问题是
好的模型最重要的标准是什么?什么更重要或更重要?是大多数还是所有变量都是有意义的?是“ F统计”的概率吗?它是“调整后的R平方”的值吗?
第二,如何确定最合适的研究模型?除了专利是计数变量(可能是泊松计数)之外,我还有一些解释性变量,例如资产回报率,研发预算,重复合伙人(不是二进制变量的百分比),公司规模(员工)等等。我应该做线性回归还是泊松?
Answers:
最重要的是模型背后的逻辑。您的变量“每年的专利数量”是一个计数变量,因此显示了Poisson回归。这是具有(通常)对数链接功能的GLM(广义线性模型),而通常的线性回归是具有身份链接的高斯GLM。在这里,真正重要的是日志链接功能,它比错误分布(泊松或高斯)更重要。
变量“专利”是一个广泛的变量:请参见密集和广泛的属性。对于密集变量,例如温度,线性模型(带有标识链接)通常是合适的。但是对于一个广泛的变量,它是不同的。认为您的制药公司之一分裂成两个不同的公司。然后,专利必须在两家新公司之间分配。协变量,回归中的会发生什么?诸如雇员数量和研发预算之类的变量也必须分开。
从广义上讲,在此背景下,强化变量是独立于公司规模的变量,而广泛变量取决于(通常线性地)取决于公司规模。因此,从某种意义上讲,如果我们在回归方程中有许多不同的广泛变量,那么我们将反复测量尺寸效应。这似乎是多余的,所以我们应该尽可能以密集的形式表示变量,例如每位员工的RD预算(或占总预算的百分比),同样的收入等。广泛。有关 此广泛/密集变量问题的另一讨论,请参见@onestop对与相关回归变量进行处理的答案。
让我们从代数角度看一下: 是专利,预算(每位员工),原始公司的员工,而 和是拆分后的相应变量。如上所述,假设是唯一的广义协变量(当然与也是协变量)。P 1,B 1,E 1 P 2,B 2,E 2 E P
然后,在拆分之前,我们得到了模型,身份链接,其中保留了随机部分: 假设拆分后的分数为所以对于拆分后的公司1我们得到 因为但。第二家公司也是如此。因此,该模型非常复杂地取决于公司规模,仅取决于的回归系数α ,1 - α α P
现在,让我们看看使用日志链接功能是否可以帮助您。同样,我们编写没有干扰项的理想化模型。变量如上。
首先,拆分前的模型: 拆分后,对于公司1,我们得到: 这看起来几乎是正确的,除了一个问题,对的依赖部分还没有完全解决。因此,我们看到必须以对数刻度使用大量可协变量的雇员数量。然后,再试一次,我们得到:
分割前的模型: 分割后: 其中是新的截距。现在,我们将模型放入一种形式,其中所有参数(截距除外)的解释都与公司规模无关。
这使结果的解释变得更加容易,并且与使用其他数据的研究进行比较,随时间变化的趋势等等。您不能使用带有标识链接的大小无关解释的参数来实现此形式。
结论:使用具有对数链接函数的GLM,可能是泊松回归或负二项式,或者... 链接函数的重要性要大几个数量级!
综上所述,在为诸如计数变量之类的广泛的响应变量构建回归模型时。
尝试以密集形式表达协变量。
必须保留为广义的协变量:将它们记录下来(上面的代数取决于最多有一个广义的协变量)。
使用日志链接功能。
然后,其他标准(例如基于拟合的标准)可用于辅助决策(例如干扰项的分布)。