建立比率与百分比的线性模型?


20

假设我想建立一个模型来预测某种比率或百分比。例如,假设我要预测参加聚会的男孩与女孩的数量,并且我可以在模型中使用的聚会功能包括诸如聚会广告的数量,场地的大小,是否有将是聚会上的任何酒类,等等。(这只是一个虚构的示例;功能并不是很重要。)

我的问题是:预测比率与百分比之间有什么区别,并且根据选择的模型,我的模型如何变化?这个比那个好吗?其他功能是否比其中任何一个更好?(我并不真正在乎比率与百分比的具体数字;我只想能够确定哪些政党更有可能是“男孩政党”还是“女孩政党”。)例如,我思维:

  • 如果我要预测百分比(例如,# boys / (# boys + # girls)则为0,则由于我的依存特征被限制在1与1之间,我可能应该使用逻辑回归而不是线性回归)。
  • 如果我想预测比率(例如,# boys / # girls# boys / (1 + # girls)避免除以零的误差),那么我的从属特征为正,那么在使用线性回归之前,我是否应该应用某种(log?)变换?(或其他一些模型?对于正的非计数数据使用哪种回归模型?)
  • 通常最好预测(说)百分比而不是比率,如果是,为什么?

根据您的特定应用程序和您要建模的内容,您应该考虑使用成分数据分析(en.wikipedia.org/wiki/Compositional_data);当特征(独立变量)求和时,要考虑一些细微的事情。请参阅约翰·阿奇森的作品。
ctbrown 2014年

Answers:


9

我之前从未见过比率的回归模型,但是百分比(或更常见的是分数)的回归很普遍。原因可能是很容易用分数或概率来写下可能性(给定参数的数据的概率):每个元素的概率都属于类别(相对于)。的估计是则所估计的分数。p一种p

但是请注意:为分数建立线性模型不是标准的;更常见的是广义线性模型,它是线性模型以及可逆的非线性“链接”函数,该函数控制所需模型的范围(此处为)。[01个]

分数的最常见模型是(如您所述)逻辑回归,它允许您在实际直线上使用回归变量,但分数被约束为以[0,1]为准。但是,逻辑回归在技术上是二进制数据的模型,这意味着您观察到一系列事件,其中每个输入(一组独立变量)产生的独立观察值为或。对于仅将人口分为两个不同类别的情况(即,对于人口的每个成员您没有单独的回归变量),您可能需要二项式回归01个

话虽这么说,您可能没有什么可以阻止您写下比率的广义线性模型(GLM)的。(逻辑回归和二项式回归也是GLM)。您需要选择一个从输入空间到可能比率空间(例如)的函数映射,然后根据得出的比率写下您的可能性。日志


15

呼应第一个答案。不必费心进行转换-只需对计数进行建模并直接进行协变量。

如果您这样做并且将二项式(或等效逻辑对数)回归模型拟合到男孩女孩数,则将为您选择,如果为此类模型选择常规链接函数,则隐含地已经在拟合男孩与女孩的(协变量平滑对数)比率。那就是线性预测器。

直接建模计数而不是比例或比率的主要原因是您不会丢失信息。凭直觉,如果看到100个男孩和100个女孩,则对观察到的比率1(男孩对女孩)的信心要比对2和2更大。因此,如果您有协变量,则将有更多有关其影响的信息以及可能更好的预测模型。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.