假设我想建立一个模型来预测某种比率或百分比。例如,假设我要预测参加聚会的男孩与女孩的数量,并且我可以在模型中使用的聚会功能包括诸如聚会广告的数量,场地的大小,是否有将是聚会上的任何酒类,等等。(这只是一个虚构的示例;功能并不是很重要。)
我的问题是:预测比率与百分比之间有什么区别,并且根据选择的模型,我的模型如何变化?这个比那个好吗?其他功能是否比其中任何一个更好?(我并不真正在乎比率与百分比的具体数字;我只想能够确定哪些政党更有可能是“男孩政党”还是“女孩政党”。)例如,我思维:
- 如果我要预测百分比(例如,
# boys / (# boys + # girls)
则为0,则由于我的依存特征被限制在1与1之间,我可能应该使用逻辑回归而不是线性回归)。 - 如果我想预测比率(例如,
# boys / # girls
或# boys / (1 + # girls)
避免除以零的误差),那么我的从属特征为正,那么在使用线性回归之前,我是否应该应用某种(log?)变换?(或其他一些模型?对于正的非计数数据使用哪种回归模型?) - 通常最好预测(说)百分比而不是比率,如果是,为什么?