Answers:
进一步扩展@ ken-butler的答案。通过将连续变量(小时)和指标变量都添加为特殊值(小时= 0或非母乳喂养),您认为“非特殊”值具有线性影响,并且离散值跳跃以特殊值预测结果。(至少对我而言)查看图表很有帮助。在下面的示例中,我们将小时工资建模为受访者(所有女性)每周工作时数的函数,并且我们认为“标准”每周工作40小时有一些特别之处:
可以在以下位置找到生成此图的代码(在Stata中):http : //www.stata.com/statalist/archive/2013-03/msg00088.html
因此,在这种情况下,即使我们希望将连续变量与其他值区别对待,我们也为连续变量分配了值40。同样,即使您认为该值与其他值在质量上有所不同,您也应该将其母乳喂养的周值设为0。我在下面解释您的评论,即您认为这是一个问题。事实并非如此,您不需要添加交互项。实际上,如果您尝试完美的共线性,则该交互项将被删除。这不是一个限制,它只是告诉您交互项不会添加任何新信息。
假设您的回归方程如下所示:
其中的星期母乳喂养的数量(包括那些不母乳喂养的值0)和ñ ö Ñ _ b - [R Ë 一个小号吨˚F è Ë ð 我ñ是一个指标变量,它是1,当有人不母乳喂养,否则为0。
考虑当有人母乳喂养时会发生什么。回归方程简化为:
所以是周母乳喂养对那些确实母乳喂养的数量只是一个线性的效果。
考虑当某人不进行母乳喂养时发生的情况:
所以给你不哺乳的影响,周母乳喂养从公式滴数。
您会看到没有必要添加交互项,因为该交互项已经(隐含)在其中。
然而有一些奇怪约,虽然,因为它测量通过比较那些谁不与那些母乳喂养母乳喂养的预期结果母乳喂养的效果,但这样做的只有0几周,的...种品牌在某种意义上“比较像“喜欢”这样的方式,但实际用途并不立即明显。将“非母乳喂养者”与那些母乳喂养12周(约3个月)的妇女进行比较可能更有意义。在这种情况下,你只需要给“非breastfeeders”值12 w ^ ê ê ķ 小号_。所以,你分配给值w ^ ê ê ķ 小号_ b [R Ë 一为“非breastfeeders”并不影响的回归系数 β 2的意义上,它与谁“非确定-“母乳喂养者”进行比较。实际上,这可能是非常有用的,而不是问题。
如果您将任意时间(= 1)和无时间(= 0)的二进制指标作为指标,然后将时间量用作连续变量,则“ 0”次的不同影响是“ 0-1指标”
您可以将混合效果模型与基于0时间和非零时间的分组一起使用,并保留独立变量
如果您正在使用随机森林或神经网络,则将该数字设为0是可以的,因为他们将能够确定0与其他值明显不同(如果实际上不同)。另一种方法是在时间变量之外添加类别变量yes / no。
但总而言之,在这种特殊情况下,我没有看到真正的问题-母乳喂养0.1周接近于0,效果将非常相似,所以对我来说,这似乎是一个相当连续的变量,其中0并没有引起人们的关注不同。
我认为,Tobit模型就是您想要的。