在活动中花费的时间作为自变量


14

我想将花费在做某事上的时间(例如,数周的母乳喂养)作为线性模型中的自变量。但是,某些观察结果根本不参与该行为。将它们编码为0并不是真正正确的方法,因为0在质量上与大于0的任何值都存在差异(即,不进行母乳喂养的女性可能与做过母乳的女性(甚至是长期不做母乳的女性)有很大差异)。我能提供的最好的方法是对假人进行分类,以对花费的时间进行分类,但这浪费了宝贵的信息。零膨胀的Poisson之类的东西似乎也有可能,但是我无法确切地弄清楚这种情况下的情况。有没有人有什么建议?

Answers:


16

进一步扩展@ ken-butler的答案。通过将连续变量(小时)和指标变量都添加为特殊值(小时= 0或非母乳喂养),您认为“非特殊”值具有线性影响,并且离散值跳跃以特殊值预测结果。(至少对我而言)查看图表很有帮助。在下面的示例中,我们将小时工资建模为受访者(所有女性)每周工作时数的函数,并且我们认为“标准”每周工作40小时有一些特别之处:

在此处输入图片说明

可以在以下位置找到生成此图的代码(在Stata中):http : //www.stata.com/statalist/archive/2013-03/msg00088.html

因此,在这种情况下,即使我们希望将连续变量与其他值区别对待,我们也为连续变量分配了值40。同样,即使您认为该值与其他值在质量上有所不同,您也应该将其母乳喂养的周值设为0。我在下面解释您的评论,即您认为这是一个问题。事实并非如此,您不需要添加交互项。实际上,如果您尝试完美的共线性,则该交互项将被删除。这不是一个限制,它只是告诉您交互项不会添加任何新信息。

假设您的回归方程如下所示:

y^=β1weeks_breastfeeding+β2non_breastfeeding+

其中的星期母乳喂养的数量(包括那些不母乳喂养的值0)和ñ ö Ñ _ b - [R Ë 一个小号˚F è Ë ð ñweeks_breastfeeding是一个指标变量,它是1,当有人不母乳喂养,否则为0。non_breastfeeding

考虑当有人母乳喂养时会发生什么。回归方程简化为:

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

所以β1是周母乳喂养对那些确实母乳喂养的数量只是一个线性的效果。

考虑当某人不进行母乳喂养时发生的情况:

y^=β10+β21+=β2+

所以β2给你不哺乳的影响,周母乳喂养从公式滴数。

您会看到没有必要添加交互项,因为该交互项已经(隐含)在其中。

然而有一些奇怪约,虽然,因为它测量通过比较那些谁不与那些母乳喂养母乳喂养的预期结果母乳喂养的效果,但这样做的只有0几周,的...种品牌在某种意义上“比较像“喜欢”这样的方式,但实际用途并不立即明显。将“非母乳喂养者”与那些母乳喂养12周(约3个月)的妇女进行比较可能更有意义。在这种情况下,你只需要给“非breastfeeders”值12 w ^ ê ê ķ 小号_。所以,你分配给值w ^ ê ê ķ 小号_ b [R Ë β2weeks_breastfeeding为“非breastfeeders”并不影响的回归系数 β 2的意义上,它与谁“非确定-“母乳喂养者”进行比较。实际上,这可能是非常有用的,而不是问题。weeks_breastfeedingβ2


1
我很欣赏这个答案(和其他答案),但是我很难接受。如果我包括一个1:0和连续的时间变量,我仍然必须为非母乳喂养者分配一个时间值(否则它们将丢失一个缺少的协变量)。即使以1:0变量为条件,我也看不到如何包含非母乳喂养者,因为时间= 0不会影响回归系数。也许在两者之间添加产品交互作用术语会更有意义?
DL Dahly

@DLDahly我已编辑答案以解决这些疑问
Maarten Buis

好的,这很有帮助。让我再进行一次快速跟进...如果我对您的理解正确,那么无论我给B2 = 1人提供什么时间值,B1的估计值都应该相同。那正确吗?
DL Dahly

1
马尔滕的回应非常好。这是网站上的类似问题/答案,在包含仅与特定子组有关的自变量中也显示出类似情况。
Andy W

1
@ GavinM.Jones我从未想过要命名或引用它:这只是连续变量和指标变量的直接应用。因此,我对您没有很好的参考。我可以快速挖掘的收尾数据是Treiman,DJ(2009):定量数据分析。做社会研究以检验想法。旧金山:Jossey-Bass。,第7章讨论了类似的内容。该模型包含一个常数。
马丁·布瓦

6

简单一点:用1/0指标(代表任何/无)和实际值代表变量。将两者都放入回归中。


4

如果您将任意时间(= 1)和无时间(= 0)的二进制指标作为指标,然后将时间量用作连续变量,则“ 0”次的不同影响是“ 0-1指标”


2

您可以将混合效果模型与基于0时间和非零时间的分组一起使用,并保留独立变量


您能对此做些扩展吗?非常感谢。
DL Dahly

混合效应模型假设存在一个将数据划分为不同(异构)类别的因素,在每个因素中,解释变量和因变量之间可能具有不同的关系(无论是截距还是截距以及斜率/系数)。 en.wikipedia.org/wiki/Mixed_model
rezakhorshidi

因此,使用嵌套在母乳喂养状态下的个体,然后在母乳喂养的几周内随机倾斜吗?我可以很容易地将它作为SEM做,并测试某些约束。感谢+1
DL Dahly 2013年

1

如果您正在使用随机森林或神经网络,则将该数字设为0是可以的,因为他们将能够确定0与其他值明显不同(如果实际上不同)。另一种方法是在时间变量之外添加类别变量yes / no。

但总而言之,在这种特殊情况下,我没有看到真正的问题-母乳喂养0.1周接近于0,效果将非常相似,所以对我来说,这似乎是一个相当连续的变量,其中0并没有引起人们的关注不同。


3
对于第一段+1,但要处理社会科学或医学数据,某件事的0相对0.1周的影响并不是主要问题。关键是,根本不尝试或不报告母乳喂养的妇女在许多其他方面(健康问题,收入,家庭状况,失业能力,获得医疗服务的机会,从中获得有关确实没有理由相信这些妇女与尝试母乳喂养并迅速停止母乳喂养的母亲非常相似。
晚会

1
从统计的角度来看,最好将这些其他变量明确地放入模型中,但是我认为,假设没有特别的情况发生在0上是有意义的。
晚会

0

我认为,Tobit模型就是您想要的。


5
当检查结果高于或低于某个阈值时,将使用Tobit。例如,我们看不到任何低于最低工资的工资或高于某个最高编码值的收入。此应用程序用于自变量。
Dimitriy V. Masterov
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.