是否存在逻辑回归的响应变量的iid假设?
例如,假设我们有数据点。响应似乎来自具有的伯努利分布。因此,我们应该有具有不同参数伯努利分布。
因此,它们是“独立的”,但不是“相同的”。
我对吗?
PS。我从“机器学习”文献中学到了逻辑回归,在该文献中我们优化了目标函数并检查了它是否适合测试数据,而没有过多地讨论假设。
我的问题从这篇文章开始理解广义线性模型中的链接函数,在这里我尝试了解有关统计假设的更多信息。
是否存在逻辑回归的响应变量的iid假设?
例如,假设我们有数据点。响应似乎来自具有的伯努利分布。因此,我们应该有具有不同参数伯努利分布。
因此,它们是“独立的”,但不是“相同的”。
我对吗?
PS。我从“机器学习”文献中学到了逻辑回归,在该文献中我们优化了目标函数并检查了它是否适合测试数据,而没有过多地讨论假设。
我的问题从这篇文章开始理解广义线性模型中的链接函数,在这里我尝试了解有关统计假设的更多信息。
Answers:
从上一个问题中,您了解到GLM是用概率分布,线性预测变量和链接函数g来描述的,并表示为
其中是对数链接函数,并且假定Y遵循伯努利分布
每个遵循伯努利分配它自己的均值μ 我是有条件X。我们不假设每个Y i来自相同的分布,并且具有相同的均值(这将是仅截取模型Y i = g − 1(μ )),但是它们均具有不同的均值。我们假设Y i是独立的,即我们不必担心诸如后续Y i值之间的自相关之类的事情。
该IID假设是关系到线性回归(即高斯GLM),其中该模型是错误
其中,所以我们必须IID噪声周围μ 我。这就是为什么对残差诊断感兴趣并注意残差与拟合图的原因。现在,在GLM的喜欢Logistic回归的情况下,它不是那么简单,因为有像高斯模型没有加性噪声项(见这里,这里和这里)。我们仍然希望残差在零附近是“随机的”,并且我们不希望看到残差中的任何趋势,因为它们会暗示模型中没有考虑某些影响,但是我们不认为残差是零。正常和/或iid。另请参阅关于iid假设在统计学习线程中的重要性。
作为附带说明,请注意,我们甚至可以放弃以下假设:每个来自相同的分布。有(非GLM)模型假设不同的Y i可以具有不同的分布和不同的参数,即您的数据来自不同分布的混合。在这种情况下,我们还将假设Y i值是独立的,因为依赖值来自于具有不同参数(即典型的实际数据)的不同分布,在大多数情况下,建模起来过于复杂(通常是不可能的) 。
如前所述,尽管我们经常在线性回归中考虑iid 错误的情况,但在大多数广义线性模型(包括逻辑回归)中并没有直接的等价物。在逻辑回归中,我们通常采用均具有非常严格关系(即对数概率的线性影响)的结果独立性的假设。但是,这些结果会导致随机变量不完全相同,也无法像线性回归那样将其分解为常数项和iid误差。
如果您真的想表明响应具有某种iid关系,请跟随我进入下一段。只是知道,这个想法有些偏离人迹罕至;如果您的教授缺乏耐心,那么您可能无法在决赛中得到充分的评价。