聚类是拆分数据以进行逻辑回归的一种方法

11

我正在尝试通过逻辑回归模型基于某些功能来预测学生的成败。为了提高模型的性能，我已经考虑过根据明显的差异将学生分为不同的组，并为每个组构建单独的模型。但是我认为可能很难通过考试来确定这些群体，因此我想通过根据学生的特征将学生分类。这是建立此类模型的常见做法吗？您是否建议我将其分为明显的组（例如，第一学期学生与回国学生），然后对这些组进行聚类，或者从一开始就聚类？

尝试澄清：

我的意思是说我正在考虑使用聚类算法将逻辑回归的训练集分成几组。然后，我将为每个组分别进行逻辑回归。然后，当使用Logistic回归预测学生的学习成绩时，我将根据他们最适合的群体选择要使用的模型。

也许我可以通过包含一个组标识符来做同样的事情，例如，如果学生要返回，则返回1，否则返回0。

现在，您让我开始思考，对训练数据集进行聚类并使用其聚类标签作为逻辑回归中的功能是否有利，而不是为每个总体建立单独的逻辑回归模型。

如果为回国学生和新生的学生添加组标识符很有用，扩展组列表是否也有用？群集似乎是执行此操作的自然方法。

我希望这很清楚...

clustering data-mining logistic

— 戴夫
source

我想我不了解“聚类”和逻辑回归模型如何相互作用或相互影响。您能否解释这种情况下的“聚类”与在回归中包括组标识符作为解释变量之间的区别？

— ub

4

我相信，如果群集之间因变量的差异很大，那么首先采用群集的方法无疑会有所帮助。无论您选择哪种学习算法。

我认为，在整个基础上运行一个学习算法可以在较低的聚合级别掩盖有意义的差异。

任何人都听过辛普森悖论，这是一个更深层次的问题，在不同的组中您具有不同的相关性，而这些较大的样本噪声或较弱的一组相关性则掩盖了这一难题。

— 克兰西
source

您可能是正确的，但我不接受您的论点。您是否主张OP在找到的集群上运行单独的LR ，在协变量之外添加集群索引，或者代替协变量？确实可以在观察研究中将协变量与省略的变量混淆，但是您是说CA可以生成不在其运行的变量中的信息吗？至于辛普森的悖论，它是在CV讨论在这里，如果你有兴趣。

— gung-恢复莫妮卡

我建议在无监督的分析中抽取具有任意IV（独立变量）集合的同质组。之后，您可以决定是否要使用相同的一组var或新的一组或组合的组进行下一步LR建模。目的是为每个群集建立和调整1个LR（假设群集的DV值或频率有显着差异）。

— 克兰西

我实际上是在交叉销售人寿保险产品的吸收模型的背景下自己进行这项工作的，发现对被第三个集群稀释的两个集群的预测得到了改进。

— 克兰西

我想知道模型是否需要样条项。您能否包括一些数据的模拟，基本拟合，CA和带有聚类指标的最终（改进）拟合？我会对看到这一点感兴趣，并对其进行一些了解以了解发生了什么。

— gung-恢复莫妮卡

嗨，宫，我很乐意，但是找不到时间。我在家庭，工作和提高我的建模技能上投入了大量资金。我刚刚开始从事MARS建模工作，并且不确定是否能满足所描述的Cluster + LR合奏的预期结果。

— 克兰西

8

您建议的通用方法-使用潜在分区将不同的数据点分配给不同的基础分类器-是一种经过充分研究的分类方法。

这些方法之所以未得到广泛使用，可能是因为它们比逻辑回归或SVM相对复杂且运行时间更长。在许多情况下，它们似乎可以带来更好的分类性能。

以下是一些参考资料：

Shahbaba，B.和Neal，R.“使用Dirichlet过程混合物的非线性模型”
Zhu，J.和Chen，N.和Xing，EP“用于分类和多任务学习的无限潜在SVM”
CE的Rasmussen和Z. Ghahramani的“高斯过程专家的无限混合物”
E. Meeds和S. Osindero。“高斯过程专家的替代无限混合”

— 用户名
source

1

我想从一开始就承认我对集群知之甚少。但是，我看不到您描述的过程的重点。例如，如果您认为第一学期的学生与返校的学生可能有所不同，为什么不包括一个索引该变量的协变量呢？同样，如果您认为学生的另一个功能很重要，则也可以包括。如果您担心您的主要预测变量与成功率之间的关系可能不同，则还可以包括该预测变量与第一项与返回项之间的相互作用，等等。Logistic回归通过包含以下内容可以很好地解决这些问题：模型中的术语。

另一方面，只要您仅对这些功能进行聚类，并且首先这样做（不查看响应），就不会出现任何问题。我怀疑这种方法效率不高，因为每个模型仅适用于部分数据，因此功耗较低，但我认为它不会使参数产生偏差或使测试无效。所以我想如果您真的愿意的话可以尝试一下。

更新：

我的猜测是，将一个模型与所有数据拟合将是最好的（即最有效的）。您可以包括超出主要兴趣范围的其他一些协变量（例如收益与否），以及通过预先运行聚类分析而发现的分组指标。但是，如果进了聚类分析的协也提供给逻辑回归模型，我不知道如果我能看到什么会吃胖只是包括所有在LR模型协变量的不集群指标。因为我不是聚类分析专家，所以我可能不熟悉它的优点，但是我不知道会是什么样子。在我看来，CA不会生成协变量中尚不存在的其他信息，因此不会为LR模型添加任何内容。您可以尝试一下；也许我错了。但是我的猜测是，您只会增加一些额外的自由度。

另一种方法是将聚类指标输入LR模型，而不是它所基于的协变量。我怀疑这会是有益的。CA绝不是完美的，它比任何其他分析都完美，因此从原始协变量转向派生的聚类指标可能会导致一定程度的信息丢失。（再次，我不知道，但是我强烈怀疑这是真的。）同样，您可以尝试两种方式并将其作为学术练习进行比较，尽管只是尝试了很多事情并根据看起来最好的结果来解决问题如果您想认真对待您的结果。

我不想只是进行聚类分析。通常，它们可能有很多好处，并且在这里可能有很好的用途。但是，据我了解您的情况，我认为仅需使用您认为可能相关的协变量构建LR模型即可。

— gung-恢复莫妮卡
source

1

如果您不依赖逻辑回归，我建议您使用随机森林分类器，因为它具有某种内置聚类功能。想法是使用接近矩阵进行聚类。接近矩阵是N_Obs乘以N_Obs矩阵，表示袋装树外的部分在同一终端节点中的观测值。然后，您可以按要素级别矩阵将其聚合到要素级别，其中元素是邻近矩阵中分数的平均值。然后，当所有级别超过阈值时，您将它们聚在一起，看看这是否可以改善您的预测。最好采用逐步迭代的方法来找到最佳的聚类，但是您可以通过其他方式选择阈值。完成此群集后，您可以用群集标签替换功能，也可以将群集标签添加为新功能。我想在这一点上，如果您确实需要，可以切换回逻辑回归。

— 基思
source

0

在创建多细分模型时，我认为最好的方法是创建能够反映基础分布中实际差异的细分。第一学期学生与回国学生是一个很好的例子，因为这两个人群的预测变量分布可能会非常不同。更重要的是，这些差异具有直观的解释。

— 泽拉兹尼7
source

我得到了直观解释的价值-它可以帮助您解释模型。但是，没有理由认为，如果根据人们的相似性将他们分为几类，就可以使用的功能而言，即使它们具有不同的可解释性，您也会获得相似的好处？我猜想使用聚类背后的想法是，当要识别与我们日常生活中使用的类别不完全对应的组时，机器比人类好……

— dave 2012年

另外，如果您在一组相似的学生上训练回归模型，则该模型在预测那些学生的成功方面将比使用更多学生训练的模型更为准确。

— 戴夫2012年