什么是桶装？

10

我一直在四处寻找没有运气的机器学习中“桶化”的清晰解释。到目前为止，我了解到的是，存储桶化类似于数字信号处理中的量化，其中一系列连续值被一个离散值代替。它是否正确？

应用存储桶化有什么利弊（除了丢失信息的明显影响）？关于如何应用存储分区是否有任何经验法则？在应用机器学习之前，是否有任何准则/算法可用于应用桶化？

machine-learning dataset data-preprocessing

— MedAli
source

我可能没有正确的答案，但粗分类和细分类 [WoE和IV]有助于进行存储桶化。如果这不是您的预期，请原谅我。

— Srikanth Guhan 2015年

4

这是一个广泛的主题，您会遇到各种原因，为什么应该或已经将数据存储在桶中。并非所有这些都与预测准确性有关。

首先，这是一个建模人员可能想对存储区进行存储的示例。假设我正在建立一个信用评分模型：我想知道人们对贷款违约的倾向。在我的数据中，我有一列指示信用报告的状态。也就是说，我从评级机构订购了该报告，该机构返回了他们的专有评分，以及表明该评分可靠性的分类变量。该指标可能比我需要达到的目的要细得多。例如，“没有足够的信息来获得可靠的分数”可能会分为许多类别，例如“年龄小于20岁”，“最近移居到该国”，“没有先前的信用记录”等。其中许多类别可能人烟稀少，因此在回归模型或其他模型中毫无用处。为了解决这个问题，我可能希望将类似的类集中在一起，以将统计能力合并为一个“代表性”类。例如，对于我来说，使用二进制指示符“返回良好信息”与“不返回信息”可能是合理的。以我的经验，存储桶的许多应用都属于这种情况稀疏填充的类别类型崩溃。

一些算法在内部使用存储桶化。例如，适合提升算法的树通常会在汇总步骤中花费大部分时间，在该步骤中，离散每个节点中的连续数据，并计算每个存储桶中响应的平均值。这极大地降低了找到合适分割的计算复杂度，而又不会由于提升而在准确性上付出很多牺牲。

您也可以简单地接收预先存储的数据。离散数据更易于压缩和存储-浮点数的长数组几乎不可压缩，但是当离散化为“高”，“中”和“低”时，您可以在数据库中节省大量空间。您的数据也可能来自针对非建模应用程序的来源。当我从分析工作较少的组织那里收到数据时，往往会发生这种情况。他们的数据通常用于报告，并被汇总到较高的级别，以帮助报告向外行解释。这些数据仍然有用，但是经常会失去一些电源。

尽管可以纠正，但我认为价值较小的是为模型目的对连续测量进行预桶化。有很多非常强大的方法可以将非线性效果拟合到连续的预测变量中，而巴克化消除了您使用这些变量的能力。我倾向于将其视为不良做法。

— 马修·德鲁里
source

4

根据文章“高级与低级数据科学”，桶化是

桶化步骤（有时称为多变量装箱）包括识别具有较高预测能力的度量标准（以及2-3个度量标准的组合），对其进行适当地合并和分类，以减少桶内差异，同时保持桶足够大。

因此，我的理解是，您根据最具有预测性的特征贪婪地对数据进行分类，然后对子组进行分析。

— 亚瑟·B。
source