Answers:
这是一个广泛的主题,您会遇到各种原因,为什么应该或已经将数据存储在桶中。并非所有这些都与预测准确性有关。
首先,这是一个建模人员可能想对存储区进行存储的示例。假设我正在建立一个信用评分模型:我想知道人们对贷款违约的倾向。在我的数据中,我有一列指示信用报告的状态。也就是说,我从评级机构订购了该报告,该机构返回了他们的专有评分,以及表明该评分可靠性的分类变量。该指标可能比我需要达到的目的要细得多。例如,“没有足够的信息来获得可靠的分数”可能会分为许多类别,例如“年龄小于20岁”,“最近移居到该国”,“没有先前的信用记录”等。其中许多类别可能人烟稀少,因此在回归模型或其他模型中毫无用处。为了解决这个问题,我可能希望将类似的类集中在一起,以将统计能力合并为一个“代表性”类。例如,对于我来说,使用二进制指示符“返回良好信息”与“不返回信息”可能是合理的。以我的经验,存储桶的许多应用都属于这种情况稀疏填充的类别类型崩溃。
一些算法在内部使用存储桶化。例如,适合提升算法的树通常会在汇总步骤中花费大部分时间,在该步骤中,离散每个节点中的连续数据,并计算每个存储桶中响应的平均值。这极大地降低了找到合适分割的计算复杂度,而又不会由于提升而在准确性上付出很多牺牲。
您也可以简单地接收预先存储的数据。离散数据更易于压缩和存储-浮点数的长数组几乎不可压缩,但是当离散化为“高”,“中”和“低”时,您可以在数据库中节省大量空间。您的数据也可能来自针对非建模应用程序的来源。当我从分析工作较少的组织那里收到数据时,往往会发生这种情况。他们的数据通常用于报告,并被汇总到较高的级别,以帮助报告向外行解释。这些数据仍然有用,但是经常会失去一些电源。
尽管可以纠正,但我认为价值较小的是为模型目的对连续测量进行预桶化。有很多非常强大的方法可以将非线性效果拟合到连续的预测变量中,而巴克化消除了您使用这些变量的能力。我倾向于将其视为不良做法。
根据文章“高级与低级数据科学”,桶化是
桶化步骤(有时称为多变量装箱)包括识别具有较高预测能力的度量标准(以及2-3个度量标准的组合),对其进行适当地合并和分类,以减少桶内差异,同时保持桶足够大。
因此,我的理解是,您根据最具有预测性的特征贪婪地对数据进行分类,然后对子组进行分析。