了解分层的交叉验证

54

分层交叉验证和交叉验证有什么区别？

维基百科说：

在分层k折交叉验证中，选择折数以使平均响应值在所有折数中均大致相等。在二分类的情况下，这意味着每个折页包含两种类标签的大致相同的比例。

但是我还是很困惑。

mean response value在这种情况下是什么意思？
为什么＃1重要？
一个人如何在实践中获得第一？

cross-validation stratification

— 阿梅里奥·巴斯克斯·雷纳（Amelio Vazquez-Reina）
source

43

数据库系统百科全书中的交叉验证文章说：

分层是重新整理数据的过程，以确保每个折页都能很好地代表整体。例如，在二进制分类问题中，每个类别包含50％的数据，最好安排数据，以使每一类中每个类别包含大约一半的实例。

关于分层的重要性，Kohavi（一项关于准确性评估和模型选择的交叉验证和自举研究）得出以下结论：

与常规的交叉验证相比，就偏差和方差而言，分层通常是更好的方案。

— 鲍曼
source

5

您能直观地描述为什么常规简历更好吗？

— MohamedEzz

也许包括一段您可以针对不同层次的分层，并且它们会对折痕的随机性产生不同程度的干扰。有时，您所需要做的就是确保每张纸上至少有一张记录。然后，您可以随机生成折叠，检查是否满足该条件，仅在不太可能的情况下重新折叠。

— 大卫·恩斯特

37

分层旨在确保每个折叠代表数据的所有层次。通常，这是在监督下进行分类的，目的是确保每个类别（大约）在每个测试折叠中均等地代表（当然，它们以互补的方式组合在一起形成训练折叠）。

这背后的直觉与大多数分类算法的偏见有关。他们倾向于平均地加权每个实例，这意味着过多代表的类将获得过多的权重（例如，优化F测度，准确性或错误的补充形式）。对于对于每个类别均等加权的算法（例如优化Kappa，Informedness或ROC AUC）或根据成本矩阵（例如，为每个类别正确加权的值和/或对每种方式的成本赋值）的算法，分层并不是那么重要错误分类）。参见，例如DMW Powers（2014），F量度无法测量的内容：功能，缺陷，谬误和修正。http://arxiv.org/pdf/1503.06410

即使对于无偏算法或平衡算法而言，一个特定的问题也很重要，那就是它们往往无法学习或测试根本无法表示的一门课，甚至在只有一门课的情况下也是如此。折叠表示的值不允许进行概括。评估。但是，即使这种考虑也不是通用的，例如，它不适用于一类学习，后者试图确定单个类的正常情况，并在交叉验证的情况下有效地将异常值识别为另一类关于确定不生成特定分类器的统计信息。

另一方面，监督分层会损害评估的技术纯度，因为测试数据的标签不应影响培训，但分层会用于选择培训实例。基于仅查看数据的属性而不是真实的类来散布相似的数据，也可以实现无监督分层。参见例如 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis，D.Karlis，EA Giakoumakis（1997），交叉验证的无监督分层，用于准确性估计。

分层也可以应用于回归而不是分类，在这种情况下，像无监督分层一样，使用相似性而不是同一性，但是受监督版本使用已知的真实函数值。

进一步的并发症是罕见的类别和多标签分类，其中分类是在多个（独立）维度上进行的。在这里，可以将跨所有维度的真实标签的元组视为类，以进行交叉验证。但是，并非所有组合都必须发生，并且某些组合可能很少见。稀有类别和稀有组合是一个问题，因为至少出现一次但少于K次（在K-CV中）的类别/组合无法在所有测试折叠中都得到表示。在这种情况下，您可以考虑采用分层强化的形式（通过替换抽样以生成完整的训练折叠带，并预期进行重复测试，未选择测试的期望折叠率为36.8％，最初选择每个类别的一个实例而无需替换测试折叠）。

多标签分层的另一种方法是尝试分别分层或自举每个类的维，而不试图确保对组合的代表性选择。对于标签l，使用L个标签和N个实例以及类别k的Kkl个实例，我们可以从Dkl的相应标签实例集合中随机选择（不替换）大约N / LKkl个实例。这不能确保最佳平衡，而是试探性地寻求平衡。除非没有选择（因为某些组合不会发生或很少出现），否则可以通过限制标签的选择来限制配额或超出配额，从而改善这种情况。问题往往意味着要么数据太少，要么维度不独立。

— 戴维·MW·鲍尔斯
source

5

平均响应值在所有折痕处近似相等，这是另一种说法，即每个分类在所有折痕处的比例近似相等。

例如，我们有一个包含80个0类记录和20个1类记录的数据集。我们可能会得到（80 * 0 + 20 * 1）/ 100 = 0.2的平均响应值，我们希望0.2为所有折叠的平均响应值。这也是EDA中测量给定数据集是否不平衡而不是计数的一种快速方法。

— 露西
source