分解一个连续的预测变量有什么好处？

78

我想知道在模型中使用它之前，取一个连续的预测变量并将其分解（例如分解为五分位数）的价值是什么。

在我看来，通过对变量进行分类，我们会丢失信息。

这样是否可以为非线性效应建模？
如果我们保持变量连续并且不是真正的线性关系，我们是否需要提出某种曲线以最适合数据？

— 汤姆
source

12

1）否。您认为分箱会丢失信息是正确的。如果可能，应避免使用。2）通常，首选与数据背后的理论一致的曲线函数。

— O_Devinyak

8

我不知道好处，但是存在许多公认的危险

— Glen_b

2

有时候，一个勉强的论点是：它可以简化临床解释和结果显示-例如。血压通常是二次方的预测指标，临床医生可以支持对低，正常和高BP使用临界值，并且可能有兴趣比较这些广泛的人群。

— 2013年

4

@ user20650：我不太确定我是否了解您，但是适合最适合的模型会更好，然后使用该模型的预测来说出您想对广泛人群说的任何话吗？我研究中的“高血压人群”不一定具有与一般人群相同的压力分布，因此他们的结果不会一概而论。

— Scortchi

7

简化的临床解释是一种海市rage楼。来自分类连续变量的效果估计没有已知的解释。

— Frank Harrell

64

您在这两个方面都是对的。有关合并连续变量的问题，请参阅此处的 Frank Harrell页面。如果使用几个垃圾箱，则会在预测变量中丢弃大量信息；如果使用很多，则趋向于使摆动变得平滑（如果不是线性的）关系，并消耗大量自由度。通常最好将多项式（）或样条曲线（平滑连接的分段多项式）用于预测变量。当您期望在临界点处响应不连续时（例如沸腾温度或驾驶的法定年龄），以及响应之间平缓时，binning确实是一个好主意。 $x + x^2 + \ldots$

值？-嗯，这是一种无需考虑就可以将曲率考虑在内的快捷简便的方法，并且该模型可能足以满足您使用它的目的。与预测变量数量相比，当您拥有大量数据时，它往往可以正常工作，每个预测变量都分为许多类别。在这种情况下，在每个预测范围内，响应范围很小，并且平均响应得到了精确确定。

[根据评论进行编辑：

有时，在字段中使用连续值的标准临界值：例如，在医学中，血压测量值可分为低，中或高。在介绍或应用模型时，使用这种截止值可能有很多充分的理由。特别是，决策规则通常基于比模型少的信息，并且可能需要简单地应用。但是并不能说明在您拟合模型时，这些临界值是否适合对预测变量进行分类。

假设某些反应随血压不断变化。如果您在研究中将高血压组定义为预测因素，则您所估计的效果是针对该组个体特定血压的平均反应。这不除非采取特定措施，否则应估算一般人群中高血压患者或另一组研究中高血压人群的平均反应。如果能像我想象的那样知道一般人群中血压的分布，那么您会更好地根据模型中的血压为基础的预测来计算一般人群中高血压人群的平均反应。连续变量。粗仓合并使您的模型只能大致推广。

通常，如果您对截止之间的响应行为有疑问，请首先拟合最佳模型，然后使用它来回答。

[关于介绍；我认为这是一条红鲱鱼：

（1）易于表达并不能证明错误的建模决策是正确的。（并且在合并是一个很好的建模决策的情况下，它不需要其他理由。）当然，这是不言而喻的。没有人建议从模型中删除重要的交互，因为很难呈现。

（2）无论您使用哪种模型，只要您认为它有助于解释，就仍然可以按类别显示其结果。虽然...

（3）由于上述原因，您必须小心以确保它不会造成误解。

（4）呈现非线性响应实际上并不困难。显然，个人意见和受众有所不同；但我从未见过拟合的响应值与预测值的关系图只是因为它是弯曲的而使人困惑。相互作用，对数，随机效应，多重共线性等等……这些都很难解释。

[@Roland提出的另一点是预测变量的测量准确性；他建议，我认为当分类不是特别精确时，分类可能是适当的。常识可能会建议您不要再说明他们更不准确改善的事项，与常识的人都会是正确的：MacCallum等（2002），“关于定量变量的二分法的实践”，心理学的方法，7， 1，第17-19页。]

— 斯科特基
source

6

关于普遍问题的出色评论。在这里宣传彻底的定量思考很重要。已经过分强调穿越阈值，例如，在某个级别的灾难之上，在某个级别的舒适之下。

— Nick Cox

14

我将挑战任何人，以证明其对医生使用的所有截断值的确认。

— Frank Harrell 2013年

值得注意的是，这种分箱方法在其他领域确实有一些好处-当与大型神经网络结合以预测多模式分布（例如车辆方向）时，它特别受欢迎。例如，请参见arxiv.org/abs/1612.00496。

— N. McA。

11

自问起我就已经了解到了这个答案的一部分，那就是不合并和合并都试图回答两个稍有不同的问题- 数据的增量变化是什么？而有什么最低和最高之间的区别？。

没有装箱表示“这是对数据中看到的趋势的量化”，装箱表示“我没有足够的信息来说明每次增量都会有多少变化，但是我可以说顶部与底部不同” 。

— 汤姆
source

5

作为临床医生，我认为答案取决于您想做什么。如果您要最合适或进行最佳调整，则可以使用连续变量和平方变量。

如果要为面向非统计对象的受众描述和传达复杂的关联，最好使用分类变量，因为您接受在最后一个小数点处可能会有些偏差。我更喜欢至少使用三个类别来显示非线性关联。另一种方法是在某些点生成图形和预测结果。然后，您可能需要为每个可能有趣的连续协变量生成一族图。如果您担心产生太大的偏差，我认为您可以测试两个模型，看看差异是否重要。您需要务实而现实。

我认为我们可能会意识到，在许多临床情况下，我们的计算并非基于确切的数据，例如，当我向成人开药时，无论如何我都不会以每公斤精确的毫克数来做（在手术和药物治疗之间进行选择的寓言）只是胡说八道）。

— 罗兰
source

1

为什么类比到底是胡说八道？因为对连续变量进行分类永远不会产生更差的模型？还是因为使用明显更差的模型永远不会带来任何实际后果？

— Scortchi

9

@Roland根本不是这种情况。从临界值获得的估算值很简单，因为人们不了解估算值的含义。那是因为他们没有估计科学数量，即在样本或实验之外有意义的数量。例如，如果将具有超高或超低值的患者添加到数据集中，则高：低比值比或均值差将增加。同样，使用截断值意味着生物学是不连续的，事实并非如此。

— 弗兰克·哈雷尔

@Scortchi因为更容易解释（真的吗？）而从医学治疗转向手术治疗，就像用身高代替年龄作为解释变量。

— 罗兰

我同意避免二分变量。在最后一小数很重要的地方，临床医学并不是一门摇摇欲坠的科学。在模型中，如果我使用年龄与年龄的类别作为连续变量和平方变量，则结果仅在最后一个小数点处变化，但是极大地增加了关联的理解性和可交流性。

— 罗兰

4

如前所述，通常最好避免将连续变量二等分。但是，在回答您的问题时，在某些情况下，将连续变量二分法确实可以带来好处。

例如，如果给定变量包含人口中很大一部分的缺失值，但已知具有高度预测性，则缺失值本身具有预测性值。例如，在信用评分模型中，考虑一个变量，比如说平均周转信用余额（被授予，从技术上讲是不连续的，但在这种情况下反映的正态分布足够接近以至于可以这样对待）在给定的目标市场中，约有20％的申请人池缺少价值。在这种情况下，此变量的缺失值代表一个不同的类-没有开放的循环信用额度的人；与那些拥有可用循环信用额度但经常没有余额的客户相比，这些客户将表现出完全不同的行为。

二分法的另一个好处是：它可用于减轻偏斜系数但代表需要处理的实际情况的明显异常值的影响。如果离群值的结果与最近的百分位数中的其他值没有太大差异，但是使参数偏斜到足以影响边际精度的程度，那么将它们与显示相似效果的值分组可能会有所帮助。

有时，分布自然会适合一组类，在这种情况下，二分法实际上比连续函数具有更高的准确性。

同样，如前所述，根据受众的不同，演示的简便性可能会超过准确性的损失。再以信用评分为例，在实践中，高度的监管确实为有时离散化提供了实际案例。虽然较高的准确性可以帮助贷方减少损失，但从业人员还必须考虑到监管机构（他们可能需要数千页的示范文件）和消费者（要是他们被拒绝信贷，则在法律上有权享有解释原因。

这一切都取决于眼前的问题和数据，但是在某些情况下，二分法当然有其优点。

— 汤普森
source

二分法分为两个部分-您是说离散化吗？

— Scortchi

2

在您的前两个示例中，离散化都试图通过吸引真正的客人来虚张声势进入派对。不要上当。（1）如果要对不具有开放式循环信用额度的模型进行分类，只需使用虚拟变量来指示该条件并为平均循环信用额度分配任何常量值。（2）如果您想将某些极端预测变量值等同地视为“大”或“小”，则将其截断；无需考虑其余的值。第三种情况毫无争议-请随时添加示例。

— Scortchi

3

如果变量在特定阈值下具有效果，则最好通过分档来创建一个新变量。我总是保留两个变量，原始变量和合并变量，然后检查哪个变量是更好的预测变量。

— 阮
source

3

我是弗兰克·哈雷尔（Frank Harrell）建议分析师的忠实拥护者，分析师应避免过早离散化连续数据。我对CV和SO有几个答案，它们展示了如何可视化连续变量之间的相互作用，因为我认为这是一个更有价值的研究领域。但是，我在医学界也有遵守该建议的障碍的实际经验。临床医生和非临床医生通常都希望将“分裂”划分为有吸引力的部分。常规的“正常上限”就是这样一种“自然的”分裂点。本质上，首先是要检查一种关系的统计基础，然后以您的听众期望并容易理解的方式传达调查结果的实质。尽管我“过敏” 对于专家，他们在科学和医学话语中极为普遍。因此，观众很可能会具有现成的认知模式来处理他们，并将结果整合到他们的知识库中。

此外，非线性形式的预测变量之间建模交互的图形显示需要等高线图或线框显示的呈现，而大多数观众将难以消化。我发现医学界和普通大众更愿意接受离散化和细分结果的演讲。因此，我想得出的结论是，在统计分析完成之后，拆分会正确完成；并在演示阶段完成。

— 双赢
source

1

很多时候，对连续变量进行分箱会给人一种不舒服的感觉，即由于信息丢失而造成损害。但是，不仅可以限制信息丢失，还可以获取信息并获得更多优势。

如果使用装仓并获取分类的变量，则可能可以应用不适用于continuos变量的学习算法。您的数据集可能更适合这些算法之一，因此这是您的第一个好处。

估计归类造成的损失的想法是基于“具有不相关属性的PAC学习”一文。假设我们的概念是二进制的，那么我们可以将样本分为正数和负数。对于每对负样本和正样本，概念上的差异可以通过特征之一的差异来解释（否则，给定的特征无法解释）。特征差异的集合是对概念差异的可能解释的集合，因此是用于确定概念的数据。如果我们进行了分箱操作，并且仍然获得了相同的解释，那么我们就不会丢失任何必要的信息（关于通过这种比较工作的学习算法）。如果我们的分类非常严格，我们可能会提供较少的解释，但我们将能够准确地衡量损失的程度和地点。这将使我们能够权衡垃圾箱的数量和一组说明。

到目前为止，我们看到可能不会因分类而迷失，但如果我们考虑采用这样的步骤，我们将受益。确实，我们可以从分类中受益

许多学习算法会被要求对样本进行分类，样本中的值在训练集上看不到，这些算法会将其视为“未知”。因此，我们将得到一个“未知”的箱，其中包括火车期间看不到（或什至看不到）的所有值。对于此类算法，未知值对之间的差异将不会用于改善分类。将合并后的对与未知的对进行比较，看看您的合并是否有用并且您确实获得了。

您可以通过检查每个功能的值分布来估计未知值的普遍程度。仅出现几次的特征值是其分布的相当一部分，是合并的良好候选者。请注意，在许多情况下，您将拥有许多未知的功能，从而增加了样本包含未知值的可能性。处理所有或许多功能的算法在这种情况下容易出错。

A. Dhagat和L. Hellerstein，“具有不相关属性的PAC学习”，在“ IEEE Sympes。计算机科学基金会”，1994年。http：//citeseer.ist.psu.edu/dhagat94pac.html

— 达尔
source