二分变量的作用是什么？

将变量二等分时，过程中会丢失哪些信息？
二分法如何帮助分析？

regression data-transformation binary-data

— 咪咪
source

盖尔曼（Gelman）和帕克（Park）有一篇文章比较了从一个连续变量（而不是两个）创建三个类别的实践。通常，由于以下其他原因解释，最好使变量连续。

— 迈克尔·毕晓普

Answers:

丢失了哪些信息：取决于变量。通常，通过二分法，您断言一个变量与另一个变量之间有一条直线的作用。例如，在一项癌症研究中，考虑对污染物接触的连续测量。如果将其分为“高”和“低”，则断言这是唯一重要的两个值。高患癌症的风险，低患癌症的风险。但是，如果风险在一段时间内稳定上升，然后趋于平缓，然后再次上升，然后最终达到高值，该怎么办？所有这些都丢失了。

您得到的是：更容易。二元变量通常更容易进行统计处理。有理由这样做-如果连续变量仍然分成两个清晰的组，但是我倾向于避免二分法，除非首先将其自然地变成变量。如果您的字段将事物二等分以具有变量的二等分形式，则通常也很有用。例如，许多人认为CD4细胞数少于400是HIV的关键阈值。因此，我通常会在0400以上/以下使用0/1变量，尽管我也会保留连续的CD4计数变量。这有助于与他人进行学习。

我会稍微不同意彼得。虽然将连续变量划分为类别通常比粗略的二分法更为明智，但我宁愿反对分位数分类。这种分类很难给出有意义的解释。我认为您的第一步应该是查看是否可以使用在生物学或临床上得到良好支持的分类，并且只有这些选项用尽后，您才应使用分位数。

— 方铁
source

嗨@epigrad 我认为分位数回归的解释相当简单。它与常规OLS回归非常相似，只是用“ XXX percentile”代替“ mean”。

— 彼得·弗洛姆

@PeterFlom对不起，我应该更加清楚。与从临床/生物学证据构建的类别相比，我发现它们很难构成临床/生物学相关的解释。诚然，这是我个人对特定领域的偏见。

— Fomite，2011年

哦，好吧，@ epigrad，这很有道理。我将编辑我的答案以包括这种情况。

— 彼得·弗洛姆

看来EpiGrad和@PeterFlom对“分位数回归”的解释不同。EpiGrad讨论将X变量分为由分位数定义的组，而Peter Flom讨论建模，例如，响应的第90个分位数而不是其均值。

— Aniko

@Aniko也有可能。我已经假设（可能是错误地），彼得的意思是将数据分类为分位数，并在回归模型中使用它。在我的领域中常见（且令人讨厌）的趋势。事实并非如此。

— Fomite，2011年

去甲二毒化在数据分析中添加了神奇的思维。这很少是一个好主意。

这是罗伊斯顿（Royston），奥特曼（Altman）和萨尔布雷（Sauerbrei）撰写的一篇文章，它出于某些原因而提出了一个不好的主意。

我自己的想法：如果将因变量二等分，例如出生体重为2.5千克（一直如此），那么您正在对待出生于2.49千克的婴儿，就像出生于1.5千克的婴儿和出生于2.51的婴儿一样公斤，就像那些3.5公斤的人一样。这根本不符合逻辑。

更好的选择通常是分位数回归。我最近为NESUG撰写了有关此内容的文章。那张纸在这里

上面的一个例外是类别是出于实质动机的。例如，如果您要处理驾驶行为，则明智的做法是根据驾驶的法定年龄进行分类。

— 彼得·弗洛姆-恢复莫妮卡
source

彼得说得很漂亮。我无法想象在分析中二分法是一个好主意的情况。

— Frank Harrell，

我喜欢并支持@Epigrad和@Peter的答案。我只是想补充一下，将区间变量装箱成二进制一使得（可能）度量变量只是序数一。对于二元变量，计算均值或方差是不适当的（尽管有人这样做），而且，正如我在其他地方提到的那样，某些多变量分析在理论上或逻辑上都不适用。例如，我认为使用质心/沃德层次聚类或带有二进制变量的因子分析是不正确的。

调查的客户经常迫使我们将输出变量二等分，因为从几类而不是一个连续特征的角度考虑更为简单，信息似乎少了很多雾，而且（错误地）更加笨重。

但是，在某些情况下，可能需要二分法。例如，在存在强双峰态或分析（例如MAMBAC或其他）显示出两个潜在类别的情况下。

— ttnphns
source

我很难理解你的论点。如果客户希望我们从事不良的统计实践，我们应该三思而后行。注意：三分法不是一个字。二分法=二分法（二分法）+ tomous（切法），因此如果使用，将被三分法/三分法。

— 弗兰克·哈雷尔

对客户的通过是一种哀叹，而不是争论。至于希腊人，你是对的。我删除了这个词。

— ttnphns 2011年

谢谢。我会尽全力将统计上的哀叹转化为纠正措施，尽管需要与客户进行深入的培训。

— 弗兰克·哈雷尔