Answers:
丢失了哪些信息:取决于变量。通常,通过二分法,您断言一个变量与另一个变量之间有一条直线的作用。例如,在一项癌症研究中,考虑对污染物接触的连续测量。如果将其分为“高”和“低”,则断言这是唯一重要的两个值。高患癌症的风险,低患癌症的风险。但是,如果风险在一段时间内稳定上升,然后趋于平缓,然后再次上升,然后最终达到高值,该怎么办?所有这些都丢失了。
您得到的是:更容易。二元变量通常更容易进行统计处理。有理由这样做-如果连续变量仍然分成两个清晰的组,但是我倾向于避免二分法,除非首先将其自然地变成变量。如果您的字段将事物二等分以具有变量的二等分形式,则通常也很有用。例如,许多人认为CD4细胞数少于400是HIV的关键阈值。因此,我通常会在0400以上/以下使用0/1变量,尽管我也会保留连续的CD4计数变量。这有助于与他人进行学习。
我会稍微不同意彼得。虽然将连续变量划分为类别通常比粗略的二分法更为明智,但我宁愿反对分位数分类。这种分类很难给出有意义的解释。我认为您的第一步应该是查看是否可以使用在生物学或临床上得到良好支持的分类,并且只有这些选项用尽后,您才应使用分位数。
去甲二毒化在数据分析中添加了神奇的思维。这很少是一个好主意。
这是罗伊斯顿(Royston),奥特曼(Altman)和萨尔布雷(Sauerbrei)撰写的一篇文章,它出于某些原因而提出了一个不好的主意。
我自己的想法:如果将因变量二等分,例如出生体重为2.5千克(一直如此),那么您正在对待出生于2.49千克的婴儿,就像出生于1.5千克的婴儿和出生于2.51的婴儿一样公斤,就像那些3.5公斤的人一样。这根本不符合逻辑。
更好的选择通常是分位数回归。我最近为NESUG撰写了有关此内容的文章。那张纸在这里
上面的一个例外是类别是出于实质动机的。例如,如果您要处理驾驶行为,则明智的做法是根据驾驶的法定年龄进行分类。
我喜欢并支持@Epigrad和@Peter的答案。我只是想补充一下,将区间变量装箱成二进制一使得(可能)度量变量只是序数一。对于二元变量,计算均值或方差是不适当的(尽管有人这样做),而且,正如我在其他地方提到的那样,某些多变量分析在理论上或逻辑上都不适用。例如,我认为使用质心/沃德层次聚类或带有二进制变量的因子分析是不正确的。
调查的客户经常迫使我们将输出变量二等分,因为从几类而不是一个连续特征的角度考虑更为简单,信息似乎少了很多雾,而且(错误地)更加笨重。
但是,在某些情况下,可能需要二分法。例如,在存在强双峰态或分析(例如MAMBAC或其他)显示出两个潜在类别的情况下。