二进制数据的指示符变量:{-1,1}与{0,1}


10

我感兴趣的治疗协变量相互作用的实验背景/随机对照试验,用二进制治疗分配指标。T

根据具体的方法/来源,我分别看到已治疗和未治疗受试者的和。Ť = { 1 - 1 }T={1,0}T={1,1}

使用或有什么经验法则吗?{ 1 - 1 }{1,0}{1,1}

解释有何不同?


FWIW ...此第一个链接提供了不同编码方案的相当全面的概述... ats.ucla.edu/stat/r/library/contrast_coding.htm 该第二个链接讨论了指示符(虚拟),效果和正交(对比度)编码... faculty.cas.usf.edu/mbrannick/regression/anova1.html
Mike Hunter,

Answers:


10

指标变量的估计值和截距的解释不同。让我们从:{1,0}

说你有以下模型

yi=β0+treatmentβ1

哪里

treatment={0if placebo1if drug

在这种情况下,您最终得到的以下公式:yi

yi={β0+0β1=β0if placeboβ0+1β1=β0+β1if drug

因此,的解释是安慰剂的作用,的解释是安慰剂的作用与药物作用之间的差异。实际上,您可以将解释为该药物提供的改进。β 1 β 1β0β1β1


现在让我们看一下:{1,1}

然后,您将具有以下模型(再次):

yi=β0+treatmentβ1

但是哪里

treatment={1if placebo1if drug

在这种情况下,您最终得到的以下公式:yi

yi={β0+1β1=β0β1if placeboβ0+1β1=β0+β1if drug

此处的解释是是安慰剂作用和药物作用的平均值,而是两种治疗方法与该平均值的差。β 1β0β1


那么您使用哪个呢?

的解释在基本上是一个基线。您设置了一些标准处理,并将所有其他处理(可以有多个)与该标准/基准进行比较。特别是当您开始添加其他协变量时,就标准医学问题而言,这仍然很容易解释:这些药物与安慰剂或既定药物相比如何? { 0 1 }β0{0,1}

但是最后,这全都是解释问题,我在上面已经解释过。因此,您应该评估您的假设并检查哪种解释使结论的绘制最直接。


6
当使用-1、1编码时的常数是当治疗组中的受访者人数与对照组中的受访者人数相同时的平均值。
Maarten Buis's

@MaartenBuis这是的意思,如果设计是平衡的,但是否则它仍然是两组均值的均值,这就是我的意思。我更改了措辞以反映这一点。y
2016年

9
很有帮助 出于至少两个原因,我总是鼓励使用单词指示符而不是虚拟符(如原始问题!)。首先,我听到了太多的故事,其中的演讲非常糟糕,因为诸如“性别假人”之类的术语被技术水平较低的人误解为贬低或令人反感。其次,假人一词使整个设备看起来有点像软糖或闪躲,而它却是一种完美干净而优雅的方法。在某些领域,我没有太多机会改变根深蒂固的做法,但是这里正在尝试。
尼克·考克斯

同意,听起来也更专业。另外,它是对实际操作的更好描述。
2016年

2
很高兴您同意。这是一种简单的解释方式:之所以称为指示符,是因为它可以指示!
尼克·考克斯

6

线性回归的,上下文是用于编码二进制变量(是否将它们放置在回归的右手侧的左手侧)更自然(和标准)的方法。正如@Jarko Dubbeldam解释的那样,您当然可以使用其他解释,并且系数的含义会有所不同。xi{0,1}

举一个例子的其他方式,编码输出变量编程或导出数学底层时是标准的支持向量机。(在调用库时,您希望以库期望的格式传递数据,该格式可能是0、1的公式。)yi{1,1}

尝试使用正在执行/正在使用的标准符号。


对于任何具有截距项的线性模型,这两种方法在它们通过简单的线性变换关联的意义上是等效的。在数学上,它不会不管你是否使用数据矩阵或数据矩阵X = X 一个,其中一个是满秩。在广义线性模型,您估计系数无论哪种方式,将通过线性变换有关一个和拟合值Ÿ将是相同的。XX~=XAAAy^


+1,我想不出来设置的使用。{1,1}
2016年

AdaBoost的是另一个例子,它使用yi{1,1}
弗朗西斯

5
在一般情况下,你可以说,在分类主要使用的,因为它使应用符号函数的可行方法来分类。{1,1}
2016年

@matthewgunn作者在谈论协变量,即输入而不是输出。{-1,1}对于输出的支持向量有意义,但对于输入则无关紧要。参见此处:en.wikipedia.org/wiki/Support_vector_machine#Linear_SVM
弗朗西斯科·阿克欧

@FranciscoArceo点;我进行了更精确的编辑。
马修·冈恩

2

这是更抽象的(也许没有用),但是我会注意到,从数学的角度来看,这两种表示实际上是组表示,并且它们之间存在同构。

从本质上讲,布尔值指示符变量的含义是“因果为真”或“因果为假”。给定两个事件T 1T 2,您可能会问“这两个事件的因数是否相等,例如,它们是对还是错?在布尔逻辑,这是Ť 1Ť 2。这定义了组结构Z 2。现在,1 01 - 1所这组的两个形式表示,与该组操作一个b = 1 - TT1T2T1T2Z21,01,1一个b = 一个b,分别。从第一个表示到第二个表示的同构由 ϕ a = 2 a 1给出ab=1(a+b)ab=abϕ(a)=2a1

pTTTpp=pp+(1p)(1p)t(p)=2p1tt=ttt


这令人印象深刻,但我发现足以说明{-1,1}与{0,1}之间的任何有效对应关系都必须是一对一的:除了高中数学以外,就不需要调用其他任何内容。我们一定在谈论相同的信息,只是编码方式不同。
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.