Questions tagged «categorical-encoding»

将分类变量表示为数字变量集。在许多类型的分析中,它们必须处理分类数据。一个常见的示例是通过伪编码,效果编码,Helmert编码,用户定义的对比度等在回归/ ANOVA中使用分类预测器。

4
什么是对比度矩阵?
什么究竟是对比矩阵(一个术语,关于与分类预测分析),以及如何准确地进行对比矩阵指定?即什么是列,什么是行,对该矩阵的约束是什么,列j和行中的数字i是什么意思?我试图研究文档和网络,但似乎每个人都在使用它,但任何地方都没有定义。我可以对可用的预定义对比进行后向工程,但是我认为没有该定义就应该可用。 > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 0 1 4 -1 -1 -1 > contr.helmert(4) [,1] [,2] [,3] 1 -1 …


3
为什么我们需要虚拟代码分类变量
我不确定为什么我们需要虚拟代码分类变量。例如,如果我有一个类别变量,它具有四个可能的值0、1、2、3,则可以用二维替换它。如果变量的值为0,则它​​在二维中的值为0,0,如果变量为3,则它在二维中的值为1,1,依此类推。 我不确定为什么我们需要这样做?

1
使用单热编码时删除列之一
我的理解是,如果您的数据集具有高度相关的特征,则在机器学习中可能会出现问题,因为它们有效地编码了相同的信息。 最近有人指出,当对分类变量进行单次编码时,最终会具有相关功能,因此应删除其中一个作为“参考”。 例如,将性别编码为两个变量is_male和is_female会产生两个完全负相关的特征,因此他们建议仅使用其中一个,有效地将基线设置为男性,然后查看is_female列在预测算法中是否重要。 这对我来说很有意义,但是我没有在网上找到任何东西来暗示可能是这种情况,所以这是错误的还是我遗漏了一些东西? 可能的(未回答的)重复项:一键编码特征的共线性对SVM和LogReg是否重要?

3
什么时候应该使用带有虚拟编码的多元回归与ANCOVA?
我最近分析了一个使用ANCOVA操纵2个类别变量和1个连续变量的实验。但是,一位审阅者建议,将分类变量编码为虚拟变量的多元回归是对分类变量和连续变量进行实验的更合适的测试。 什么时候使用带有虚拟变量的ANCOVA与多元回归比较合适?在两次测试之间进行选择时应考虑哪些因素? 谢谢。

2
分类预测因子在逻辑回归中的意义
我在解释逻辑回归时无法解释类别变量的z值。在下面的示例中,我有3个类别的分类变量,根据z值,CLASS2可能是相关的,而其他则不相关。 但是现在这是什么意思呢? 我可以将其他班级合并成一个班级吗? 整个变量可能不是一个好的预测指标? 这仅是一个示例,此处的实际z值并非来自实际问题,我对其解释有困难。 Estimate Std. Error z value Pr(>|z|) CLASS0 6.069e-02 1.564e-01 0.388 0.6979 CLASS1 1.734e-01 2.630e-01 0.659 0.5098 CLASS2 1.597e+00 6.354e-01 2.514 0.0119 *

5
使用SVM或神经网络时如何将分类变量重新编码为数值变量
要使用SVM或神经网络,需要将分类变量转换(编码)为数字变量,在这种情况下,通常的方法是使用0-1二进制值,将第k个分类值转换为(0,0,.. 。,1,0,... 0)(1在第k个位置)。还有其他方法可以做到这一点,尤其是当存在大量分类值(例如10000),使得0-1表示将在神经网络中引入大量额外的维度(输入单位)时,这似乎不是很理想或期望的? 我在问一般策略。

1
如何处理LASSO中的分类预测变量
我运行的LASSO具有一些分类变量预测变量和一些连续变量预测变量。我对分类变量有疑问。我了解的第一步是将它们分成假人,对它们进行标准化以进行公平的惩罚,然后回归。处理虚拟变量有几种选择: 包括每个因素中除一个假人以外的所有假人,将其作为参考水平。虚拟系数的解释是相对于排除的“参考”类别而言的。截距现在是参考类别的平均响应。 将每个因素中的变量分组,以便将它们全部排除或全部排除。我相信这就是@Glen_b 在这里建议的内容: 通常,是的,您将所有因素放在一起。有几个R软件包可以做到这一点,包括glmnet 包括各个层面,如经@Andrew中号建议在这里: 您可能还需要更改默认的对比功能,默认情况下,该功能不使用每个因子的一个级别(处理编码)。但是由于套索罚分,对于可识别性而言,这不再是必需的,并且实际上使所选变量的解释更加复杂。为此,请设置 contr.Dummy <- function(contrasts, ...){ conT <- contr.treatment(contrasts=FALSE, ...) conT } options(contrasts=c(ordered='contr.Dummy', unordered='contr.Dummy')) 现在,无论选择了哪个因子水平,您都可以认为它暗示着这些特定水平相对于所有省略的水平都很重要。在机器学习中,我已经看到这种编码称为“单热编码”。 问题: 在每种方法下,截距和系数的解释是什么? 选择其中之一需要考虑哪些因素? 我们是否要对虚拟系数进行缩放,然后将其解释为从关到开的变化?

2
回归中的定性变量编码导致“奇异”
我有一个称为“质量”的自变量;此变量具有3种响应方式(质量差;质量中等;质量高)。我想将此自变量引入我的多元线性回归中。当我有一个二进制自变量(虚拟变量,我可以编写代码0/ 1)时,很容易将其引入多元线性回归模型。 但是,通过3种响应方式,我尝试像下面这样编写此变量: Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 但是当我尝试进行多元线性回归时存在一个问题:模态Medium quality给我NA: Coefficients: (1 not defined because of singularities) 如何使用3种方式对变量“质量”进行编码?我是否必须创建一个变量作为因子(factorin R),但是可以在多元线性回归中引入该因子吗?

2
名义/分类数据的“虚拟变量”与“指标变量”
“虚拟变量”和“指示变量”是标签常用术语,用于描述使用0/1编码的类别中的成员资格;通常为0:不属于类别成员; 1:属于类别成员。 2014年11月26日,对Scholar.google.com(带引号)进行了快速搜索,发现约有318,000篇文章使用了“虚拟变量”,而约112,000篇文章中使用了“指标变量”。术语“虚拟变量”在“ 绑定变量 ”的非统计数学中也具有含义,这很可能有助于在索引文章中更多地使用“虚拟变量”。 我的局部关联问题: 这些术语是否始终是同义词(在统计范围内)? 这些术语中的任何一个是否曾经被接受地应用于其他形式的分类编码(例如,效果编码,Helmert编码等)? 有什么统计学或学科原因比一个术语更喜欢一个术语?

2
如何在R中使用效果编码而不是伪编码进行回归?
我目前正在开发一个回归模型,其中我仅将分类/因子变量作为自变量。我的因变量是对数转换比率。 只需在R中运行正常回归就相当容易,因为R一旦它们成为“ factor”类型,R就会自动知道如何编写假人。但是,这种类型的编码还意味着将每个变量的一个类别用作基线,这使其难以解释。 我的教授告诉我,请改用效果编码(-1或1),因为这意味着对截距使用了均值。 有人知道如何处理吗? 到目前为止,我尝试过: gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + month * month + year + year * year, data = ds, contrasts …

1
可用于分类变量(R中)的不同编码类型是什么?何时使用它们?
如果您拟合线性模型或混合模型,则可以使用不同类型的编码将类别或名义变量转换为估计参数的多个变量,例如虚拟编码(R默认)和效果编码。 我听说在进行交互时最好使用效果编码(有时称为偏差编码或对比度编码),但是可能存在哪些对比度,何时使用哪种类型的对比度? 上下文是R中使用的混合建模lme4,但我认为可以使用更广泛的响应。抱歉,如果我错过了类似的问题。 编辑:两个有用的链接是:效果编码和伪编码说明。

2
了解GLM中的虚拟(手动或自动)变量创建
如果在glm公式中使用了因子变量(例如,具有M和F级的性别),则会创建一个或多个虚拟变量,并且可以在glm模型摘要中找到它们以及相关的系数(例如,genderM) 如果不是代替R以此方式分解因子,而是将因子编码为一系列数字0/1变量(例如,genderM(1表示M,0表示F),genderF(1表示F,0表示0)。 M),然后将这些变量用作glm公式中的数字变量,系数结果会有所不同吗? 基本上,问题是:在使用因子变量和数值变量时,R是否使用不同的系数计算? 后续问题(可能由上述方法回答):除了让R创建虚拟变量的效率高之外,将因子重新编码为一系列数字0,1变量并在模型中使用这些变量是否还有其他问题?


2
例如基于星期几的回归
我需要一点帮助才能朝着正确的方向前进。自从我研究了任何统计数据以来已有很长时间了,术语似乎已经改变。 想象一下,我有一组与汽车相关的数据,例如 从A镇到B镇的旅程时间 A镇到B镇的距离 马达的尺寸 驾驶员鞋码 汽车的型号 星期几 我想预测出行时间。 我认为时间和距离之间存在很强的相关性,而与引擎尺寸之间的相关性可能较弱(与鞋子尺寸无关)。大概是多元回归分析/ ANOVA是要使用的工具。但是,如何将星期几包括在内,因为仅将其编码为Sunday = 1,Monday = 2等感觉很错误? 例如,使用过Excel的回归工具后,如何解释结果?大概如果R接近1,这是很好的(尽管如果有很多数据项,看起来好像很小但仍然很重要)。但是某些资料来源将r平方看成SD,因此值接近零是好的。它还显示t Stat,P值,F和重要性F,无论它们是多少。谁能推荐一个好的参考资料?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.