使用百分位数作为预测变量-好主意吗?


9

我正在考虑一个问题,该问题是使用线性回归来预测客户的对数(支出)。

我正在考虑将哪些功能用作输入,并想知道将变量的百分位数用作输入是否可以。

例如,我可以将公司收入用作输入。我想知道的是,我是否可以使用公司收入百分比来代替。

另一个示例是分类行业分类器(NAICS)-如果我要查看每个NAICS代码的中位数支出,然后将每个NAICS代码分配给一个“ NAICS百分位数”,那将是我可以使用的有效解释变量吗?

只想知道使用百分位数时是否有任何需要注意的问题?它在某种程度上等同于一种要素缩放吗?


2
如果您拥有原始数据,为什么要使用百分位数?也许这不是一个好主意,因为百分位只是序数,不是公制量度。但是我不确定偏差/效率。
hplieninger

9
百分位数 Xs与他们的方式不一致 X有其作用。常见的错误是预测健康结果时体重或BMI的百分位数。体重的物理学要求,与一个人的身体功能有关的是一个人的身体尺寸,而不是样本中有多少人体重低于一个受试者的体重或BMI。
Frank Harrell

1
如果您可以合理地将您的行业变量按组进行聚类(例如4),请使用虚拟编码(或任何其他合适的编码方案),那么您就完成了。我就是那样做的。
hplieninger

3
我想不出百分位数与因变量线性相关的原因。如果您能想到一个,那就可以了(请用您的理由更新您的问题)
彼得·弗洛姆

1
如果您想使用NAICS代码作为公司支出的代理,则可以使用其NAICS代码中的平均支出-无需使用百分位数。
Scortchi-恢复莫妮卡

Answers:


1

如果您的模型需要在公司收入方面进行某种竞争,则可以使用百分位数。对数百分位数似乎更有意义,分位数的值不会线性变化,或者我可以想象。

在这个故事中,您包括在观察公司下具有收入的公司的ln(%)。故事是,高收入者的声誉比低收入者的声誉要好,而这种“比竞争者拥有更多利益”的关系是相关的,而不是收入水平本身。我认为这是公司认可和品牌塑造的重要组成部分。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.