我正在考虑一个问题,该问题是使用线性回归来预测客户的对数(支出)。
我正在考虑将哪些功能用作输入,并想知道将变量的百分位数用作输入是否可以。
例如,我可以将公司收入用作输入。我想知道的是,我是否可以使用公司收入百分比来代替。
另一个示例是分类行业分类器(NAICS)-如果我要查看每个NAICS代码的中位数支出,然后将每个NAICS代码分配给一个“ NAICS百分位数”,那将是我可以使用的有效解释变量吗?
只想知道使用百分位数时是否有任何需要注意的问题?它在某种程度上等同于一种要素缩放吗?
2
如果您拥有原始数据,为什么要使用百分位数?也许这不是一个好主意,因为百分位只是序数,不是公制量度。但是我不确定偏差/效率。
—
hplieninger
百分位数 s与他们的方式不一致 有其作用。常见的错误是预测健康结果时体重或BMI的百分位数。体重的物理学要求,与一个人的身体功能有关的是一个人的身体尺寸,而不是样本中有多少人体重低于一个受试者的体重或BMI。
—
Frank Harrell
如果您可以合理地将您的行业变量按组进行聚类(例如4),请使用虚拟编码(或任何其他合适的编码方案),那么您就完成了。我就是那样做的。
—
hplieninger
我想不出百分位数与因变量线性相关的原因。如果您能想到一个,那就可以了(请用您的理由更新您的问题)
—
彼得·弗洛姆
如果您想使用NAICS代码作为公司支出的代理,则可以使用其NAICS代码中的平均支出-无需使用百分位数。
—
Scortchi-恢复莫妮卡