从多个变量创建质量索引以启用排名


22

我有四个数值变量。它们都是土壤质量的量度。变量越高,质量越高。它们的范围都不同:

Var1从1到10

Var2从1000到2000

Var3从150到300

Var4从0到5

我需要将四个变量组合为单个土壤质量得分,这样才能成功地排名顺序。

我的想法很简单。标准化所有四个变量,对其求和,得到的分数就是排名。您是否发现使用此方法有任何问题。您还有其他建议(更好)的方法吗?

谢谢

编辑:

多谢你们。关于“领域专业知识”的讨论很多。农业方面的。。。但是我期望更多的统计讨论。就我将要使用的技术而言……这可能是简单的z分数求和+ logistic回归作为实验。因为绝大多数样本的质量差90%,所以我将把3个质量类别合并为一个样本,并且基本上都存在二元问题(质量与不质量)。我用一块石头杀死了两只鸟。我会增加事件发生率的样本,并通过让专家对样本进行分类来利用专家。然后,将使用专家分类的样本来拟合log-reg模型,以最大程度地提高与专家的一致/不一致的程度。...这对您来说听起来如何?

Answers:


19

所提出的方法可能会给出合理的结果,但只是偶然。在这样的距离下-即以面值提出问题,并掩盖了变量的含义-一些问题显而易见:

  1. 甚至不是很明显每个变量都与“质量”正相关。 例如,如果“ Var1”的10表示“质量” 比Var1为1的质量怎么办?然后将其加到总和上几乎是一件错误的事情。它需要减去。

  2. 标准化意味着“质量”取决于数据集本身。因此,定义将随着不同的数据集或这些数据的添加和删除而改变。 这可以使“质量”成为任意的,短暂的,非客观的构造,并排除数据集之间的比较。

  3. 没有“质量”的定义。 这是什么意思?有能力阻止污水迁移吗?有能力支持有机流程吗?有能力促进某些化学反应吗?有益于这些目的之一的土壤可能对其他目的特别贫穷。

  4. 所述问题没有目的: 为什么需要对“质量”进行排名?排名将用于什么-输入更多分析,选择“最佳”土壤,确定科学假设,发展理论,推广产品?

  5. 排名的后果并不明显。 如果排名不正确或次等,会发生什么?世界会更饥饿,环境受到更多污染,科学家受到更多误导,园丁更加失望吗?

  6. 为什么变量的线性组合才合适? 为什么不应该将它们作为正或什至更深奥的东西相乘或乘幂或组合?

  7. 原始土壤质量指标通常会重新表达。例如,对数渗透率通常比渗透率本身更有用,对数氢离子活性(pH)比活性更有用。 用于确定“质量”的变量的适当重新表达是什么?

人们希望土壤科学能够回答大多数这些问题,并指出对于任何客观的“质量”而言,变量的适当组合可能是什么。如果没有,那么您将面临多属性估值问题。Wikipedia文章列出了许多解决此问题的方法。恕我直言,其中大多数不适合解决科学问题。Keeney&Raiffa的多属性估值理论是具有扎实理论并可能在经验问题上应用的少数几个理论之一(MAVT)。它要求您能够为变量的任何两个特定组合确定哪个应该排在较高位置。这种比较的结构化顺序揭示了(a)重新表达值的适当方法;(b)重新表达的值的线性组合是否会产生正确的排名;(c)如果可以进行线性组合,则可以计算系数。简而言之,只要您已经知道如何比较特定情况,MAVT就可以提供解决问题的算法。


RE:1.我肯定知道所有四个变量的“数字越大,质量越高” RE:2.好点。我该怎么做才能使两个数据集具有可比性
user333 2011年

2
@user我的建议在最后一段中:最好在科学文献中找到“质量”的定量表达。除此以外,请应用MAVT。两者都产生独立于数据集的固定公式。这确保了可比性。
whuber

1
@whuber,难道没有人认​​为这是根据现有信息制定形成性措施的问题,在这种情况下,将Z分数相加并不像听起来那样差?
Andy W

3
@Andy您能解释一下“正式措施”和“可用信息”的含义吗?//我应该指出,土壤对农业的适用性的许多衡量标准甚至都不单调,也不是线性的:例如,植物可能在一定的pH值范围内蓬勃发展,但在任一方向上的 pH值都超出该范围。如果土壤特征的简单线性组合与农业质量有任何客观关系,那的确是一种特殊情况-可能涉及范围很窄的值。
whuber

2
ÿ1个ÿķX1个Xķ
whuber

3

有人看过Russell G. Congalton的“评估遥感数据分类准确性的回顾”,1990年。它描述了一种称为可变矩阵的误差矩阵的技术,也是他使用的一种术语,称为“规范化数据”,从而获取所有不同的矢量并将其“规范化”或将它们设置为等于0到1。基本上将所有矢量更改为等于0到1。


0

您没有讨论的另一件事是测量的规模。V1和V5看起来像是等级排列的,另一个似乎不是。因此,标准化可能会使分数产生偏差。因此,最好将所有变量转换为等级,并为每个变量确定权重,因为它们具有相同权重的可能性很小。均等权重更多是“无”的默认设置。您可能需要进行一些相关性或回归分析,以得出一些先验权重。


如何使用相关分析确定重量?
user333 2011年

如果您已经有一个预先存在的整体质量度量标准,例如专家意见,(或愿意接受其他变量作为替代指标),则可以选择相关性最高的变量,并为其赋予最高的权重。
拉尔夫·温特斯

-3

跟随拉尔夫·温特斯(Ralph Winters)的回答,您可以在适当标准化的分数矩阵上使用PCA(主要成分分析)。这将为您提供一个“自然”的权重向量,您可以使用它来组合将来的分数。

在所有分数都转换为等级后,也要执行此操作。如果结果非常相似,则有充分的理由继续使用这两种方法。如果存在差异,这将导致有趣的问题和更好的理解。


4
我不同意。尽管人们可能会对好奇心的项目间相关性感兴趣,但所有变量可能都是正交的,但仍然有助于提高质量。举一个愚蠢的例子,南极的土壤可能具有最佳的氮含量,但我怀疑它是否适合合适的气候。
安迪W

@Andy W:在这种情况下,所有变量均应加权平均,PCA会告诉您。它还会告诉您,前导组件仅占分数矩阵中总体可变性的一小部分。
汉斯·恩格勒

3
我仍然不同意。它不会告诉您分数是否应平均加权。两个项目可能具有正相关,但每个项目与“质量”都有相反的关系。在给定的上下文中,项目间的相关性不一定表示未观察到的度量。如果质量是一个潜在变量,并且变量是该潜在构造的“反映”,那可能是正确的,但在此给定的示例中情况并非如此。
Andy W

一种×ñσ1个üvŤ一种ñvĴvĴ
汉斯·恩格勒

3
我仍然不同意。即使预期关联方向相同,这也不意味着指标应根据其项目间的相关性固有地赋予任何权重。共享方差只能说出指标之间的关系。考虑一个回归模型,在该模型中我们根据这些指标预测质量的已知度量。指标之间的项目间相关性并不能告诉您预期的斜率是多少。
Andy W
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.