Answers:
一个简短的答案是,这是有争议的。与您提到的建议相反,许多领域的人的确会使用序数表,并且常常高兴地做到了自己想要的事。一个示例是平均成绩或许多教育系统中的同等水平。
但是,序数数据未进行正态分布不是有效的原因,因为均值是
广泛用于非正态分布
对于许多非正态分布,除了在某些病理情况下,数学上定义得很好。
如果数据绝对不是正态分布的,那么在实践中使用均值可能不是一个好主意,但这是不同的。
不将平均数与有序数据一起使用的更强力原因是,其均值取决于编码约定。通常仅出于简化或方便的目的选择数字代码(例如1、2、3、4),但原则上,只要与所定义的顺序相对应,它们就可以等同地为1、23、456、7890。在这两种情况下均采用均值将涉及按字面意义采用这些约定(即,似乎这些数字不是任意的,而是合理的),并且没有严格的依据。您需要一个区间刻度,在该区间刻度中可以从字面上采用值之间的相等差来证明采用均值是合理的。我将其作为主要论点,但正如已经指出的那样,人们经常无视它,因为无论测量理论家说什么,他们都觉得有用。
这是一个额外的示例。通常,人们被要求选择“强烈不同意” ...“强烈同意”中的一种,并且(部分取决于软件需要什么)研究人员将其编码为1 .. 5或0 .. 4或他们想要的任何东西,或者声明它作为有序因素(或软件使用的任何术语)。这里的编码是任意的,对回答问题的人是隐藏的。
但是通常还会以1到5的比例来问(说)人们如何评价某事?例子很多:网站,体育,其他竞赛以及教育。在这里,人们会看到一个秤,并被要求使用它。众所周知,非整数是有意义的,但是只允许您使用整数作为惯例。这是序数表吗?有人说是,有人说不。否则,问题的一部分就是序数尺度本身就是一个模糊或有争议的领域。
再考虑一下学术成绩,例如E到A。通常也会对这些成绩进行数字处理,例如1到5,人们通常会计算学生,课程,学校等的平均值,并对这些数据进行进一步分析。尽管对数字分数的任何映射都是任意的,但只要它能保持顺序就可以接受,但是在实践中,分配和接收分数的人们知道分数具有数字等价物,并且知道分数将被平均。
使用均值的一个务实原因是中位数和众数通常是数据中信息的较差摘要。假设您有一个从完全不同意到完全同意的标度,为了方便起见,将第1点到第5点编码。现在假设一个样本编码为1,1,2,2,2,另一个为1,2,2,4,5。如果您认为中位数和众数是唯一合理的摘要,那是您的手,因为这是序数标度。现在,如果您发现平均值也有用的话,请举手,无论总和是否定义明确,等等。
自然,如果代码是1到5的正方形或立方体,则平均值将是一个高度敏感的摘要,例如,这可能不是您想要的。(如果您的目标是快速识别出较高的目标,那可能正是您想要的!)但这就是为什么使用带有连续整数代码的常规编码是一个实际的选择的原因,因为在实践中它通常效果很好。这与测量理论家无关,也不是什么论据,但数据分析人员应该对产生信息丰富的摘要感兴趣。
我同意任何人的意见:使用整个年级频率分布,但这不是问题所在。
假设我们采用序数值,例如1表示强烈不同意,2表示不同意,3表示同意,4表示强烈同意。如果四个人给出答案1,2,3和4,那意味着什么?它是(1 + 2 + 3 + 4)/4=2.50。
当四人平均反应是“不同意或同意”时,应如何解释?这就是为什么我们不应该对均值数据使用均值。
我完全同意@Azeem。但是,为了阐明这一点,让我进一步阐述一下。
假设您具有@Azeem示例中的序数数据,其比例范围为1到4。还假设您有几个人对此比例进行评分(例如Ice Cream)。假设您得到以下结果:
当您想要解释结果时,可以得出以下结论:
但是,您对评级之间的间隔一无所知。1和2之差与3和4之差是否相同?评分4是否真的意味着该人喜欢冰淇淋的人是将其评为1的人的4倍?依此类推...计算算术平均值时,将数字视为它们之间的差相等。但这是关于序数数据的相当强的假设,您必须证明其合理性。