例如,这是我从标准教科书中获得的定义
变量-总体或样本的特征。例如 测试中股票或等级的价格
数据-实际观测值
因此,对于两列报表[名称| 收入]列名称将是变量和实际观察值{dave | 100K},{jim | 200K}将是数据
因此,如果我说[名称]列是名义数据,[收入]是比率数据,那么将其描述为变量类型而不是像大多数教科书那样将其描述为数据类型不是更准确吗?我知道这可能是语义,这很好,那就是全部。但是我担心这里可能会丢失一些东西。
例如,这是我从标准教科书中获得的定义
变量-总体或样本的特征。例如 测试中股票或等级的价格
数据-实际观测值
因此,对于两列报表[名称| 收入]列名称将是变量和实际观察值{dave | 100K},{jim | 200K}将是数据
因此,如果我说[名称]列是名义数据,[收入]是比率数据,那么将其描述为变量类型而不是像大多数教科书那样将其描述为数据类型不是更准确吗?我知道这可能是语义,这很好,那就是全部。但是我担心这里可能会丢失一些东西。
Answers:
史蒂文斯(Stevens)的量表类型不一定是变量的某些固有特征,甚至不一定是数据本身,而在于我们如何处理信息-我们用它来表示什么。
在某些情况下,完全相同的值可能会被视为比率,区间,序数或标称值,具体取决于我们对它的处理方式-这与我们赋予这些值的含义有关,它可以从一种分析更改为另一种分析。史蒂文斯(Stevens)的类型学具有一定的价值,但是并没有对它进行过分规范。
规模作为重要的这个问题意味着日期至少回主(1953年),谁提供,那里有两个同一组数字的名义和间隔解释的例子。
Velleman和Wilkinson(1993)更加清楚地说明了这一点,他们提供了一个例子,人们在进入招待会时获得连续编号的门票,并且其中一张门票获得了奖励。根据票上数字的用途,它们在所有四个等级上都有解释。
因此,例如“我赢了吗?” 是一个将号码视为名义号码的问题,而“我来得太早了,无法获得中奖彩票吗?” 是一个将其视为序数的问题;另一方面(我不认为这是论文中的内容),使用5个随机门票号码来估计房间中的人数会将其视为比率(例如,如果有4个随机抽取的号码安慰奖,您将共有5个随机数字,从中可以估算出总出席人数)。
他们认为“好的数据分析不能假设数据类型”,“史蒂文斯的类别不能描述数据的固定属性”,“史蒂文斯的类别不足以描述数据规模”和“不能根据史蒂文斯的标准对统计程序进行分类”(的确如此)每个语句也是节标题)。
Tukey在许多地方也提出了批评(例如,在Mosteller和Tukey 1977年出版的《数据分析和回归》一书的第5章中);Mosteller和Tukey提供了一种类型- 名称,等级(有序标签),等级 (从1开始,可能表示最大或最小),计数分数(以零和一为界,包括百分比),计数(非负数)整数),金额(非负实数),余额(无界,正值或负值)。
在我自己的工作中,我曾看到过这样的情况,即由于人们未能意识到与水平相关的变量(有时称为“库存”变量)与流量之间的巨大差异而导致分析的严重问题-这些类型的简单示例就是差异分析适用于每个周期序列中每个储罐实际的水量以及流入其中的水量。这些(在某些情况下)都属于Mosteller和Tukey的“ 数量 ”类型的子类别(在相同的情况下,也是Stevens方案中的两个比率变量),表明类型问题可能非常微妙,但是仍会严重影响适当的分析。
PFVelleman和L.Wilkinson(1993),
“标称,序数,区间和比率类型是令人误解的”,《
美国统计学家》,第1卷。47第1页,第65-72页
Lord F.(1953),
“关于足球数字的统计处理”,
美国心理学家,第8卷,第750-751页。
(在我所链接的Velleman和Wilkinson论文的版本的引用中,错误地给出了本文的年份,但在本文的正文中正确引用了该年份)
数据的类型是相关的,但与变量的类型不同。在大多数情况下,它们是相同的,但并非必须如此。
例如,如果您从正态分布中收集了N个样本。您会认为这是一个数字(比率或比例)数据。但是我也可以说这是一个具有N个不同类别的类别变量,每个类别的频率为1。它看起来很蠢,但它也是一个有效的变量。