数据类型(标称/有序/间隔/比率)是否真的应视为变量类型?


10

例如,这是我从标准教科书中获得的定义

变量-总体或样本的特征。例如 测试中股票或等级的价格

数据-实际观测值

因此,对于两列报表[名称| 收入]列名称将是变量和实际观察值{dave | 100K},{jim | 200K}将是数据

因此,如果我说[名称]列是名义数据,[收入]是比率数据,那么将其描述为变量类型而不是像大多数教科书那样将其描述为数据类型不是更准确吗?我知道这可能是语义,这很好,那就是全部。但是我担心这里可能会丢失一些东西。


不会让我感到有意义的差异;我个人认为这两种说法都可以接受。不过,“变量”的定义似乎有些偏离。
尼克·斯汤纳

2
@Nick我相信,如果我们将口语化的“特征”转换为数学上的“实值函数”,我们将获得随机变量定义的一部分。(当然,缺少的部分是有关总体sigma字段的可度量性。)但是,通常,我们会将“样本的特征”转换为技术术语statistic:也许这就是您所指的“一点点。” 使用这些转换,变量在史蒂文斯的意义上根本没有“类型”(我们只能区分离散分布和连续分布),但是某些数据可以。
ub

Answers:


16

史蒂文斯(Stevens)的量表类型不一定是变量的某些固有特征,甚至不一定是数据本身,而在于我们如何处理信息-我们用它来表示什么

在某些情况下,完全相同的值可能会被视为比率,区间,序数或标称值,具体取决于我们对它的处理方式-这与我们赋予这些值的含义有关,它可以从一种分析更改为另一种分析。史蒂文斯(Stevens)的类型学具有一定的价值,但是并没有对它进行过分规范。

规模作为重要的这个问题意味着日期至少回主(1953年),谁提供,那里有两个同一组数字的名义和间隔解释的例子。

Velleman和Wilkinson(1993)更加清楚地说明了这一点,他们提供了一个例子,人们在进入招待会时获得连续编号的门票,并且其中一张门票获得了奖励。根据票上数字的用途,它们在所有四个等级上都有解释。

因此,例如“我赢了吗?” 是一个将号码视为名义号码的问题,而“我来得太早了,无法获得中奖彩票吗?” 是一个将其视为序数的问题;另一方面(我不认为这是论文中的内容),使用5个随机门票号码来估计房间中的人数会将其视为比率(例如,如果有4个随机抽取的号码安慰奖,您将共有5个随机数字,从中可以估算出总出席人数)。

他们认为“好的数据分析不能假设数据类型”,“史蒂文斯的类别不能描述数据的固定属性”,“史蒂文斯的类别不足以描述数据规模”和“不能根据史蒂文斯的标准对统计程序进行分类”(的确如此)每个语句也是节标题)。

Tukey在许多地方也提出了批评(例如,在Mosteller和Tukey 1977年出版的《数据分析和回归》一书的第5章中);Mosteller和Tukey提供了一种类型- 名称等级(有序标签),等级 (从1开始,可能表示最大或最小),计数分数(以零和一为界,包括百分比),计数(非负数)整数),金额(非负实数),余额(无界,正值或负值)。

在我自己的工作中,我曾看到过这样的情况,即由于人们未能意识到与水平相关的变量(有时称为“库存”变量)与流量之间的巨大差异而导致分析的严重问题-这些类型的简单示例就是差异分析适用于每个周期序列中每个储罐实际的水量以及流入其中的水量。这些(在某些情况下)都属于Mosteller和Tukey的“ 数量 ”类型的子类别(在相同的情况下,也是Stevens方案中的两个比率变量),表明类型问题可能非常微妙,但是仍会严重影响适当的分析。

PFVelleman和L.Wilkinson(1993),
“标称,序数,区间和比率类型是令人误解的”,《
美国统计学家》,第1卷。47第1页,第65-72页

(工作版本似乎可以在此处的第二作者网页上找到

Lord F.(1953),
“关于足球数字的统计处理”,
美国心理学家,第8卷,第750-751页。

(在我所链接的Velleman和Wilkinson论文的版本的引用中,错误地给出了本文的年份,但在本文的正文中正确引用了该年份)


谢谢。非常彻底的答案。我一直在按照这些思路思考,但是当对这些东西进行多次研究时,它们似乎显得很具体并且已经达成共识。这就是为什么我在这里结束。
用户42年

自从史蒂文斯(Stevens)的类型学首次出版以来,就一直存在争议和争议。这是一个有时有用的框架,而不是定理。
Glen_b-恢复莫妮卡2014年

除了史蒂文斯和莫斯特勒,还有“新宠”吗?在“级别/流程”示例中,如果我对您的理解正确,那么两者的类型相同,但是需要区别对待吗?您能解释一下这种差异吗?举例来说,如何将值的对数转换适应这种类型?谢谢。
Erich Schubert

1.我不知道最近有什么尝试做过,而且我认为它们不一定有用,因为它们倾向于使人们屈服于不太适当的分析(参见Lord的玩具示例,但分析的结果是非常真实-按类型列出的那些分析不会导致可怕的统计分析的结束,同时从适当情况下考虑的可能性中排除了大量统计数据)。.. ctd
Glen_b-恢复莫妮卡

ctd ... 2.一个有关水位和流量有很大不同的示例:请注意,如果您每天查看该水位,则今天的水位将是前一个水位加上中间的流入或流出量(或两者之和) ,如果两者都有可能)。因此,电平测量必定是依赖的,通常高度依赖。将他们视为独立者是没有道理的-但是我看到人们一直在这样做。3.我不确定您对日志的要求是什么。您能更清楚地了解那一个吗?哪种类型(请注意,我提到了不止一种)?
Glen_b-恢复莫妮卡

1

数据的类型是相关的,但与变量的类型不同。在大多数情况下,它们是相同的,但并非必须如此。

例如,如果您从正态分布中收集了N个样本。您会认为这是一个数字(比率或比例)数据。但是我也可以说这是一个具有N个不同类别的类别变量,每个类别的频率为1。它看起来很蠢,但它也是一个有效的变量。


这与史蒂文斯(Stevens)(他被认为是建立了这种类型学)相矛盾,后者写道:“真正的问题是度量的含义。” 尽管您可能总是选择将此类数据视为名义数据,但这并未使它们在Stevens的估计中成为名义数据。他的论文可在gaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/…中获得
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.