“数据集”的确切含义是什么?


10

仅仅是数据点的汇总吗?还是以表格形式用不同变量的值排列的形式表示不同元素的数据点?它与原始数据有何不同?


您所说的“数据点”是什么意思,您希望它至少是2D的吗?时间序列或一组考试分数可以是一个数据集。至少这些变量只能是一个变量的序列,可能没有行标签。根据@FranckDernoncourt的回答
smci

1
我真的只是认为这是数据的集合。当然,这就是我使用该术语的方式。我认为这没有太多。数据是“原始”数据还是经过预处理或清理等,都是正交的。
gung-恢复莫妮卡

Answers:


9

以我的经验,“数据集”(或“数据集”)是一个非正式术语,指的是数据集合。通常,数据集包含多个变量,并且涉及一个主题。可能只涉及一个样本。

我经常看到交叉验证问题的作者犯的一个错误是使用“数据集”作为“变量”或“向量”的同义词。


3
同意关于数据集还是变量或向量。不要像“我有数据”那样让我开始使用“数据”。相反,“我有一个数据集”是一种绝妙的方式,不会激怒任何一种方式,或者激怒那些坚持认为数据是复数形式的人,或者激怒那些认为这种坚持是学问的人,如果他们想一想的话。
尼克·考克斯

3
@NickCox在有关“数据”的语法大战中,我是最不受欢迎的派系,该派声称“数据”是一个名词。
Kodiologist '16

3
我怀疑这是现在的大多数,并且更强烈地认为它越来越受欢迎。
尼克·考克斯

8

我认为Wikipedia在定义它方面做得不错:

最常见的是,数据集对应于单个数据库表或单个统计数据矩阵的内容,其中表的每一列代表一个特定变量,每一行对应于所讨论数据集的给定成员。数据集列出了数据集每个成员的每个变量的值,例如对象的高度和重量。每个值称为基准。数据集可以包括对应于行数的一个或多个成员的数据。

术语数据集还可以更宽松地使用,以指代紧密联系的表的集合中的数据,对应于特定的实验或事件。这种类型的一个例子是由太空机构收集的数据集,这些机构使用太空探测器上的仪器进行实验。

在开放数据学科中,数据集是衡量在公共开放数据存储库中发布的信息的单位。欧洲开放数据门户网站聚集了超过一百万个数据集。在该领域中,已经提出了其他定义,但是目前还没有正式的定义。其他一些问题(实时数据源,非关系数据集等)增加了就此达成共识的难度。

如您所见,该术语有些含糊。


在计算机视觉环境中,数据集可能只是自然图像及其标签或注释的集合。
Sycorax说恢复莫妮卡

“数据库*”是什么意思?
ankit


@Sycorax是的,我想我们可以将一个图像(或其他信号)视为数据库中的一个blob数据。
Franck Dernoncourt,2016年

7

我认为您可能需要先定义数据点,然后才能定义数据集:为什么是一个原始且不需要定义,反之亦然?

至少有两个定义对我有意义:

  1. 一个或多个变量(字段,列)的一个或多个观察值(案例,记录,行)。

  2. 无论存储在所选程序可读的文件中的数据如何。

表格布局很常见,但我不认为这是任何定义的一部分。自然地,如何存储数据实际上很重要。

PS:“格式”一词是如此的繁重,以至于我最好避免使用,除非明确指定。我看过它用来

  1. 常规或特定文本或二进制文件格式

  2. 数据结构,例如表格或其他

  3. 数据存储或变量类型,例如位,整数,实数,字符

  4. 显示格式控制演示,例如小数位数的详细信息;十进制,十六进制或二进制显示。


6

这里已经有了一些很好的答案,我认为我无法深入研究尼克·考克斯(Nick Cox)或弗兰克·德农库尔(Franck Dernoncourt)的问题,即“数据集”是指相关数据的概念性集合,还是指这些数据的特定排列,例如表格/矩阵或计算机可读文件。Franck的摘录提到了一些边际情况,例如连续收集的数据或分布在多个表中的数据,如果您假设将有一个简单的定义,则应牢记这些。(并不是所有的统计软件都可以处理它,但是很容易想到一种情况,即数据存储在具有多个表的关系数据库中。整个数据库是单个“数据集”吗?)

我要补充的一件事是,从数学意义上讲,数据集通常不是集合!严格来说,一组包含一个对象,也可以不包含,但是不能包含该对象的多个副本。如果我掷骰子八次并得分为1、4、3、5、5、4、6、4 ,那么得分就是{1、3、4、5、6}。请注意,元素可以按任何顺序排列,我只是将它们的值编写为升序,但是例如,集合{5,4,1,6,3}在数学上等于它。这不是我们通常所说的数据集!

多集(或)允许的条目被重复,例如,{1,4,3,5,5,4,6,4}虽然注意到这还不包括的顺序感,所以是等于{1, 3、4、4、4、5、5、6}。也许“数据集”中的“集”最好读作“多集”。此外,如果要保留订单,可以改用向量:(1、4、3、5、5、5、4、6、4)与(1、3、4、4、4、4)不同5、5、6)。该排序为我们提供了可以用作一种标识符的索引-例如,它告诉我们“哪个是四个?” -通常用于以自然时间或地理顺序记录观测结果。当看到诸如x1x2x¯=1ni=1nxi假定使用这种索引方案。在集合或多集的上下文中,假设由于缺乏排序而无法区分“第一”或“第二”元素,那么或意味着什么?x1x2

但是向量仅用于记录一个变量-对于多个变量,使用矩阵将保留的顺序制成表格可能会更方便。对于更复杂的情况,例如随时间测量三维体素网格的属性,您甚至可以动手将数据排列在张量中(例如,参见此问题)。

但是请注意,从概念上讲,即使在实际应用中不方便,多集在大多数简单情况下也已足够。如果我在掷骰子的同时扔硬币,并想一起记录两个结果,那么我可以使用{{1,H),(3,T),(4,H),(4,H ),(4,T),(5,H),(5,T),(6,T)}而不是矩阵。一个普通的集合是不够的,例如,它不能计算(4,H)的多重性。


1
我可以接受这样的想法,即数据集是一组观察结果,只是带有皱纹,它可能需要它们的标识符才能使其与众不同。但是您是对的,这里的含义与集合论中的含义有些距离。如您在此处暗示的那样,强调一下,观察的顺序通常很关键,并且通常(但不总是)由时间或其他顺序变量给出。
尼克·考克斯

@NickCox(+1)确实,我还没有发现表达时间或表达方式,是观察通常带有标识符-有时是暂时的,有时是基于位置的,有时两者都是。当我们将数据编码为向量,矩阵或张量时,通常直接提供所需的结构,并且可能不需要显式标识符(例如硬编码索引),特别是在仅涉及顺序或相对位置的情况下。毫无疑问,所有这些都有正确的术语。
银鱼

我没问题,说顺序没关系。它没有单个变量。当X值与测量时间配对时,顺序很重要。但是然后,我们真的可以认为这些点是多维的,并且多维数据集的顺序也不再重要。我也没有任何问题,可以认为现实中存在一个隐含的标识符,使得两个5唯一。
gung-恢复莫妮卡

@gung我正在考虑隐含时间或序列顺序的数据集。我想说这是一种不好的做法,现在没有必要,没有一个明确的排序变量,但是缺少这样的排序变量并不会取消其作为数据集的资格。实际上,在1970年代,我经常使用隐式标识符处理空间序列,因为我自己的Fortran程序使输入一个(而不是琐碎的)劳动变得不必要。
尼克·考克斯

@NickCox对我来说似乎很好。我想说,order变量是隐式的,但在某种意义上仍然存在。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.