仅仅是数据点的汇总吗?还是以表格形式用不同变量的值排列的形式表示不同元素的数据点?它与原始数据有何不同?
仅仅是数据点的汇总吗?还是以表格形式用不同变量的值排列的形式表示不同元素的数据点?它与原始数据有何不同?
Answers:
以我的经验,“数据集”(或“数据集”)是一个非正式术语,指的是数据集合。通常,数据集包含多个变量,并且涉及一个主题。可能只涉及一个样本。
我经常看到交叉验证问题的作者犯的一个错误是使用“数据集”作为“变量”或“向量”的同义词。
我认为Wikipedia在定义它方面做得不错:
最常见的是,数据集对应于单个数据库表或单个统计数据矩阵的内容,其中表的每一列代表一个特定变量,每一行对应于所讨论数据集的给定成员。数据集列出了数据集每个成员的每个变量的值,例如对象的高度和重量。每个值称为基准。数据集可以包括对应于行数的一个或多个成员的数据。
术语数据集还可以更宽松地使用,以指代紧密联系的表的集合中的数据,对应于特定的实验或事件。这种类型的一个例子是由太空机构收集的数据集,这些机构使用太空探测器上的仪器进行实验。
在开放数据学科中,数据集是衡量在公共开放数据存储库中发布的信息的单位。欧洲开放数据门户网站聚集了超过一百万个数据集。在该领域中,已经提出了其他定义,但是目前还没有正式的定义。其他一些问题(实时数据源,非关系数据集等)增加了就此达成共识的难度。
如您所见,该术语有些含糊。
我认为您可能需要先定义数据点,然后才能定义数据集:为什么是一个原始且不需要定义,反之亦然?
至少有两个定义对我有意义:
一个或多个变量(字段,列)的一个或多个观察值(案例,记录,行)。
无论存储在所选程序可读的文件中的数据如何。
表格布局很常见,但我不认为这是任何定义的一部分。自然地,如何存储数据实际上很重要。
PS:“格式”一词是如此的繁重,以至于我最好避免使用,除非明确指定。我看过它用来
常规或特定文本或二进制文件格式
数据结构,例如表格或其他
数据存储或变量类型,例如位,整数,实数,字符
显示格式控制演示,例如小数位数的详细信息;十进制,十六进制或二进制显示。
这里已经有了一些很好的答案,我认为我无法深入研究尼克·考克斯(Nick Cox)或弗兰克·德农库尔(Franck Dernoncourt)的问题,即“数据集”是指相关数据的概念性集合,还是指这些数据的特定排列,例如表格/矩阵或计算机可读文件。Franck的摘录提到了一些边际情况,例如连续收集的数据或分布在多个表中的数据,如果您假设将有一个简单的定义,则应牢记这些。(并不是所有的统计软件都可以处理它,但是很容易想到一种情况,即数据存储在具有多个表的关系数据库中。整个数据库是单个“数据集”吗?)
我要补充的一件事是,从数学意义上讲,数据集通常不是集合!严格来说,一组包含一个对象,也可以不包含,但是不能包含该对象的多个副本。如果我掷骰子八次并得分为1、4、3、5、5、4、6、4 ,那么得分集就是{1、3、4、5、6}。请注意,元素可以按任何顺序排列,我只是将它们的值编写为升序,但是例如,集合{5,4,1,6,3}在数学上等于它。这不是我们通常所说的数据集!
阿多集(或袋)允许的条目被重复,例如,{1,4,3,5,5,4,6,4}虽然注意到这还不包括的顺序感,所以是等于{1, 3、4、4、4、5、5、6}。也许“数据集”中的“集”最好读作“多集”。此外,如果要保留订单,可以改用向量:(1、4、3、5、5、5、4、6、4)与(1、3、4、4、4、4)不同5、5、6)。该排序为我们提供了可以用作一种标识符的索引-例如,它告诉我们“哪个是四个?” -通常用于以自然时间或地理顺序记录观测结果。当看到诸如x1x2假定使用这种索引方案。在集合或多集的上下文中,假设由于缺乏排序而无法区分“第一”或“第二”元素,那么或意味着什么?
但是向量仅用于记录一个变量-对于多个变量,使用矩阵将保留的顺序制成表格可能会更方便。对于更复杂的情况,例如随时间测量三维体素网格的属性,您甚至可以动手将数据排列在张量中(例如,参见此问题)。
但是请注意,从概念上讲,即使在实际应用中不方便,多集在大多数简单情况下也已足够。如果我在掷骰子的同时扔硬币,并想一起记录两个结果,那么我可以使用{{1,H),(3,T),(4,H),(4,H ),(4,T),(5,H),(5,T),(6,T)}而不是矩阵。一个普通的集合是不够的,例如,它不能计算(4,H)的多重性。