离散数据和连续数据有什么区别?


62

离散数据和连续数据有什么区别?


2
您先尝试过Google吗?对我来说,它给出了这一点
罗宾吉拉德

这是一个很好的视频,可以回答您的问题。youtube.com/watch?v=MIX3ZpzEOdM

2
只需考虑数字与模拟。同样的事情-不同的名字。
皮蒂科斯

我真的不知道“离散”和“连续”数据之间的区别是什么。由于某些原因,入门级统计班似乎真的很喜欢让学生记住规则以区别这两件事。据我所知,差异不在于数据,而在于我们选择如何对数据建模。
user795305

1
这是Google的最高结果,@ robingirard。
denson

Answers:


58

离散数据只能采用特定值。这些值可能有无数个,但每个值都是不同的,并且它们之间没有灰色区域。离散数据可以是数字的,例如苹果的数量,但也可以是分类的,例如红色或蓝色,或男性或女性,或好或坏。

连续数据不限于定义的单独值,而是可以占用连续范围内的任何值。在任何两个连续数据值之间,可能有无限多个其他值。连续数据本质上总是数字。

有时将一种类型的数字数据正确地视为另一种数字数据是有意义的。例如,高度之类的东西是连续的,但是通常我们并不真正关心微小的差异,而是将高度分为多个离散的bin。相反,如果我们要计算大量的离散实体(经济中的米粒,白蚁或便士),则可以选择不将2,000,006和2,000,008视为至关重要的不同值,而是将其视为附近点。近似连续体。

将数字数据视为分类有时也很有用,例如:体重过轻,正常,肥胖。这通常只是另一种装仓。

将分类数据视为连续数据很少有意义。


至少在心理学上,@ walktalky暗示着,诸如对问题的回答之类的分类变量通常被认为是基本特征的代表,因此从这个意义上说,分类数据有时被认为是连续的。
richiemorrisroe 2011年

@richiemorrisroe一个人可能会挑剔数据和假定特征之间的差异,但是您当然是对的。针对这个后续问题,提出了一些非常有趣的观点。
walkytalky 2011年

感谢您的链接,这些答案确实非常有趣。
richiemorrisroe 2011年

>“ 这些值可能有无数个,但每个值都是不同的,并且它们之间没有灰色区域 ”-实际上,完全可能存在具有不同值的离散分布,但同时对于任何两个值您选择的不同值在它们之间始终会有更多的值(某种意义上是“灰色区域”)。在实践中,他们并不会经常提出建议,但是他们完全有可能成为现实。确实,我可以想到两个容易出现的不同示例(如果相关)。
Glen_b

因此要澄清一下,即使您有100亿行股票资产的ohlc数据,仍将其视为离散的吗?但是资产的价格不能在1到无穷大之间,在这种情况下该如何思考?
PirateApp '18

19

数据始终是离散的。给定n变量的值样本,该变量可以采用的最大不同值数量等于 n。看到这个报价

所有实际样本空间都是离散的,并且所有可观察到的随机变量都具有离散的分布。连续分布是一种数学构造,适用于数学处理,但实际上无法观察到。EJG Pitman(1979,第1页)。

通常假定有关变量的数据是从随机变量中提取的。如果变量可以在范围内的任意两个不同点之间取无限数量的可能值,则该随机变量在一个范围内是连续的。例如,身高,体重和时间通常被假定为连续的。当然,对这些变量的任何测量都是有限精确的,并且在某种意义上是离散的。

区分有序(即有序),无序(即标称)
和二进制离散变量非常有用。

一些入门教材将连续变量与数字变量混淆。例如,即使是数字游戏,计算机游戏中的得分也是离散的。

一些入门教科书将比率变量与连续变量混淆。计数变量是比率变量,但不是连续的。

在实际中,当变量可以具有足够多的不同值时,通常将其视为连续变量。

参考文献

  • 皮特曼,EJG,1979年。统计推断的一些基本理论。伦敦:查普曼和霍尔。注意: 我在Murray Aitkin的书《统计推断:贝叶斯/似然综合方法》第二章的引言中找到了引文。

12
概率也是“数学构造”而不是“直接可观察的”。这是否意味着不存在概率?总体而言,这种有趣的回答似乎是基于一个不成立的前提,即数据应该由它们确实具有的值来表征,而不是由数学模型允许它们具有的值来表征。后者是关键特征,而不是前者。所有这些都表明,连续/离散区分中最重要的是我们如何考虑数据(即,如何对它们建模)。
ub

3
有一个巧妙的小寓言可以说明@whuber的观点:Lord(1953),“关于足球数字的统计处理”,美国心理学家,第8卷,第750-51页。
Scortchi-恢复莫妮卡

谢谢@Scortchi。可通过Google Scholar搜索获得Web版本。洛德(Lord)正在解决一个误解,这个误解在60年前引起了激烈的争论,涉及“测量理论”应在多大程度上影响(甚至限制统计分析的范围)。关于模型构造和观察之间的区别,我的观点是不同的。
ub

12

温度是连续的。可以是23度,23.1度,23.100004度。

性别是离散的。您只能是男性或女性(无论如何都是经典思维)。您可以用整数来表示的东西,例如1、2等

区别很重要,因为许多统计和数据挖掘算法可以处理一种类型,但不能处理另一种类型。例如,在常规回归中,Y必须是连续的。在逻辑回归中,Y是离散的。


5
当您记录下最近的程度,也可以被认为是离散的-也许被如此认为分析的某些形式。同样,在“常规”(OLS?)回归中,不必是连续的:许多(实际上是其所有有用的属性)适用于许多类型的离散数据,甚至是二进制响应。这些观点和对立面开始暗示的是,数据不一定是离散的或连续的,而是统计过程是离散的或连续的。Y
ub

8

离散数据只能采用某些值。

示例:班级的学生人数(不能有一半学生)。

连续数据是可以取任何值(在范围内)的数据

例子:

  • 一个人的身高:可以是任何值(在人类身高范围内),而不仅仅是某些固定的身高,
  • 比赛时间:您甚至可以将其测量到几分之一秒,
  • 狗的体重
  • 一片叶子的长度
  • 一个人的体重,

2
您也可以告诉我们您将复制的答案粘贴到了哪里:mathsisfun.com/data/data-discrete-continuous.html
philmcole

很好地描述。
Arsman Ahmad

0

对于数据库,即使数据的性质是连续的,我们也总是将数据离散存储。我为什么要强调数据的性质?我们应该采用可以帮助我们分析数据的数据分布。如果数据的性质是连续的,我建议您通过连续分析来使用它们。

以连续和离散为例:MP3。如果以数字格式存储,甚至“声音”的类型都是类推。我们应该始终以类推的方式对其进行分析。


0

一方面,从实际的角度来看,我确实同意杰里米·安格利姆的回答。最后,我们大部分时间都在处理离散变量(尽管从理论上讲它们是连续的),并且对分类产生了实际影响。回顾Strobl的论文,该论文指出随机森林偏向于具有多个切割点的变量(准确性更高,但可能具有相似的性质)。根据我的个人经验,除非变量具有相同的类型(即连续的),否则当变量呈现的准确性不同时,概率神经网络也可能会出现偏差。另一方面,从理论上看,经典分类(例如,连续,离散,名义等)是恕我直言。按照我的观点,Quinlan描述M5算法的论文的源名称是:这是一个“回归者”,是一个不错的选择。因此,取决于“环境”,连续与离散的定义和含义是相关的。

参考:

Quinlan JR(1992)。通过连续课堂学习。在:第五届澳大利亚人工智能联合会议。悉尼(澳大利亚),343–348。

Strobl C.,Boulesteix A.-L.,Zeileis A.和Hothorn T.(2007年)。森林随机变量重要性衡量中的偏差:插图,来源和解决方案。BMC生物信息学,8,25. doi:10.1186 / 1471-2105-8-25


-1

离散数据采用特定值,而连续数据不限于单独的值。

离散数据是不同的,并且中间没有灰色区域,而连续数据在连续数据值上占据任何值。


-2

离散数据它们可以采用特定值。它们是数字。


欢迎来到简历!感谢您的回答,但请抽出时间查看以前的答案,并考虑是否要添加任何有用的内容。
Scortchi-恢复莫妮卡

-3

离散数据只能采用整数值,而连续数据可以采用任何值。例如,每年医院治疗的癌症患者人数是离散的,但您的体重是连续的。有些数据是连续的,但以离散的方式进行测量,例如您的年龄。通常将您的年龄报告为31岁。


11
数据可以是离散的,而不受限于整数。还是数字。总是可以用整数表示离散数据,但这并不意味着数据只能采用这样的值。
walkytalky

-4

离散数据通常是关于有限值的,连续数据是关于无限值的.....


2
关心详细吗?
chl
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.