离散数据和连续数据有什么区别?
离散数据和连续数据有什么区别?
Answers:
离散数据只能采用特定值。这些值可能有无数个,但每个值都是不同的,并且它们之间没有灰色区域。离散数据可以是数字的,例如苹果的数量,但也可以是分类的,例如红色或蓝色,或男性或女性,或好或坏。
连续数据不限于定义的单独值,而是可以占用连续范围内的任何值。在任何两个连续数据值之间,可能有无限多个其他值。连续数据本质上总是数字。
有时将一种类型的数字数据正确地视为另一种数字数据是有意义的。例如,高度之类的东西是连续的,但是通常我们并不真正关心微小的差异,而是将高度分为多个离散的bin。相反,如果我们要计算大量的离散实体(经济中的米粒,白蚁或便士),则可以选择不将2,000,006和2,000,008视为至关重要的不同值,而是将其视为附近点。近似连续体。
将数字数据视为分类有时也很有用,例如:体重过轻,正常,肥胖。这通常只是另一种装仓。
将分类数据视为连续数据很少有意义。
数据始终是离散的。给定n
变量的值样本,该变量可以采用的最大不同值数量等于 n
。看到这个报价
所有实际样本空间都是离散的,并且所有可观察到的随机变量都具有离散的分布。连续分布是一种数学构造,适用于数学处理,但实际上无法观察到。EJG Pitman(1979,第1页)。
通常假定有关变量的数据是从随机变量中提取的。如果变量可以在范围内的任意两个不同点之间取无限数量的可能值,则该随机变量在一个范围内是连续的。例如,身高,体重和时间通常被假定为连续的。当然,对这些变量的任何测量都是有限精确的,并且在某种意义上是离散的。
区分有序(即有序),无序(即标称)
和二进制离散变量非常有用。
一些入门教材将连续变量与数字变量混淆。例如,即使是数字游戏,计算机游戏中的得分也是离散的。
一些入门教科书将比率变量与连续变量混淆。计数变量是比率变量,但不是连续的。
在实际中,当变量可以具有足够多的不同值时,通常将其视为连续变量。
温度是连续的。可以是23度,23.1度,23.100004度。
性别是离散的。您只能是男性或女性(无论如何都是经典思维)。您可以用整数来表示的东西,例如1、2等
区别很重要,因为许多统计和数据挖掘算法可以处理一种类型,但不能处理另一种类型。例如,在常规回归中,Y必须是连续的。在逻辑回归中,Y是离散的。
离散数据只能采用某些值。
示例:班级的学生人数(不能有一半学生)。
连续数据是可以取任何值(在范围内)的数据
例子:
一方面,从实际的角度来看,我确实同意杰里米·安格利姆的回答。最后,我们大部分时间都在处理离散变量(尽管从理论上讲它们是连续的),并且对分类产生了实际影响。回顾Strobl的论文,该论文指出随机森林偏向于具有多个切割点的变量(准确性更高,但可能具有相似的性质)。根据我的个人经验,除非变量具有相同的类型(即连续的),否则当变量呈现的准确性不同时,概率神经网络也可能会出现偏差。另一方面,从理论上看,经典分类(例如,连续,离散,名义等)是恕我直言。按照我的观点,Quinlan描述M5算法的论文的源名称是:这是一个“回归者”,是一个不错的选择。因此,取决于“环境”,连续与离散的定义和含义是相关的。
参考:
Quinlan JR(1992)。通过连续课堂学习。在:第五届澳大利亚人工智能联合会议。悉尼(澳大利亚),343–348。
Strobl C.,Boulesteix A.-L.,Zeileis A.和Hothorn T.(2007年)。森林随机变量重要性衡量中的偏差:插图,来源和解决方案。BMC生物信息学,8,25. doi:10.1186 / 1471-2105-8-25
离散数据只能采用整数值,而连续数据可以采用任何值。例如,每年医院治疗的癌症患者人数是离散的,但您的体重是连续的。有些数据是连续的,但以离散的方式进行测量,例如您的年龄。通常将您的年龄报告为31岁。