Answers:
分类变量具有离散值的有限集合。例如性别(男性/女性),国家/地区,星球等。将其与连续变量进行对比,该变量可以取无穷多个不同的值。示例包括重量,经度,距离等。
注意,类似的信息有时可以用分类和连续的方式表示;例如,planet = earth
可以表示为distance to sun = 1 astronomical unit ≈ 150 million kilometers
。但是,就行星而言,实际上没有任何方法可以表示太阳离太阳2亿公里,因为那里没有行星(火星距离太阳2.28亿公里)。对于2.01亿公里,202等,也是如此。关于这些距离,您只能说的是行星planet = none
;您无法说出planet = 4/3×earth
或.88×Mars
,因为没有有意义的方法可以将行星或任何其他类别变量相乘。就行星而言,这些距离是无法区分的,但是当这样表示时,它们与太阳的不同距离(作为连续变量)当然是有意义的。
一个人也可以以任意精度表达连续变量(例如,一个天文单位为149,597,871公里,不完全是1.5亿公里)。相反,没有办法表达planet = earth
得更准确。地球恰好是地球,没有更多也没有更少。此外,如果planet
名义上的变量是其他任何行星比地球“多”或“少”,那是没有道理的。不过,它可以被编码为有序(常规)变量–行星是按照距太阳的距离,体积,卫星数量等来排序的。这些数字以其自身的术语(或者至少是计数,都是离散的)都是连续的但不是绝对的),而不是行星。例如,如果行星是由来自太阳或月亮被数距离排序,mars > earth > venus
。如果按体积订购行星,earth > venus > mars
。不必对分类变量进行排序,也许有些不能排序,但是添加顺序不会使它们变得分类少。
正如Wikipedia所说,分类分布是伯努利分布到两个以上可能值的概括(伯努利分布严格是二进制的)。Bernoulli分布也是二项分布的一种特例,但我不会将二项分布称为分类(它是离散的,但是是一个计数变量,因此定义了值之间的距离)。多项式分布可能与分类分布混为一谈,但是Wikipedia警告不要这样做。