一天中的时间是分类变量吗?


24

值可以为0、1、2,...,23的“一天中的小时”是分类变量吗?我很想说不,因为例如5比4或3更接近4或6。

另一方面,在23和0之间存在不连续性。

那么,它通常被认为是绝对的吗?请注意,“小时”是自变量之一,而不是我要预测的变量。


7
你想达到什么目的?如果您要拟合模型,则小时是协变量还是响应,例如?
gung-恢复莫妮卡

2
如果您有足够的自由度可以闲置(即视为绝对的),则可以每小时使用一个虚拟变量,如果没有,则可以使用前几个傅立叶项。通常,考虑如何最好地表示与响应之间的潜在关系-商店开业时标记单个虚拟变量可能会有用。
Scortchi-恢复莫妮卡

像小时之类的东西可以视其为最佳类别而被视为“分类”或“数字”。一般而言,没有正确或错误的答案-这取决于最有效的方法。我建议您尝试不同的方法,并查看哪种方法最适合您的情况。
roundsquare

Answers:


29

根据要建模的内容,小时(以及许多其他属性,例如季节)实际上是有序的循环变量。在季节的情况下,您可以认为它们或多或少是分类的,而在小时的情况下,您也可以将它们建模为连续的。

但是,在模型中使用小时数的形式不会为您带来周期性问题,这将不会有成果。而是尝试提出某种转换。使用小时,您可以使用三角法

xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)

因此,您将改为使用xhryhr进行建模。例如,请参阅此帖子:在线性回归中使用圆形预测变量


2
(+1)您能否详细说明季节和小时之间的区别?
Scortchi-恢复莫妮卡

嗯,我认为季节在谈到白天的几个小时时具有类似的含义,例如早上,中午和晚上。如果只有模糊的信息可用并且分辨率很差(例如,季节中有4个值),则将它们分类,并使用虚拟变量进行编码似乎很合理。:-)
Drey

1
我认为关键是,因为只有4个季节,所以使用Trig。与分类表示法相比,您仅保留1个自由度-在一天中的几个小时中,您保留21个自由度。(如果你不需要放过他们,然后xhr = sin(4*pi*hr/24)yhr = cos(4*pi*hr/24),和等可以加入,最多的地步,有足够的观察你不妨治疗时间为一天作为绝对的。)
Scortchi -恢复莫妮卡


1

最好不要将一天中的小时表示为分类变量,因为值具有自然顺序。例如,发色是分类的,因为类别的排序没有意义-{红色,棕色,金发}和{金发,棕色,红色}一样有效。另一方面,一天中的某个小时自然排序-上午9点比晚上6点更接近上午10点或上午8点。最好将其视为离散的序数变量。它具有周期性的附加特征,因为12am在11pm之后并在1am之前。


某些分类变量的值不是自然排序吗?
dsaxton

是的,但在这种情况下,最好将它们描述为序数。有序变量是具有自然序列的分类变量。
核王

1
那么,如何在回归模型中将离散,有序,循环变量表示为预测变量呢?
Scortchi-恢复莫妮卡

0

从理论上讲,它取决于格式化变量的方式,即它可以是“连续的”(使用单个系数建模)或分类的(一天中每“小时”的系数)。您也可以混合使用两种功能,例如分段功能。

实际上,由于0和23本质上是一天中的同一“小时”,因此我将考虑将一天中的各个时段分组为更大,更均一且可信的分组。例如,以8小时为增量-8 am-4pm、4pm-12am和12-8am。


4
0和23是不同的小时数。0和24将是同一小时。
Paul Reiners

顺便说一句,根据Gung的评论,我假设一天中的小时是一个自变量,而不是建模的因变量。我的观点是,0和23在现实中并没有太大不同-您是否会说在23:59与0:01发生的建模事件之间存在统计差异?
Frank H.

1
不确定丢弃信息应该解决什么问题。请参阅分解连续预测变量的好处是什么?
Scortchi-恢复莫妮卡

@Scortchi-就像帖子中所说,您假设一个连续的关系,这样装箱将“丢弃”信息。但是,如果不是这种情况,则分箱是更合适的转换。并假设您有足够的数据开始,而OP并未提及。
Frank H.

对预测变量和响应之间的关系施加约束本身并不是一件坏事-正如您是本篇文章中的第一个提出的那样,有多少个可用的观察值是一个重要的考虑因素-,但是由此产生的影响表示一天中的某个小时(从8到15个小时是固定的,在16个小时是跳跃或下降,依此类推),似乎是对通常合适的方法的奇怪建议。
Scortchi-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.