如何测试我的数据是离散的还是连续的?


11

在我看来,选择正确的统计工具,我首先必须确定我的数据集是离散的还是连续的。

您介意教我如何测试R的数据是离散的还是连续的?


您的意思是在回归类型模型中是否需要将某些变量作为连续变量或分类(离散)变量添加?
Nick Sabbe 2011年

如何收集数据以及如何记录变量将为您提供一些线索。另外,它可能取决于您要将数据建模为连续数据还是离散数据(例如,参见与李克特项目和离散量表分析有关的问题)。无关紧要:如果您可以一次注册帐户,并考虑接受答案或修改您先前的问题,那将是很好的。
chl

做一个qqnorm,如果点都沿着对角线,则数据是连续的(如果是水平线,则是离散的)
user222362 '18

Answers:


14

我立即想到需要作出此决定的唯一原因是决定在回归中将变量包含为连续变量还是分类变量。

首先,有时您别无选择:字符变量或因素(其中提供data.frame的人为您做出决定的地方)显然是分类的。

这给我们留下了数值变量。你可能会简单地检查变量是否是整数,但是这不是一个很好的标准:看看下面(第一行代码x1):这是只有两个值的1000个观察2.5:尽管这些都是不是整数,这似乎是明显的分类变量。您可以做的是检查数据中有多少个不同的值,尽管您可能会使用的任何阈值都是主观的,但我想:-1.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

我倾向于说只有5%唯一值的变量可以安全地称为离散变量(但是,如上所述:这是主观的)。但是:这并不适合将其作为分类变量包含在模型中:如果您具有1000000个观察值和5%的唯一值,则仍会留下50000个“类别”:如果将其作为分类包含,则“将要度过很多自由的地狱。

我认为此电话更为主观,并且在很大程度上取决于样本量和选择方法。没有更多的上下文,很难在这里给出指导。

x012

Ë[ÿ]=β0+β1个1个X1个+β1个2X2
X一世X==一世
Ë[ÿ]=β0+β1个X
Ë[ÿ]=β0+β1个X1个+2β1个X2

χ2


3
+1很好的例子,说明如何通过很好的答案来改善奇数问题。

1
好吧,实际上任何连续图都可以离散大小,使直方图仅显示其实际操作方式。也许我将计数数据(整数值数据)与分类混合了……尽管我的第一个猜测是关于离散和连续分布,而不仅仅是数据点(以及为类别分配实际值的疯狂研究人员),所以……无论如何都删除了我的数据,因为认为无法解决问题(+1)
Dmitrij Celov 2011年

1
似乎@Dmitrij删除了他的答案,您能否重新编辑您的答案以反映这一点?这是一个很好的答案(+1),因此对不存在的内容的引用会有点突出。
mpiktas 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.