我试图找到二分和连续变量之间的相关性。
从我对此的基础工作中,我发现我必须使用独立的t检验,其前提是变量的分布必须是正态的。
我进行了Kolmogorov-Smirnov检验以测试正态性,发现连续变量是非正态变量并且存在偏斜(针对约4,000个数据点)。
我对变量的整个范围进行了Kolmogorov-Smirnov检验。我应该将它们分组并进行测试吗?就是说,如果我有risk level
(0
=没有危险,1
=有危险)和胆固醇水平,那么我应该:
将它们分为两组,例如
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
一起带他们参加考试吗?(我仅对整个数据集执行了此操作。)
之后,如果仍然不正常,该怎么办?
编辑: 上面的情况只是我试图提供我的问题的描述。我有一个数据集,其中包含1000多个变量和大约4000个样本。它们本质上是连续的或绝对的。我的任务是根据这些变量预测一个二分变量(也许想出一个逻辑回归模型)。因此,我认为最初的调查将涉及发现二分法和连续变量之间的相关性。
我试图查看变量的分布情况,因此尝试进行t检验。在这里,我发现正常性是一个问题。在大多数这些变量中,Kolmogorov-Smirnov检验的显着性值为0.00。
我应该在这里假设正常吗?这些变量的偏斜度和峰度还表明,几乎在所有情况下数据都偏斜(> 0)。
根据下面给出的注释,我将进一步研究点-二元相关性。但是关于变量的分布,我仍然不确定。