当关联最密切的预测变量是二进制时,如何开始建立回归模型


11

我有数据集包含365观察三个变量即pmtemprain。现在,我想检查是否pm响应其他两个变量的变化。我的变量是:

  • pm10 =响应(取决于)
  • temp =预测变量(独立)
  • rain =预测变量(独立)

以下是我的数据的相关矩阵:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

问题是,当我研究回归模型的构建时,有人写道,可加方法应从与响应变量最相关的变量开始。在我的数据集中,rain它与pm(与相比temp)高度相关,但是同时它也是一个虚拟变量(rain = 1,norain = 0),所以现在我有了从哪里开始的线索。我为问题附加了两个图像:第一个是数据的散点图,第二个图像是pm10vs. 的散点图rain,我也无法解释pm10vs.的散点图rain。有人可以帮我怎么开始吗?

这是我的数据的散点图

pm10与雨的散点图


3
即使是出于误解,这也是一个完全可行的问题,海事组织。
gung-恢复莫妮卡

ÿ一世X一世1个X一世2X一世p|[RĴķ|>0.8

Answers:


17

许多人认为您应该使用某种策略,例如从关联性最高的变量开始,然后依次添加其他变量,直到一个不重要为止。但是,没有逻辑强迫这种方法。此外,这是一种“贪婪”变量选择/搜索策略(请参阅我的回答:自动模型选择算法)。 您不必这样做,实际上,您不应该这样做。如果你想知道之间的关系pm,并temprain,只需将所有三个变量拟合为多元回归模型即可。您仍然需要评估模型,以确定它是否合理并且满足假设,仅此而已。如果要检验先验假设,则可以使用模型进行检验。如果您要评估模型的样本预测精度不足,则可以通过交叉验证来实现。

您也不必真正担心多重共线性。temp和之间的相关性rain0.044相关矩阵中所示。这是一个非常低的相关性,不应引起任何问题。


1
非常感谢您的有益建议。我是这个网站的新手,不知道如何使用它,请您提供一些额外的建议或学习资料
Syed Asif Ali Shah

1
@SyedAsifAliShah,除了英语似乎不是您的母语之外,我看不到任何有关您如何使用该网站的问题。关于学习材料,您可以查看thisthis,或者只是使用references标签浏览我们的主题。
gung-恢复莫妮卡

我应该为我的数据尝试线性模型还是GLM?
Syed Asif Ali Shah

1
@SyedAsifAliShah,大概是线性模型适合您的数据。
gung-恢复莫妮卡

兄弟我需要你的帮助
赛义德·阿西夫·阿里·沙阿

10

尽管这不能直接解决您已经收集的数据集,但是下次您可以像这样在下次收集数据时尝试另一件事,那就是避免将“ rain”记录为二进制。如果您改为测量降雨率(厘米/小时),则数据可能会提供更多信息,从而使变量从0 ... max_rainfall连续分布(达到您的测量精度)。

这将使您不仅将“正在下雨”与其他变量相关联,还可以将“正在下雨多少”相关联。


嗨老兄我按照同样的做你的建议,我收集的雨水和构建模型的完整数据
赛义德·阿西夫·阿里·沙阿

我可以问一下您的电子邮件吗???我只想问几个问题
赛义德·阿西夫·阿里·沙阿

如果您对模型的设置还有其他疑问,也许可以通过一个新的StackExchange问​​题来解决。这样,您可以获得更多人的反馈,其中许多人比我更专业
。– JKreft

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.