例如基于星期几的回归


11

我需要一点帮助才能朝着正确的方向前进。自从我研究了任何统计数据以来已有很长时间了,术语似乎已经改变。

想象一下,我有一组与汽车相关的数据,例如

  • 从A镇到B镇的旅程时间
  • A镇到B镇的距离
  • 马达的尺寸
  • 驾驶员鞋码
  • 汽车的型号
  • 星期几

我想预测出行时间。

我认为时间和距离之间存在很强的相关性,而与引擎尺寸之间的相关性可能较弱(与鞋子尺寸无关)。大概是多元回归分析/ ANOVA是要使用的工具。但是,如何将星期几包括在内,因为仅将其编码为Sunday = 1,Monday = 2等感觉很错误?

例如,使用过Excel的回归工具后,如何解释结果?大概如果R接近1,这是很好的(尽管如果有很多数据项,看起来好像很小但仍然很重要)。但是某些资料来源将r平方看成SD,因此值接近零是好的。它还显示t Stat,P值,F和重要性F,无论它们是多少。谁能推荐一个好的参考资料?


2
作为记录,这些问题(关于解释回归输出)已在此处的另一个线程中提出,但是这个问题的措词太糟糕了,因此没有得到任何好的答复。这是一个基本问题,值得一个基本而又透彻,清晰和充分解释的“规范”答案。
whuber

Answers:


26

您需要对回归方法进行全面回顾。但是,这些问题已经足够基本(不要以错误的方式),即使对基本统计信息进行良好的概述也可能会使您受益。豪厄尔写了一本非常流行的教科书,它提供了广泛的概念基础,而无需密集的数学。可能值得您花时间阅读它。这里不可能覆盖所有这些材料。但是,我可以尝试让您开始一些特定的问题。

首先,通过编码方案包含星期几。最受欢迎的是“参考类别”编码(通常称为伪编码)。假设您的数据以矩阵的形式表示,案例以行表示,变量以列表示。在此方案中,如果您有7个分类变量(例如,一周中的某天),则将添加6个新列。您将选择一天作为参考类别,通常将其视为默认类别。通常这是根据理论,背景或研究问题来告知的。我不知道哪一天最适合一周,但也没多大关系,您可以选择任何一个旧的。一旦有了参考类别,就可以将其他变量分配给新的6个变量,然后只需指出该变量是否可针对每种情况获得。例如,假设您选择周日作为参考类别,您的新列/变量将是星期一至星期六。在星期一进行的每次观察都将带有一个0 1 01星期一栏中为,其他地方为。在星期二等等的观察中也会发生同样的情况。请注意,任何情况下都不能获得分2或更多的列,并且在星期日(参考类别)进行的观察将在所有新变量中都包含。还有许多其他可能的编码方案,并且链接在介绍它们方面做得很好。您可以通过测试嵌套模型并删除所有新的6个变量与包含所有6个变量的完整模型,来测试一周中的某天是否重要。请注意,您应使用报告与标准输出的测试,这些都不是独立的,具有内在的多重比较问题。 010

自从我研究了Excel如何进行统计以来已经有很长时间了,而且我还不太清楚,所以其他人也许可以在这里为您提供更多帮助。 页面似乎具有一些有关Excel中回归特性的信息。我可以告诉您更多有关回归输出中通常报告的统计信息:

  • 一个 -score这是接近表示该值响应变量可以由预测变量的值来几乎完全确定。显然,这将是一个很大的效果,但尚无先例明确这是否“好”,这是一个完全不同且在哲学上棘手的问题。 1r1
  • 目前还不清楚他们的“是什么意思 ”,因为你在做多元回归(其中通常不报道)。“ ”是衡量线性,双变量关联,即,它适用于(只)2个变量之间的直线关系。但是,可以在模型的预测值响应值之间获得得分。在这种情况下,您将使用2个变量(如果正确指定了模型,则关系应为线性)。这个版本被称为“多 -score”,但它是由软件很少被讨论或报告。 [R [R [R [Rrrrrr
  • R平方只是的平方(即);这不是标准偏差。当关系变得更加确定时,它将趋向于,而不是。因此,如果您认为接近的为“好”,则应该认为接近的也为“好”。但是,您应该知道倍数(和倍数r × r 1 0 r 1 R 2 1 r R 2rr×r10r1R21rR2)在多元回归中存在高度偏见。也就是说,您添加到模型中的预测变量越多,无论是否存在任何关系,这些统计量将越高。因此,您在解释它们时应谨慎。
  • 有时,输出将列出各个预测变量的统计量,并为整个模型列出统计量,以便确定“重要性”。这些是可以通过统计检验计算的随机变量,并且在指定自由度时具有已知分布。 tF
  • 通过将实现值(即找到的值)与已知分布进行比较,如果零假设为true,则可以确定找到值比您的值更极端或更极端的概率。该概率为p
  • 所述当您正在测试只有一个参数-值被使用,而 -值可以在测试多个参数一起使用(例如,如上面我的一周有关天讨论)。与相关的值是至少参数“显着” 的概率。另一种思考的方式是,“与包含所有参数一起测试的模型是否比空模型更好地预测响应”。F p F 1 FtFpF1F
  • 我猜您所谓的“显着性 ”是要使测试“显着”需要匹配或超出的值,大概是0.05级。˚FFF

值得强调的最后一点是,这个过程不能脱离它的上下文。为了做好数据分析,您必须牢记您的背景知识和研究问题。我在上面提到了参考类别的选择。例如,您注意到鞋子的大小不应该相关,但是对于打火石来说可能就可以了!我只想包括这个事实,因为它似乎经常被遗忘。


5
(+1)Excel实际上可以进行多元回归,并且具有能够生成标准汇总表的命令。考虑到它的历史趋向于(非常)计算分配值的草率,这种能力必须被视为塞缪尔·约翰逊的狗:“……一只狗在他的后腿上行走。做得不好;但是您很惊讶地发现一切都完成了。”
ub

3

您以很多问题结尾,这些问题需要“教学”回归。我说较高的R ^ 2更好,但有一些警告。当您添加变量时,R ^ 2总是上升,因此您可以人为地对其进行膨胀。查看重要性测试,查看剩余诊断信息,等等。对于星期几,星期一= 1,星期二= 2,以此类推。您想要的是季节性指标变量:星期一为0/1,星期二为0/1,依此类推。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.