您需要对回归方法进行全面回顾。但是,这些问题已经足够基本(不要以错误的方式),即使对基本统计信息进行良好的概述也可能会使您受益。豪厄尔写了一本非常流行的教科书,它提供了广泛的概念基础,而无需密集的数学。可能值得您花时间阅读它。这里不可能覆盖所有这些材料。但是,我可以尝试让您开始一些特定的问题。
首先,通过编码方案包含星期几。最受欢迎的是“参考类别”编码(通常称为伪编码)。假设您的数据以矩阵的形式表示,案例以行表示,变量以列表示。在此方案中,如果您有7个分类变量(例如,一周中的某天),则将添加6个新列。您将选择一天作为参考类别,通常将其视为默认类别。通常这是根据理论,背景或研究问题来告知的。我不知道哪一天最适合一周,但也没多大关系,您可以选择任何一个旧的。一旦有了参考类别,就可以将其他变量分配给新的6个变量,然后只需指出该变量是否可针对每种情况获得。例如,假设您选择周日作为参考类别,您的新列/变量将是星期一至星期六。在星期一进行的每次观察都将带有一个0 1 01星期一栏中为,其他地方为。在星期二等等的观察中也会发生同样的情况。请注意,任何情况下都不能获得分2或更多的列,并且在星期日(参考类别)进行的观察将在所有新变量中都包含。还有许多其他可能的编码方案,并且链接在介绍它们方面做得很好。您可以通过测试嵌套模型并删除所有新的6个变量与包含所有6个变量的完整模型,来测试一周中的某天是否重要。请注意,您应不使用报告与标准输出的测试,这些都不是独立的,具有内在的多重比较问题。 010
自从我研究了Excel如何进行统计以来已经有很长时间了,而且我还不太清楚,所以其他人也许可以在这里为您提供更多帮助。 该页面似乎具有一些有关Excel中回归特性的信息。我可以告诉您更多有关回归输出中通常报告的统计信息:
- 一个 -score这是接近表示该值响应变量可以由预测变量的值来几乎完全确定。显然,这将是一个很大的效果,但尚无先例明确这是否“好”,这是一个完全不同且在哲学上棘手的问题。 1r1
- 目前还不清楚他们的“是什么意思 ”,因为你在做多元回归(其中通常不报道)。“ ”是衡量线性,双变量关联,即,它适用于(只)2个变量之间的直线关系。但是,可以在模型的预测值和响应值之间获得得分。在这种情况下,您将使用2个变量(如果正确指定了模型,则关系应为线性)。这个版本被称为“多 -score”,但它是由软件很少被讨论或报告。 [R [R [R [Rrrrrr
- R平方只是的平方(即);这不是标准偏差。当关系变得更加确定时,它将趋向于,而不是。因此,如果您认为接近的为“好”,则应该认为接近的也为“好”。但是,您应该知道倍数(和倍数r × r 1 0 r 1 R 2 1 r R 2rr×r10r1R21rR2)在多元回归中存在高度偏见。也就是说,您添加到模型中的预测变量越多,无论是否存在任何关系,这些统计量将越高。因此,您在解释它们时应谨慎。
- 有时,输出将列出各个预测变量的统计量,并为整个模型列出统计量,以便确定“重要性”。这些是可以通过统计检验计算的随机变量,并且在指定自由度时具有已知分布。 tF
- 通过将实现值(即找到的值)与已知分布进行比较,如果零假设为true,则可以确定找到值比您的值更极端或更极端的概率。该概率为值。 p
- 所述当您正在测试只有一个参数-值被使用,而 -值可以在测试多个参数一起使用(例如,如上面我的一周有关天讨论)。与相关的值是至少参数“显着” 的概率。另一种思考的方式是,“与包含所有参数一起测试的模型是否比空模型更好地预测响应”。F p F 1 FtFpF1F
- 我猜您所谓的“显着性 ”是要使测试“显着”需要匹配或超出的值,大概是0.05级。˚FFF
值得强调的最后一点是,这个过程不能脱离它的上下文。为了做好数据分析,您必须牢记您的背景知识和研究问题。我在上面提到了参考类别的选择。例如,您注意到鞋子的大小不应该相关,但是对于打火石来说可能就可以了!我只想包括这个事实,因为它似乎经常被遗忘。