例如基于星期几的回归

11

我需要一点帮助才能朝着正确的方向前进。自从我研究了任何统计数据以来已有很长时间了，术语似乎已经改变。

想象一下，我有一组与汽车相关的数据，例如

从A镇到B镇的旅程时间
A镇到B镇的距离
马达的尺寸
驾驶员鞋码
汽车的型号
星期几

我想预测出行时间。

我认为时间和距离之间存在很强的相关性，而与引擎尺寸之间的相关性可能较弱（与鞋子尺寸无关）。大概是多元回归分析/ ANOVA是要使用的工具。但是，如何将星期几包括在内，因为仅将其编码为Sunday = 1，Monday = 2等感觉很错误？

例如，使用过Excel的回归工具后，如何解释结果？大概如果R接近1，这是很好的（尽管如果有很多数据项，看起来好像很小但仍然很重要）。但是某些资料来源将r平方看成SD，因此值接近零是好的。它还显示t Stat，P值，F和重要性F，无论它们是多少。谁能推荐一个好的参考资料？

regression categorical-data categorical-encoding

— 一片地
source

2

作为记录，这些问题（关于解释回归输出）已在此处的另一个线程中提出，但是这个问题的措词太糟糕了，因此没有得到任何好的答复。这是一个基本问题，值得一个基本而又透彻，清晰和充分解释的“规范”答案。

— whuber

26

您需要对回归方法进行全面回顾。但是，这些问题已经足够基本（不要以错误的方式），即使对基本统计信息进行良好的概述也可能会使您受益。豪厄尔写了一本非常流行的教科书，它提供了广泛的概念基础，而无需密集的数学。可能值得您花时间阅读它。这里不可能覆盖所有这些材料。但是，我可以尝试让您开始一些特定的问题。

首先，通过编码方案包含星期几。最受欢迎的是“参考类别”编码（通常称为伪编码）。假设您的数据以矩阵的形式表示，案例以行表示，变量以列表示。在此方案中，如果您有7个分类变量（例如，一周中的某天），则将添加6个新列。您将选择一天作为参考类别，通常将其视为默认类别。通常这是根据理论，背景或研究问题来告知的。我不知道哪一天最适合一周，但也没多大关系，您可以选择任何一个旧的。一旦有了参考类别，就可以将其他变量分配给新的6个变量，然后只需指出该变量是否可针对每种情况获得。例如，假设您选择周日作为参考类别，您的新列/变量将是星期一至星期六。在星期一进行的每次观察都将带有一个 $1$ 星期一栏中为，其他地方为。在星期二等等的观察中也会发生同样的情况。请注意，任何情况下都不能获得分2或更多的列，并且在星期日（参考类别）进行的观察将在所有新变量中都包含。还有许多其他可能的编码方案，并且链接在介绍它们方面做得很好。您可以通过测试嵌套模型并删除所有新的6个变量与包含所有6个变量的完整模型，来测试一周中的某天是否重要。请注意，您应不使用报告与标准输出的测试，这些都不是独立的，具有内在的多重比较问题。 $0$ $1$ $0$

自从我研究了Excel如何进行统计以来已经有很长时间了，而且我还不太清楚，所以其他人也许可以在这里为您提供更多帮助。该页面似乎具有一些有关Excel中回归特性的信息。我可以告诉您更多有关回归输出中通常报告的统计信息：

一个 -score这是接近表示该值响应变量可以由预测变量的值来几乎完全确定。显然，这将是一个很大的效果，但尚无先例明确这是否“好”，这是一个完全不同且在哲学上棘手的问题。 $r$ $1$
目前还不清楚他们的“是什么意思 ”，因为你在做多元回归（其中通常不报道）。“ ”是衡量线性，双变量关联，即，它适用于（只）2个变量之间的直线关系。但是，可以在模型的预测值和响应值之间获得得分。在这种情况下，您将使用2个变量（如果正确指定了模型，则关系应为线性）。这个版本被称为“多 -score”，但它是由软件很少被讨论或报告。 $r$ $r$ $r$ $r$ $r$
R平方只是的平方（即）；这不是标准偏差。当关系变得更加确定时，它将趋向于，而不是。因此，如果您认为接近的为“好”，则应该认为接近的也为“好”。但是，您应该知道倍数（和倍数 $r$ $r\times r$ $1$ $0$ $r$ $1$ $R^2$ $1$ $r$ $R^2$ ）在多元回归中存在高度偏见。也就是说，您添加到模型中的预测变量越多，无论是否存在任何关系，这些统计量将越高。因此，您在解释它们时应谨慎。
有时，输出将列出各个预测变量的统计量，并为整个模型列出统计量，以便确定“重要性”。这些是可以通过统计检验计算的随机变量，并且在指定自由度时具有已知分布。 $t$ $F$
通过将实现值（即找到的值）与已知分布进行比较，如果零假设为true，则可以确定找到值比您的值更极端或更极端的概率。该概率为值。 $p$
所述当您正在测试只有一个参数-值被使用，而 -值可以在测试多个参数一起使用（例如，如上面我的一周有关天讨论）。与相关的值是至少参数“显着” 的概率。另一种思考的方式是，“与包含所有参数一起测试的模型是否比空模型更好地预测响应”。 $t$ $F$ $p$ $F$ $1$ $F$
我猜您所谓的“显着性 ”是要使测试“显着”需要匹配或超出的值，大概是0.05级。 $F$ $F$

值得强调的最后一点是，这个过程不能脱离它的上下文。为了做好数据分析，您必须牢记您的背景知识和研究问题。我在上面提到了参考类别的选择。例如，您注意到鞋子的大小不应该相关，但是对于打火石来说可能就可以了！我只想包括这个事实，因为它似乎经常被遗忘。

— gung-恢复莫妮卡
source

5

（+1）Excel实际上可以进行多元回归，并且具有能够生成标准汇总表的命令。考虑到它的历史趋向于（非常）计算分配值的草率，这种能力必须被视为塞缪尔·约翰逊的狗：“……一只狗在他的后腿上行走。做得不好；但是您很惊讶地发现一切都完成了。”

— ub

3

您以很多问题结尾，这些问题需要“教学”回归。我说较高的R ^ 2更好，但有一些警告。当您添加变量时，R ^ 2总是上升，因此您可以人为地对其进行膨胀。查看重要性测试，查看剩余诊断信息，等等。对于星期几，星期一= 1，星期二= 2，以此类推。您想要的是季节性指标变量：星期一为0/1，星期二为0/1，依此类推。

— ger人
source