尝试根据人口统计和服务计算访问次数。数据非常歪斜。
直方图:
qq图(左边是对数):
m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)
city
和service
是因子变量。
对于所有变量,我都得到一个较低的p值***,但是我也得到了.05的一个较低的r平方。我该怎么办?另一个模型可以工作吗,例如指数模型或其他模型?
尝试根据人口统计和服务计算访问次数。数据非常歪斜。
直方图:
qq图(左边是对数):
m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)
city
和service
是因子变量。
对于所有变量,我都得到一个较低的p值***,但是我也得到了.05的一个较低的r平方。我该怎么办?另一个模型可以工作吗,例如指数模型或其他模型?
Answers:
鉴于以下原因,线性回归不是您结果的正确选择:
您可以选择的估算策略由结果变量的“结构”决定。也就是说,如果结果变量的取值受到限制(即如果它是有限的因变量),则需要选择一个模型,其中预测值将落在结果可能的范围内。尽管有时线性回归是有限因变量的一个很好的近似值(例如,在二进制logit / probit的情况下),但通常不是。输入广义线性模型。在您的情况下,由于结果变量是计数数据,因此您有几种选择:
选择通常是凭经验确定的。我将在下面简要讨论在这些选项之间进行选择。
泊松与负二项式
ZIP与ZINB
潜在的复杂因素是零通胀,这可能是一个问题。这就是零膨胀模型ZIP和ZINB出现的地方。使用这些模型,您假定生成零值的过程与生成其他非零值的过程是分开的。与以前一样,当结果具有过多的零且过度分散时,ZINB是合适的;而当结果具有过多的零但条件均值=条件方差时,ZIP是合适的。对于零膨胀模型,除了上面列出的模型协变量之外,您还需要考虑可能已生成在结果中看到的多余零的变量。同样,这些模型的输出会附带统计测试(有时您在执行命令时可能必须指定它们)将使您能够
最后,我不使用R,但是UCLA数据分析示例页面上的IDRE可以指导您拟合这些模型。
[由没有足够信誉的其他用户编辑:本文解释了为什么不应该使用Vuong测试比较零通胀模型并提供替代方法。
P. Wilson,“将Vuong检验误用于非嵌套模型以测试零通胀”。经济学快报,2015年,第1卷。127,问题C,51-53 ]
所有的统计假设都是关于模型误差的。如果您使用反映星期几的6个指标系列建立一个简单的模型,您将开始看到更好的误差分布。继续合并每月影响和假日影响(之前,之后和之后),错误的分配将变得更好。加上每月的某天,每月的某周,长周末的指标,情况甚至会变得更好。
查看给定当前和历史数据以及 /stats//search?q=user%3A3382+daily+data 的预测来宾数量的简单方法,以获取更多乐趣。