偏态数据回归


11

尝试根据人口统计和服务计算访问次数。数据非常歪斜。

直方图:

直方图

qq图(左边是对数):

QQ情节-右边是对数

m <- lm(d$Visits~d$Age+d$Gender+city+service)
m <- lm(log(d$Visits)~d$Age+d$Gender+city+service)

cityservice是因子变量。

对于所有变量,我都得到一个较低的p值***,但是我也得到了.05的一个较低的r平方。我该怎么办?另一个模型可以工作吗,例如指数模型或其他模型?


既然我原本以为高频率的零实际上是高频率的零,那么您能告诉我们更多有关数据生成过程的信息吗?人们需要提供什么样的服务?分析的“最终目标”是什么?给定一组特征(例如,作为服务质量的衡量指标),您是否要预测访问次数(次数)?为了回答您的研究问题,您是否绝对需要将结果保留为计数,还是可以将结果变量分解为较少但较大的类别?
Marquis de Carabas

2
您有计数数据。在此站点上搜索泊松回归。
kjetil b halvorsen

Answers:


10

鉴于以下原因,线性回归不是您结果的正确选择:

  1. 结果变量不是正态分布的
  2. 结果变量的取值受到限制(计数数据表示预测值不能为负)
  3. 似乎有0次就诊的病例频发

计数数据的受限因变量模型

您可以选择的估算策略由结果变量的“结构”决定。也就是说,如果结果变量的取值受到限制(即如果它是有限的因变量),则需要选择一个模型,其中预测值将落在结果可能的范围内。尽管有时线性回归是有限因变量的一个很好的近似值(例如,在二进制logit / probit的情况下),但通常不是。输入广义线性模型。在您的情况下,由于结果变量是计数数据,因此您有几种选择:

  1. 泊松模型
  2. 负二项式模型
  3. 零膨胀泊松(ZIP)模型
  4. 零膨胀负二项式(ZINB)模型

选择通常是凭经验确定的。我将在下面简要讨论在这些选项之间进行选择。


泊松与负二项式

θH0:θ=0H1:θ0θ

ZIP与ZINB

潜在的复杂因素是零通胀,这可能是一个问题。这就是零膨胀模型ZIP和ZINB出现的地方。使用这些模型,您假定生成零值的过程与生成其他非零值的过程是分开的。与以前一样,当结果具有过多的零且过度分散时,ZINB是合适的;而当结果具有过多的零但条件均值=条件方差时,ZIP是合适的。对于零膨胀模型,除了上面列出的模型协变量之外,您还需要考虑可能已生成在结果中看到的多余零的变量。同样,这些模型的输出会附带统计测试(有时您在执行命令时可能必须指定它们)将使您能够θ

θH0:θ=0H1:θ0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process


θθ

最后,我不使用R,但是UCLA数据分析示例页面上IDRE可以指导您拟合这些模型。

[由没有足够信誉的其他用户编辑:本文解释了为什么不应该使用Vuong测试比较零通胀模型并提供替代方法。

P. Wilson,“将Vuong检验误用于非嵌套模型以测试零通胀”。经济学快报,2015年,第1卷。127,问题C,51-53 ]


多数是2次访问。所有记录都超过1次访问
pxxd

我对泊松和伽玛的灰度都得到相似的qq图,可以吗?
pxxd '16

3
1.结果变量不是正态分布,本身不是反对线性回归的有效论据。一组保证估计量的良好属性(例如一致性和渐近正态性)的回归假设不包括结果变量的正态性(甚至不包括误差的正态性)。
理查德·哈迪

2

尝试使用具有Gamma分布的广义线性模型。它可以很好地近似您的因变量,因为它为正,并且在x = 0时等于零。在相似的情况下,我使用R和GLM取得了一些成功。


Visits d

1
不,我相信您不应该使用日志链接,而应该使用身份链接。但是,首先要检查伽玛函数适合您的分布的情况。
迭戈

0

所有的统计假设都是关于模型误差的。如果您使用反映星期几的6个指标系列建立一个简单的模型,您将开始看到更好的误差分布。继续合并每月影响和假日影响(之前,之后和之后),错误的分配将变得更好。加上每月的某天,每月的某周,长周末的指标,情况甚至会变得更好。

查看给定当前和历史数据以及 /stats//search?q=user%3A3382+daily+data 的预测来宾数量的简单方法,以获取更多乐趣。


1
这个答案似乎与实际提出的问题无关。您能使连接明确吗?
ub

我用他的DVISITS建议了每日数据...如果不是,那么我取消了答案。如果它是真正的横截面,那么他也许应该考虑按主要分类对数据进行分层。
IrishStat '18
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.