最近,我对声誉对投票的影响进行了一些分析(请参阅博客文章),随后我对可能更具启发性(或更合适)的分析和图表提出了一些问题。
所以有几个问题(可以随意回答任何人,而忽略其他人):
在当前的化身中,我并不是说要居中。我认为这样做是为了使散点图中出现负相关的错误外观,因为有更多的帖子发布到帖子数的较低端(您会在Jon Skeet面板中看到这种情况,仅在凡人用户中不会发生面板)。不以帖子的平均数为中心是否不合适(因为我的意思是以每位用户的平均分数为中心)?
从图中可以明显看出,分数高度偏右(并且平均居中没有任何改变)。在拟合回归线时,我同时拟合了线性模型和使用Huber-White砂纸的模型,该模型存在误差(通过
rlm
MASS R软件包提供),并且对斜率估计没有任何影响。我是否应该考虑对数据进行转换而不是进行稳健的回归?注意,任何转换都必须考虑0和负分数的可能性。还是应该使用其他类型的模型代替OLS来计数数据?我相信一般而言,可以改进最后两个图形(并且也与改进的建模策略有关)。以我(厌倦的)观点,我怀疑声誉影响是否是真实的,它们会在海报的历史中很早就实现(我想如果是真的,这些可能会被重新考虑:“您给出了很好的答案,所以现在我将投票支持您所有的职位”而不是“以总分获得声誉”效果)。考虑到过度绘图,如何创建图形以证明这是否正确?我认为可能要证明这一点的一个好方法是适合表格的模型。
其中是score - (mean score per user)
(与当前散点图相同),是post number
,并且是表示某个任意范围的帖子编号的虚拟变量(例如,如果帖子编号为,则等于Z如果帖子号为etc,则等于2。β 0和ε分别为隆重截距和误差项。然后,我会观察一下估计γ1
1 through 25
1
26 through 50
确定是否在海报历史的早期(或以图形方式显示)声誉效应。这是合理(且适当)的方法吗?
像这样的散点图(例如黄土或样条线)适合使用某种类型的非参数平滑线,但是我对样条线的实验没有发现任何启发性的内容(在张贴者历史的早期,任何关于阳性效果的证据都是轻微而温和的)到我包含的样条线数量)。由于我有一个假设,即影响会在较早发生,因此我上面的建模方法是否比样条线更合理?
还要注意,尽管我已经疏通了所有这些数据,但是仍然有很多其他社区需要检查(还有一些类似的超级用户和serverfault可以借鉴类似的样本),因此在将来提出建议是很合理的我使用保留样本分析任何关系的分析。