如何改善对声誉对投票的影响的分析?


15

最近,我对声誉对投票的影响进行了一些分析(请参阅博客文章),随后我对可能更具启发性(或更合适)的分析和图表提出了一些问题。

所以有几个问题(可以随意回答任何人,而忽略其他人):

  1. 在当前的化身中,我并不是说要居中。我认为这样做是为了使散点图中出现负相关的错误外观,因为有更多的帖子发布到帖子数的较低端(您会在Jon Skeet面板中看到这种情况,仅在凡人用户中不会发生面板)。不以帖子的平均数为中心是否不合适(因为我的意思是以每位用户的平均分数为中心)?

  2. 从图中可以明显看出,分数高度偏右(并且平均居中没有任何改变)。在拟合回归线时,我同时拟合了线性模型和使用Huber-White砂纸的模型,该模型存在误差(通过rlmMASS R软件包提供),并且对斜率估计没有任何影响。我是否应该考虑对数据进行转换而不是进行稳健的回归?注意,任何转换都必须考虑0和负分数的可能性。还是应该使用其他类型的模型代替OLS来计数数据?

  3. 我相信一般而言,可以改进最后两个图形(并且也与改进的建模策略有关)。以我(厌倦的)观点,我怀疑声誉影响是否是真实的,它们会在海报的历史中很早就实现(我想如果是真的,这些可能会被重新考虑:“您给出了很好的答案,所以现在我将投票支持您所有的职位”而不是“以总分获得声誉”效果)。考虑到过度绘图,如何创建图形以证明这是否正确?我认为可能要证明这一点的一个好方法是适合表格的模型。

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αk(Zk)+γ1(Z1X1)γk(ZkX1)+ϵ

其中Yscore - (mean score per user)(与当前散点图相同),X1post number,并且Z1Zk是表示某个任意范围的帖子编号的虚拟变量(例如,如果帖子编号为,则Z1等于Z如果帖子号为etc,则等于2β 0ε分别为隆重截距和误差项。然后,我会观察一下估计γ11 through 25Z2126 through 50β0ϵγ确定是否在海报历史的早期(或以图形方式显示)声誉效应。这是合理(且适当)的方法吗?

像这样的散点图(例如黄土或样条线)适合使用某种类型的非参数平滑线,但是我对样条线的实验没有发现任何启发性的内容(在张贴者历史的早期,任何关于阳性效果的证据都是轻微而温和的)到我包含的样条线数量)。由于我有一个假设,即影响会在较早发生,因此我上面的建模方法是否比样条线更合理?

还要注意,尽管我已经疏通了所有这些数据,但是仍然有很多其他社区需要检查(还有一些类似的超级用户和serverfault可以借鉴类似的样本),因此在将来提出建议是很合理的我使用保留样本分析任何关系的分析。


我目前在第一个问题上做了一些注释,可以在此处找到。目前,我不确定是将其发布为我自己的问题的答案还是打开单独的问题(因为这主要是针对数据可视化)。但是,请随时在这里或在聊天室中给我留下有关Google文档的评论。
Andy W

Answers:


14

这是一个勇敢的尝试,但是仅凭这些数据,就很难或不可能回答关于“声誉对投票的影响”的研究问题。问题在于将其他现象的影响分开,我列出了这些现象以及如何解决这些现象的简要说明。

  • 学习效果。随着声誉的提高,经验的提高;随着经验的增长,我们希望一个人发布更好的问题和答案;随着他们质量的提高,我们希望每个帖子获得更多的选票。可以想象,分析中处理此问题的一种方法是识别在多个SE网站上活跃的人。在任何给定的站点上,其声誉的增长速度将比其经验值的增长慢得多,从而提供了一种使声誉和学习效果变差的方法。

  • 上下文中的时间变化。 这些无数,但显而易见的包括

    • 选民人数随时间的变化,包括总体上升趋势,季节性趋势(通常与学术周期相关)和离群值(来自外部宣传,例如与特定话题的链接)。 在评估任何人的声誉趋势时,必须进行任何分析

    • 随着时间的流逝,社区行为的变化。社区及其相互作用,发展和发展的方式。随着时间的流逝,他们可能倾向于或多或少地投票。 任何分析都必须评估这种影响并将其作为因素

    • 时间本身。 随着时间的流逝,早期的帖子仍然可供搜索,并继续获得选票。因此,caeteris条件不变时旧的帖子应该产生更多的选票比新的。(这是一个很大的影响:一些每月声誉排名一直很高的人全年都没有访问此站点!)这将掩盖甚至转化任何实际的正面声誉影响。 任何分析都需要考虑每个帖子在网站上出现的时间长度

  • 主题受欢迎。 一些标签(例如)比其他标签更受欢迎。因此,一个人回答的问题种类的变化可能与时间变化(例如声誉效应)混为一谈。因此,任何分析都需要考虑所回答问题的性质。

  • 视图 [添加为编辑内容]。出于各种原因(过滤器,链接等),不同数量的人查看问题。答案获得的投票数量可能与观看次数相关,尽管随着观看次数的增加,人们期望投票的比例会下降。(这取决于真正对这个问题真正感兴趣的人有多少,而不是原始数字。我自己的经验(轶事)是,我在许多问题上收到的赞成票中大约有一半是在前5-15个视图,尽管最终会对问题进行数百次查看。)因此,任何分析都需要考虑视图的数量,但可能不是线性方式。

  • 测量困难。 “信誉”是指针对不同活动获得的票数总和:初始声誉,答案,问题,批准问题,编辑标签Wiki,减票和减票(按价值降序排列)。因为这些组件评估的是不同的事物,并且并非所有组件都在社区选民的控制之下,所以应将它们分开进行分析。“声誉效应”大概与对答案的答辩有关,也许与对问题的答谢有关,但不应影响其他声誉来源。 一定要减去初始声誉(但可以用作一些初始经验的代表)。

  • 隐藏的因素。 可能还有许多其他无法衡量的混淆因素。例如,参加论坛有各种形式的“倦怠”。在最初的几周,几个月或几年的热情之后,人们会做什么?一些可能性包括关注罕见,不寻常或困难的问题;仅对未回答的问题提供答案;提供的答案较少,但质量较高;其中一些可能掩盖声誉效应,而另一些则可能会误与声誉混淆。 这些因素的代表可能是个人参与率的变化:它们可能预示着该人职位性质的变化。

  • 亚社区现象。 仔细查看统计信息,即使在非常活跃的SE页面上,也显示出相对较少的人进行了大多数的回答和投票。仅有两个或三个人的集团对声誉的增长会产生深远的影响。该站点的内置监视器将检测到两个人的队列(此站点上存在一个这样的组),但是可能不会发现较大的队列。(我不是在谈论正式的勾结:人们甚至可以在不知情的情况下成为此类集团的成员。) 我们如何将明显的声誉效应与这些看不见的,未被发现的非正式集团的活动区分开? 详细的投票数据可以用于诊断,但我认为我们无法访问这些数据。

  • 资料有限。要检测声誉影响,您可能需要关注(至少)拥有数十至数百个帖子的个人。这使目前的人口数量减少到不足50个人。尽管存在很大的变异和混淆的可能性,但除非它们确实非常强大,否则它太小了以至于无法发挥出明显的作用。 解决方法是使用其他SE站点的记录来扩充数据集

考虑到所有这些复杂性,应该清楚的是,博客文章中的探索性图形几乎没有机会揭示任何内容,除非它非常明显。一切突如其来:正如预期的那样,数据混乱且复杂。建议对图或已提出的分析进行改进为时过早:在解决了这些基本问题之前,增量更改和其他分析将无济于事


感谢您的答复。考虑到评论的广度,我将无法在评论中适当地解决所有建议(我将不得不想到另一个场所,也许只是发布另一个google文档)。但是,我现在要说的是,我认为这是不可能回答的(只要有人可以用这样的观测数据回答任何事情)。至少,鉴于潜在混杂因素的限制,人们可以看到声誉影响是否与现有证据一致。
安迪W

@Andy我认为混淆是巨大而普遍的,因此,即使看起来存在声誉效应,也可能是假象:除非您解决了这些问题,否则您将无法得出任何有效的结论。我当然是错的,但是举证责任在您身上。
ub

关键声明(如我所见)是“如果看起来存在声誉效应”。您提出的大多数困惑要么与发帖人的声誉/职位编号/历史模棱两可相关,要么在理论上被期望增加发帖人在其历史的答案上的得分。如果我没有发现声誉影响的证据,那么许多潜在的混淆因素就不能用来解释它的缺失。
Andy W的

@Andy但是至少有一个罐头就足够了。这些包括隐藏因素,主题受欢迎程度以及上下文的时间变化。如果您没有在分析中明确处理所有这些问题,那么您的结论将是可疑的。浏览记录可知,主题的受欢迎程度和时间变化是巨大的。他们的潜在影响淹没了我们可以合理预期的声誉影响,幅度可达一个数量级。
ub

2
@cardinal,即使没有正式定义,也可能有少数人对投票方式产生可观的影响(这是我认为在这种情况下胡布所指的)。乔恩·斯凯特(Jon Skeet)的平均职位只有5个可以投票。如果突然有人决定投票支持所有答案,那么从一开始的低平均分数来看,这可能会产生相当大的影响。
Andy W

5

计量经济学家在格兰杰因果关系的框架内研究了类似的问题。如果您有两个序列Z t,则可以运行向量自回归模型,该模型以最简单的形式具有单个滞后,看起来像Y t = a 0 + a 1 Y t 1 + a 2 Z t 1 + ϵ tZ t = b 0 + b 1 Y t 1YtZtYt=a0+a1Yt1+a2Zt1+ϵt。如果你看到说一个2是显著,那么你就可以宣称 ž(Granger-)导致 Ÿ:增加关于信息 ž提高你的模型的精度 ÿ。在这里,您的时间 t将是职位号,变量显然是声誉和分数。两者都是非平稳,所以与数据,如采取增量更严重的摆弄 Δ Ŷ = ý - ý - 1代替Zt=b0+b1Yt1+b2Zt1+δta2ZYZYtΔYt=YtYt1上述等式中的 Y t。(请注意,你可能会失去正常的和正常的,基于 ˚F χ 2个分布与非平稳数据,并与趋势变量收敛的速度,如果包含的话到分析,可能是牛逼- 1,甚至更快,而不是牛逼- 1 / 2。我们大多数人都是从中心极限定理使用你需要超级小心这些),所以我想如果。 Ÿ 牛逼就是答案评分, ž 牛逼的声誉,那么显然0是平均得分,一个1YtFχ2T1T1/2YtZta0a1怎样的人学会写更好的答案,和是他们的声誉如何先于他们的话(提供的模型假设都满足,等等)a2

关于第1点:如果您要手工进行固定效果,则应同时将响应变量和解释变量居中。面板数据回归软件包将为您完成此任务,但官方的计量经济学方法是从“合并的”回归中减去“回归”(请参阅Wooldridge的黑皮书;我没有检查过第二版,但我通常认为第一版是计量经济学面板数据的最佳教科书式描述)。

在您的要点2:当然,Eicker / White标准误差不会影响您的要点估算;如果他们这样做,则表示实施不正确!在时间序列的背景下,Newey和West(1987)给出了一个更合适的估计。尝试进行转换可能会有所帮助。我个人是Box-Cox转型的忠实粉丝,但在您进行的分析中,很难做到干净整洁。首先,您需要在shape参数之上放置一个shift参数,而在这种模型中,很难识别出shift参数。其次,您可能需要为不同的人员和/或不同的职位和/或...使用不同的shift / shape参数(所有这些都打破了)。计数数据也是一种选择,但是在均值建模的情况下,泊松回归与对数转换一样好,但是它强加了方差=均值的笨拙假设。

PS您可能可以用“纵向数据”和“时间序列”标记它。


感谢您的回复,以及一些评论/问题。我同意我至少应该在此数据中探索一种更明确的时间序列方法(我什至没有检查残差中是否存在自相关的证据)。尽管在此数据的时间序列建模中还有更多的复杂性(什么是t ?,并且分数本身是动态的,并且每个帖子数都不固定),所以也不需要回归预测Z_t,我完全知道Z_t是什么是一个功能!
安迪W

我也高度怀疑分数不稳定,您认为它是什么?
安迪W

至少,这可能是异乎寻常的:有些帖子很有趣,获得了很多点击和赞誉,而另一些则只是一些澄清或RTFM-“阅读此链接”类型的问题/答案。从技术上讲,其本身就使其不稳定。当然,平稳性是可以检验的假设,但是对于这些疯狂的数据,您可能希望在分析方法上过于保守(或者,正如我提到的,要知道结果可能是保守的)。奇怪的)。
StasK,2011年

我对最后的评论有些困惑。影响答案分数的外生因素如何使该系列异方差(我认为您的意思是分数的差值随帖子数而变大/变小?),这与当前问题有什么关系?
Andy W

如果所有时间点的边际分布相同,则时间序列是固定的。因此,即使您可能具有相同的均值,方差的变化也会使该序列不稳定。一个例子是(G)ARCH模型,该模型在2000年代初曾获得诺贝尔奖。但是,在这些数据中,我希望均值也会有所变化。如果网站的受众增加,那么对于给定的答案质量,您可能会看到更多的投票,这可能会提高得分的平均值和方差。
StasK 2011年

3

对地块的其他一些更改:

  1. 答案分数与先前声誉的分位数带。(图1和图3)
  2. Skeet与其他人的密度图,按帖子#分层(图3)
  3. 考虑按#个竞争帖子进行分层
  4. 按时间分层(在提出问题后很长一段时间内可能会继续获得积分)

对此建模将更加困难。您可能会考虑泊松回归。坦率地说,开发良好的情节是开发洞察力和技能的更好的方法。对数据有更好的了解之后,就可以开始建模。


(+1)让帖子坐了一会儿之后,我意识到,可视化这些点的密度似乎比尝试可视化这些点本身要好得多(尽管我不太清楚“分层为帖子#“)。我还认为,绘制估计的分位数听起来是个好主意,尽管对于图1和图2,可能只是在庞大的云中。同样,在这种情况下,我也不知道“按时间分层”的含义是什么,请参阅布拉德·拉尔森(Brad Larson)在博客上的评论以及对此的回应。
Andy W

我也高度怀疑竞争职位与观察到的关系有任何关系。您是否认为声誉卓著的人会在其历史的较早时期发布更多具有竞争性的答案?您关于包含其他协变量的建议似乎与避免建模和专注于图的建议相冲突。
安迪W

竞争职位背后的想法本质上是探索性的。回答的动机与它无关。关于建模,并不是我本身反对建模,而是在您对数据有了更好的理解之前,您还没有准备好进行建模。如果您不了解数据,则不会了解模型。
Iterator

通过按帖子#分层,建议您对帖子进行分类。它可以是区间刻度,例如0-100个帖子,101-200个等。或者以分位数的比例:将用户除以总帖子底部10%的用户,20%位置的用户等。因为Skeet有这么多的职位,最好是把他比作他的同龄组,但很难把他比那些同龄群体具有精确相同#职位-二进制化的数据可能会有所帮助。
Iterator

顺便说一句,对于分层,可以使用coplot()
Iterator

1

哇,在那里。(我的意思是,这是一种很好的方式;-)在继续进行模型之前,您需要解决数据的问题。

我在该图的中间看不到非常奇怪的曲线的解释:http : //stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

看到这样的曲线,我认为这些点有些奇怪-它们不是彼此独立的,而是反映了对同一来源的观察序列。

(要注意的一点:称情节“ Correlation ...”具有误导性。)


5
该曲线看起来很奇怪,因为轴上的比例尺选择很奇怪。它反映了为用户赢得大部分声誉的答复:一站式奇迹。它是指数的,因为y轴是线性的,而x轴是对数的。您真的应该忽略与日志信誉相关的所有内容2因为对于许多用户而言,这是他们信誉开始的地方,对于日志信誉,您应该考虑几乎所有因素,包括3只是噪音。因此,此图的99%专门用于显示该噪声:那里的信息不多。
Whuber

可以通过信誉与赞誉如何相关的性质来解释该曲线,很可能是发布了一个答案并从该唯一答案中获得所有声誉的人(我需要更详细地说明为什么有可能这样) 。如果我绘制了当前信誉减去最新职位的信誉,这将在很大程度上解决了这一问题(而且这些观察与后续分析没有任何关系)。您是否想详细说明这种误导性?
安迪W

@whuber,我想我不会说10 ^ 3以下是噪音。当然,声誉缺失的理论应该适用于声誉影响。我也欢迎对地块进行任何建议的改进(在任何地块中都没有太多信息!)
Andy W

谢谢。对于标题,没有相关性的计算。这只是边际得分与声誉的散点图。就像您和@whuber所提到的那样,这实际上并不是边际得分:应该是deltaRep(或Rep(t)-Rep(t-1))对Rep(t-1)。
Iterator

1
@Iterator,对最后一条语句正确(每个upvote 10点),但仍然可能使您对我正在用另一条语句绘制的内容感到困惑。Y轴不是信誉,而是最近发布的赞数(这不一定Rep(t) - Rep(t-1)是因为用户可以从其他地方获得声誉),X轴是当前声誉(包括从该帖子获得的声誉)。我建议应替换X轴(减去从我在Y轴上绘制的有问题的答案获得的票数)。
安迪W
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.