Cookie与“访客”的标准比例?


31

最近的博客文章所述,我们看到Google Analytics(分析)“访问者”与Quantcast“访问者”之间存在很大差异。

同样,由于我们从未弄清的原因,Google Analytics(分析)获得的数量比Quantcast大得多。目前,GA仅在stackoverflow.com上展示的访问者(1500万)就比Quantcast 在整个网络上看到的访问者(1400万)多:

为什么?我不知道。要么是Google Analytics(分析)有时会丢失Cookie,要么是Quantcast错过了访问者。计数是一门不精确的科学。

我们认为这是因为Quantcast使用的Cookie和访问者比率比较保守。Google Analytics(分析)可能会将每个cookie都视为“访问者”,而Quantcast只会将每个1.24 cookie都视为“访问者”。这对我来说很有意义,因为人们可以从多台计算机,多个浏览器等访问我们的网站。

我有两个密切相关的问题:

  1. Cookie与访客之间是否存在可接受的标准比例?这显然是一门不精确的科学,但是有没有新兴的经验法则?

  2. 除了依靠浏览器cookie之外,还有没有其他更准确的方法来将“访问者”计入网站?还是无论您如何衡量,这总是总是尽力而为的估算方法吗?


Quantcast绝对使用Cookie,对吗?他们不只是使用IP地址还是其他?
DisgruntledGoat

我刚刚检查了@disgruntledgoat网站:“ Quantcast提供了独特Cookie数量和人数的受众数据。”
马修·布鲁克斯

@DisgruntledGoat检查此页面。它有来自的Cookie quantserve.com
Yahel 2011年

Answers:


14

Quantcast通过电子邮件发送给我:

您提到您的GA编号和QC编号之间存在相当大的差异。尽管这种情况并不经常发生,但确实会发生,并且有多种原因可以导致这种情况发生。例如,我们考虑了第三方Cookie和自动刷新,而Google Analytics(分析)则没有。我们还要求发布商将我们的代码放在页面底部附近,以符合MRC和IAB标准。如果您的其他测量标签在页面上较高,则可能会在Quantcast不在此位置时触发。(我们是唯一获得MRC认可的流量测量服务)。而且,出于时区考虑,数字永远不会完全相同-我们使用归一化函数,并且GA是固定的。

如果您想进一步了解我们如何确定我们的电话号码,请访问:http : //www.quantcast.com/how-we-do-it。我们还在此处提供了有关经Cookie校正的受众群体数据和方法的白皮书。

仔细阅读白皮书,我发现它们实际上是按照Jeff的建议进行的:伪造“官方”数字以获得他们认为更接近真实人数的信息。他们有一份Cookie校正的受众白皮书(PDF链接),这表明他们的系统相当复杂,而不是简单地除以魔术数字即可:

Quantcast Quantified Publisher计划每月捕获超过750亿个媒体消费事件,这些事件是由超过14亿个Cookie生成的(截至2008年6月的数据)。此外,我们的许多量化出版商合作伙伴都与我们共享独立于cookie的匿名标识符。我们的模型还包括几个面板,这些面板提供了基于人的参考点和校准,并且没有删除Cookie。我们通过不同的收集过程,偏见和问题对大量数据进行三角剖分。我们的模型考虑了访问频率,时间段,使用多台计算机的可能性,甚至考虑了多人使用同一台计算机进行基于人的估计的影响。我们使用保留样本和独立数据集验证了我们将独特Cookie转换为人们的模型。此外,我们的模型是动态的,并且会不断进行校准,以反映Internet流量模式的不断发展的本质。


2
有趣。后一个摘录比第一个摘录更具信息性(和说服力)。GA不需要使用第三方Cookie,因为它使用第一方Cookie。是的,时区差异会更改精确的数字,但是跨月跨度,极不可能解决显着的测量差异。
Yahel 2011年

27

Quantcast计数不足的另一个因素是:它们使用第三方Cookie(从.quantserve.com域提供的Cookie ),而Google Analytics(分析)则使用第一方Cookie(stackexchange.com等)

这非常关键,因为某些浏览器(尤其是Safari,但最近使用Firefox和Chrome)禁用了第三方Cookie作为默认设置,许多其他浏览器可能会单独选择禁止第三方Cookie的隐私设置。这意味着有一部分人口将永远不会被QuantCast的cookie跟踪。从本质上讲,这意味着Google Analytics(分析)将始终返回更高的访问者人数。

我会说没有经验法则。作为一名分析从业者,我想寻求“真正的”访问者数量是没有希望的,而应该专注于访问本身。例如,对于您的Google Analytics(分析)帐户,我至少有8位不同的访问者,他们分别在工作笔记本电脑,个人笔记本电脑,手机和iPad上通过Chrome,Safari和Firefox访问StackOverflow。Google Analytics(分析)服务的计数方式均不同,因此返回的数字明显不同。

即使实施完美,​​与基于服务器日志的分析系统相比,Google Analytics(分析)几乎总是会显示较少的访问量,但与诸如Quantcast之类的基于第三方cookie的系统相比,其访问量会更高。重要的不是查看原始总数,而是每种方法在其优势中显示的趋势。因此,切勿将Quantcast编号与Google Analytics(分析)编号进行比较;而是在收集它们的上下文中使用数字。

另一个问题可能是您的Google Analytics(分析)实施不正确,因为如果未正确正确地进行配置,则需要针对多种域和子域设置进行配置,这可能是一场噩梦,这可能导致单个浏览器被视为多个访客,这本身就增加了您的人数。对于Quantcast而言,这绝不是问题,因为所有cookie均在其第三方域中设置。


默认情况下,谷歌浏览器似乎也阻止了第三方Cookie。
MrWhite

7

对于访问量超过一百万的网站,Cookie与唯一身份访问者的比率通常在1.3到1.7之间。

尽管yc01正确表示GA使用第一方Cookie而不是第三方Cookie,但我们在RealSelf.com使用两个第一方分析提供商(GA和Comscore Direct),并且GA的绝对唯一身份访问者仍然比Comscore的唯一身份访问者多30%。

Comscore仅按国家/地区显示唯一身份访问者,因此要将GA与Comscore进行比较,我们必须按以下方式计算基于美国的绝对唯一身份访问者的数量:

美国访问/全球访问*绝对唯一用户

(1,150,110 / 1,650,979)* 1,273,059 = 886,842美国唯一身份用户

相比之下,Comscore报告有680,900个美国唯一用户。因此Google Analytics(分析)会多显示30.2%。

Comscore的业务基础是努力做到准确,而Google Analytics(分析)主要是一种免费的方式来跟踪和优化使用AdWords和AdSense的网站。Comscore拥有一组人员,他们也可以用来估计流量,然后使用该人员来确定每人的平均Cookie数量。随着越来越多的人使用移动设备(我们的移动使用率为15%),唯一的Cookie会夸大唯一的人数是有道理的。


“对于访问量超过一百万的网站,Cookie与唯一身份访问者的比率通常在1.3到1.7之间。” 那是Comscore发布的人物吗?
Ciaran

这对我们来说是准确的;我在UserSession一些站点上运行了表统计信息,它们的范围从2.0(堆栈溢出)到1.46(webapps.se),介于两者之间。对于以技术为中心的网站,1.6似乎是非常理智的默认设置。
Jeff Atwood

4

这是MediaMind最近针对不同市场推出的(“ Cookie通货膨胀倍数”)研究(2011年5月4日,昨天我写这篇文章时):

他们计算出的通货膨胀系数在德国的2.2至美国的3.0之间。


这是一个极好-正是那种参考我一直在寻找
杰夫·阿特伍德

2

也许由于您的Google Analytics(分析)受众群体的技术性更高,您的GA访问者人数比普通网站更加虚假?例如,程序员,尤其是Web开发人员,更可能使用各种浏览器,从而增加了cookie数。

对于问题1,我想与许多指标一样,最好使用您自己站点中的数据,而不是寻找全局标准,因为聚合可能会产生误导。一种使cookie达到真实访问者数量的方法可能是计算您从每个注册用户看到的cookie数量,然后从中获取数量。

至于数字2,理论上计算真实访客的最好方法是强迫每个人注册一个帐户。因为这显然不是一个好主意,所以您可以看一下规范化。例如,您可以使用我上面建议的注册用户指标的平均Cookie,并将其应用于GA报告的访问者人数。


这是一个伟大的观点。在Stack Overflow上,我们目前有531,484个会话,其中261,547个指向唯一用户-因此,基本上每1个用户2个cookie。
杰夫·阿特伍德

-1

我认为IP是可信任的...当我使用python创建像GA这样的统计系统时,我使用了这种方法

  • 将Cookie发送到浏览器并将所有代理数据获取到数据库
  • 如果新访问具有cookie的简单方法,它不是新访问,所以我将其保存为非新访问(如果用户在2小时后重复访问网站,我还分配了日期和延迟时间来查找新访问)
  • 保存该用户的用户IP和一些ID以及IP和Cookie(也保存在Cookie中)
  • 新用户来了,没有任何cookie ...此IP是新的吗?是?确定其新用户仅获取用户代理和IP /否?该用户多少次?超过限制?不是真正的新访问,不是这个用户代理更多?好的,这是新的...:D

此方法有故障,但不是很差,并且接近有效数据……(它还取决于找到新用户的延迟时间(两次访问之间的延迟)以及用户没有cookie的尝试时间)


5
例如,这将如何处理一家拥有许多不同开发人员的公司从NAT后面访问StackOverflow的情况?他们都算作一个访客吗?
Svish

3
IP方面确实存在缺陷。IP地址不是唯一标识符。
Yahel 2011年

有尝试的时间...我们检查代理和其他事情,我们可以添加一个ip 100倍以上...它建议在NAT之后查找真实用户的方式
Mohammad Efazati 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.