众包数据的采样模型？

我正在开发一个计划在发展中国家使用的开放式健康调查应用程序。

基本想法是，调查访谈是众包的 -由无组织的志愿者执行，他们使用移动设备提交他们进行的访谈的表格数据，并且每次调查都附带访谈位置的GPS数据。

由政府机构编制的传统调查通常使用某种标准抽样模型-通常是概率抽样模型来实施。这就需要很多无法始终执行的集中计划。（提到这个是为了让我的问题在正确的背景下出现）

可以说，志愿者将在其周围实施便利采样。他将任意采访他可以联系到的人数。

基本问题是：如何理解和表征该测量系统的整体采样模型？是否有任何方法或组合模型来处理此类情况？

sampling

简短答案：这是一个方便示例。您无能为力。

更长的答案：您与进行内部调查的许多社交网络处于同一条路线，却对谁会回答随机出现在Facebook或Google+上的一个问题的调查一无所知...除了这些巨人之外，您不会没有任何关于那些没有回应的数据。调查和民意研究界通常对这类工作不满意，因为目前还不清楚如何将这些严重偏倚的样本的结果推广到总人口（如果有的话）。您可以尝试根据已知的人口统计信息进行权重调整，但是最终将得到权重变化，从一个仅代表自己的人的权重到分配给该人口中唯一知道如何使用计算机的70多名男性的1,000,000 （无论如何，可能并不能代表其余的1,000,000 70岁以上的男性）。

其他阅读：“如何使用统计数据撒谎”以关于偏倚样本的一章开头。如果您可以阅读它而对样本设计不感到沮丧，则可以继续。如果您依靠志愿者，那么您的样本将偏向年轻人和城市人口，他们可以更好地使用电子产品。同样，美国统计协会前任主席弗里茨·舒伦（Fritz Scheuren）撰写的“什么是调查”小册子开张了哈里·杜鲁门（Harry Truman）的照片，他的胜利无法通过当时存在的偏颇的投票技术来预测。

关于难以到达的人群有一些研究。一项著名的项目是一项研究，对在伊拉克采样的地理区域中的超额死亡人数进行了研究，在每个地区，当地医生都将尝试征集该城市每个家庭的采访。对该设计的批评不断增加，但是无论它有多妥协，它仍然有其采样组件。请参阅《柳叶刀》上的论文（您可能知道，在医学界您再也无法享有盛誉了）http://dx.doi.org/10.1016/S0140-6736 (04 ) 17441-2和http：//dx.doi .org / 10.1016 / S0140-6736（06）69491-9。

— 斯塔克
source

（+1）Stas，这与配额抽样有根本区别吗？很好奇，对问题的粗略阅读使它看起来像只是术语上的更改。另外，简短地讲，伊拉克整群抽样研究的主要批评是什么？我记得第一次出现时就看到了这一点，并对此进行了一些阅读。

— 主教

我想一个区别是每个人都没有配额...;）

— 红衣主教

非常感谢你！现在，在重新设计想法之前，我已经有了很好的理解！

— al-Amjad Tawfiq Isstaif 2012年

en.wikipedia.org/wiki/Lancet_surveys_of_Iraq_War_casualties

— StasK

我认为集群数量少是有问题的，一个集群最终成为一个离群值，那里的军事活动比该国其他任何地方都要高。对我而言，首先要看的是有关该研究的AAPOR和ASA声明。虽然《柳叶刀》可能是一本很棒的医学期刊，而《约翰·霍普金斯》可能是一本伟大的医学杂志，但嗅到AAPOR当局并否认它们的方法学文件只是不专业。

— StasK 2012年