Questions tagged «weighted-sampling»

1
合并观测值的标准差
我有一个样本观测数据集,存储为范围箱内的计数。例如: min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 现在,从中找到平均值的估计非常简单。只需将每个范围区间的平均值(或中位数)用作观察值,并将计数作为权重即可找到加权平均值: x¯∗=1∑Ni=1wi∑i=1Nwixix¯∗=1∑i=1Nwi∑i=1Nwixi\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i 对于我的测试用例,这给了我53.82。 现在我的问题是,找到标准偏差(或方差)的正确方法是什么? 通过搜索,我找到了几个答案,但不确定哪一个实际上适合我的数据集。在这里的另一个问题和随机的NIST文档中,我都能找到以下公式。 s2∗=∑Ni=1wi(xi−x¯∗)2(M−1)M∑Ni=1wis2∗=∑i=1Nwi(xi−x¯∗)2(M−1)M∑i=1Nwis^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i } 对于我的测试用例,其标准偏差为8.35。但是,维基百科有关加权均值的文章给出了两个公式: s2∗=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑i=1Nwi(xi−x¯∗)2s2∗=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xi−x¯∗)2s^{2*} = \frac{ \sum_{i=1}^N w_i}{(\sum_{i=1}^N w_i)^2 - \sum_{i=1}^N w_i^2} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2 和 s2∗=1(∑Ni=1wi)−1∑i=1Nwi(xi−x¯∗)2s2∗=1(∑i=1Nwi)−1∑i=1Nwi(xi−x¯∗)2s^{2*} …

1
定义加权样本的分位数
我有一个加权样本,我希望为其计算分位数。1个 理想情况下,在权重相等的情况下(无论是否等于1),结果将与scipy.stats.scoreatpercentile()和的结果一致quantile(...,type=7)。 一种简单的方法是使用给定的权重“乘以”样本。这样可以有效地在权重> 1的区域中提供局部“平坦”的ecdf,这在样本实际上是次采样时在直觉上似乎是错误的方法。特别是,这意味着权重均等于1的样本与权重均等于2或3的样本具有不同的分位数。(但是,请注意,[1]中引用的论文确实使用了这种方法。) http://en.wikipedia.org/wiki/Percentile#Weighted_percentile提供了加权百分比的另一种表示方式。在此公式中尚不清楚是否应首先合并具有相同值的相邻样本并对其权重求和,无论如何quantile(),在未加权/相等加权的情况下,其结果似乎与R的默认类型7不一致。关于分位数的维基百科页面根本没有提到加权情况。 R的“类型7”分位数函数有加权概括吗? [使用Python,但实际上只是在寻找一种算法,因此任何语言都可以使用] 中号 [1]权重是整数;权重是在http://infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pdf中描述的在“折叠”和“输出”操作中组合的缓冲区的权重。本质上,加权样本是整个未加权样本的子采样,子样本中的每个元素x(i)代表整个样本中的weight(i)元素。

3
将多级模型拟合到R中的复杂测量数据
我正在寻找有关如何在R中使用多级模型分析复杂调查数据的建议。我已使用该survey软件包对一级模型中选择的不平等概率进行加权,但是此软件包没有用于多层建模的功能。该lme4软件包非常适合用于多层建模,但是我不知道有一种方法可以在不同级别的聚类中包含权重。Asparouhov(2006)提出了问题: 多级模型通常用于分析群集抽样设计中的数据。但是,这样的抽样设计通常在集群级别和单个级别使用不相等的选择概率。在一个或两个级别上分配采样权重以反映这些概率。如果在任何一个级别上都忽略了采样权重,则参数估计值可能会出现明显偏差。 用于两级模型的一种方法是在MPLUS中实现的多级伪最大似然(MPML)估计器(Asparouhov等,α)。Carle(2009)回顾了主要的软件包,并提出了一些有关如何进行的建议: 为了使用复杂的调查数据和设计权重正确地执行MLM,分析人员需要可以在程序外部包括按比例缩放的权重并包括“新”缩放的权重而无需自动修改程序的软件。当前,三个主要的MLM软件程序允许这样做:Mplus(5.2),MLwiN(2.02)和GLLAMM。不幸的是,HLM和SAS都无法做到这一点。 West和Galecki(2013)给出了更新的评论,我将详细引用相关文章: 有时,分析人员希望使LMM适合从复杂设计的样本中收集的数据集(见Heeringa等,2010,第12章)。复杂的样本设计通常具有以下特征:将人群划分为各个阶层,从阶层内部对个体集群进行多阶段选择,以及集群和最终样本个体的选择概率均等。这些不平等的选择概率通常会导致构建个体的采样权重,从而确保在纳入分析时对描述性参数进行无偏估计。这些权重可能会针对调查无响应而进一步调整,并根据已知的总体总数进行校准。传统上,分析人员在估计回归模型时可能会考虑基于设计的方法来整合这些复杂的采样功能(Heeringa等,2010)。最近,统计学家已经开始探索基于模型的方法来分析这些数据,使用LMM来结合采样层的固定效应和采样群的随机效应。 开发基于模型的方法来分析这些数据的主要困难是选择适当的方法来合并抽样权重(有关问题的摘要,请参见Gelman,2007)。Pfeffermann等。(1998),Asparouhov和Muthen(2006)以及Rabe-Hesketh和Skrondal(2006)开发了用于以合并调查权重的方式估算多层次模型的理论,Rabe-Hesketh和Skrondal(2006),Carle(2009)和Heeringa等。(2010年,第12章)介绍了使用当前软件程序的应用程序,但这仍然是统计研究的活跃领域。能够适应LMM的软件过程处于实现迄今为止文献中提出的用于合并复杂设计特征的方法的各个阶段,分析人员在将LMM拟合到复杂的样本调查数据时需要考虑这一点。有兴趣将LMM拟合到从复杂样本调查收集的数据中的分析人员,将被吸引到能够将调查权重正确纳入估计程序(HLM,MLwiN,Mplus,xtmixed和gllamm)的程序。区域。 这使我想到我的问题:是否有人对将LMM拟合R中的复杂测量数据有最佳实践建议?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.