Questions tagged «pooling»

当假定多个组或总体具有共同属性(公共参数值)并且将来自所有组或总体的信息一起用于估算该共同属性时,将使用例如用于方差的合并。


3
给定已知的组方差,均值和样本量,如何计算两个或多个组的合并方差?
假设有元素分为两组(和)。第一组的方差为,第二组的方差为。元素本身被假定为未知,但我知道均值和。m + n米+ñm+n米米mññnσ2米σ米2\sigma_m^2σ2ñσñ2\sigma^2_nμ米μ米\mu_mμñμñ\mu_n 有一种方法来计算组合的方差σ2(m + n )σ(米+ñ)2\sigma^2_{(m+n)}? 方差不必是无偏的,因此分母是(m + n )(米+ñ)(m+n)而不是(m + n − 1 )(米+ñ-1个)(m+n-1)。
32 variance  pooling 

7
结合不同来源的概率/信息
可以说我有三个独立的消息源,每个消息源都对明天的天气做出了预测。第一个说明天下雨的概率是0,第二个说明天下雨的概率是1,最后一个说明天下雨的概率是50%。我想知道给出该信息的总概率。 如果将乘法定理应用于独立事件,我将得到0,这似乎是不正确的。如果所有来源都是独立的,为什么不能将这三个数相乘?当我获得新信息时,是否有贝叶斯方法来更新先验信息? 注意:这不是作业,是我一直在考虑的事情。


5
合并方差“实际上”是什么意思?
我是统计方面的菜鸟,所以请您在这里帮助我。 我的问题如下:合并方差实际上是什么意思? 当我在互联网上寻找汇总方差的公式时,我发现很多使用以下公式的文献(例如,在这里:http : //math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html): S2p=S21(n1−1)+S22(n2−1)n1+n2−2Sp2=S12(n1−1)+S22(n2−1)n1+n2−2\begin{equation} \label{eq:stupidpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + S_2^2 (n_2-1)}{n_1 + n_2 - 2} \end{equation} 但是它实际计算的是什么?因为当我使用此公式计算合并方差时,它给了我错误的答案。 例如,考虑以下“父样本”: 2,2,2,2,2,8,8,8,8,82,2,2,2,2,8,8,8,8,8\begin{equation} \label{eq:parentsample} 2,2,2,2,2,8,8,8,8,8 \end{equation} 该父样本的方差为,其均值为。S2p=10Sp2=10S^2_p=10x¯p=5x¯p=5\bar{x}_p=5 现在,假设我将此父样本拆分为两个子样本: 第一个子样本是2,2,2,2,2,均值和方差。x¯1=2x¯1=2\bar{x}_1=2S21=0S12=0S^2_1=0 第二个子样本为8,8,8,8,8,均值且方差。x¯2=8x¯2=8\bar{x}_2=8S22=0S22=0S^2_2=0 现在,显然,使用上面的公式来计算这两个子样本的合并/父方方差将产生零,因为和。那么,该公式实际计算的是什么?S1=0S1=0S_1=0S2=0S2=0S_2=0 另一方面,经过长时间的推导,我发现产生正确的合并/父方方差的公式为: S2p=S21(n1−1)+n1d21+S22(n2−1)+n2d22n1+n2−1Sp2=S12(n1−1)+n1d12+S22(n2−1)+n2d22n1+n2−1\begin{equation} \label{eq:smartpooledvar} \displaystyle S^2_p = \frac{S_1^2 (n_1-1) + n_1 d_1^2 + S_2^2 (n_2-1) + n_2 d_2^2} {n_1 + …
15 variance  mean  pooling 

1
多次插补后合并校准图
我想对多次插补后合并校准图/统计数据提出建议。在开发统计模型以预测未来事件的设置中(例如,使用医院记录中的数据预测医院出院后的存活或事件),人们可以想象有很多缺失的信息。多重插补是处理这种情况的一种方式,但是导致需要合并每个插补数据集的测试统计数据,并考虑到由于插补固有的不确定性而导致的其他可变性。 我知道有多个校准统计信息(hosmer-lemeshow,Harrell的Emax,估计的校准指数等),可能适用“常规” Rubin合并规则。 但是,这些统计信息通常是校准的总体度量,没有显示模型的特定未校准区域。因此,我宁愿看一下校准图。遗憾的是,我对如何“汇总”图表或背后的数据(每个人的预测概率和每个人的观察到的结果)一无所知,并且在生物医学文献(我熟悉的领域)中找不到很多东西,或在这里,在CrossValidated上。当然,查看每个插补数据集的标定图可能是一个答案,但是当创建许多插补集时(可能会很麻烦)。 因此,我想问一问是否存在可以在多次插补之后合并校准图的技术?

1
变量误差回归:从三个站点合并数据是否有效?
最近,我有一个客户来做我的引导程序分析,因为FDA审查员说他们的变量误差回归是无​​效的,因为当合并来自站点的数据时,分析包括来自三个站点的数据,其中两个站点包括一些样本。相同。 背景 客户想使用一种新的测定方法,他们希望证明该方法与现有的认可方法“等效”。他们的方法是比较两种方法应用于相同样品的结果。使用了三个站点进行测试。将变量误差(戴明回归)应用于每个站点的数据。想法是,如果回归显示斜率参数接近1,截距接近0,则表明这两种测定技术给出的结果几乎相同,因此应批准新方法。在站点1,他们有45个样本,给了他们45个配对的观测值。站点2有40个样本,站点3有43个样本。他们进行了三个单独的Deming回归(假设两种方法的测量误差之比为1)。因此,该算法将垂直距离的平方和最小化。 客户在提交的材料中指出,地点1和2所用的一些样品是相同的。在审查中,FDA审查员说Deming回归是无效的,因为使用了共同的样本会导致“干扰”,从而使模型的假设无效。他们要求对Deming结果进行自举调整,以考虑到这种干扰。 那时,由于客户不知道该如何进行引导程序。“干扰”一词很奇怪,我不确定审阅者的确切含义。我认为关键是因为合并数据具有公共样本,所以公共样本之间存在相关性,因此模型误差项不会全部独立。 客户分析 这三个单独的回归非常相似。每个斜率参数接近1,截距接近0。在每种情况下,斜率和截距的95%置信区间分别为1和0。主要区别是站点3上的残留方差略高。此外,他们将此与进行OLS的结果进行了比较,发现它们非常相似(仅在一种情况下,基于OLS的斜率的置信区间不包含1)。如果坡度的OLS CI不包含1,则区间的上限约为0.99。 由于这三个站点的结果如此相似,将站点数据合并起来似乎是合理的。客户进行了汇总的Deming回归,也得出了类似的结果。鉴于这些结果,我为客户撰写了一份报告,对声称回归无效的说法提出了异议。我的观点是,由于两个变量中都存在类似的度量误差,因此客户使用Deming回归作为显示同意/不同意见的方式是正确的。单个站点的回归没有相关误差的问题,因为在给定的站点内没有重复样本。合并数据以获得更紧密的置信区间。 可以通过简单地将数据与站点1中遗漏的常见样本合并来解决此难题。同样,三个单独的站点模型也没有问题并且有效。在我看来,即使没有共同努力,这也提供了有力的证据。此外,对于公共站点,分别在站点1和2进行测量。因此,我认为即使使用所有数据进行汇总分析也是有效的,因为站点1处样品的测量误差与站点2中相应样品的测量误差不相关。这实际上等于在设计中重复了一点空间应该没有问题。它不会创建关联/“干扰”。 在我的报告中,我写道引导分析是不必要的,因为没有相关的调整。这三个站点模型是有效的(站点内没有可能的“干扰”),可以进行合并分析以在合并时删除站点1上的常见样本。这样的汇总分析不会有干扰问题。无需进行自举调整,因为没有偏差可调整。 结论 客户同意我的分析,但害怕将其提交给FDA。他们还是要我进行引导程序调整。 我的问题 A)您是否同意(1)我对客户结果的分析,以及(2)我认为不需要引导程序的论点。 B)鉴于我必须自举Deming回归,是否有任何过程SAS或R可用于我对自举样本进行Deming回归? 编辑:考虑到比尔·胡伯(Bill Huber)的建议,我计划通过对x上的y和对y上的x进行回归来研究变量误差回归的界限。我们已经知道,对于一种版本的OLS,当两个误差方差均相等时,答案与变量误差基本相同。如果对于其他回归也是如此,那么我认为这将表明Deming回归给出了适当的解决方案。你同意吗? 为了满足客户的要求,我需要进行模糊定义的请求引导分析。从伦理上讲,我认为仅提供引导程序是错误的,因为它并不能真正解决客户的真正问题,即证明他们的检测测量程序合理。因此,我将对他们进行分析,并至少要求他们告诉FDA,除了进行引导程序外,我还进行了逆回归并限制了Deming回归,我认为这更合适。我还认为,分析将表明他们的方法与参考等效,因此Deming回归也足够。 我计划使用@whuber在其答案中建议的R程序,以使我能够引导Deming回归。我对R不太熟悉,但我认为我可以做到。我已经将R和R Studio一起安装了。这样对像我这样的新手来说足够容易吗? 我也有SAS,并且对SAS编程更满意。因此,如果有人知道在SAS中执行此操作的方法,我将不胜感激。

1
诸如加权相关之类的东西?
我收到了一些有趣的数据,其中涉及最受欢迎的音乐艺术家,按地点划分为大约200个国会区。我想看看是否有可能针对某人的音乐偏好来对其进行投票,并确定该人是“像民主党人一样听”还是“像共和党人一样听”。(自然这很轻松,但是数据中确实存在熵!) 我有大约100位艺术家的数据,以及过去三个选举周期中每个地区共和党人和民主党人的平均投票百分比。因此,我对每位艺术家进行了相关分析,以了解哪些听众与民主党人的投票份额成比例最不均衡。对于任何给定的艺术家,这些相关性从大约-0.3到0.3之间变化,中间的很多值几乎没有或没有预测能力。 我有两个问题:首先,每个地区的溪流总数差异很大。现在,我正在将每个地区(例如,碧昂斯)中所有流的百分比与为民主党人投票的百分比相关联。但是,一个地区的总流量可能为数百万,而另一个地区的总流量则为10万。我需要以某种方式加权相关性来解决这个问题吗? 其次,我很好奇如何将这些相关性组合成关于用户政治的综合猜测。假设我选取了绝对相关值最高(正值和负值)的20位艺术家,每个方向上的十位艺术家,然后调查用户对他或她的喜欢程度。因此,我对每位艺术家都投了赞成票或反对票,并加上了所有20个值与政治的相关性。是否存在将这些相关性组合为单个估计的标准方法?(我在想类似《纽约时报》著名的方言测验,它将测验 25个问题的区域概率结合到热点图中。但是在这种情况下,我只需要一个单一的值来了解民主党或共和党人在音乐上的品味如何。 谢谢!

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.