Questions tagged «weighted-mean»

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

5
如何计算加权标准偏差?在Excel中?
所以,我有一个像这样的百分比数据集: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) 我想找到百分比的标准偏差,但要为其数据量加权。即,第一个和最后一个数据点应主导计算。 我怎么做?有没有一种简单的方法可以在Excel中完成呢?

2
加权方差的偏差校正
对于未加权方差 存在的偏置校正的样本方差,当平均是从相同的数据估计: Var(X):=1Var(X):=1n∑i(xi−μ)2Var(X):=1n∑i(xi−μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2Var(X):=1n−1∑i(xi−E[X])2Var(X):=1n−1∑i(xi−E[X])2\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2 我正在研究加权均值和方差,并想知道加权方差的适当偏差校正是什么。使用: mean(X):=1∑iωi∑iωiximean(X):=1∑iωi∑iωixi\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i 我正在使用的“天真”,未经校正的方差是: Var(X):=1∑iωi∑iωi(xi−mean(X))2Var(X):=1∑iωi∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 所以我想知道纠正偏见的正确方法是 A) Var(X):=1∑iωi−1∑iωi(xi−mean(X))2Var(X):=1∑iωi−1∑iωi(xi−mean(X))2\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2 或B) Var(X):=nn−11∑iωi∑iωi(xi−mean(X))2Var(X):=nn−11∑iωi∑iωi(xi−mean(X))2\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2 或C) Var(X):=∑iωi(∑iωi)2−∑iω2i∑iωi(xi−mean(X))2Var(X):=∑iωi(∑iωi)2−∑iωi2∑iωi(xi−mean(X))2\text{Var}(X):=\frac{\sum_i \omega_i}{(\sum_i \omega_i)^2-\sum_i \omega_i^ 2}\sum_i\omega_i(x_i - \text{mean}(X))^2 A)当权重较小时对我来说没有意义。归一化值可以是0甚至是负数。但是B)(是观察次数)-这是正确的方法吗?您是否有参考资料可以证明这一点?我相信“更新均值和方差估计:一种改进的方法”,DHD West,1979年使用了这种方法。第三,C)是我对这个问题的答案的解释:https : //mathoverflow.net/questions/22203/unbiased-estimate-of-the-variance-of-an-unnormalized-weighted-meannnn 对于C),我刚刚意识到分母看起来很像。这里有一些一般的联系吗?我认为这并不完全一致;显然我们正在尝试计算方差...Var(Ω)Var(Ω)\text{Var}(\Omega) 他们三个似乎都“生存”设置所有的健全性检查。那么我应该在哪个前提下使用哪个呢?“更新:” whuber建议也使用和所有其余的进行完整性检查。这似乎排除了A和B。ωi=1ωi=1\omega_i=1ω1=ω2=.5ω1=ω2=.5\omega_1=\omega_2=.5ωi=ϵωi=ϵ\omega_i=\epsilon

1
加权方差,再一次
无偏加权方差已在此处和其他地方得到解决,但似乎仍然令人惊讶。对于第一个链接以及Wikipedia文章中提供的公式似乎已达成共识。这也看起来像R,Mathematica和GSL(而不是MATLAB)使用的公式。但是,Wikipedia文章还包含以下几行,对于加权方差实现而言,这看起来很不错: 例如,如果从同一分布中得出值{2,2,4,5,5,5},那么我们可以将此集合视为未加权样本,也可以将其视为加权样本{2,4, 5}和相应的权重{2,1,3},我们应该得到相同的结果。 我的计算得出原始值的方差为2.1667,加权方差为2.9545。我真的应该期望它们是一样的吗?为什么或者为什么不?

2
当我们只有关于当前素食者的调查数据时,如何计算对素食主义者的平均坚持时间?
调查了随机样本。他们被问是否吃素食。如果他们回答“是”,他们还被要求说明他们吃素饮食已经连续多长时间了。我想使用此数据来计算对素食主义的平均坚持时间。换句话说,当某人成为素食主义者时,我想知道他们平均会长期保持素食。假设: 所有受访者都给出了正确准确的答复 世界是稳定的:素食主义的流行没有改变,平均遵守时间也没有改变。 到目前为止我的推理 我发现分析世界的玩具模型很有帮助,每年年初两个人成为素食主义者。每次,他们其中一名保持素食一年,另一年保持三年。显然,这个世界的平均遵守时间为(1 + 3)/ 2 = 2年。这是说明该示例的图形。每个矩形代表一个素食主义时期: 假设我们在第4年中期(红线)进行了调查。我们得到以下数据: 如果从第3年开始的任何一年进行调查,我们将获得相同的数据。 (2 * 0.5 + 1.5 + 2.5)/ 4 = 1.25 我们低估了我们的假设,因为我们假设所有人在调查后都不再是素食主义者,这显然是错误的。为了获得接近于这些参与者保持素食的真实平均时间的估计,我们可以假设他们平均报告了素食主义时期的一半时间,并且将报告的持续时间乘以2。从人群中(就像我正在分析的人群),我认为这是一个现实的假设。至少它会给出正确的期望值。但是,如果只做一倍,我们的平均值为2.5,这被高估了。这是因为人保持素食的时间越长,他在当前素食者样本中的可能性就越大。 然后,我认为当前素食者样本中某人的概率与他们的素食主义时长成正比。为了解决这种偏见,我尝试将当前素食者的人数除以他们预计的坚持时间: 但是,这也会给出错误的平均值: (2 * 1 +⅓* 3 +⅕* 5)/(2 +⅓+⅕)= 4 / 2.533333 = 1.579年 如果将素食者的人数除以他们的正确坚持时间,就会得出正确的估计: (1 +⅓*(1 + 3 + 5))/(1 +⅓* 3)= 2年 但是,如果我使用预测的坚持时间是行不通的,那是我实际拥有的全部。我不知道还能尝试什么。我读了一些有关生存分析的信息,但是我不确定在这种情况下如何应用它。理想情况下,我还希望能够计算90%的置信区间。任何提示将非常感谢。 编辑:可能上面的问题没有答案。但是还有另一项研究随机询问了人们是否是素食主义者,以及过去有多少次素食主义者。我也知道学习和其他方面每个人的年龄。也许可以将此信息与当前素食者的调查结合使用,以某种方式获得平均值。实际上,我所说的研究只是其中的一个难题,但它是非常重要的一个难题,我想从中得到更多。

2
计算加权均值估计中的标准误差
假设w1,w2,…,wnw1,w2,…,wnw_1,w_2,\ldots,w_n和x1,x2,...,xnx1,x2,...,xnx_1,x_2,...,x_n分别从某些分布中得出iid,wiwiw_i独立于xixix_i。该wiwiw_i是严格为正。您观察到所有的wiwiw_i,但没有观察到xixix_i;相反,您观察到∑ixiwi∑ixiwi\sum_i x_i w_i。我有兴趣根据此信息估算。显然,估计 ˉ X = Σ 我瓦特我X 我E[x]E⁡[x]\operatorname{E}\left[x\right] 是无偏的,可以根据手头的信息进行计算。x¯=∑iwixi∑iwix¯=∑iwixi∑iwi \bar{x} = \frac{\sum_i w_i x_i}{\sum_i w_i} 如何计算此估算器的标准误差?对于其中副壳体只消值0和1,I天真地试图 小号Ë 听,说:√xixix_i 基本上忽略了的变化W¯¯我,却发现这个表现不佳的样本量250比周围小(这可能取决于的方差W¯¯我。)看来,也许我不有足够的信息来计算“更好”的标准误差。se≈x¯(1−x¯)∑iw2i−−−−−−−−−−−−√∑iwi,se≈x¯(1−x¯)∑iwi2∑iwi, se \approx \frac{\sqrt{\bar{x}(1-\bar{x})\sum_i w_i^2}}{\sum_i w_i}, wiwiw_iwiwiw_i

1
从嘈杂的观察中确定真实均值
我有一大套形式的数据点(平均值,标准偏差)。我希望将其减少为单一(更好)的平均值,以及(希望)较小的标准偏差。 显然,我可以简单地计算,但是这没有考虑到某些数据点比其他数据点准确得多的事实。Σ d一个牛逼一米Ë 一个Ññ∑datameanN\frac{\sum data_{mean}}{N} 简而言之,我希望对这些数据点进行加权平均,但不知道在标准偏差方面加权函数应该是什么。

1
使用每个选民的准确性和相关不确定性的投票系统
假设我们有一个简单的“是/否”问题,我们想知道答案。有N个人“投票”以获取正确答案。每个投票者都有一个历史记录-1和0的列表,显示他们过去对此类问题是对还是错。如果我们将历史假设为二项式分布,我们可以发现选民在此类问题,他们的变异,CI和任何其他种类的置信度指标上的平均表现。 基本上,我的问题是:如何将信任度信息纳入投票系统? 例如,如果我们仅考虑每个投票者的平均表现,则可以构建简单的加权投票系统: result=sign(∑v∈votersμv×(−1)1−vote)result=sign(∑v∈votersμv×(−1)1−vote)result = sign(\sum_{v \in voters}\mu_v \times (-1)^{1-vote}) 也就是说,我们可以将选民的权重总和乘以(代表“是”)或(代表“否”)。这是有道理的:如果选民1的平均正确答案等于,而选民2的平均答案只有,那么应该比第一人的投票更重要。另一方面,如果第一人称仅回答了10个此类问题,而第二人回答了1000个此类问题,则我们对第二人的技能水平比对第一人的技能更有信心-第一人可能很幸运,并且在获得10个相对成功的答案后,他将继续获得更差的结果。- 1 0.9 0.8+1+1+1−1−1-1.9.9.9.8.8.8 因此,更精确的问题听起来可能是这样的:是否存在兼具强度和置信度的统计指标?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.