Questions tagged «data-imputation»

指用于“填充”缺失数据的常规方法。用于执行此操作的方法通常与插值有关(http://en.wikipedia.org/wiki/Interpolation),并且需要有关数据丢失原因的假设(例如“随机丢失”)

3
通过平均数据点组合两个时间序列
我想通过最小化均方预测误差,将一个时间序列数据集的预测值和预测值(即过去的预测值)组合为一个时间序列。 假设我有一个2001-2010年的时间序列,与2007年之间有一个间隔。我已经能够使用2001-2007年数据(红线-称为YfYfY_f)来预测2007年,并能够使用2008-2009年数据进行反向预测(光蓝线-称为YbYbY_b)。 我想将YfYfY_f和的数据点合并为每个月的估算数据点Y_i。理想情况下,我希望获得权重,以使其最小化的均方预测误差(MSPE)。如果这不可能,那么我如何才能找到两个时间序列数据点之间的平均值? w ^ ÿ 我YbYbY_bwwwYiYiY_i Yi=w⋅Yf+(1−w)⋅YbYi=w⋅Yf+(1−w)⋅YbY_i = w\cdot Y_f + (1-w)\cdot Y_b 作为一个简单的例子: tt_f <- ts(1:12, start = 2007, freq = 12) tt_b <- ts(10:21, start=2007, freq=12) tt_f Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2007 1 2 3 4 5 6 7 …

1
为什么这种多重插补质量低下?
考虑以下R代码: > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 如您所见,我对数据进行了大致的设计c = 2*b = 4*a。因此,我希望缺少的值在左右a=1, b=2, c=12。所以我进行了分析: > imp <- mi(data) Beginning Multiple Imputation ( …

2
归因于调查答复中的系统错误
我进行了一项大型调查,其中询问了学生,尤其是母亲的教育水平。有些人跳过了,有的回答错误。我知道这一点,因为后来有一个最初受访者母亲的子样本接受了采访,并提出了同样的问题。(我敢肯定,与母亲的回答有关的错误也要少一些。) 我的挑战是决定如何最好地利用第二个更可靠的数据源。至少,与只能依靠完整案例的情况相比,我可以使用它来更智能地估算丢失的数据。但是,如果我可以交叉核对数据的孩子中有3/4回答“我的母亲从未读完小学”的孩子与他们母亲的回答相矛盾,那么看来我应该使用估算来创建多个数据集以捕获那里的不确定性。[补充:我说的是3/4,但是现在我已经检查了数据,我还想告诉您,接近40%的数据是不对的] 我个人将在混合模型中使用母亲的教育作为预测因子,但是如果有人对其他情况有话要说,我也希望了解它们。 我很想收到有关广泛技巧或特定方面的建议。谢谢! 更新:尽管感谢Will和Conjugate_Prior的回答,但我暂时还没有解决问题,但我希望获得更多具体和技术反馈。 下面的散点图将让您了解在存在10,000个案例的情况下这两个变量如何关联。它们嵌套在100余所学校中。它们的相关系数为0.78,学生的答案-均值:5.12 sd = 2.05,妈妈的答案,均值= 5.02,sd = 1.92在大约15%的情况下,学生的答案缺失。

1
面板研究中时间序列中缺失计数数据的多重估算
我正在尝试解决一个涉及面板数据研究中缺失数据的估算的问题(不确定我是否正确使用了“面板数据研究”,正如我今天所学到的那样。)我拥有2003年的总死亡计数数据到2009年,所有8个地区和4个年龄段的男性和女性的所有月份。 数据框看起来像这样: District Gender Year Month AgeGroup TotalDeaths Northern Male 2006 11 01-4 0 Northern Male 2006 11 05-14 1 Northern Male 2006 11 15+ 83 Northern Male 2006 12 0 3 Northern Male 2006 12 01-4 0 Northern Male 2006 12 05-14 0 Northern Male 2006 12 15+ 106 …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.