Questions tagged «multiple-imputation»

多重插补指的是一组随机插补例程,旨在保留数据的多元特征

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

4
多重插补和模型选择
当您具有要估计的先验线性模型时,多重插补非常简单。但是,当您实际上要进行一些模型选择时,事情似乎有些棘手(例如,从更大的一组候选变量中找到“最佳”预测变量集-我正在特别考虑使用R的LASSO和分数多项式)。 一种想法是使模型适合具有丢失值的原始数据,然后在MI数据集中重新估计该模型,并像平常一样合并估计。但是,这似乎有问题,因为您期望出现偏差(或者为什么首先要选择MI?),这可能会导致从一开始就选择“错误的”模型。 另一个想法是要在每个MI数据集中使用任何模型选择过程-但是如果结果包含不同的变量集,您将如何合并结果呢? 我曾经想过要堆叠一组MI数据集,并将它们分析为一个大型数据集,然后将其用于拟合单个“最佳”模型,并包括随机效应以说明您对以下问题使用重复测量的事实每个观察。 听起来合理吗?还是天真地令人难以置信?任何有关此问题的指针(具有多个插补的模型选择)将不胜感激。


2
结果变量的多重插补
我有一个关于农业试验的数据集。我的反应变量是一个反应比率:log(治疗/对照)。我对调解差异的原因很感兴趣,因此我正在运行RE元回归(未加权,因为很明显效果大小与估计方差无关)。 每个研究报告谷物产量,生物量产量或两者。我无法从仅报告生物量产量的研究中得出谷物的产量,因为并非所有研究的植物都对谷物有用(例如,包括甘蔗)。但是每一种产生谷物的植物也都有生物量。 对于缺少的协变量,我一直在使用迭代回归插补(遵循安德鲁·盖尔曼的教科书章节)。它似乎给出了合理的结果,并且整个过程通常是直观的。基本上,我预测缺失值,并使用这些预测值预测缺失值,并遍历每个变量,直到每个变量近似收敛(分布)。 有什么原因使我无法使用相同的过程来估算缺失的结果数据?给定谷类响应比,作物类型和我拥有的其他协变量,我可能可以为生物量响应比形成一个相对有用的估算模型。然后,我将对系数和VCV求平均值,并按照标准做法添加MI校正。 但是,当推算结果本身时,这些系数将如何衡量?协变量的系数解释是否与标准MI有所不同?考虑一下,我无法说服自己这行不通,但我不确定。欢迎阅读材料的想法和建议。

1
多次插补后合并校准图
我想对多次插补后合并校准图/统计数据提出建议。在开发统计模型以预测未来事件的设置中(例如,使用医院记录中的数据预测医院出院后的存活或事件),人们可以想象有很多缺失的信息。多重插补是处理这种情况的一种方式,但是导致需要合并每个插补数据集的测试统计数据,并考虑到由于插补固有的不确定性而导致的其他可变性。 我知道有多个校准统计信息(hosmer-lemeshow,Harrell的Emax,估计的校准指数等),可能适用“常规” Rubin合并规则。 但是,这些统计信息通常是校准的总体度量,没有显示模型的特定未校准区域。因此,我宁愿看一下校准图。遗憾的是,我对如何“汇总”图表或背后的数据(每个人的预测概率和每个人的观察到的结果)一无所知,并且在生物医学文献(我熟悉的领域)中找不到很多东西,或在这里,在CrossValidated上。当然,查看每个插补数据集的标定图可能是一个答案,但是当创建许多插补集时(可能会很麻烦)。 因此,我想问一问是否存在可以在多次插补之后合并校准图的技术?

2
在估算数据中使用邻居信息或查找偏离数据(在R中)
我有一个数据集,假设最近的邻居是最好的预测变量。只是可视化的双向梯度的完美示例- 假设我们缺少一些值,可以很容易地根据邻居和趋势进行预测。 R中的对应数据矩阵(用于锻炼的虚拟示例): miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE) miss.mat [,1] [,2] [,3] [,4] [,5] [,6] [,7] [1,] 5 6 7 8 9 10 11 [2,] 6 7 8 9 10 NA 12 [3,] 7 8 9 10 11 12 13 …

5
缺失值的多重插补
我想在某些约束下使用插补替换数据集中的缺失值。 例如,我希望估算的变量x1大于或等于我的另外两个变量,例如x2和x3。我也想x3通过或者被估算0或者>= 14,我想x2无论以任何打杀0或>= 16。 我尝试在SPSS中为多个插值定义这些约束,但是在SPSS中,我只能定义最大值和最小值。有什么方法可以在SPSS中定义进一步的约束,或者您知道任何R包可以让我为缺失值的插值定义此类约束吗? 我的数据如下: x1 =c(21, 50, 31, 15, 36, 82, 14, 14, 19, 18, 16, 36, 583, NA,NA,NA, 50, 52, 26, 24) x2 = c(0, NA, 18,0, 19, 0, NA, 0, 0, 0, 0, 0, 0,NA,NA, NA, 22, NA, 0, 0) x3 = c(0, 0, 0, 0, …

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
如何在多个插补数据集中合并自举的p值?
我担心的问题是,我想从乘归(MI)数据中引导p值来估计,但是我不清楚如何在MI集合中组合p值。θθ\theta 对于MI数据集,获得估计总方差的标准方法使用Rubin规则。有关合并MI数据集的评论,请参见此处。总方差的平方根用作的标准误差估计。但是,对于某些估计量,总方差没有已知的闭合形式,或者采样分布不正常。然后,统计量可能不是t分布的,甚至不是渐近的。θ / 小号ë (θ )θθ\thetaθ / 塞e (θ )θ/se(θ){\theta}/{se(\theta)} 因此,在完整数据的情况下,即使采样分布不是正态且其闭合形式未知,一种替代方法是引导统计信息以找到方差,p值和置信区间。在MI的情况下,有两个选择: 跨MI数据集合并自举差异 跨MI数据集合并p值或置信范围 然后,第一种选择将再次使用鲁宾规则。但是,如果具有非正态采样分布,则我认为这是有问题的。在这种情况下(或更一般而言,在所有情况下),可以直接使用自举p值。但是,在MI的情况下,这将导致多个p值或置信区间,需要将其跨MI数据集合并。θθ\theta 所以我的问题是:如何在多个估算数据集之间合并多个自举p值(或置信区间)? 我欢迎任何有关如何进行的建议,谢谢。


2
在纵向研究中,我是否应该为在随访中迷失的个体估算在时间2处得出的结果Y?
我在一个人样本中有2次重复测量。在第1时刻有18,000人,在第2时刻有13,000人(失去了5,000人的随访机会)。 我想对在时间1测量的一组预测变量X回归在时间2测量的结果Y(并且在时间1无法测量结果)。所有变量都缺少一些数据。大部分看起来相对随机,或者所观察到的数据似乎很好地描述了缺失。但是,结果Y中的绝大多数缺失是由于后续损失所致。我将使用多个插补(R :: mice),并将使用完整的数据集为X插补值,但是我收到了关于Y插补的2条相互矛盾的建议: 1)在18k的完整样本中从X和V(V =有用的辅助变量)估算Y。 2)不要将Y归因于因追踪而丢失的个体(因此将其从任何后续回归模型中删除)。 前者是有道理的,因为信息就是信息,所以为什么不全部使用它呢?但是后者以更直观的方式也很有意义-根据Y〜X + V估算5000人的结果,然后转回并估算Y〜X似乎是错误的。 哪个(更)正确? 前一个问题很有用,但并不能直接解决由于失去后续行动而造成的失踪(尽管答案可能是相同的;我不知道)。 结果变量的多重插补

2
如何改善R MICE数据插补的运行时间
简而言之,我的问题是:有没有什么方法可以改善R MICE(数据插补)的运行时间? 我正在使用一个数据集(30个变量,130万行),该数据集包含(随机)丢失的数据。30个变量中约15个变量中约有8%包含NA。为了估算丢失的数据,我运行了MICE函数,该函数是MICE软件包的一部分。 我使用method =“ fastpmm”和m = 1甚至在一个子集(100,000行)上都经历了非常慢的运行时间,并且运行了大约15分钟。 有没有一种方法可以改善运行时间而又不会损失太多性能?(mice.impute.mean速度非常快,但是会带来大量的信息丢失!)。 可复制的代码: library(mice) df <- data.frame(replicate(30,sample(c(NA,1:10),1000000,rep=TRUE))) df <- data.frame(scale(df)) output <- mice(df, m=1, method = "fastpmm")

1
为什么这种多重插补质量低下?
考虑以下R代码: > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 如您所见,我对数据进行了大致的设计c = 2*b = 4*a。因此,我希望缺少的值在左右a=1, b=2, c=12。所以我进行了分析: > imp <- mi(data) Beginning Multiple Imputation ( …

1
缺少预测变量的多元回归
假设我们得到了以下形式的一组数据 (y,X1个,X2,⋯ ,Xñ)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n}) 和 (y,X1个,X2,⋯ ,Xn − 1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})。我们被赋予了预测的任务ÿyy 根据的值 Xxx。我们估计两个回归,其中: ÿÿ=F1个(X1个,⋯ ,Xn − 1,Xñ)=F2(X1个,⋯ ,Xn − 1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} 我们还估计了一个回归,该回归预测了 Xñxnx_{n} 根据的值 (X1个,⋯ ,Xn − 1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1}), 那是: Xñ=F3(X1个,⋯ ,Xn − 1)(3)(3)xn=f3(x1,⋯,xn−1) x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3} 假设现在给我们的值为 (X1个,⋯ ,Xn …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.