Questions tagged «data-imputation»

指用于“填充”缺失数据的常规方法。用于执行此操作的方法通常与插值有关(http://en.wikipedia.org/wiki/Interpolation),并且需要有关数据丢失原因的假设(例如“随机丢失”)

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R Caret和NA
我非常喜欢插入符号的参数调整能力和统一的界面,但是我观察到,即使应用的“裸”模型允许使用NA,它始终需要完整的数据集(即没有NA)。这很麻烦,因为应该使用费力的插补方法,而这些方法一开始并不需要。一个人如何逃避归因并仍然使用插入符号优势?

4
估算PCA的缺失值
我使用该prcomp()函数在R中执行PCA(主要成分分析)。但是,该函数中存在一个错误,导致该na.action参数不起作用。我寻求有关stackoverflow的帮助;那里的两个用户提供了两种不同的NA价值观处理方式。但是,这两种解决方案的问题在于,当存在一个NA值时,该行将被删除,并且在PCA分析中不考虑该行。我的真实数据集是100 x 100的矩阵,我不想只因为它包含一个NA值而丢失整行。 下面的示例显示该prcomp()函数不包含第5行的任何主要成分,因为它包含一个NA值。 d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # $ d$V1[5] <- NA # $ result <- prcomp(~V1+V2, data=d, center = TRUE, scale = TRUE, na.action = …

3
使用多重插补时如何为混合效果模型的方差成分组合置信区间
多重插补(MI)的逻辑是不对缺失值进行一次插补,而是对几次(通常为M = 5)次进行插补,从而得出M个完整的数据集。然后使用完整数据方法分析M个完整的数据集,然后使用Rubin公式将M个估计值及其标准误差组合在一起,以获得“总体”估计值及其标准误差。 到目前为止很好,但是当涉及到混合效果模型的方差成分时,我不确定如何应用此配方。方差分量的采样分布是不对称的-因此,不能以典型的“估计±1.96 * se(估计)”形式给出相应的置信区间。因此,R包lme4和nlme甚至不提供方差分量的标准误差,而仅提供置信区间。 因此,我们可以在数据集上执行MI,然后在M个完整的数据集上拟合相同的混合效应模型后,获得每个方差分量的M个置信区间。问题是如何将这M个区间合并为一个“总体”置信区间。 我想这应该是可能的-一篇文章的作者(yucel和demirtas(2010)非正常随机效应对MI推理的影响)似乎已经做到了,但是他们没有确切解释如何做。 任何提示将是非常义务! 干杯啦

5
第5个回答选项(“我不知道”)已添加到5点李克特量表中。数据丢失了吗?
我需要一些帮助,以从问卷调查中挽救数据。 我的一位同事使用了问卷,但无意中没有使用原始的5点李克特量表(强烈不同意表示强烈同意),而是在量表中插入了第六个答案。而且,更糟糕的是,第六个响应选项是……“我不知道”。 问题在于,在某一点或另一点选择“我不知道”的受访者比例很大。如果它们只是一个很小的百分比,我将把它们从数据库中排除掉。但是,研究的核心在于概念模型,排除如此多的记录会给模型带来问题。 有人可以在这里指出正确的方向吗?是否有任何“良好做法”,或者我可以做些什么来使用(转换,转换等)那些“我不知道”的回答? 另外,如果我对相关数据进行了任何处理(即,如果我通过替换,插补等方式转换“我不知道”的响应),则什么样的“免责声明”,“警告”,注释,我应该使用吗? 我知道这是一个漫长的过程,但是我承认,除了挽救回应之外,我还很好奇在这种情况下达成的共识做法(如果有)。 PS:我知道这听起来很幼稚,但是不,“同事”不是我:)

2
如何按时间序列填写缺失的数据?
我有大量的污染数据,在过去的2年中,每10分钟记录一次,但是数据中存在很多空白(其中一些空白一次出现几个星期)。 数据似乎确实是季节性的,与夜间相比,白天的变化很大,在夜间,值没有太大的变化,并且数据点较低。 我考虑过将黄土模型分别适合于白天和晚上的子集(因为它们之间存在明显的差异),然后预测缺失数据的值并将这些点填入。 我想知道这是否是解决此问题的合适方法,是否还需要在预测点中添加局部变化。

1
多次插补后合并校准图
我想对多次插补后合并校准图/统计数据提出建议。在开发统计模型以预测未来事件的设置中(例如,使用医院记录中的数据预测医院出院后的存活或事件),人们可以想象有很多缺失的信息。多重插补是处理这种情况的一种方式,但是导致需要合并每个插补数据集的测试统计数据,并考虑到由于插补固有的不确定性而导致的其他可变性。 我知道有多个校准统计信息(hosmer-lemeshow,Harrell的Emax,估计的校准指数等),可能适用“常规” Rubin合并规则。 但是,这些统计信息通常是校准的总体度量,没有显示模型的特定未校准区域。因此,我宁愿看一下校准图。遗憾的是,我对如何“汇总”图表或背后的数据(每个人的预测概率和每个人的观察到的结果)一无所知,并且在生物医学文献(我熟悉的领域)中找不到很多东西,或在这里,在CrossValidated上。当然,查看每个插补数据集的标定图可能是一个答案,但是当创建许多插补集时(可能会很麻烦)。 因此,我想问一问是否存在可以在多次插补之后合并校准图的技术?

3
解决机器学习中数据丢失问题的方法
几乎我们要使用机器学习算法进行预测的任何数据库都会发现某些特征的缺失值。 有几种解决此问题的方法,以排除具有缺失值的线,直到它们填充特征的平均值为止。 我想使用一种更健壮的方法,该方法基本上将运行回归(或其他方法),其中因变量(Y)将是每个缺少值但仅包含表行的列包含所有数据的对象,并使用此方法预测缺失值,按表填写表格并移至具有缺失值的下一个``列'',然后重复该方法直到所有内容都填满。 但这给了我一些疑问。 为什么任何列开始?我相信缺失值最小的那个直到最大的一个 是否有任何缺失值的阈值不值得尝试完成?(例如,如果此特征仅填充了10%的值,将其排除会更有趣) 在传统软件包或其他方法中是否有任何对丢失有鲁棒性的实现?

5
KNN归因R包
我正在寻找KNN归因软件包。我一直在查看插补包(http://cran.r-project.org/web/packages/imputation/imputation.pdf),但是由于某种原因,KNN 插补功能(即使遵循描述中的示例)也似乎归零(如下所示)。我一直在环顾四周,但仍找不到任何东西,因此想知道是否有人对好的KNN插补包有其他建议? w ^ 在下面的代码中-NA值替换为零-不替换为Knn平均值 require(imputation) x = matrix(rnorm(100),10,10) x.missing = x > 1 x[x.missing] = NA kNNImpute(x, 3) x

2
在估算数据中使用邻居信息或查找偏离数据(在R中)
我有一个数据集,假设最近的邻居是最好的预测变量。只是可视化的双向梯度的完美示例- 假设我们缺少一些值,可以很容易地根据邻居和趋势进行预测。 R中的对应数据矩阵(用于锻炼的虚拟示例): miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE) miss.mat [,1] [,2] [,3] [,4] [,5] [,6] [,7] [1,] 5 6 7 8 9 10 11 [2,] 6 7 8 9 10 NA 12 [3,] 7 8 9 10 11 12 13 …

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 



4
如何处理缺失值,以便为使用LASSO进行特征选择准备数据?
我的情况: 小样本数量:116 二元结果变量 解释变量的长列表:44 解释变量并非来自我的头上;他们的选择基于文献。 样本中的大多数情况和大多数变量的值都缺失。 选择特征的方法:LASSO R的glmnet程序包不允许我运行glmnet例程,这显然是由于我的数据集中缺少值。似乎有多种方法可以处理丢失的数据,所以我想知道: LASSO是否对我可以使用的估算方法施加任何限制? 插补方法的最佳选择是什么?理想情况下,我需要一种可以在SPSS(最好)或R上运行的方法。 UPDATE1:从下面的一些答案中可以明显看出,在考虑插补方法之前,我确实处理了一些更基本的问题。我想在此添加新的问题。在回答中建议将其编码为常数值并创建一个新变量,以处理“不适用”值和组套索的用法: 您是否可以说,如果我使用组LASSO,我将能够对连续预测变量和分类预测变量使用建议的方法?如果是这样,我认为这相当于创建一个新类别-我很警惕这可能会带来偏差。 有人知道R的glmnet软件包是否支持组LASSO吗?如果没有,有人会建议将逻辑回归与之结合的另一种方法吗?在CRAN资料库中可以找到提及LASSO组的几个选项,最适合我的情况的建议是什么?也许是SGL? 这是我的上一个问题(如何从我的原始长列表中选择变量的子集以执行逻辑回归分析?)的后续文章。 OBS:我不是统计学家。

3
与在回归中建立多个模型相比,估算的优势是什么?
我想知道是否有人可以提供为什么缺失数据的插补比仅仅为缺失数据的案例建立不同模型更好的见解。尤其是在[广义]线性模型的情况下(我也许可以看到在非线性情况下情况有所不同) 假设我们有基本的线性模型: ÿ= β1个X1个+ β2X2+ β3X3+ ϵÿ=β1个X1个+β2X2+β3X3+ϵ Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon 但是我们的数据集包含一些缺少记录。在将使用模型的预测数据集中,也将丢失X 3的情况。似乎有两种方法可以进行:X3X3X_3X3X3X_3 多种型号 我们可以将数据分为和非X 3两种情况,并为每种情况建立一个单独的模型。如果我们假设X 3与X 2紧密相关,则丢失的数据模型可以使X 2超重以获得最佳的二变量预测。同样,如果丢失的数据案例略有不同(由于缺少数据机制),则可以合并该差异。不利的一面是,这两个模型只能分别拟合一部分数据,而不能“互相帮助”,因此在有限的数据集上拟合可能较差。X3X3X_3X3X3X_3X3X3X_3X2X2X_2X2X2X_2 归因 回归多重插补将首先通过基于X 1和X 2建立模型来填充,然后随机采样以保持插补数据中的噪声。由于这又是两个模型,这会不会最终与上述的多模型方法相同?如果它能跑赢大市-收益来自何处?仅仅是X 1的拟合在整个集合上完成了吗?X3X3X_3X1个X1个X_1X2X2X_2X1个X1个X_1 编辑: 尽管到目前为止,Steffan的回答说明,将完整的案例模型拟合到推算的数据上将胜过对完整数据的拟合,而且显然相反的事实是正确的,但是对于缺失数据预测仍然存在一些误解。 如果我拥有上述模型,甚至可以完美拟合,那么如果我在预测时仅输入零,则通常将是一个糟糕的预测模型。可以想象,例如,然后X 2是完全无用的(β 2 = 0),当X 3是存在的,但仍然是在不存在有用的X 3。X2= X3+ ηX2=X3+ηX_2 = X_3+\etaX2X2X_2β2= 0β2=0\beta_2 = 0X3X3X_3X3X3X_3 我不明白的关键问题是:构建两个模型,一个使用和一个使用(X 1,X …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.