Questions tagged «missing-data»

当数据存在时,信息(缺口)不足,即不完整。因此,在执行分析或测试时考虑此功能很重要。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


3
多次插补后的倾向得分匹配
我指的是这篇文章:Hayes JR,Groner JI。 “使用多个归因和倾向评分,通过创伤登记数据来测试汽车座椅和安全带的使用对伤害严重性的影响。” J Pediatr外科。2008年5月; 43(5):924-7。 在这项研究中,进行了多次插补以获得15个完整的数据集。然后为每个数据集计算倾向得分。然后,对于每个观察单位,从完成的15个数据集中的一个数据集中随机选择一个记录(包括相关的倾向得分),从而创建一个最终的数据集,然后通过倾向得分匹配对其进行分析。 我的问题是:在多次插补之后执行倾向得分匹配的有效方法吗?有其他替代方法吗? 对于上下文:在我的新项目中,我旨在比较使用倾向得分匹配的两种治疗方法的效果。缺少数据,我打算使用MICER中的包来估算缺失值,然后twang进行倾向得分匹配,然后lme4分析匹配的数据。 更新1: 我发现这个纸,它采用不同的方法:米特拉,Robin和莱特尔,杰罗姆P.缺少经由迭代协变量(2011)倾向评分匹配,顺序的多个插补[工作文件] 在本文中,作者计算了所有估算数据集的倾向得分,然后通过平均将其合并,这符合使用鲁宾规则进行点估算的多次插补的精神-但这真的适用于倾向得分吗? 如果CV上的任何人都可以对这两种不同的方法和/或任何其他方法提供评论并给出答案,那真是太好了。


3
R如何处理lm中的缺失值?
我想针对矩阵A中的每一列对向量B进行回归。如果没有缺失数据,这是微不足道的,但是如果矩阵A包含缺失值,那么我对A的回归就被约束为仅包含所有存在值(默认的na.omit行为)。对于没有缺失数据的列,这会产生不正确的结果。我可以将列矩阵B相对于矩阵A的各个列进行回归,但是我要完成数千次回归,这是缓慢而乏味的。该na.exclude功能似乎是专为这种情况下,但我不能让它工作。我在这里做错了什么?如果重要,请在OSX上使用R 2.13。 A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) # Missing value in first column; now we have 9 residuals A[1,1] = NA dim(lm(A~B)$residuals) #[1] 9 2 (the expected 9 residuals, given na.omit() is the default) # …

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

3
R Caret和NA
我非常喜欢插入符号的参数调整能力和统一的界面,但是我观察到,即使应用的“裸”模型允许使用NA,它始终需要完整的数据集(即没有NA)。这很麻烦,因为应该使用费力的插补方法,而这些方法一开始并不需要。一个人如何逃避归因并仍然使用插入符号优势?

5
机器学习算法来处理丢失的数据
我正在尝试使用包括实验室值在内的高维度临床数据来开发预测模型。数据空间稀疏,包含5k个样本和200个变量。想法是使用特征选择方法(IG,RF等)对变量进行排名,并使用排名靠前的特征来开发预测模型。 尽管使用朴素贝叶斯方法进行的特征选择进展顺利,但由于变量空间中缺少数据(NA),我现在在实现预测模型时遇到了一个问题。是否有任何机器学习算法可以仔细处理缺少数据的样本?

2
为什么期望最大化算法可以保证收敛到局部最优值?
我已经阅读了一些关于EM算法的解释(例如,来自Bishop的模式识别和机器学习以及Roger和Gerolami的第一门机器学习课程)。我理解EM的派生是可以的。我还理解了为什么算法会覆盖某些东西:在每一步我们都会改善结果,并且似然性以1.0为界,因此,通过使用一个简单的事实(如果函数增加并且有界则收敛),我们知道算法会收敛为一些解决方案。 但是,我们怎么知道它是局部最小值?在每一步中,我们仅考虑一个坐标(潜在变量或参数),因此我们可能会遗漏某些东西,例如局部最小值要​​求同时移动两个坐标。 我相信这与EM是一个实例的一般爬山算法类似。因此,对于一般的爬山算法,对于函数f(x,y)= x * y,我们会遇到这个问题。如果我们从(0,0)点开始,那么只有同时考虑两个方向,我们才能从0值向上移动。

4
威布尔分布的EM最大似然估计
注意: 我发布的是我的一位前学生的问题,由于技术原因,他自己无法发布。 给定来自pdf的Weibull分布的iid样本, 那里是有用的缺失变量表示 ,因此可以使用关联的EM(期望最大化)算法来查找的MLE ,而不是直接使用数值优化?x1,…,xnx1,…,xñx_1,\ldots,x_nFķ(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk(x)=∫Zgk(x,z)dzfk(x)=∫Zgk(x,z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

4
估算PCA的缺失值
我使用该prcomp()函数在R中执行PCA(主要成分分析)。但是,该函数中存在一个错误,导致该na.action参数不起作用。我寻求有关stackoverflow的帮助;那里的两个用户提供了两种不同的NA价值观处理方式。但是,这两种解决方案的问题在于,当存在一个NA值时,该行将被删除,并且在PCA分析中不考虑该行。我的真实数据集是100 x 100的矩阵,我不想只因为它包含一个NA值而丢失整行。 下面的示例显示该prcomp()函数不包含第5行的任何主要成分,因为它包含一个NA值。 d <- data.frame(V1 = sample(1:100, 10), V2 = sample(1:100, 10), V3 = sample(1:100, 10)) result <- prcomp(d, center = TRUE, scale = TRUE, na.action = na.omit) result$x # $ d$V1[5] <- NA # $ result <- prcomp(~V1+V2, data=d, center = TRUE, scale = TRUE, na.action = …


5
确定数据是否随机丢失的统计方法
我有大量的特征向量,可以用来解决二进制分类问题(在Python中使用scikit learning)。在开始考虑归因之前,我有兴趣尝试从数据的其余部分确定丢失的数据是“随机丢失”还是不是随机丢失。 解决这个问题的明智方法是什么? 事实证明,更好的问题是询问数据是否“完全随机丢失”。什么是明智的做法?

2
多次插补后如何合并后均值和可信区间?
我使用多重插补来获得许多完整的数据集。 我已经在每个完整的数据集上使用贝叶斯方法来获取参数的后验分布(随机效应)。 如何合并/合并此参数的结果? 更多内容: 就个别学生(每个学生一个观察)聚集在学校的意义而言,我的模型是分层的。我对数据进行了多次插补(MICE在R中使用),我将其school作为丢失数据的预测变量之一包括在内-试图将数据层次结构合并到插补中。 我已经为每个完整的数据集拟合了一个简单的随机斜率模型(MCMCglmm在R中使用)。结果是二进制的。 我发现随机斜率方差的后验密度在某种意义上是“表现良好的”: 对于这种随机效应,如何合并/合并来自每个估算数据集的后均值和可信区间? 更新1: 据我到目前为止的了解,我可以将鲁宾的规则应用于后验均值,以给出一个倍增的后验均值-这样做有什么问题吗?但是我不知道如何合并95%的可信区间。另外,由于每个插补都有一个实际的后验密度样本-我可以以某种方式将它们组合吗? Update2: 根据@cyan在评论中的建议,我非常喜欢简单地组合从多个插补的每个完整数据集获得的后验分布样本的想法。但是,我想知道这样做的理论依据。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.