Questions tagged «missing-data»

当数据存在时,信息(缺口)不足,即不完整。因此,在执行分析或测试时考虑此功能很重要。

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

3
时间序列上的STL具有缺失值以进行异常检测
我正在尝试在气候数据的时间序列中检测到一些异常值,但缺少一些观测值。在网上搜索,我发现了许多可用的方法。从消除趋势和季节性成分并研究其余部分的意义上讲,其中的stl分解似乎很有吸引力。阅读STL:一种基于黄土的季节性趋势分解程序,stl在确定分配可变性的设置方面似乎很灵活,不受异常值的影响,即使缺少值也可以应用。但是,尝试使用R,经过四年的观察并根据http://stat.ethz.ch/R-manual/R-patched/library/stats/html/stl.html定义所有参数,我遇到了错误: "time series contains internal NAs"(当时na.action=na.omit)和 "series is not periodic or has less than two periods"(当时na.action=na.exclude)。 我仔细检查了频率是否正确定义。我在博客中看到了相关问题,但是没有找到任何可以解决此问题的建议。不可能stl在缺少值的系列中应用?我非常不愿意对它们进行插值,因为我不想引入(并因此检测...)工件。出于同样的原因,我不知道改为使用ARIMA方法是多么明智(如果缺少值仍然是个问题)。 如果您知道一种适用stl于缺失值的系列的方法,或者您认为我的选择在方法上不合理,或者您有更好的建议,请分享。我是该领域的新手,但堆满了(似乎...)相关信息。

2
单个变量中80%的丢失数据
我的数据中有一个变量有80%的缺失数据。由于不存在(即公司欠多少银行贷款)而导致数据丢失。我碰到一篇文章,说伪变量调整方法是解决此问题的方法。这意味着我需要将此连续变量转换为分类变量吗? 这是唯一的解决方案吗?从理论上讲,我不想删除该变量,这对我的研究问题很重要。

3
处理不完整/丢失数据的技术
我的问题是针对在分类器/模型训练/拟合期间处理不完整数据的技术。 例如,在一个有几百行的数据集中,每行有五个维度和一个类标签作为最后一项,大多数数据点看起来像这样: [0.74、0.39、0.14、0.33、0.34、0] 一些可能看起来像这样: [0.21、0.68,?,0.82、0.58、1] 因此,正是这些数据点类型成为了本课题的重点。 我问这个问题的最初原因是我面前的一个问题。但是,在发布我的问题之前,我认为如果我重新措辞可能会更有用,因此答案对于社区的更大一部分将很有用。 作为一种简单的启发式方法,让我们根据在处理流程中使用数据的时间(在输入到分类器之前或期间)对这些数据处理技术进行划分(即,该技术位于分类器内部)。 我可以为后者想到的最好的例子是决策树中使用的巧妙的“三向分支”技术。 毫无疑问,前者的范围更大。我知道的所有技术都属于以下组之一。 最近,当我查看有关“缺少数据处理”的个人笔记时,我注意到我掌握了许多令人印象深刻的技术。我只是保留这些注释,以使一般人安心,以防万一初级同事问我如何处理丢失的数据。在实际实践中,除了最后一个,我实际上没有使用任何一个。 归因(imputation):这套技术的广泛适用范围,其共同点(我相信)是,缺失的数据直接由同一数据集提供-替代而不是估计/预测。 重构:使用自动关联网络(只是输入和输出层大小相等的神经网络,换句话说,输出与输入具有相同的维度)来估计丢失的数据点;这里的想法是在完整的数据上训练该网络,然后为它提供不完整的模式,并从输出节点读取缺少的值。 引导程序:(鉴于统计分析中的其他用途,因此我不认为没有摘要是必要的)。 拒绝:从训练集中悄悄删除缺少/损坏元素的数据点,并假装它们不存在。

3
在计算相关矩阵时,丢弃带有缺失值的观测值是否存在严重问题?
我有2500个变量和142个观测值的庞大数据集。 我想在变量X和其余变量之间运行关联。但是对于许多列,缺少条目。 我尝试使用“成对完成”参数(use=pairwise.complete.obs)在R中执行此操作,并输出了一堆相关性。但是随后StackOverflow上的某人发布了指向本文http://bwlewis.github.io/covar/missing.html的链接,这使R中的“成对完成”方法显得无法使用。 我的问题:我怎么知道什么时候适合使用“成对完成”选项? 我use = complete.obs回来了no complete element pairs,所以如果您能解释一下这也意味着什么,那就太好了。


3
如何使用glmnet以收缩(套索)方法处理NA值
我在GWAS中使用“ glmnet”进行套索回归。某些变体和个人缺少值,并且glmnet似乎无法处理丢失的值。 有什么解决办法吗?还是有其他软件包可以处理套索回归中的缺失值? 这是我的脚本。 > library(glmnet) > geno6<-read.table("c6sigCnt.geno") > geno6[1:10,1:10] #genotype file (0,1,2 for minor allele counts) V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 1 1 1 1 1 1 1 1 1 1 0 2 NA NA 1 1 1 1 1 1 1 1 3 …

3
如何处理不存在或缺失的数据?
我尝试了一种预测方法,并想检查我的方法是否正确。 我的研究正在比较不同种类的共同基金。我想使用GCC指数作为其中一个的基准,但问题是GCC指数于2011年9月停止,我的研究时间是2003年1月至2014年7月。因此,我尝试使用另一个指数MSCI指数,进行线性回归,但问题在于MSCI指数缺少2010年9月以来的数据。 为了解决这个问题,我做了以下工作。这些步骤有效吗? MSCI指数缺少2010年9月到2012年7月的数据。我通过应用五个观察值的移动平均值来“提供”该数据。这种方法有效吗?如果是这样,我应该使用多少个观测值? 在估计了缺失的数据之后,我对相互可用期间(从2007年1月到2011年9月)的GCC指数(作为因变量)与MSCI指数(作为自变量)进行了回归,然后针对所有问题对模型进行了校正。对于每个月,我将其余时间段的x替换为MSCI索引中的数据。这有效吗? 以下是逗号分隔值格式的数据,其中包含按行的年和按列的月。也可以通过此链接获得数据 。 系列GCC: ,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec 2002,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,117.709 2003,120.176,117.983,120.913,134.036,145.829,143.108,149.712,156.997,162.158,158.526,166.42,180.306 2004,185.367,185.604,200.433,218.923,226.493,230.492,249.953,262.295,275.088,295.005,328.197,336.817 2005,346.721,363.919,423.232,492.508,519.074,605.804,581.975,676.021,692.077,761.837,863.65,844.865 2006,947.402,993.004,909.894,732.646,598.877,686.258,634.835,658.295,672.233,677.234,491.163,488.911 2007,440.237,486.828,456.164,452.141,495.19,473.926,492.782,525.295,519.081,575.744,599.984,668.192 2008,626.203,681.292,616.841,676.242,657.467,654.66,635.478,603.639,527.326,396.904,338.696,308.085 2009,279.706,252.054,272.082,314.367,340.354,325.99,326.46,327.053,354.192,339.035,329.668,318.267 2010,309.847,321.98,345.594,335.045,311.363,299.555,310.802,306.523,315.496,324.153,323.256,334.802 2011,331.133,311.292,323.08,327.105,320.258,312.749,305.073,297.087,298.671,NA,NA,NA 系列MSCI: ,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec 2007,NA,NA,NA,NA,1000,958.645,1016.085,1049.468,1033.775,1118.854,1142.347,1298.223 2008,1197.656,1282.557,1164.874,1248.42,1227.061,1221.049,1161.246,1112.582,929.379,680.086,516.511,521.127 2009,487.562,450.331,478.255,560.667,605.143,598.611,609.559,615.73,662.891,655.639,628.404,602.14 2010,601.1,622.624,661.875,644.751,588.526,587.4,615.008,606.133,NA,NA,NA,NA 2011,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA 2012,NA,NA,NA,NA,NA,NA,NA,609.51,598.428,595.622,582.905,599.447 2013,627.561,619.581,636.284,632.099,651.995,651.39,687.194,676.76,694.575,704.806,727.625,739.842 2014,759.036,787.057,817.067,824.313,857.055,805.31,873.619,NA,NA,NA,NA,NA

2
如何处理不存在(不丢失)的数据?
我从未真正找到任何好的文本或示例来说明如何处理任何分类器输入的“不存在”数据。我已经阅读了很多有关丢失数据的信息,但是对于与多变量输入相关的不存在或不存在的数据,该怎么办。我了解这是一个非常复杂的问题,并且会根据所使用的培训方法而有所不同... 例如,如果尝试使用良好的准确数据来预测多个跑步者的运动时间。在许多输入中,许多中可能的变量是: 输入变量-第一次跑步(是/否) 输入变量-前一圈时间(0-500秒) 输入变量-年龄 输入可变高度。。。更多输入变量等 &Output Predictor-预测的延迟时间(0-500秒) 可以通过几种方式(“ 1”)计算“ 2.之前的转圈时间”的“缺失变量”。第一次跑步者将始终等于N。但是对于初次跑步的“不存在数据”(其中“ 1.初次跑步” = Y),我应该给“ 2”赋予什么价值/待遇。前一圈吗? 例如,分配“ 2。之前的“ -99”或“ 0”之间的圈速会严重影响分布,使新跑步者表现良好。 我目前的培训方法是使用Logistic回归,SVM,NN和决策树

2
某人会喜欢图像的可能性
我遇到以下问题: -我们设置了N个人 -我们设置了K张图片 -每个人都对一定数量的图片进行评分。一个人可能喜欢或不喜欢图像(这是仅有的两个可能性)。-问题是如何计算某些人喜欢特定图像的可能性。 我将举例说明我的直觉。 N = 4 K = 5 +表示该人喜欢该图像 -表示该人不喜欢该图像 0表示尚未向该人询问该图像,并且应该预测该值 x 1 2 3 4 5 1 + - 0 0 + 2 + - + 0 + 3 - - + + 0 4 - 0 - - - 人1可能喜欢图像3,因为人2具有相似的偏好,人2喜欢图像3。 人4可能不喜欢图像2,因为没有人喜欢它,另外人4不喜欢大多数图像。 有没有众所周知的方法可以用来计算这种可能性?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
基于精度(即反方差)的加权是否是荟萃分析不可或缺的?
基于精度的加权是荟萃分析的核心吗?Borenstein等。(2009)写道,为了使荟萃分析成为可能,所有必要的是: 研究报告的点估计值可以表示为单个数字。 可以为该点估计计算方差。 我尚不清楚为什么(2)绝对必要。但是,实际上,所有被广泛接受的荟萃分析方法都依赖于基于精度的(即逆方差)加权方案,这确实需要估算每个研究的效应量的方差。请注意,虽然对冲方法(Hedges&Olkin,1985; Hedges&Vevea,1998)和Hunter and Schmidt's Method(Hunter&Schmidt,2004)基本上都使用样本大小加权,但这些方法仅适用于归一化均值差,因此需要其他地方的标准差。在每个研究中与方差成反比的权重将使总效应量估计器中的方差最小化是有意义的,那么这种加权方案是否是所有方法的必要特征? 是否有可能进行系统的评估而无需访问每种效应量的方差,仍将结果称为荟萃分析?当方差不可用时,样本量似乎有可能替代精度。例如,在一项将效应量定义为原始均值差的研究中,可以使用样本量权重吗?这将如何影响结果平均大小的一致性和效率?

3
与在回归中建立多个模型相比,估算的优势是什么?
我想知道是否有人可以提供为什么缺失数据的插补比仅仅为缺失数据的案例建立不同模型更好的见解。尤其是在[广义]线性模型的情况下(我也许可以看到在非线性情况下情况有所不同) 假设我们有基本的线性模型: ÿ= β1个X1个+ β2X2+ β3X3+ ϵÿ=β1个X1个+β2X2+β3X3+ϵ Y = \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon 但是我们的数据集包含一些缺少记录。在将使用模型的预测数据集中,也将丢失X 3的情况。似乎有两种方法可以进行:X3X3X_3X3X3X_3 多种型号 我们可以将数据分为和非X 3两种情况,并为每种情况建立一个单独的模型。如果我们假设X 3与X 2紧密相关,则丢失的数据模型可以使X 2超重以获得最佳的二变量预测。同样,如果丢失的数据案例略有不同(由于缺少数据机制),则可以合并该差异。不利的一面是,这两个模型只能分别拟合一部分数据,而不能“互相帮助”,因此在有限的数据集上拟合可能较差。X3X3X_3X3X3X_3X3X3X_3X2X2X_2X2X2X_2 归因 回归多重插补将首先通过基于X 1和X 2建立模型来填充,然后随机采样以保持插补数据中的噪声。由于这又是两个模型,这会不会最终与上述的多模型方法相同?如果它能跑赢大市-收益来自何处?仅仅是X 1的拟合在整个集合上完成了吗?X3X3X_3X1个X1个X_1X2X2X_2X1个X1个X_1 编辑: 尽管到目前为止,Steffan的回答说明,将完整的案例模型拟合到推算的数据上将胜过对完整数据的拟合,而且显然相反的事实是正确的,但是对于缺失数据预测仍然存在一些误解。 如果我拥有上述模型,甚至可以完美拟合,那么如果我在预测时仅输入零,则通常将是一个糟糕的预测模型。可以想象,例如,然后X 2是完全无用的(β 2 = 0),当X 3是存在的,但仍然是在不存在有用的X 3。X2= X3+ ηX2=X3+ηX_2 = X_3+\etaX2X2X_2β2= 0β2=0\beta_2 = 0X3X3X_3X3X3X_3 我不明白的关键问题是:构建两个模型,一个使用和一个使用(X 1,X …

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
JAGS中的响应变量中缺少值
Gelman&Hill(2006)说: 在Bug中,只需包含数据向量,NA和所有元素,就可以轻松处理回归中的缺失结果。Bug显式地对结果变量进行建模,因此使用此模型来在每次迭代中估算缺失值是很简单的。 这听起来像是使用JAGS进行预测的简单方法。但是,结果缺失的观察结果也会影响参数估计吗?如果是这样,是否有一种简单的方法将这些观测值保留在JAGS看到的数据集中,但又不影响参数估计呢?我当时在考虑cut函数,但这仅在BUGS中可用,而在JAGS中不可用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.