Questions tagged «missing-data»

当数据存在时,信息(缺口)不足,即不完整。因此,在执行分析或测试时考虑此功能很重要。

4
如何确定两个相关性是否显着不同?
我想确定两组数据(B1,B2)中的哪一组与另一组(A)更好地相关(皮尔森r)。所有数据集中都缺少数据。如何确定所得的相关性是否显着不同? 例如,在A和B1中都存在8426值,r = 0.74。A和B2中都存在8798,r = 0.72。 我认为这个问题可能会有所帮助,但尚未得到答案:如何知道一个系统明显优于另一个系统?

2
随机效应荟萃分析的替代加权方案:遗漏标准偏差
我正在进行一项随机效应的荟萃分析,涉及许多未报告标准差的研究。所有研究均报告样本量。我认为无法估算或估算SD缺失数据。当无法为所有研究提供标准差时,如何使用原始(未标准化)均值差异作为效应量的荟萃分析进行加权?当然,我仍然可以估计tau平方,并希望将研究之间方差的度量合并到我用来留在随机效应框架内的任何加权方案中。 以下包含更多信息: 为什么原始均值差异可能仍然有用:数据以本质上有意义的比例报告:每单位美元。因此,均值差异的荟萃分析将立即得到解释。 为什么我不能近似或估算SD数据:缺少标准差数据的研究没有包含足够的数据来近似标准差(即,文献中从未报道中位数和范围)。估算丢失的数据似乎是不可取的,因为大部分研究都缺少标准差,并且因为研究在覆盖的地理区域和调查协议方面存在很大差异。 在荟萃分析中通常使用原始均值差来完成:研究权重基于均值差的标准误差(通常使用样本量项和合并方差来计算)。我没有这个 在随机效应荟萃分析中,研究权重还包括研究之间差异的术语。我有这个。 在这种情况下,可以使用简单的样本大小逆加权吗?我如何将我对tau平方的估计(或研究间差异的其他某种度量方法)纳入权重?

2
随着时间的推移纳入更详细的解释变量
我试图了解如何最好地建模一个变量,随着时间的推移,我已经获得了越来越详细的预测变量。例如,考虑对拖欠贷款的回收率建模。假设我们有一个包含20年数据的数据集,并且在那15年中,我们仅知道贷款是否已抵押,而对于抵押的特征一无所知。但是,在过去的五年中,我们可以将抵押品划分为一系列类别,这些类别可以很好地预测回收率。 给定此设置后,我要使模型适合数据,确定度量标准,例如预测变量的统计显着性,然后使用模型进行预测。 这适合什么缺失的数据框架?是否有与以下事实相关的特殊考虑:更详细的解释变量仅在给定的时间点之后才可用,而不是分散在整个历史样本中?

1
当某些输入缺少值(NA)时使用randomForest(R)进行预测
我有一个很好的randomForest分类模型,可以在预测新案例类的应用程序中使用。新案例不可避免地缺少价值。预测不适用于NA。那我该怎么办呢? data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ ., data=iris[-na.row,]) # print(iris.rf) myrf.pred <- predict(iris.rf, case.na[-5], type="response") myrf.pred [1] <NA> 我试过了missForest。我将原始数据和新案例结合在一起missForest,与进行了比较,并在新案例中获得了NA的估算值。虽然计算量太大。 data.imp <- missForest(data.with.na) 但是必须有一种方法可以使用rf-model来预测缺少值的新情况,对吗?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
缺少预测变量的多元回归
假设我们得到了以下形式的一组数据 (y,X1个,X2,⋯ ,Xñ)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n}) 和 (y,X1个,X2,⋯ ,Xn − 1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})。我们被赋予了预测的任务ÿyy 根据的值 Xxx。我们估计两个回归,其中: ÿÿ=F1个(X1个,⋯ ,Xn − 1,Xñ)=F2(X1个,⋯ ,Xn − 1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align} 我们还估计了一个回归,该回归预测了 Xñxnx_{n} 根据的值 (X1个,⋯ ,Xn − 1)(x1,⋯,xn−1)(x_{1},\cdots, x_{n-1}), 那是: Xñ=F3(X1个,⋯ ,Xn − 1)(3)(3)xn=f3(x1,⋯,xn−1) x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3} 假设现在给我们的值为 (X1个,⋯ ,Xn …

4
使用Matlab自相关和神经网络时,如何处理时间序列数据中的缺口/ NaN?
我有一个时间序列的测量值(高度一维序列)。在观察期内,测量过程下降了一些时间点。因此,所得数据是带有NaN的矢量,其中数据中存在间隙。使用MATLAB,这在计算自相关(autocorr)和应用神经网络(nnstart)时给我带来了问题。 这些差距/ NaN应该如何处理?我应该将它们从载体中删除吗?还是将其条目替换为插值?(如果是这样,那么在MATLAB中如何操作)

3
处理分类变量的“不知道/拒绝”级别
我正在使用Logistic回归建模糖尿病预测。所使用的数据集是疾病控制中心(CDC)的 行为危险因素监视系统(BRFSS)。自变量之一是高血压。分为以下级别“是”,“否”,“不知道/拒绝”。在构建模型时,是否应使用“不知道/拒绝”删除那些行?从模型中保留或删除这些行有什么区别?

7
大小不相等的两个变量之间的相关性
在我正在处理的问题中,我有两个随机变量X和Y。我需要弄清楚这两个变量之间的相关性如何,但是它们的维数不同。X的行空间的等级为4350,Y的行空间的等级实质上较大,为数万。X和Y的列数相同。 我需要测量两个变量之间的相关性,而Pearson的r要求X和Y具有相等的维数(至少R要求两个rv是)。 我是否有希望在这两者之间建立关联,还是应该找到一些方法来删减Y的观测值? EDIT 从评论中添加信息,应该在问题中。 我想我忘了提这个了。X和Y是股票价格。X公司的上市时间比Y公司短得多。我想说一下X和Y的价格之间的相关性。在X和Y都存在的一段时间内,我肯定可以得到一个相关性。我想知道是否知道X并不存在的Y的额外几年的股价为我提供了任何其他信息。

2
如何确定缺少数据的生存模型是否合适?
稍微简化一点,我有大约一百万条记录,记录了系统中大约十年的人员进入和退出时间。每个记录都有一个进入时间,但不是每个记录都有一个退出时间。系统中的平均时间约为1年。 缺少退出时间的原因有两个: 捕获数据时,该人尚未离开系统。 没有记录该人的离开时间。碰巧是记录的50% 感兴趣的问题是: 人们在系统上花费的时间更少了吗? 是否记录了更多的退出时间,以及有多少。 我们可以通过说出口被记录的概率随时间线性变化,并且系统中的时间具有一个威布尔(Weibull),其参数随时间线性变化来对此建模。然后,我们可以对各种参数进行最大似然估计,并仔细研究结果并认为它们是合理的。我们选择了Weibull分布,因为它似乎用于测量寿命,并且说起来有趣,而不是比说gamma分布更好地拟合数据。 我应该在哪里寻找有关如何正确执行此操作的线索?我们在数学上有些精明,但在统计学上却不是很精明。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.