Questions tagged «censoring»

审查过程只产生带有部分信息的数据。审查的最常见示例是生存分析中的“正确审查”,其中直到事件发生的时间才知道比某个持续时间更长,因为在研究结束时事件并未发生。

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
我们有“可怜的投票”问题吗?
我知道,这听起来像是题外话,但请听我说。 在Stack Overflow上,我们在这里对文章进行投票,所有信息都以表格形式存储。 例如: 帖子ID投票者ID投票类型日期时间 ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... 等等。投票类型2是反对,投票类型3是反对。您可以在http://data.stackexchange.com上查询此数据的匿名版本。 有一种看法认为,如果帖子的得分达到-1或更低,则更有可能被推荐。这可能仅仅是确认偏差,也可能是根源。 我们将如何分析这些数据以确认或否认这一假设?我们将如何衡量这种偏见的影响?

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
删节和截断有什么区别?
在《生命周期数据的统计模型和方法》一书中,它写为: 审查:由于某种随机原因导致观察不完整时。 截断:当观察结果的不完全是由于研究设计所固有的系统选择过程而导致的。 截断定义中的“研究设计固有的系统选择过程”是什么意思? 删节和截断有什么区别?

3
如何为这种奇形分布建模(几乎是反向J型)
下面显示的我的因变量不适合我所知的任何股票分布。线性回归会以某种奇怪的方式生成与预测的Y相关的某种非正态,右偏残差(第二个图)。对转换或以其他方式获得最有效结果和最佳预测准确性的任何建议?如果可能,我希望避免将笨拙的分类分为5个值(例如0,lo%,med%,hi%,1)。

3
多重删失数据的协方差矩阵的无偏估计
环境样品的化学分析通常低于报告限值或各种检测/定量限值。后者通常可以与其他变量的值成比例地变化。例如,可能需要稀释一种化合物的高浓度样品进行分析,从而导致该样品中同时分析的所有其他化合物的检测限按比例膨胀。再举一个例子,有时化合物的存在会改变测试对其他化合物的响应(“基质干扰”)。当实验室检测到这种情况时,它将相应地提高其报告限值。 我正在寻找一种实用的方法来估算此类数据集的整个方差-协方差矩阵,尤其是当许多化合物经历了超过50%的检查时,这种情况经常发生。传统的分布模型是(真实)浓度的对数呈多态正态分布,这在实践中似乎很合适,因此针对这种情况的解决方案将很有用。 (“实用”是指一种方法,该方法可以在至少一个普遍可用的软件环境(例如R,Python,SAS等)中可靠地进行编码,并且其执行速度足以支持迭代的重新计算(例如多次插补),且这种情况相当稳定[这就是为什么我不愿探索BUGS实现的原因,尽管通常欢迎使用贝叶斯解决方案]。 预先非常感谢您对此事的想法。

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
什么是“目标最大可能性期望”?
我正在尝试了解Mark van der Laan的一些论文。他是伯克利大学的理论统计学家,致力于解决与机器学习显着重叠的问题。对我来说(除深层数学运算之外)一个问题是,他经常最终会使用完全不同的术语来描述熟悉的机器学习方法。他的主要概念之一是“目标最大可能性期望”。 TMLE用于分析非对照实验中的删失观测数据,即使存在混杂因素也可以进行效果评估。我强烈怀疑许多相同的概念在其他领域以其他名称存在,但是我对它的理解还不够深入,无法直接将其与任何事物匹配。 尝试将差距缩小到“计算数据分析”的方法是: 进入数据科学时代:目标学习和统计与计算数据分析的集成 这里是统计学家的简介: 基于目标最大似然的因果推断:第一部分 从第二个开始: 在本文中,我们针对多个时间点干预的因果效应开发了一种特定的针对性最大似然估计器。这涉及使用基于损失的超级学习来获得G计算公式的未知因子的初始估计,然后将目标参数特定的最佳波动函数(最不利的参数子模型)应用于每个估计因子,用最大似然估计来估计波动参数,并迭代初始因子的此更新步骤,直到收敛为止。这个迭代目标最大似然更新步骤使得因果效应的最终估计量在初始估计量是否一致的情况下也是一致的,因此具有两倍的鲁棒性,或最佳波动函数的估计值是一致的。如果正确地指定了因果图中所介入的节点的条件分布,则可以正确地指定最佳波动函数。 用他的术语来说,“超级学习”是具有理论上合理的非负加权方案的整体学习。但是他的意思是“将目标参数特定的最佳波动函数(最不利的参数子模型)应用于每个估计因子”。 或将其分为三个不同的问题,TMLE在机器学习中是否具有并行性?什么是“最不利的参数子模型”?其他领域的“波动函数”是什么?

5
审查数据到底是什么?
我已经阅读了审查数据的不同描述: A)如该线程中所述,审查低于或高于某个阈值的未量化数据。未量化表示数据高于或低于某个阈值,但我们不知道确切值。然后在回归模型中将数据标记为低阈值或高阈值。它与本演示文稿中的描述相符,我发现它很清楚(第一页的第二张幻灯片)。换句话说,因为我们不知道该范围之外的真实值,所以将YYY限制为最小值,最大值或两者均设为上限。 B)一个朋友告诉我,只要我们至少有一些关于未知Y i结果的极限信息,我们就可以对部分未知的 YYY观测值应用审查数据模型。例如,我们希望基于一些定性标准(商品类型,国家/地区,投标人的财富等)来估计无声拍卖和公开拍卖的最终价格。对于公开拍卖,我们知道所有最终价格Y i,对于无声拍卖,我们只知道第一个出价(例如$ 1,000),而不是最终价格。有人告诉我,在这种情况下,数据是从上方进行审查的,因此应采用审查后的回归模型。YiYiY_iYiYiY_i C)最后是Wikipedia给出的定义,其中YYY完全缺失,但预测变量可用。我不确定此示例与截断的数据有何不同。 那么,检查数据到底是什么呢?

2
赖曼在生存分析中对审查的解释
我已经阅读了什么是审查,以及如何在生存分析中考虑它,但是我想听听它的数学定义少而定义直观(图片很棒!)。谁能为我提供以下解释:1)审查和2)它如何影响像Kaplan-Meier曲线和Cox回归之类的事情?

1
当因变量具有“截止”时建模
如果我使用的任何术语不正确,请提前道歉。我欢迎任何纠正。如果我所说的“截断”使用不同的名称,请告诉我,我可以更新问题。 我感兴趣的情况是:您有自变量和一个因变量。我将保持模糊,但是假设为这些变量获得良好的回归模型将相对简单。xx\bf{x}yyy 但是,您要创建的模型是针对自变量xx\bf{x}和因变量w=min(y,a)w=min(y,a)w = \min(y,a),其中aaa是y范围内的某个固定值yyy。同样,您有权访问的数据不包含yyy,仅包含www。 一个(有些不切实际的)例子是,如果您试图模拟人们将领取养老金的年限。在这种情况下,xx\bf{x}可能是相关信息,例如性别,体重,每周运动时间等。“基本”变量yyy是预期寿命。但是,您可以访问并试图在模型中预测的变量将是w=min(0,y−r)w=min(0,y−r)w = \min(0, y-r),其中r是退休年龄(为简单起见,它是固定的)。 在回归建模中是否有解决此问题的好方法?

2
按年龄段划分的大师级头衔资格的平均年龄偏倚?
众所周知,自1950年代以来,国际象棋棋手成功获得大师级头衔的最年轻年龄已大大降低,目前有近30位棋手在15岁生日之前成为大师级棋手。但是,Chess Stack Exchange上有一个问题,询问成为大师的平均年龄是多少?。 有人发布了一个答案,他(我假设是他)查看了六个大师的子集,并得出以下结果: 对于1945年以后出生的球员,平均年龄略高于26岁。 对于1970年以后出生的球员,平均年龄略高于23岁。 对于1975年以后出生的球员,平均年龄略高于22岁。 对于1980年以后出生的玩家,平均年龄为21岁。 对于1985年以后出生的球员,平均年龄不到20岁。 对于1990年以后出生的球员,平均年龄为18.5岁。 (对我来说,尚不完全清楚,例如第一组是否包含1945年以后出生的所有大师(这使它成为下一组的超集)还是仅包含1945年至1970年之间(年龄段)的大师。我认为是前者和我的问题在两种情况下都适用。) 问题在于,在1990年之后出生的玩家在答案发布时(2015年7月)还不到26岁,因此平均“ GM年龄”为26岁是不可能的。答案中最年轻的子集自然会切断任何超过25,而“较旧”的子集则没有。这不歪曲或偏向结果吗?(这是一种选择偏见吗?我没有统计学背景,阅读一些相关的Wikipedia条目也无济于事。)如果是,应该(或可以)减轻这种情况?在“较老的”组中,是否应仅以GM头衔资格的平均计算来考虑在26岁之前获得该头衔的球员?

1
在左侧删节的数据上使用标准的机器学习工具
我正在开发一个预测应用程序,其目的是允许进口商预测其分销商客户网络对其产品的需求。只要有足够的库存来满足需求,销售数字就可以很好地满足需求。但是,当库存减少到零时(我们正在努力帮助客户避免这种情况),我们对错过目标的了解并不多。如果客户有足够的供应量,他们将进行多少次销售?使用Sales作为简单目标变量的基于标准回归的ML方法将对时间,我的描述性变量和需求之间的关系产生不一致的估计。 Tobit建模是解决该问题的最明显方法:http : //en.wikipedia.org/wiki/Tobit_model。我想知道随机森林,GBMS,SVM和神经网络的ML适应性也占数据的左手检查结构的原因。 简而言之,如何将机器学习工具应用于左删失的回归数据,以获得对因变量和自变量之间关系的一致估计?首先是R中可用的解决方案,其次是Python。 干杯, 亚伦

2
JAGS中的审查/截断
我有一个关于如何在JAGS中解决审查问题的问题。 我观察到X值存在测量误差的双变量混合法线。我想对观察到的检查值的真正基础“手段”建模。 ⌈ X牛逼[R ü è+ ε ⌉ = Xø b 小号Ë - [R v ë d ε 〜Ñ(0 ,s ^ d= .5 )⌈XŤ[RüË+ϵ⌉=XØbsË[RvËd ϵ〜ñ(0,sd=.5)\begin{align*} \lceil x_{true}+\epsilon \rceil = x_{observed} \ \epsilon \sim N(0,sd=.5) \end{align*} 这是我现在所拥有的: for (i in 1:n){ x[i,1:2]~dmnorm(mu[z[i],1:2], tau[z[i],1:2,1:2]) z[i]~dcat(prob[ ]) } Y也有测量误差。我想做的是这样的: for (i in 1:n){ …

1
0删减的多元法线的均值和方差是多少?
设在。的均值和协方差矩阵是什么(最大逐元素计算)?Z∼N(μ,Σ)Z∼N(μ,Σ)Z \sim \mathcal N(\mu, \Sigma)RdRd\mathbb R^dZ+=max(0,Z)Z+=max(0,Z)Z_+ = \max(0, Z) 例如,这是因为,如果我们在深层网络中使用ReLU激活功能,并通过CLT假定给定层的输入近似正常,则这就是输出的分布。 (我确信很多人以前都已经计算过了,但是我找不到以合理可读的方式列出的结果。)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.