Questions tagged «survival»

生存分析对事件数据的时间进行建模,通常是死亡时间或故障时间。审查数据是生存分析的常见问题。

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]



5
Cox回归的预测
我正在执行多变量Cox回归,我有重要的自变量和beta值。该模型非常适合我的数据。 现在,我想使用我的模型并预测新观测值的生存时间。我不清楚如何使用Cox模型执行此操作。在线性或逻辑回归中,这很容易,只需将新观测值放入回归中并将它们乘以beta,就可以预测结果了。 如何确定基线危害?除了计算预测之外,我还需要它。 在Cox模型中如何完成?

10
为什么假定生存时间呈指数分布?
我正在从UCLA IDRE上的这篇文章中学习生存分析,并在第1.2.1节中进行了介绍。该教程说: ...如果已知生存时间呈指数分布,则观察生存时间的概率... 为什么假定生存时间呈指数分布?对我来说似乎很不自然。 为什么不正常分布?假设我们正在研究某种生物在一定条件下(例如天数)的寿命,是否应该将其更多地围绕具有一定差异的某个数字(例如100天,具有3天的差异)? 如果我们希望时间严格地为正,为什么不使用均值较高且方差很小的正态分布(几乎没有机会获得负数)?


3
我的数据遵循什么分布?
让我们说我有1000个组件,并且我一直在收集有关这些组件记录故障的次数以及每次它们记录故障的数据,我还跟踪团队修复该问题花费了多长时间。简而言之,我一直在记录这1000个组件中每个组件的修复时间(以秒为单位)。在该问题的末尾提供了数据。 我把所有的这些值,并使用在画了R A Cullen和Frey图descdist从fitdistrplus包。我的希望是了解维修时间是否遵循特定的分配时间。这是boot=500获取引导值的图: 我看到该图告诉我观察结果属于beta分布(或者可能不是,在这种情况下,它揭示了什么?)现在,考虑到我是系统架构师而不是统计学家,那么该图揭示了什么? ?(我正在寻找这些结果背后的实际现实直觉)。 编辑: QQplot使用qqPlot包中的功能car。我首先使用该fitdistr函数估算了形状和比例参数。 > fitdistr(Data$Duration, "weibull") shape scale 3.783365e-01 5.273310e+03 (6.657644e-03) (3.396456e+02) 然后,我这样做: qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03) 编辑2: 使用对数正态QQplot更新。 这是我的数据: c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 3049L, 129067L, 21806L, 456L, 22745L, 198L, …

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
在生存分析中,为什么我们使用半参数模型(Cox比例风险)而不是完全参数模型?
该问题是从Mathematics Stack Exchange 迁移而来的,因为可以通过交叉验证来回答。 迁移 6年前。 我一直在研究Cox比例危害模型,大多数文本都掩盖了这个问题。 考克斯建议使用部分似然法拟合危险函数的系数,但为什么不仅仅使用最大似然法和线性模型拟合参量生存函数的系数呢? 在任何情况下,只要您检查了数据,就可以找到曲线下的面积。例如,如果您的估计值为380,标准差为80,并且样本的检查数量大于300,则在假设法向误差的情况下,可能性计算中该样本的概率为84%。

2
贝叶斯生存分析:请给我写一份Kaplan Meier的事前书!
考虑右审查意见,与事件在时间。在时间i处易感个体的数量为n i,在时间i处事件的数量为d i。t1,t2,…t1,t2,…t_1, t_2, \dotsiiininin_iiiididid_i 的卡普兰-迈耶或产品估计自然的用MLE当生存函数是一个阶跃函数。的可能性然后 大号(α )= Π我(1 - α 我)d 我 α Ñ 我 - d 我我 和MLE是α我 = 1 - d 我S(t)=∏i:ti&lt;tαiS(t)=∏i:ti&lt;tαiS(t) = \prod_{i : t_i < t} \alpha_iL(α)=∏i(1−αi)diαni−diiL(α)=∏i(1−αi)diαini−di L(\alpha) = \prod_i (1-\alpha_i)^{d_i} \alpha_i^{n_i-d_i} 。αˆi=1−diniα^i=1−dini\widehat\alpha_i = 1 - {d_i\over n_i} 好的,现在假设我想去贝叶斯算法。我需要先乘某种``自然'' 对吧?L(α)L(α)L(\alpha) 搜寻明显的关键字后,我发现Dirichlet流程是一个很好的先决条件。但是据我了解,它也是不连续点上的先验。titit_i 这当然很有趣,我很想学习,但是我会选择更简单的方法。我开始怀疑这并不像我最初想象的那么容易,是时候征求您的建议了... 提前谢谢了! PS:什么我希望一些精密我感兴趣的(越简单越好)约前处理Dirichlet过程的方式解释,不过我想应该是可以使用简单地事先对 -这是阶跃函数在t …

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
生存分析:连续时间与离散时间
我对如何决定在生存分析中将时间视为连续时间还是离散时间感到困惑。具体来说,我想使用生存分析来确定对男孩和女孩(5岁以下)的生存影响最大的儿童和家庭变量。我有一个儿童年龄(以月为单位)的数据集,以及该儿童是否还活着,死亡年龄(以月为单位)以及其他儿童和家庭水平变量的指标。 由于时间是以月为单位记录的,并且所有儿童都在5岁以下,因此生存时间很多(通常每半年间隔:0mos,6mos,12mos等)。根据我对生存分析的了解,有很多捆绑的生存时间,使我认为我应该将时间视为离散的。但是,我还阅读了其他几项研究,例如生存时间以人年为单位(因此肯定存在生存时间),并且使用了诸如Cox比例风险之类的连续时间方法。 我应该使用什么标准来决定将时间视为连续时间还是离散时间?对于我的数据和问题,使用某种连续时间模型(Cox,Weibull等)对我来说很直观,但是我的数据的离散性质和有限的生存时间似乎暗示了其他问题。
20 survival  ties 

2
的coxph模型摘要中给出的“
中的Coxph模型摘要中给出的值是多少?例如,[R2[R2R^2 Rsquare= 0.186 (max possible= 0.991 ) 我愚蠢地将其包括为值的手稿,审稿人跳了起来,说他不知道 正在为Cox模型开发的经典线性回归中的统计量的类似物,如果有请提供参考。任何帮助将是巨大的![R2[R2R^2[R2[R2R^2


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.