Questions tagged «hazard»

危险率是指直到现在存活的单位的瞬时率 Ť在死。危险比是两种指定危险的比率。 Ť

1
考克斯基线危险
假设我有一个“肾脏导管”数据集。我正在尝试使用Cox模型为生存曲线建模。如果我考虑一个Cox模型:需要估计基准危害。通过使用内置的包R函数,我可以轻松地做到这一点:ħ (吨,ž)= 小时0经验值(b′ž),h(t,Z)=h0exp⁡(b′Z),h(t,Z) = h_0 \exp(b'Z),survivalbasehaz() library(survival) data(kidney) fit <- coxph(Surv(time, status) ~ age , kidney) basehaz(fit) 但是,如果我想针对给定的参数估计值编写基准危害的逐步函数,该b如何进行?我试过了: bhaz <- function(beta, time, status, x) { data <- data.frame(time,status,x) data <- data[order(data$time), ] dt <- data$time k <- length(dt) risk <- exp(data.matrix(data[,-c(1:2)]) %*% beta) h <- rep(0,k) for(i in 1:k) { …
19 r  cox-model  hazard 

1
有关离散时间生存分析的基本问题
我正在尝试使用逻辑回归模型进行离散时间生存分析,但不确定我是否完全理解该过程。对于一些基本问题,我将不胜感激。 设置如下: 我正在寻找五年内的小组成员。每个成员都有该成员在组中每个月的月度记录。我正在考虑所有成员都是在五年窗口内开始的(以避免与较早加入的成员出现“左审查”问题)。每条记录将按时间编制索引,时间是成员加入的月份。因此,一个住了两年半的会员将拥有三十条月度记录,从一个到三十个。每条记录还将被赋予一个二进制变量,对于成员资格的最后一个月,该变量的值为1,否则为零。二进制变量的值为1表示成员已离开组的事件。对于其成员资格持续超过五年分析窗口的每个成员, 因此,建立了逻辑回归模型来预测二进制事件变量的值。到目前为止,一切都很好。评估二进制预测模型的一种典型方法是测量保留样本的提升。对于我用来预测成员资格结束事件的逻辑回归模型,我计算了非事件与事件的比率为五比一的保留数据集的提升。我将预测值按十分位排序。预测值最高的十分位数包含百分之七十,升幅超过四倍。前两个十分之一加起来占保留中所有总数的百分之六十五。在某些情况下,这将被认为是相当不错的预测模型,但我想知道它是否足以进行生存分析。 令h[j,k]h[j,k]h[j,k]为个体jjj在月的危险函数kkk,令S[j,k]S[j,k]S[j,k]为个体jjj生存于月的概率kkk。 这是我的基本问题: 离散风险函数h[j,k]h[j,k]h[j,k]是每个月非生存(离开小组)的条件概率吗? 危险函数的逻辑回归模型估计值中的预测值是否是?(即,h[j,k]h[j,k]h[j,k]等于月k中单个的模型预测值,还是需要做更多的工作才能获得危险函数估计值?)jjjkkk 个体直到q月的生存概率jjj等于1减去从一月到的危害函数的乘积qqq,即 S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])? 每次k时所有个体j的的平均值是否是总体总体平均生存概率的合理估计?S[j,k]S[j,k]S[j,k]jjjkkk 总体人口图的平均生存概率是否应该类似于每月的Kaplan-Meier图? 如果对这些问题中的任何一个的回答是否定的,那么我有一个严重的误解,可以真正使用一些帮助/解释。此外,对于产生准确的生存状况,二进制预测模型需要达到多好的水平有任何经验法则吗?

2
如何在Cox回归中解释Exp(B)?
我是一名医学生,试图了解统计信息(!)-请保持温柔!;) 我正在写一篇包含大量统计分析的文章,其中包括生存分析(Kaplan-Meier,Log-Rank和Cox回归)。 我对数据进行了Cox回归,试图找出两组患者(高风险或低风险患者)的死亡之间是否存在显着差异。 我在Cox回归中添加了几个协变量来控制它们的影响。 Risk (Dichotomous) Gender (Dichotomous) Age at operation (Integer level) Artery occlusion (Dichotomous) Artery stenosis (Dichotomous) Shunt used in operation (Dichotomous) 我从协变量列表中删除了动脉闭塞,因为其SE极高(976)。所有其他SE介于0.064和1,118之间。这是我得到的: B SE Wald df Sig. Exp(B) 95,0% CI for Exp(B) Lower Upper risk 2,086 1,102 3,582 1 ,058 8,049 ,928 69,773 gender -,900 ,733 1,508 …

4
在生存分析中使用对数秩与Mantel-Haenszel方法来计算危险比的优缺点是什么?
总结两条生存曲线比较的一种方法是计算危险比(HR)。有(至少)两种方法可以计算该值。 Logrank方法。作为Kaplan-Meier计算的一部分,计算每个组(和)中观察到的事件(通常为死亡)的数量,以及假设生存时间没有差异的零假设(和)的预期事件的数量。。则危险比为: OaOaOaObObObEaEaEaEbEbEbHR=(Oa/Ea)(Ob/Eb)HR=(Oa/Ea)(Ob/Eb) HR= \frac{(Oa/Ea)}{(Ob/Eb)} Mantel-Haenszel方法。首先计算V,它是每个时间点的超几何差异的总和。然后计算危险比为: 我从Machin,Cheung和Parmar,Survival Analysis的第3章获得了这两个方程。该书指出,这两种方法通常提供非常相似的方法,而书中的示例确实如此。HR=exp((Oa−Ea)V)HR=exp⁡((Oa−Ea)V) HR= \exp\left(\frac{(Oa-Ea)}{V}\right) 有人给我举了一个例子,其中两种方法相差三倍。在此特定示例中,很显然对数秩估计是明智的,而Mantel-Haenszel估计值相差甚远。我的问题是,对于何时最佳选择危险比的对数估计,以及何时最佳选择Mantel-Haenszel估计,是否有人有任何一般性建议?与样本量有关吗?领带数量?样本数量比例?
17 survival  hazard 

4
累积危害函数的直觉(生存分析)
我试图对精算科学的每个主要功能(特别是对于Cox比例危害模型)有所了解。这是我到目前为止的内容: f(x)f(x)f(x):从开始的时间开始,到您死亡的概率分布。 F(x)F(x)F(x):仅累积分布。在时间TTT,将有百分之几的人口死亡? S(x)S(x)S(x):1−F(x)1−F(x)1-F(x)。在时间TTT,人口中还活着的百分比是多少? h(x)h(x)h(x):危险函数。在给定的时间TTT,仍然活着的人中,这可以用来估计在下一个时间间隔内将有多少人死亡,或者如果时间间隔-> 0,则是“瞬时”死亡概率。 H(x)H(x)H(x):累积危害。不知道。 组合危险值(尤其是连续危险值)的背后是什么想法?如果我们使用一个离散的例子来说明四个季节的死亡率,那么危害函数如下: 从春季开始,每个人都还活着,有20%会死亡 现在在夏天,剩下的人中有50%会死 现在在秋天,剩下的人中有75%将死 最后的季节是冬天。在剩下的人中,有100%将死 那么累积危害是20%,70%,145%,245%?这是什么意思,为什么有用?

3
危险率背后的直觉
我对危险率的定义方程感到困惑。我知道了危险率是多少,但我只是不明白方程式如何表达这种直觉。 如果是一个随机变量,表示某个时间间隔上某人的死亡时间。那么危险率是:xxx[0,T][0,T][0,T] h(x)=f(x)1−F(x)h(x)=f(x)1−F(x)h(x)=\frac{f(x)}{1-F(x)} 其中F(x)F(x)F(x)表示直到时间点x \ in [0,T]的死亡概率x∈[0,T]x∈[0,T]x\in[0,T], 1−F(x)1−F(x)1-F(x)表示直到时间点x \ in [0,T]都存活的概率x∈[0,T]x∈[0,T]x\in[0,T], 而f(x)f(x)f(x)是在x点死亡的概率xxx。 用f(x)除以f(x)f(x)f(x)生存率如何解释下一个\ Delta t中瞬时死亡概率的直觉ΔtΔt\Delta t?难道不是f(x)f(x)f(x),使危险率的计算变得微不足道吗?

1
危害比率可以转化为生存时间中位数的比率吗?
在一篇描述生存分析结果的论文中,我读到了一条陈述,该陈述暗示可以使用以下公式将危险比(HR)转换为中位生存时间比(M1M1M_1和M2M2M_2): HR=M1M2HR=M1M2HR = \frac{M_1}{M_2} 我敢肯定,当人们不能假设成比例的风险模型时,它就不成立了(因为如果HR定义不明确,那就没有用了)。但是我怀疑,即使那样,它对于指数分布以外的任何生存分布也将不起作用。我的直觉对吗?
15 survival  hazard 

3
当Schoenfeld残差不佳时,比例风险回归模型有哪些选择?
我正在使用进行R的Cox比例风险回归coxph,其中包括许多变量。Martingale残差看起来很棒,而Schoenfeld残差对于ALMOST所有变量来说都很棒。存在三个变量的Schoenfeld残差不平坦,并且变量的性质使得它们可以随时间变化是有意义的。 这些是我不太感兴趣的变量,因此将它们分层即可。但是,它们都是连续变量,而不是类别变量。因此,我认为阶层不是可行的路线*。我试图建立的变量和时间之间的相互作用,如所描述这里,但我们得到的错误: In fitter(X, Y, strats, offset, init, control, weights = weights, : Ran out of iterations and did not converge 我正在处理将近1000个数据点,并且正在处理具有多个因素的六个变量,因此感觉就像我们正在限制如何对这些数据进行切片和切块的极限。不幸的是,我尝试过使用更少的包含变量的所有较简单的模型显然都较差(例如,Schoenfeld残差对于更多变量来说更加脆弱)。 我有什么选择?由于我不在乎这些行为不佳的特定变量,因此我只想忽略它们的输出,但是我怀疑这不是有效的解释! *一个是连续的,一个是大于100的整数,一个是6的整数。

1
平均和边缘治疗效果之间的差异
我一直在阅读一些论文,但对平均治疗效果(ATE)和边际治疗效果(MTE)的具体定义不清楚。他们是一样的吗? 根据奥斯丁 ... 条件效应是在受试者水平上将受试者从未治疗转移到已治疗的平均效应。来自多变量回归模型的治疗分配指标变量的回归系数是对条件或调整后效应的估计。相反,边际效应是在整个人口水平上将整个人口从未治疗转移到已治疗的平均效应[10]。线性处理效果(均值差异和比例差异)是可折叠的:条件和边际处理效果将重合。但是,当结果是二元的或本质上是事件发生的时间时,优势比和危险比就无法崩溃[11]。罗森鲍姆(Rosenbaum)指出,倾向得分方法允许人们估计边际效应,而不是条件效应[12]。缺乏对不同倾向评分方法来评估边缘治疗效果的研究。 但是在奥斯丁的另一篇论文中,他说 对于每个受试者,治疗的效果被定义为。平均处理效应(ATE)被定义为È [ ÿ 我(1 )- Ý 我(0 )]。(Imbens,2004)。ATE是将总体人口从未治疗转移到已治疗的平均效果。ÿ一世(1 )- ÿ一世(0 )ÿ一世(1个)-ÿ一世(0)Y_i(1)- Y_i(0)Ë[ Y一世(1 )- ÿ一世(0 )]Ë[ÿ一世(1个)-ÿ一世(0)]E[Y_i(1)- Y_i(0)] 所以我的问题是...平均治疗效果和边际治疗效果有什么区别? 同样,我应该如何分类估计?我有一个倾向得分加权(IPTW)Cox模型。我唯一的协变量是治疗指标。应将得出的危险比视为事后评估还是事后评估? 编辑:更令人困惑的是,郭在自己的倾向得分分析中声称边际治疗效果是 ...对冷漠边缘人群的治疗效果的特例(EOTM)。在某些政策和实践情况下,区分边际收益和平均收益很重要。例如,上大学的普通学生可能比不关心上学或不上学的边缘学生做得更好(即,成绩更高)。 我觉得这应该加一点盐,因为这是针对社会科学的(我认为边际具有不同的定义),但是我认为我将在这里包括它来显示我为什么感到困惑。

1
生存分析和泊松回归之间有什么区别?
我正在使用给定用户访问站点的次数来处理经典客户流失预测问题,并且我认为泊松回归是建模该用户未来参与度的正确工具。那时我碰到一本关于生存分析和危害建模的书,但我不知道哪种技术最好。 我不想同时研究两个主题,那么使用过去的数据和人口统计来建模用户参与度的最佳方法是什么?

2
如何从Cox PH模型计算预测的危险率?
我有以下Cox PH模型: (时间,事件)〜X + Y + Z 我想获得预测的危险率(我说的是风险率不危险比)给出的具体值X,Y,Z。我知道muhaz R软件包可以计算观察到的危险率,但是我对预测模型感兴趣。 有没有办法在R中做到这一点?
11 r  survival  hazard  cox-model 

3
如何从连续变量(差异单位)解释危险比?
我正在阅读一篇文章,该文章显示了连续变量的危险比,但是我不确定如何解释给定的值。 我对危险比的当前理解是,该数字表示在某些条件下[事件]的相对可能性。例如:如果吸烟(二元事件)导致的肺癌死亡风险比是2,那么在监测的时间内吸烟者死亡的可能性是非吸烟者的两倍。 从维基百科上看,连续变量的解释是危险比适用于差异单位。对于序数变量(例如,每天吸烟的数量),这对我来说很有意义,但是我不知道如何将此概念应用于连续变量(例如,每天吸烟的尼古丁含量?)

2
优势比和危险比之间是否存在功能差异?
在逻辑回归中,优势比为2意味着在预测变量增加1个单位的情况下,该事件的可能性高2倍。在Cox回归中,危险比为2意味着,如果预测变量增加一个单位,则该事件在每个时间点的发生频率将是两倍。这些实际上不是一回事吗? 如果我们可以从逻辑回归的优势比中获得功能上相同的信息,那么进行Cox回归和获得风险比的优势是什么?

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
计算数据的ROC曲线
因此,我进行了16次试验,试图使用汉明距离从生物特征中鉴定一个人。我的阈值设置为3.5。我的数据如下,只有试验1为“真阳性”: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 我的困惑是,我真的不确定如何根据此数据制作ROC曲线(FPR与TPR或FAR与FRR)。哪一个都不重要,但是我只是对如何进行计算感到困惑。任何帮助,将不胜感激。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.