Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
CPH,加速故障时间模型或神经网络用于生存分析的比较
我是生存分析的新手,我最近了解到,对于特定目标,可以采用不同的方法进行。我对这些方法的实际实现和适当性感兴趣。 向我介绍了传统的Cox比例危害,加速故障时间模型和神经网络(多层感知器),作为根据患者的时间,状态和其他医学数据获得患者生存的方法。据说这项研究将在五年内完成,目标是每年为新的记录给出生存风险。 我发现了两个实例,这些实例是通过Cox PH选择其他方法的: 我发现“ 如何从Cox PH模型获得生存期的预测 ”,并提到: 如果您对获取特定时间点生存概率的估计特别感兴趣,我将向您介绍参数化生存模型(又称为加速故障时间模型)。这些是在R的生存程序包中实现的,将为您提供参数化的生存时间分布,您可以在其中简单地插入您感兴趣的时间并获取生存概率。 我去了推荐的站点,并在survival软件包中找到了一个函数survreg。 在此评论中建议使用神经网络: 神经网络方法进行生存分析的一个优势是它们不依赖于Cox分析基础的假设... 另一个问题是“ 带有目标向量的R神经网络模型,其输出包含生存预测 ”,给出了一种详尽的方法来确定神经网络和Cox PH中的生存。 用于获得生存的R代码如下所示: mymodel <- neuralnet(T1+T2+T3+T4+T5~covar1+covar2+covar3+..., data=mydata, hidden=1) compute(mymodel,data=mydata) 我去了R论坛,并在“ predict.coxph和predict.survreg ” 问题中找到了这个答案: 确实,从的predict()功能中,coxph您不能直接获得“时间”预测,而只能获得线性和指数风险评分。这是因为,为了获得时间,必须计算基准危害,而且它并不直接,因为它在Cox模型中是隐含的。 我想知道这三个(或两个考虑Cox PH的论点)中哪一个最适合获取感兴趣时间段的生存率?我对在生存分析中使用哪一个感到困惑。

2
绘制平均值,标准差,最小值和最大值的汇总统计信息?
我来自经济学背景,通常在该学科中,变量的摘要统计信息记录在表格中。但是,我希望将它们绘制出来。 我可以修改箱形图以使其显示均值,标准差,最小值和最大值,但我不希望这样做,因为箱形图传统上用于显示中位数以及Q1和Q3。 我所有的变量都有不同的标度。如果有人可以提出一种有意义的方式来汇总这些摘要统计信息,那将是很好的。我可以使用R或Stata。

2
稳健的回归推断和Sandwich估计量
您能否举一个使用三明治估计器来执行可靠回归推断的示例? 我可以在中看到示例?sandwich,但是我不太理解如何使用函数返回的方差-协方差矩阵从lm(a ~ b, data)(r编码)到估计值和p值,该值是由回归模型得出的sandwich。
10 r  regression  lm  sandwich 

3
当大时比较嵌套的二进制logistic回归模型
为了更好地问我的问题,我已经提供了一些来自一个16级模型(输出fit)和17变量模型(fit2)以下(在这些模型中的所有预测变量是连续的,在这些模型之间的唯一区别在于fit不包含变量17(var17)): fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703 0 69833 d.f. 17 g 1.150 Dxy 0.407 1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma 0.416 max |deriv| 3e-05 gp 0.180 tau-a 0.177 Brier 0.190 fit2 Model Likelihood Discrimination …

1
在R中快速与eCDF集成
我有一个形式为的积分方程, 其中是经验cdf,是一个函数。我有一个压缩映射,所以我尝试使用Banach不动点定理序列来求解积分方程。˚F Ñ克Ť1个(x )= ∫X0G(T1个(y))d F^ñ(y)Ť1个(X)=∫0XG(Ť1个(ÿ)) dF^ñ(ÿ) T_1(x) = \int_0^x g(T_1(y)) \ d\hat{F}_n(y) F^ñF^ñ\hat{F}_nGGg 但是,这在R中运行非常缓慢,我想这是因为我一次又一次地对使用sum()函数进行积分。X ∈ ˚F^ñX∈F^ñx \in \hat{F}_n 有没有一种更快的方法可以将经验分布与诸如Integrated()之类的函数结合使用?

1
从简单的R lm模型重新计算对数似然
我只是想用dnorm()重新计算lm模型(在R中)的logLik函数提供的对数似然率。 对于大量数据(例如n = 1000),它可以(几乎完美)工作: > n <- 1000 > x <- 1:n > set.seed(1) > y <- 10 + 2*x + rnorm(n, 0, 2) > mod <- glm(y ~ x, family = gaussian) > logLik(mod) 'log Lik.' -2145.562 (df=3) > sigma <- sqrt(summary(mod)$dispersion) > sum(log(dnorm(x = y, mean = predict(mod), …

2
添加随机效应影响系数估计
我一直被教导随机效应只会影响方差(误差),而固定效应只会影响均值。但是我发现了一个例子,其中随机效应也会影响均值-系数估计: require(nlme) set.seed(128) n <- 100 k <- 5 cat <- as.factor(rep(1:k, each = n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) # simulate missing data y[c(1:(n/2), …

1
局部Moran的I统计量(LISA)的p值调整
我正在使用spdep软件包在R中进行一些探索性空间分析。 我遇到了一个选项,用于调整使用函数计算的空间关联性本地指标(LISA)的plocalmoran值。根据文档,它的目标是: ...用于多个测试的概率值调整。 在p.adjustSP我进一步阅读的文档中,可用选项包括: 调整方法包括Bonferroni校正(“ bonferroni””),其中p值乘以比较次数。Holm(1979)(“” holm“”),Hochberg(1988)('“” hochberg“'),Hommel(1988)('” hommel“')和Benjamini&Hochberg(1995)也进行了四次较不保守的校正。 ('“ fdr”')。还包括传递选项(“ none”)。 前四种方法旨在严格控制家庭错误率。似乎没有理由使用未经修改的Bonferroni校正,因为它受到Holm方法的支配,该方法在任意假设下也有效。 当假设检验是独立的或非负相关时,Hochberg和Hommel的方法是有效的(Sarkar,1998; Sarkar和Chang,1997)。Hommel的方法比Hochberg的方法更强大,但是差异通常很小,并且Hochberg p值的计算速度更快。 Benjamini,Hochberg和Yekutieli的“ BH”(又名“ fdr”)和“ BY”方法控制错误发现率,即错误发现的预期比例在被拒绝的假设中。误发现率的条件不如家庭式错误率严格,因此这些方法比其他方法更有效。 出现的几个问题: 简而言之-这项调整的目的是什么? 是否有必要使用此类更正? 如果是,如何从可用选项中进行选择?

1
如何在ARIMA模型的观察值48中加入创新的离群值?
我正在处理数据集。使用一些模型识别技术后,我得出了一个ARIMA(0,2,1)模型。 我使用R detectIO包TSA中的函数在对原始数据集进行第48次观察时检测到创新的离群值(IO)。 如何将这个离群值合并到模型中,以便将其用于预测?我不想使用ARIMAX模型,因为我可能无法根据R中的模型做出任何预测。还有其他方法可以做到吗? 以下是我的价值观: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
如何获得总体r平方变化的置信区间
为了简单的示例,假设有两个线性回归模型 模型1有三个预测,x1a,x2b,和x2c 模型2具有从模型1 3个预测和两个附加的预测x2a和x2b 有一个种群回归方程,其中模型1 解释的种群方差为,模型解释为 。模型2解释的种群中的增量方差为ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δ ρ2= ρ2(2 )- ρ2(1 )Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} 我有兴趣获取\ Delta \ rho ^ 2的估计量的标准误差和置信区间Δ ρ2Δρ2\Delta\rho^2。虽然该示例分别涉及3个和2个预测变量,但我的研究兴趣涉及大量不同数量的预测变量(例如5个和30个)。我首先想到的是使用 Δ [R2一dĴ= r2一dj (2 )- - [R2一dĴ (1 )Δradj2=radj(2)2−radj(1)2\Delta r^2_{adj} = r^2_{adj(2)} - r^2_{adj(1)}作为估计量并进行引导,但是我不确定是否会适当的。 问题 是Δ [R2一dĴΔradj2\Delta r^2_{adj}一个合理的估计Δ ρ2Δρ2\Delta \rho^2? 如何获得总体r平方变化的置信区间(即Δ ρ2Δρ2\Delta\rho^2)? 引导Δ ρ2Δρ2\Delta\rho^2是否适合计算置信区间? 任何对模拟或已发表文献的引用也将受到欢迎。 范例程式码 如果有帮助,我在R中创建了一个小的模拟数据集,可用于演示答案: …

1
带宽是什么意思?
我在R中绘制了密度函数,并在其下绘制了带的数目。这个数字是什么意思?
10 r 

1
如何在R中的重复测量方差分析中编写误差项:误差(主题)vs误差(主题/时间)
我的问题与先前的帖子非常相关,该帖子 在R中的重复度量ANOVA中指定Error()项。但是,我想对如何定义错误项有更多的了解。 假设我有一个双向重复方差分析,组效应之间的因素是治疗(对照组与安慰剂),而时间是组内效应的4倍以上(T1〜T4)。患者ID被记录为“主题”。在这里,我从http://gjkerns.github.io/R/2012/01/20/power-sample-size.html中的教程示例中借用了数据, 因此数据看起来像这样 Time Subject Method NDI 0min 1 Treat 51.01078 15min 1 Treat 47.12314 48hrs 1 Treat 26.63542 96hrs 1 Treat 20.78196 0min 2 Treat 42.61345 15min 2 Treat 32.77171 要应用方差分析: aovComp <- aov(NDI ~ Time*Method + Error(Subject/Time), theData) summary(aovComp) Error: Subject Df Sum Sq Mean Sq F …

2
几种逻辑回归与多项式回归
是否可以执行几个二进制逻辑回归而不是多项式回归?从这个问题出发:多项式逻辑回归与一对多对数逻辑回归我看到该多项式回归可能具有较低的标准误差。 但是,我想使用的软件包尚未推广到多项式回归(ncvreg:http : //cran.r-project.org/web/packages/ncvreg/ncvreg.pdf),所以我想知道是否可以简单地做而是几个二进制逻辑回归。

1
glm或glmnet哪个更准确?
R glm和glmnet使用不同的算法。 当我同时使用两者时,我会发现估计系数之间存在不小的差异。 我对何时一个比另一个更准确以及解决/准确性权衡的时间感兴趣。 具体来说,我指的是在glmnet中设置lambda = 0的情况,这是因为它估计与glm相同。

3
固定效果与随机效果
我最近开始学习广义线性混合模型,并且正在使用R探索将组成员身份视为固定或随机效应有何不同。特别是,我正在查看此处讨论的示例数据集: http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm http://www.ats.ucla.edu/stat/r/dae/melogit.htm 正如本教程中概述的那样,Doctor ID的作用是可观的,我期望随机截距的混合模型能够提供更好的结果。但是,比较两种方法的AIC值表明此模型较差: > require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv") > hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married) > GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM) Call: glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, data = hdp) Deviance Residuals: Min 1Q Median 3Q Max -2.5265 -0.6278 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.