统计和大数据 r

4

我试图了解如何计算ROC曲线的最佳切点（灵敏度和特异性最大化的值）。我正在使用aSAH包中的数据集pROC。该outcome变量可以由两个独立变量解释：s100b和ndka。使用该Epi包的语法，我创建了两个模型： library(pROC) library(Epi) ROC(form=outcome~s100b, data=aSAH) ROC(form=outcome~ndka, data=aSAH) 以下两个图形说明了输出：在第一个图表（s100b）中，该函数表示最佳切点位于对应于的值lr.eta=0.304。在第二张图（ndka）中，最佳切点位于的对应值上lr.eta=0.335（的含义lr.eta）。我的第一个问题是：什么是相应s100b和ndka的值lr.eta值表示（是什么方面的最佳临界点s100b和ndka）？第二个问题：现在，假设我创建一个同时考虑了两个变量的模型： ROC(form=outcome~ndka+s100b, data=aSAH) 获得的图形为：我想知道ndkaAND 的值是什么，s100b通过该函数可以最大程度地提高敏感性和特异性。换句话说：是什么样的价值观ndka和s100b我们已SE = 68.3％和SP = 76.4％（从图表中获取的值）？我想第二个问题与multiROC分析有关，但是该Epi软件包的文档并未解释如何为模型中使用的两个变量计算最佳切点。我的问题与reasearchGate的问题非常相似，简而言之：确定代表灵敏度和特异性之间更好权衡的临界值很简单。但是，对于多变量ROC曲线分析，我注意到大多数研究人员都将注意力集中在确定AUC上几个指标（变量）线性组合的整体准确性的算法上。[...] 但是，这些方法并未提及如何确定与多个指标相关联的临界值组合，以提供最佳的诊断准确性。 Shultz在他的论文中提出了一种可能的解决方案，但是从本文中，我无法理解如何为多元ROC曲线计算最佳切点。也许Epi包装中的解决方案不是理想的，所以任何其他有用的链接将不胜感激。

14 r roc sensitivity-analysis sensitivity-specificity

2

多元线性回归模拟

我是R语言的新手。我想知道如何从满足回归的所有四个假设的多重线性回归模型进行模拟。好的谢谢。假设我要基于此数据集模拟数据： y<-c(18.73,14.52,17.43,14.54,13.44,24.39,13.34,22.71,12.68,19.32,30.16,27.09,25.40,26.05,33.49,35.62,26.07,36.78,34.95,43.67) x1<-c(610,950,720,840,980,530,680,540,890,730,670,770,880,1000,760,590,910,650,810,500) x2<-c(1,1,3,2,1,1,3,3,2,2,1,3,3,2,2,2,3,3,1,2) fit<-lm(y~x1+x2) summary(fit) 然后我得到输出： Call: lm(formula = y ~ x1 + x2) Residuals: Min 1Q Median 3Q Max -13.2805 -7.5169 -0.9231 7.2556 12.8209 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 42.85352 11.33229 3.782 0.00149 ** x1 -0.02534 0.01293 -1.960 0.06662 . x2 0.33188 2.41657 …

14 r multiple-regression simulation

2

在具有Gamma分布的GLM中使用R

我目前在理解R语法以使用Gamma分布拟合GLM时遇到问题。我有一组数据，其中每行包含3个协变量（），响应变量（）和形状参数（）。我想将Gamma分布的比例建模为3个协变量的线性函数，但是我不了解如何为每行数据将分布的形状设置为 ÿ ķ ķX1,X2,X3X1,X2,X3X_1, X_2, X_3YYYKKKKKK 我认为类似的情况是，对于二项式分布，GLM要求知道每个数据条目的试验次数（）。NNN

14 r generalized-linear-model gamma-distribution dglm

5

具有最小群集大小约束的群集（k均值或其他方式）

我需要将单位聚类为聚类，以最小化组内平方和（WSS），但我需要确保每个聚类至少包含单位。是否知道R的任何聚类功能是否允许在最小聚类大小约束下聚集成聚类？kmeans（）似乎没有提供大小限制选项。米ķkkkmmmkkk

14 r clustering

2

R中Coxph的“ coef”和“（exp）coef”输出之间有什么区别？

我一直在尝试辨别coxph的“ coef”和“（exp）coef”输出确切表示什么。似乎“（exp）coef”是根据命令中分配的组对模型中第一个变量的比较。 coxph函数如何得出“ coef”和“（exp）coef”的值？另外，当涉及检查时，coxph如何确定这些值？

14 r survival interpretation

1

使用bca方法计算置信区间时，为什么R引导程序包会产生错误“估计调整'a'是NA”？

我有一个使用dput上传到这里的数字向量（... / code / MyData.Rdata）。我想获得bca ci，所以我编写了以下代码： my.mean <- function(dat, idx){ return (mean(dat[idx], na.rm = TRUE)) } boot.out<-boot(data=my.data, statistic = my.mean, R=1000) 但是当我运行以下命令时，我得到了： > boot.ci(boot.out) Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o, : estimated adjustment 'a' is NA In addition: Warning message: In …

14 r bootstrap

2

估计R中的生存概率

基于生存时间的样本，我想使用Kaplan-Meier估计量来估计某个特定的生存时间的概率。有可能这样做吗？请注意，不一定是事件时间。牛逼牛逼牛逼ññnŤŤtŤŤtRŤŤt

14 r kaplan-meier

1

用分类数据解释负二项式GLM的.L和.Q输出

我只是运行负二项式GLM，这是输出： Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 *** method.L -0.6828 0.1637 -4.171 …

14 r categorical-data generalized-linear-model interpretation negative-binomial

3

为什么公式和R的fisher.test的优势比不同？应该选择哪一个？

在下面的例子中 > m = matrix(c(3, 6, 5, 6), nrow=2) > m [,1] [,2] [1,] 3 5 [2,] 6 6 > (OR = (3/6)/(5/6)) #1 [1] 0.6 > fisher.test(m) #2 Fisher's Exact Test for Count Data data: m p-value = 0.6699 alternative hypothesis: true odds ratio is not equal to 1 …

14 r odds-ratio fishers-exact

2

我可以使用CLR（中心对数比转换）为PCA准备数据吗？

我正在使用脚本。它用于核心记录。我有一个数据框，该数据框显示了给定深度（第一列）中各列的不同元素组成。我想用它来执行PCA，我对必须选择的标准化方法感到困惑。你们中有没有人使用clr()来准备的数据prcomp()？还是将我的解决方案掺假了？除了在中使用属性scale之外，我还尝试clr()在使用prcomp()函数之前对数据使用on prcomp()。 data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html 描述scale是为了缩放数据，因此它们具有单位差异。我想我的数据规模与我想要的完全不同。问题是，当我使用上面的代码或跳过时clr()（这会产生更想要的结果），我收到了不同的解决方案。但是我想知道为什么clr()在这种情况下令人不安？

13 r pca normalization compositional-data

1

复合对称情况下（0 + factor | group）和（1 | group）+（1 | group：factor）随机效应规格的等价关系

道格拉斯·贝茨（Douglas Bates）指出，以下模型是等效的：“如果向量值随机效应的方差-协方差矩阵具有一种特殊形式，称为复合对称”（本演示文稿中的幻灯片91）： m1 <- lmer(y ~ factor + (0 + factor|group), data) m2 <- lmer(y ~ factor + (1|group) + (1|group:factor), data) 具体而言，贝茨使用以下示例： library(lme4) data("Machines", package = "MEMSS") m1a <- lmer(score ~ Machine + (0 + Machine|Worker), Machines) m2a <- lmer(score ~ Machine + (1|Worker) + (1|Worker:Machine), Machines) 具有相应的输出： print(m1a, …

13 r anova mixed-model repeated-measures lme4-nlme

2

关于线性关系，r，r平方和残留标准偏差告诉我们什么？

我从事回归分析解释的工作很少，但是我对r，r平方和残差标准偏差的含义感到非常困惑。我知道定义：表征 r测量散点图上两个变量之间线性关系的强度和方向 R平方是数据与拟合回归线的接近程度的统计量度。残留标准偏差是用于描述围绕线性函数形成的点的标准偏差的统计术语，并且是对被测量因变量的准确性的估计。（不知道单位是什么，这里有关单位的任何信息都将有所帮助）（来源：此处）问题尽管我“理解”了这些特征，但我确实理解了这些术语如何共同得出关于数据集的结论。我将在此处插入一个小示例，也许这可以作为回答我的问题的指南（随时使用您自己的示例！）示例这不是howework问题，但是我在书中进行搜索以获得一个简单示例（我正在分析的当前数据集过于复杂和庞大，无法在此处显示）在一个大玉米田中随机选择了20个地块，每个地块10 x 4米。对于每个样地，观察植物密度（样地中的植物数量）和平均穗轴重量（每穗轴的谷物克数）。下表给出了结果：（来源：生命科学统计） ╔═══════════════╦════════════╦══╗ ║ Platn density ║ Cob weight ║ ║ ╠═══════════════╬════════════╬══╣ ║ 137 ║ 212 ║ ║ ║ 107 ║ 241 ║ ║ ║ 132 ║ 215 ║ ║ ║ 135 ║ 225 ║ ║ ║ 115 ║ …

13 r regression regression-coefficients linear pearson-r

1

logistic回归和分数响应回归之间有什么区别？

据我所知，逻辑模型和分数响应模型（frm）之间的区别在于，因变量（Y）其中frm为[0,1]，而logistic为{0，1}。此外，frm使用拟似然估计器确定其参数。通常，我们可以使用glm来获得逻辑模型glm(y ~ x1+x2, data = dat, family = binomial(logit))。对于frm，我们更改family = binomial(logit)为family = quasibinomial(logit)。我注意到我们也可以family = binomial(logit)用来获取frm的参数，因为它给出了相同的估计值。请参阅以下示例 library(foreign) mydata <- read.dta("k401.dta") glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata ,family = binomial('logit')) summary(glm.bin) 返回， Call: glm(formula = prate ~ mrate + age + …

13 r logistic generalized-linear-model quasi-likelihood

1

说明“本征”如何帮助反转矩阵

我的问题与geoR:::.negloglik.GRF或中利用的计算技术有关geoR:::solve.geoR。在线性混合模型设置中：其中和分别是固定效应和随机效应。此外，Y=Xβ+Zb+eY=Xβ+Zb+e Y=X\beta+Zb+e ββ\betabbbΣ=cov(Y)Σ=cov(Y)\Sigma=\text{cov}(Y) 估算效果时，需要计算，通常可以使用来完成，但是有时几乎不可逆，因此请运用技巧(X′Σ−1X)−1X′Σ−1Y(X′Σ−1X)−1X′Σ−1Y (X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1} Y solve(XtS_invX,XtS_invY)(X′Σ−1X)(X′Σ−1X)(X'\Sigma^{-1}X)geoR t.ei=eigen(XtS_invX) crossprod(t(t.ei$vec)/sqrt(t.ei$val))%*%XtS_invY （可以在geoR:::.negloglik.GRF和中看到geoR:::.solve.geoR）等于分解，其中，因此 (X′Σ−1X)=ΛDΛ−1(X′Σ−1X)=ΛDΛ−1 (X'\Sigma^{-1}X)=\Lambda D \Lambda^{-1}\\ Λ′=Λ−1Λ′=Λ−1\Lambda'=\Lambda^{-1}(X′Σ−1X)−1=(D−1/2Λ−1)′(D−1/2Λ−1)(X′Σ−1X)−1=(D−1/2Λ−1)′(D−1/2Λ−1) (X'\Sigma^{-1}X)^{-1}=(D^{-1/2}\Lambda^{-1})'(D^{-1/2}\Lambda^{-1}) 两个问题：本征分解如何帮助反转？(X′Σ−1X)(X′Σ−1X)(X'\Sigma^{-1}X) 还有其他可行的选择（强大且稳定）吗？（例如qr.solve或chol2inv？）

13 r eigenvalues matrix-decomposition matrix-inverse cholesky

2

使用R的时间序列分析过程和方法

我正在做一个小项目，我们试图预测未来6个月内商品（油，铝，锡等）的价格。我有12个这样的变量可以预测，并且我有2008年4月至2013年5月的数据。我应该如何进行预测？我已经完成以下工作：导入的数据作为时间序列数据集所有变量的季节性都倾向于随趋势而变化，因此我将使用乘法模型。我将变量的对数转换为加性模型对于每个变量，使用STL分解数据我打算使用Holt Winters指数平滑，ARIMA和神经网络进行预测。我将数据分为训练和测试（80、20）。计划选择MAE，MPE，MAPE和MASE较少的模型。我做对了吗？我还有一个问题是，在传递给ARIMA或神经网络之前，我应该对数据进行平滑处理吗？如果是，使用什么？数据显示季节性和趋势。编辑：附加时间序列图和数据 Year <- c(2008, 2008, 2008, 2008, 2008, 2008, 2008, 2008, 2008, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2009, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2010, 2011, 2011, 2011, …

13 r time-series forecasting neural-networks arima

Questions tagged «r»