统计和大数据 r

1

使用LARS [1]与使用坐标下降来拟合L1正则化线性回归有什么优缺点？我主要对性能方面感兴趣（我的问题往往有N成千上万且p小于20。）但是，任何其他见解也将受到赞赏。编辑：自从我发布问题以来，chl亲切地指出了Friedman等人的论文[2]，其中坐标下降比其他方法快得多。如果是这样，作为执业医生，我是否应该忘掉LARS来支持协调下降？ [1]埃弗隆·布拉德利；海蒂·特雷弗；约翰·斯通，伊恩和蒂布希拉尼·罗伯特（2004）。“最小角度回归”。统计年鉴32（2）：第407-499页。 [2] Jerome H. Friedman，Trevor Hastie，Rob Tibshirani，“通过坐标下降的广义线性模型的正则化路径”，《统计软件》，第1卷。33，第1期，2010年2月。

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

在R中没有lm对象的情况下计算Newey-West标准误差

我昨天在StackOverflow上问了这个问题，并得到了答案，但我们同意，它似乎有点骇人听闻，并且也许有一种更好的方法来查看它。问题：我想计算向量（在本例中为股票收益向量）的Newey-West（HAC）标准误差。该功能NeweyWest()在sandwich包这样做，但需要一个lm对象作为输入。Joris Meys提供的解决方案是将向量投影到1上，这会将我的向量转换为残差并馈入NeweyWest()。那是： as.numeric(NeweyWest(lm(rnorm(100) ~ 1))) 均值的方差。我应该这样吗？还是有一种方法可以更直接地做我想做的事情？谢谢！

13 r standard-error autocorrelation heteroscedasticity

1

是否可以半自动化MCMC收敛诊断程序来设置老化时间？

我想自动选择MCMC链的老化选项，例如通过基于收敛性诊断删除前n行。此步骤可以安全地自动化到什么程度？即使我仍然仔细检查自相关，mcmc跟踪和pdf，也可以自动选择老化长度。我的问题很笼统，但是如果您可以提供处理R mcmc.object的细节，那就太好了；我在R中使用rjags和coda软件包。

13 r bayesian mcmc

3

平行坐标图的简单说明

我已经阅读并看到了许多平行坐标图。有人可以回答以下问题：简单来说，什么是平行坐标图（PCP），以便外行可以理解？可能的话凭直觉进行数学解释 PCP何时有用，何时使用？如果是PCP 不是有用的时，应避免他们？ PCP的可能优缺点

13 r data-visualization

3

通过重复观察的数量来估计被抽样人群的数量

假设我有五千万个独特的事物，我采样了1000万个样本（有替换样本）...我附上的第一张图显示了我对相同的“事物”进行了多少次采样，这与人口大于我的样本。但是，如果我的人口只有1000万，而我又进行了1000万采样，则如第二幅图所示，我将更频繁地对同一事物进行采样。我的问题是-从我的观察频率表（条形图中的数据）中，当未知时，是否有可能获得原始人口规模的估计？如果您可以提供如何在R中进行此操作的指针，那就太好了。

13 r sampling expectation-maximization

3

如何模拟lm模型的自定义功率分析（使用R）

根据最近的问题，我们在这里。我希望知道是否有人遇到或可以共享R代码以执行基于线性模型仿真的自定义功率分析？后来我显然想将其扩展到更复杂的模型，但是lm似乎是正确的起点。谢谢。

13 r power power-analysis

1

R中二项式glm中响应的输入格式

在中R，有三种方法可以使用glm函数来格式化输入数据以进行逻辑回归：对于每个观察，数据可以采用“二进制”格式（例如，对于每个观察，y = 0或1）；数据可以采用“ Wilkinson-Rogers”格式（例如y = cbind(success, failure)），每一行代表一种治疗；要么数据可以是每个观测值的加权格式（例如，y = 0.3，权重= 10）。这三种方法均产生相同的系数估计值，但自由度以及由此产生的偏差值和AIC分数不同。后两种方法具有较少的观测值（因此也具有自由度），因为它们将每种处理用于观测值的数量，而第一种方法将每种观测值用作观测值的数量。我的问题：使用一种输入格式比使用另一种输入格式有数字或统计优势吗？我看到的唯一好处是不必重新格式化数据R即可与模型一起使用。我查看了glm文档，在网络上搜索了该站点，发现了一个与切向相关的帖子，但没有有关该主题的指导。这是一个模拟示例，演示了此行为： # Write function to help simulate data drc4 <- function(x, b =1.0, c = 0, d = 1, e = 0){ (d - c)/ (1 + exp(-b * (log(x) - log(e)))) } # …

13 r logistic generalized-linear-model

1

为什么ecdf使用阶跃函数而不是线性插值？

经验CDF函数通常由阶跃函数估算。是否有理由这样做而不是使用线性插值？阶跃函数是否具有使我们更喜欢它的任何有趣的理论特性？这是两个的示例： ecdf2 <- function (x) { x <- sort(x) n <- length(x) if (n < 1) stop("'x' must have 1 or more non-missing values") vals <- unique(x) rval <- approxfun(vals, cumsum(tabulate(match(x, vals)))/n, method = "linear", yleft = 0, yright = 1, f = 0, ties = "ordered") class(rval) <- …

13 r distributions ecdf

1

GBM软件包与使用GBM的插入符

我一直在使用进行模型调整caret，但随后使用该gbm软件包重新运行模型。据我了解，caret程序包使用gbm的输出应相同。然而，data(iris)使用RMSE和R ^ 2作为评估指标，使用进行的快速测试显示模型中的差异约为5％。我想使用来找到最佳模型性能，caret但要重新运行gbm以利用部分依赖图。下面的代码具有可重复性。我的问题是： 1）为什么即使这两个软件包应该相同，我仍会看到这两个软件包之间的差异（我知道它们是随机的，但5％的差异还是很大的，尤其是当我没有使用iris建模时使用的很好的数据集时）。 2）同时使用这两个软件包有什么优点或缺点？ 3）不相关：使用iris数据集时，最佳interaction.depth值为5，但高于我所阅读的最大值，使用最大值floor(sqrt(ncol(iris)))为2。这是严格的经验法则还是非常灵活？ library(caret) library(gbm) library(hydroGOF) library(Metrics) data(iris) # Using caret caretGrid <- expand.grid(interaction.depth=c(1, 3, 5), n.trees = (0:50)*50, shrinkage=c(0.01, 0.001), n.minobsinnode=10) metric <- "RMSE" trainControl <- trainControl(method="cv", number=10) set.seed(99) gbm.caret <- train(Sepal.Length ~ ., data=iris, distribution="gaussian", method="gbm", trControl=trainControl, verbose=FALSE, tuneGrid=caretGrid, metric=metric, bag.fraction=0.75) print(gbm.caret) # …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

2

95％置信区间的公式

我在stats.stackexchange上进行了搜索和搜索，但是找不到用于为线性回归计算值的95％置信区间的公式。有人可以提供吗？R2R2R^2 更好的是，假设我在下面的R中运行了线性回归。如何使用R代码为R2R2R^2值计算95％的置信区间。 lm_mtcars <- lm(mpg ~ wt, mtcars)

13 r regression confidence-interval inference r-squared

4

解释glmer中的随机效应方差

我正在修订有关授粉的论文，其中数据按二项分布（水果成熟或没有成熟）。因此，我使用glmer了一种随机效果（单个植物）和一种固定效果（治疗）。审稿人想知道植物是否对坐果有影响-但我在解释glmer结果时遇到困难。我已经在网络上阅读过，似乎直接比较glm和glmer模型可能存在问题，所以我没有这样做。我认为回答这个问题的最直接方法是将随机效应方差（下面的1.449）与总方差进行比较，或者将处理结果解释为方差。但是，如何计算这些其他方差？它们似乎未包含在下面的输出中。我读到一些关于二项式不包括残差的信息glmer-我如何解释随机效应的相对重要性？ > summary(exclusionM_stem) Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: cbind(Fruit_1, Fruit_0) ~ Treatment + (1 | PlantID) AIC BIC logLik deviance df.resid 125.9 131.5 -59.0 117.9 26 Scaled residuals: Min 1Q Median 3Q Max -2.0793 -0.8021 -0.0603 0.6544 …

13 r generalized-linear-model variance lme4-nlme ecology

2

回归系数的协方差的解释是什么？

R中的lm函数可以打印出回归系数的估计协方差。这些信息给我们带来了什么？我们现在可以更好地解释模型或诊断模型中可能存在的问题吗？

13 r multiple-regression least-squares

1

从混合效应模型（lme4）中提取案例的斜率

我想在混合效果模型中提取每个人的斜率，如下段所述混合效应模型被用来表征认知摘要测度中各个变化路径的特征，包括年龄，性别和受教育年限等术语作为固定效应（Laird and Ware，1982; Wilson et al。，2000，2002c）。在对年龄，性别和教育程度的影响进行调整后，从混合模型中提取了残差的个体认知下降斜率项。然后将特定于人的调整后的残留斜率用作遗传关联分析的定量结果表型。这些估计值等于个人的斜率与相同年龄，性别和受教育程度的个人的预测斜率之差。 De Jager，PL，Shulman，JM，Chibnik，LB，Keenan，BT，Raj，T.，Wilson，RS等。（2012）。全基因组扫描，寻找影响年龄相关的认知衰退率的常见变异。衰老的神经生物学，33（5），1017.e1-1017.e15。我已经看过使用该coef函数提取每个人的系数，但是我不确定这是否是正确的方法。谁能提供一些有关如何执行此操作的建议？ #example R code library(lme4) attach(sleepstudy) fml <- lmer(Reaction ~ Days + (Days|Subject), sleepstudy) beta <- coef(fml)$Subject colnames(beta) <- c("Intercept", "Slope") beta summary(beta) summary(fm1)

13 r mixed-model

2

使用Nakagawa＆Schielzeth（2013）R2glmm方法在混合模型中计算

我一直在阅读有关在混合模型中计算值的信息，在阅读了R-sig常见问题解答之后，该论坛上的其他帖子（我会链接一些但我没有足够的声誉）以及其他一些参考资料，我知道使用在混合模型的上下文中，值很复杂。R2R2R^2R2R2R^2 但是，我最近在下面看到了这两篇论文。尽管这些方法对我来说确实很有希望，但我不是统计学家，因此我想知道其他人是否会对他们提出的方法以及与其他提出的方法进行比较有任何见解。 Nakagawa，Shinichi和Holger Schielzeth。“从广义线性混合效应模型获得R2的通用且简单的方法。” 《生态与进化中的方法》 4.2（2013）：133-142。约翰逊，保罗CD。“将Nakagawa＆Schielzeth的R2GLMM扩展到随机斜率模型。” 《生态与进化中的方法》（2014年）。也可以使用MuMIn包中的r.squaredGLMM函数来实现is方法，该方法提供了对该方法的以下描述。对于混合效应模型，可以分为两种类型。边际代表用固定因子解释的方差，并定义为：条件R ^ 2被解释为由固定和随机因素（即整个模型）解释的方差，并根据以下公式计算： R_ {GLMM}（c）^ 2 = \ frac {（σ_f ^ 2 + \ sum（σ_l^ 2））} {（σ_f^ 2 + \ sum（σ_l^ 2）+σ_e^ 2 +σ_d^ 2} 其中σ_f^ 2是固定效应分量的方差，并且\ sum （σ_l^ 2）是所有方差分量（组，个体等）的总和，σ_l^ 2R2R2R^2R2R2R^2RGLMM(m)2=σ2fσ2f+∑(σ2l)+σ2e+σ2dRGLMM(m)2=σf2σf2+∑(σl2)+σe2+σd2R_{GLMM}(m)^2 = \frac{σ_f^2}{σ_f^2 + \sum(σ_l^2) + σ_e^2 + σ_d^2}R2R2R^2RGLMM(c)2=(σ2f+∑(σ2l))(σ2f+∑(σ2l)+σ2e+σ2dRGLMM(c)2=(σf2+∑(σl2))(σf2+∑(σl2)+σe2+σd2R_{GLMM}(c)^2= \frac{(σ_f^2 …

13 r mixed-model r-squared lme4-nlme

1

整合经验CDF

我有一个经验分布。我如下计算G(x)G(x)G(x) x <- seq(0, 1000, 0.1) g <- ecdf(var1) G <- g(x) 我表示，即h是pdf，而G是cdf。h(x)=dG/dxh(x)=dG/dxh(x) = dG/dxhhhGGG 我现在想求解一个积分上限的方程（例如），以使x的期望值为k。aaaxxxkkk 即，从积分至b，我应该有∫ X ħ （X ）d X = ķ。我想解决b。000bbb∫xh(x)dx=k∫xh(x)dx=k\int xh(x)dx = kbbb 通过部分积分，我可以将等式重写为，其中积分是从 0到 b -------（1）bG(b)−∫b0G(x)dx=kbG(b)−∫0bG(x)dx=kbG(b) - \int_0^b G(x)dx = k000bbb 我想我可以如下计算积分 intgrl <- function(b) { z <- seq(0, b, 0.01) G <- g(z) …

13 r integral ecdf

Questions tagged «r»