统计和大数据 r

1

这是我对嵌套随机效应与交叉随机效应的理解：当较低级别的因子仅出现在较高级别的因子的特定级别内时，会发生嵌套随机效应。例如，班级内的学生在固定的时间点。在lme4我看来，我们用两种等效方式中的任一种来表示嵌套数据的随机效应： (1|class/pupil) # or (1|class) + (1|class:pupil) 交叉随机效应意味着给定因子出现在上层因子的一个以上水平中。例如，几年级的班级中有小学生。在中lme4，我们将这样写： (1|class) + (1|pupil) 但是，当我查看特定的嵌套数据集时，我注意到两个模型公式给出的结果相同（下面的代码和输出）。但是，我看到了其他数据集，其中两个公式产生了不同的结果。那么这是怎么回事？ mydata <- read.csv("https://web.archive.org/web/20160624172041if_/http://www-personal.umich.edu/~bwest/classroom.csv") # (the data is no longer at `http://www-personal.umich.edu/~bwest/classroom.csv` # hence the link to web.archive.org) # Crossed version: Linear mixed model fit by REML ['lmerMod'] Formula: mathgain ~ (1 | schoolid) …

88 r mixed-model multilevel-analysis lme4-nlme

1

解释plot.lm（）

我有一个关于解释R中plot（lm）生成的图的问题。我想知道你们是否可以告诉我如何解释比例位置图和杠杆剩余图？任何意见，将不胜感激。假设掌握统计，回归和计量经济学的基础知识。

88 r regression data-visualization residuals outliers

2

我们应该对lme4中的收敛警告感到多么恐惧

如果我们重新装上一目了然的眼镜，我们可能会收到一条警告，告知我们该模型正在难以收敛...例如 >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) @Ben Bolker 在此线程中讨论的另一种检查收敛的方法是： relgrad <- with(model@optinfo$derivs,solve(Hessian,gradient)) max(abs(relgrad)) #[1] 1.152891e-05 如果max(abs(relgrad))可以，<0.001那么事情可能没事...所以在这种情况下，我们得出的结果相互矛盾？我们应该如何在方法之间进行选择，并通过模型拟合感到安全？另一方面，当我们获得更多极限值时，例如： >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = …

88 r mixed-model lme4-nlme

3

什么是等级不足，如何应对？

使用lme4拟合逻辑回归的结尾为 Error in mer_finalize(ans) : Downdated X'X is not positive definite. 此错误的可能原因显然是等级不足。什么是等级不足，我该如何解决？

87 r logistic lme4-nlme

4

如何为混合效果模型选择nlme或lme4 R库？

我使用lme4in 拟合了一些混合效果模型（尤其是纵向模型），R但希望真正掌握这些模型以及它们附带的代码。但是，在双脚潜水（并购买一些书籍）之前，我想确保自己正在学习正确的图书馆。到目前为止，我已经用完lme4了，因为我发现它比容易得多nlme，但是如果nlme对我的目的更好，那么我应该使用它。我敢肯定，两者都不是简单化的“更好”，但我会重视一些意见或想法。我的主要标准是：易于使用（我是一名受过训练的心理学家，并不精通统计学或编码，但我正在学习）拟合纵向数据的好功能（如果这里有区别，但这是我主要使用它们的目的）好的（易于解释的）图形摘要，再次不确定这里是否有区别，但是我经常为技术水平不高的人制作图形，因此漂亮的清晰图总是很好的（我非常喜欢网格中的xyplot函数（）为此原因）。和往常一样，希望这个问题不要太含糊，并在此先感谢您的智慧！

85 r mixed-model lme4-nlme

21

免费学习R的资源

我对以便宜的价格学习R感兴趣。学习R的最佳免费资源/书/教程是什么？

78 r references

3

示例：使用glmnet获得二进制结果的LASSO回归

我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框： age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

在出版物中呈现随机森林的最佳方法？

我正在使用随机森林算法作为具有1000多个特征的微阵列研究中两组的鲁棒分类器。呈现随机森林的最佳方法是什么，以便有足够的信息使其在纸上可重现？如果要素数量少，R中是否有绘制方法实际绘制树？ OOB错误率估计是否是引用的最佳统计数据？

75 r machine-learning classification random-forest microarray

2

重采样/模拟方法：蒙特卡洛，自举，千斤顶，交叉验证，随机化测试和置换测试

我试图理解不同重采样方法（蒙特卡罗模拟，参数自举，非参数自举，顶峰，交叉验证，随机化测试和置换测试）之间的区别，以及它们在我自己的环境中使用R的实现。假设我遇到以下情况–我想对Y变量（Yvar）和X变量（Xvar）执行ANOVA 。Xvar是绝对的。我对以下事情感兴趣：（1）p值的意义–错误发现率（2）效果Xvar等级大小 Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) 您能帮我用明确的工作示例解释采样差异吗，这些重采样方法是如何工作的？编辑：这是我的尝试： Bootstrap 10个Bootstrap样本，样本数量已替换，意味着可以重复样本 boot.samples <- list() for(i in 1:10) { t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=TRUE) ] t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=TRUE) ] …

73 r bootstrap resampling jackknife permutation-test

15

适合R的优秀GUI，适合希望学习R编程的初学者？

是否有R的GUI，可以使初学者更轻松地开始使用该语言进行学习和编程？

73 r

2

删除R中的重复行数据框

如何从此示例数据框中删除重复的行？ A 1 A 1 A 2 B 4 B 1 B 1 C 2 C 2 我想根据两列删除重复项： A 1 A 2 B 4 B 1 C 2 顺序并不重要。

71 r

15

使用R的可重复研究的完整实质性示例

问题：是否有任何可以免费在线使用R进行可重复研究的好例子？理想示例：具体而言，理想示例将提供：原始数据（最好是解释数据的元数据），所有R代码，包括数据导入，处理，分析和输出生成，调整或将最终输出链接到最终文档的其他方法，所有格式都易于在读者的计算机上下载和编译。理想情况下，示例应是期刊文章或论文，其中重点是实际应用的主题，而不是统计教学示例。感兴趣的原因：我对期刊文章和论文中的应用主题特别感兴趣，因为在这种情况下，还会出现其他一些问题：出现与数据清理和处理有关的问题，出现与元数据管理有关的问题，期刊和论文通常对表格和图表的外观和格式有风格指导的期望，许多期刊和论文通常都有广泛的分析，这些分析提出了有关工作流程（即，如何进行序列分析）和处理时间（例如，缓存分析等）的问题。看到完整的示例，可以为可重复研究的研究人员提供良好的指导材料。

71 r references reproducible-research

8

生成与现有变量具有定义的相关性的随机变量

对于模拟研究，我必须生成随机变量，这些变量显示与现有变量的预定义（填充）相关性。ÿYY 我研究了这些R软件包copula，CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是，不可能将结果变量之一固定为现有变量。任何想法和现有功能的链接表示赞赏！结论：提出了两个有效的答案，有不同的解决方案：一个R 脚本由卡拉卡尔，其计算与一个随机变量精确（样品）的相关性，以一个预定义的变量我发现了一个R 函数，该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充：我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量；即如何生成具有预定义正确性和一些固定的现有变量的变量]

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

4

R函数prcomp和princomp有什么区别？

我比较?prcomp并?princomp发现了有关Q模式和R模式主成分分析（PCA）的知识。但说实话–我不明白。谁能解释其中的区别，甚至可以解释何时申请？

69 r pca

2

R中的多元多元回归

我有2个因变量（DV），每个因变量的得分可能受7个独立变量（IV）的影响。DV是连续的，而IV则由连续变量和二进制编码变量组成。（在下面的代码中，连续变量用大写字母写，二进制变量用小写字母写。）该研究的目的是揭示IV变量如何影响这些DV。我提出了以下多元多元回归（MMR）模型： my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) 为了解释结果，我调用两个语句： summary(manova(my.model)) Manova(my.model) 这两个调用的输出都粘贴在下面，并且有很大的不同。有人可以解释一下应该适当选择总结MMR结果的两种说法中的哪一种吗？为什么？任何建议将不胜感激。使用using的输出summary(manova(my.model))： > summary(manova(my.model)) Df Pillai approx F num Df den Df Pr(>F) c 1 0.105295 5.8255 2 99 0.004057 ** d 1 0.085131 4.6061 2 99 …

68 r multivariate-analysis manova multiple-regression multivariate-regression

Questions tagged «r»