统计和大数据 r

4

我对如何计算多元分布的分位数感兴趣。在图中，我绘制了给定单变量正态分布的5％和95％分位数（左）。对于正确的多元正态分布，我想象一个类似物将是一个等密度线，它包围密度函数的基数。以下是我尝试使用软件包计算此结果的示例mvtnorm-但未成功。我想可以通过计算多元密度函数结果的等值线来做到这一点，但是我想知道是否还有另一种选择（例如，qnorm）。谢谢你的帮助。例： mu <- 5 sigma <- 2 vals <- seq(-2,12,,100) ds <- dnorm(vals, mean=mu, sd=sigma) plot(vals, ds, t="l") qs <- qnorm(c(0.05, 0.95), mean=mu, sd=sigma) abline(v=qs, col=2, lty=2) #install.packages("mvtnorm") require(mvtnorm) n <- 2 mmu <- rep(mu, n) msigma <- rep(sigma, n) mcov <- diag(msigma^2) mvals <- expand.grid(seq(-2,12,,100), seq(-2,12,,100)) mvds <- …

24 r pdf quantiles multivariate-normal multivariate-distribution

3

方差分析后的事后测试，使用R进行重复测量

我在R中执行了重复测量方差分析，如下所示： aov_velocity = aov(Velocity ~ Material + Error(Subject/(Material)), data=scrd) summary(aov_velocity) 在使用重复测量进行方差分析后，R中的哪种语法可以用于执行事后测试？用Bonferroni校正进行Tukey检验是否合适？如果是这样，如何在R中完成呢？

24 r anova repeated-measures post-hoc contrasts

3

什么是“混淆系数”？

在R（lm）中建立回归模型时，我经常收到此消息 "there are aliased coefficients in the model" 这到底是什么意思？另外，由于此predict()原因也发出警告。尽管这只是一个警告，但我想知道在构建模型之前如何检测/删除别名系数。另外，忽略此警告可能会带来什么后果？

24 r regression

2

将固定效果嵌套在一个随机效果中是否有意义，或者如何用R（aov和lmer）编码重复的度量？

我一直在通过@conjugateprior浏览lm / lmer R公式的概述，并被以下条目弄糊涂了：现在假设A是随机的，但B是固定的，并且B嵌套在A内。 aov(Y ~ B + Error(A/B), data=d) 下面lmer(Y ~ B + (1 | A:B), data=d) 为相同情况提供了类似的混合模型公式。我不太明白这是什么意思。在将受试者分为几组的实验中，我们将在固定因子（组）中嵌套一个随机因子（对象）。但是，如何将固定因子嵌套在随机因子中呢？有固定的嵌套在随机主题内的东西吗？可能吗如果不可能，那么这些R公式有意义吗？提到该概述部分基于个性项目的页面，该页面基于R中的重复度量的本教程，而该页面本身基于R进行ANOVA。以下是重复测量方差分析的示例： aov(Recall ~ Valence + Error(Subject/Valence), data.ex3) 在这里，向受试者显示不同价的单词（三个级别的因子），并测量其回忆时间。每个主题都有三个价位的单词。我没有看到此设计中嵌套的任何内容（按照此处的最佳答案，它看起来像是交叉的），因此在这种情况下，我会天真的认为Error(Subject)或(1 | Subject)应该使用适当的随机术语。在Subject/Valence“筑巢”（？）是混淆。请注意，我确实知道这Valence是一个内部因素。但我认为这不是科目中的“嵌套”因素（因为所有科目都经历的所有三个级别Valence）。更新。我正在探索有关在R中编码重复测量方差分析的CV问题。在此，以下内容用于固定的内部/重复测量值A和随机值subject： summary(aov(Y ~ A + Error(subject/A), data = d)) anova(lme(Y ~ A, random = ~1|subject, data …

23 r anova mixed-model repeated-measures lme4-nlme

4

在R中确定两个样本比例二项式检验（以及一些奇怪的p值）

我正在尝试解决以下问题：玩家A在25场比赛中赢得17场比赛，而玩家B在20场比赛中赢得8场比赛-两种比率之间是否有显着差异？在R中想到的事情如下： > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent confidence interval: -0.002016956 0.562016956 sample estimates: prop 1 prop 2 0.68 0.40 因此，该测试表明，在95％的置信水平下，差异并不显着。因为我们知道那prop.test()仅是使用近似值，所以我想通过使用精确的二项式检验使事情更精确-并且我同时采用了两种方法： > …

23 r hypothesis-testing statistical-significance binomial proportion

2

使用ARMA对非平稳过程进行建模的后果？

我知道我们应该使用ARIMA对非平稳时间序列进行建模。另外，我读到的所有内容都说ARMA只应用于固定时间序列。我想了解的是，在对模型进行错误分类并假设d = 0非平稳时间序列时，在实践中会发生什么？例如： controlData <- arima.sim(list(order = c(1,1,1), ar = .5, ma = .5), n = 44) 控制数据如下所示： [1] 0.0000000 0.1240838 -1.4544087 -3.1943094 -5.6205257 [6] -8.5636126 -10.1573548 -9.2822666 -10.0174493 -11.0105225 [11] -11.4726127 -13.8827001 -16.6040541 -19.1966633 -22.0543414 [16] -24.8542959 -25.2883155 -23.6519271 -21.8270981 -21.4351267 [21] -22.6155812 -21.9189036 -20.2064343 -18.2516852 -15.5822178 [26] …

23 r time-series arima stationarity

2

混合模型的样本量计算

我想知道在混合模型中是否有任何计算样本量的方法？我lmer在R中使用以拟合模型（我具有随机斜率和截距）。

23 r mixed-model lme4-nlme power-analysis

4

是否有一个随机森林实现方案可以很好地处理稀疏数据？

是否有一个R随机森林实现方案可以很好地处理稀疏数据？我有成千上万的布尔输入变量，但是对于任何给定的示例，只有几百个布尔值才是TRUE。我对R还是比较陌生，并且注意到有一个用于处理稀疏数据的“ Matrix”包，但是标准的“ randomForest”包似乎无法识别这种数据类型。如果重要的话，输入数据将在R之外生成并导入。有什么建议吗？我也可以研究使用Weka，Mahout或其他软件包。

23 r random-forest sparse

4

如何计算R中的累积分布？

已锁定。该问题及其答案被锁定，因为该问题是题外话，但具有历史意义。它目前不接受新的答案或互动。我需要计算数据样本的累积分布函数。 R中是否有类似于hist（）的东西来测量累积密度函数？我尝试过ecdf（），但我听不懂逻辑。

23 r distributions cdf

2

具有轮廓/热量叠加的散点图

已锁定。该问题及其答案被锁定，因为该问题是题外话，但具有历史意义。它目前不接受新的答案或互动。我在最近的一篇论文的增刊中看到了该图，我很希望能够使用R复制它。这是一个散点图，但是要解决过度绘制问题，可以使用等高线将其“加热”为蓝色到红色，对应于过度绘图密度。我该怎么做？

23 r data-visualization scatterplot

3

如何测试残差的自相关？

我有一个包含两列的矩阵，这两列具有很多价格（750）。在下图中，我绘制了线性回归的残差： lm(prices[,1] ~ prices[,2]) 看图像，似乎是残差的很强的自相关。但是，如何测试这些残差的自相关性是否强？我应该使用什么方法？谢谢！

23 r regression correlation autocorrelation

3

如何计算R中ARIMA模型的参数的p值？

在R中进行时间序列研究时，我发现arima 仅提供系数值及其拟合模型的标准误差。但是，我也想获得系数的p值。我没有找到任何可提供coef意义的功能。所以我希望自己计算，但是我不知道系数的t或chisq分布的自由度。所以我的问题是如何在R中获得拟合的Arima模型系数的p值？

23 r time-series chi-squared arima parametric

4

有什么有效的方法来组织R代码和输出？[关闭]

关闭。这个问题是题外话。它当前不接受答案。想改善这个问题吗？更新问题，使它成为交叉验证的主题。去年关闭。我正在寻找其他人如何组织其R代码和输出的输入。我目前的做法是在文本文件的块中编写代码，如下所示： #================================================= # 19 May 2011 date() # Correlation analysis of variables in sed summary load("/media/working/working_files/R_working/sed_OM_survey.RData") # correlation between estimated surface and mean perc.OM in epi samples cor.test(survey$mean.perc.OM[survey$Depth == "epi"], survey$est.surf.OM[survey$Depth == "epi"])) #================================================== 然后，我将输出粘贴到另一个文本文件中，通常带有一些注释。此方法的问题是：除了按日期以外，未显式链接代码和输出。代码和输出是按时间顺序组织的，因此可能很难搜索。我考虑过使用所有内容制作一个Sweave文档，因为那时我可以制作目录，但这似乎比它提供的好处更麻烦。让我知道您用于组织R代码和输出的任何有效例程，这些例程将有助于有效地搜索和编辑分析。

23 r project-management

4

使用卡尔曼滤波器进行时间序列预测的R代码

在R中使用卡尔曼滤波器进行时间序列预测/平滑的人有没有很好的例子？

23 r time-series kalman-filter

5

具有更好的预测（例如CV）性能的分类树的替代方案？

我正在寻找分类树的替代方法，它可能会产生更好的预测能力。我正在处理的数据对于解释变量和解释变量都有影响。我记得在这种情况下遇到过随机森林和神经网络，尽管以前从未尝试过，但是是否有另一个很好的候选人来进行这种建模任务（显然是在R中）？

23 r machine-learning classification cart

Questions tagged «r»