Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

2
命中并运行MCMC
我正在尝试实现即插即用的MCMC算法,但是在理解如何进行操作时遇到了一些麻烦。总体思路如下: 为了在MH中产生提案跳跃,我们: 根据单位球表面上的分布生成方向dddOO\mathcal{O} 沿约束空间生成有符号距离。λλ\lambda 但是,我不知道应该如何用R(或任何其他语言)实现这一点。 有没有人会向我指出正确方向的一小段代码? 顺便说一句,我对执行此方法的库没什么兴趣,我想尝试自己编写代码。 非常感谢。
16 r  bayesian  mcmc 

4
我是否应该在ezANOVA中包含一个参数以请求III型平方和?
我为R开发了ez软件包,以帮助人们从SPSS之类的统计软件包过渡到R。(希望)通过简化各种ANOVA的规格并提供类似于SPSS的输出(包括效果大小和假设)来实现测试),以及其他功能。该ezANOVA()函数主要用作的包装car::Anova(),但是当前版本的ezANOVA()实现仅实现II型平方和,而car::Anova()允许指定II型或-III平方和。正如我可能期望的那样,一些用户要求我在ezANOVA()允许用户请求II型或III型。我一直不愿这样做,并在下面概述了我的推理,但是我希望社区对我或与该问题有关的其他推理提供意见。 原因不包括在“SS_type”的说法ezANOVA(): I,II和III型和平方之间的差异仅在数据不平衡时才会出现,在这种情况下,我想说,通过进一步收集数据来改善不平衡比使用ANOVA计算可带来更多的收益。 II型和III型之间的差异适用于由高阶效应限定的低阶效应,在这种情况下,我认为低阶效应在科学上没有意义。(但请参阅下文了解参数的可能复杂之处) 对于那些不适用(1)和(2)的罕见情况(当无法进行进一步的数据收集并且研究人员对我目前无法想象的合格主效应具有有效的科学兴趣时),可以相对轻松地进行修改的ezANOVA()源或采用car::Anova()本身就实现III型试验。通过这种方式,我将获得III型测试所需的额外工作/理解视为确保只有那些真正了解自己在做什么的人才能走这条路。 现在,最新的III类请求者指出,考虑到以下情况会破坏论点(2),在这种情况下,存在但不重要的高阶效应可能会使平方和的计算偏向于低阶效应。在这种情况下,可以想象的是,研究人员将寻求更高阶的效果,而发现它是“不重要的”,而转向尝试解释对研究人员而言并不为人所折衷的较低阶效果。我最初的反应是,这不是平方和的问题,而是p值和原假设检验的传统。我怀疑,更明确的证据度量(例如,似然比)可能更可能产生与数据一致的支持模型的模棱两可图像。但是,我还没有

3
如何在R的barplot中的条上放置值
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 这个问题与我以前的问题有关。我想将值放在条形图中的条上。我是R中绘图的初学者。

4
谁将R与多核,SNOW或CUDA软件包一起用于资源密集型计算?
在本论坛中,谁愿意将“> R与多核,snow软件包或CUDA一起使用,因此对于需要比工作站CPU更大功率的高级计算?您在哪个硬件上计算这些脚本?数据中心访问某处? 这些问题的背景如下:我目前正在写我的硕士学位。关于R和高性能计算的论文,需要对谁真正使用R有深入的了解。我读到R在2008年拥有100万用户,但这几乎是我可以找到的关于该主题的唯一用户统计信息-所以我希望您能答案! 真诚的海因里希

3
R?中的非参数重复测量多方方差分析
以下问题是一段时间以来对我而言最神圣的问题之一,我希望有人能够提供很好的建议。 我希望使用R执行非参数重复测量多方方差分析。 我已经在网上进行了一段时间的搜索和阅读,到目前为止,仅能找到以下几种情况的解决方案:Friedman测试单向非参数重复测量方差分析,有序回归与{car} Anova函数用于多路非参数方差分析等。部分解决方案不是我在此问题线程中寻找的。我在一段时间前发布的一篇文章中总结了到目前为止的发现(标题为:重复测量R的方差分析(函数和教程),以防万一。 如果我在网上阅读的内容是正确的,则可以使用混合序数回归模型(又称比例赔率模型)来完成此任务。 我发现了两个看似相关的软件包,但找不到关于该主题的任何插图: http://cran.r-project.org/web/packages/repolr/ http://cran.r-project.org/web/packages/ordinal/ 因此,对于这个主题来说,我是新手,我希望这里的人们能提供一些指导。 是否有关于该主题的任何教程/建议阅读的内容?甚至更好的是,有人可以建议一个简单的示例代码来说明如何在R中运行和分析此代码(例如:“非参数重复测量多方方差分析”)吗?

1
加权随机森林的R包?classwt选项?
我正在尝试使用随机森林来预测极端不平衡的数据集的结果(少数族裔比率仅为1%甚至更低)。因为传统的随机森林算法将总错误率降到最低,而不是特别注意少数类,所以它不能直接应用于不平衡数据。因此,我想为少数群体的错误分类分配高昂的成本(成本敏感型学习)。 我阅读了一些可以在R中使用选项classwt的资料randomForest,但我不知道如何使用它。我们还有其他替代randomForest功能吗?
16 r  random-forest 

2
通过ACF和PACF检查估算ARMA系数
您如何通过目视检查ACF和PACF图来估计时间序列的适当预测模型?哪一个(即ACF或PACF)告诉AR或MA(或两者)?图表的哪一部分告诉您季节性ARIMA的季节性和非季节性部分? 考虑下面显示的ACF和PCF功能。它们来自经过两次对数转换的对数变换系列,一次是简单的差异,一个是季节性的(原始数据,对数变换的数据)。您如何表征该系列?哪种型号最合适?

3
将R预测包与缺失值和/或不规则时间序列一起使用
R forecast包以及zoo用于不规则时间序列和内插缺失值的包给我留下了深刻的印象。 我的应用程序是在呼叫中心流量预测方面,因此(几乎)总是缺少周末的数据,可以通过很好地处理zoo。此外,一些离散的点可能会丢失,我只是用的r NA为。 事实是:所有的预测包的漂亮的魔法,比如eta(),auto.arima()等等,似乎期望普通ts的物体,不包含任何丢失的数据,即等间隔的时间序列。我认为在现实世界中仅存在等时时间序列的应用确实存在,但是-我认为-非常有限。 几个离散的问题NA的值可容易地通过使用任何的提供内插函数来解决zoo,以及通过forecast::interp。之后,我运行了预测。 我的问题: 有人建议更好的解决方案吗? (我的主要问题)至少在我的应用程序域中,呼叫中心流量预测(据我所能想象的大多数其他问题域),时间序列不是等距的。至少我们有重复的“工作日”计划或类似的计划。什么是最好的处理方式,同时仍然使用预测包的所有酷魔术? 我是否应该“压缩”时间序列以填充周末,进行预测,然后再次“充气”数据以在周末重新插入NA值?(我认为这是一种耻辱吗?) 是否有计划使预测程序包与不定期的时间序列程序包(如Zoo或其兼容程序)完全兼容?如果是,何时和否,为什么不呢? 我对预测(以及一般的统计数据)还很陌生,所以我可能会忽略一些重要的事情。

2
R中插入符号包中的PCA和k倍交叉验证
我刚刚重新观看了Coursera上机器学习课程的演讲。在教授讨论PCA以便在有监督的学习应用程序中对数据进行预处理的部分中,他说PCA仅应在训练数据上执行,然后使用映射来转换交叉验证和测试集。另请参阅PCA和火车/测试区。 但是,在caretR包中,传递给train()函数的训练数据已经由PCA处理。因此,当算法执行k倍交叉验证时,交叉验证集已经通过PCA preProcess()和进行了处理,predict()并且实际上已用于PCA“拟合”中。 我对情况的理解正确吗?是否表示插入符号与PCA(或实际上使用任何缩放/定中心方法)进行交叉验证的过程是“错误的”,因为数据的预处理是在交叉验证集和训练集上进行的?如果是这样,这将对结果产生多大的影响?

3
有可用的通用方法来模拟公式或分析中的数据吗?
从实验设计数据框中对数据进行从头模拟。 着重于R(尽管其他语言解决方案会很棒)。 在设计实验或调查时,模拟数据并对该模拟数据进行分析可以提供对设计优点和缺点的深刻了解。 这种方法对于理解和正确使用统计检验也可能至关重要。 但是,此过程往往有些繁琐,并且导致许多人跳过了实验或调查中的这一重要步骤。 统计模型和检验包含模拟数据所需的大多数信息(包括假设或分布的明确表述)。 给定一个分析模型(及其关联的假设,例如正态和平衡),一个因素的水平和一个显着性的量度(例如p值),我想获得模拟数据(理想情况下具有类似于print(),predict(),simulate())。 这样的通用仿真框架可能吗? 如果可以,目前是否有这样的框架? 例如,我想要一个函数,例如: sim(aov(response~factor1+factor2*factor3), p.values=list(factor1=0.05, factor2=0.05, factor3=0.50, factor2:factor3=0.05), levels=list(factor1=1:10, factor2=c("A", "B", "C"), factor3=c("A", "B", "C"))) 即: sim.lm<-function(){ library(DoE.base) design<-fac.design(nlevels=c(10,3,3), factor.names=c("factor1", "factor2", "factor3"), replications=3, randomize=F) response<-with(design, as.numeric(factor1)+ as.numeric(factor2)+ as.numeric(factor3)+ as.numeric(factor2)*as.numeric(factor3)+ rnorm(length(factor1))) simulation<-data.frame(design, response)} 要么 sim(glm(response~factor1+factor2*factor3, family=poisson), p.values=list(factor1=0.05, factor2=0.05, factor3=0.50, factor2:factor3=0.05), levels=list(factor1=1:10, factor2=c("A", "B", "C"), …

6
如何在一系列数据中找到局部峰/谷?
这是我的实验: 我正在使用quantmod包中的findPeaks函数: 我想在公差5内检测“局部”峰,即时间序列从局部峰下降5以后的第一个位置: aa=100:1 bb=sin(aa/3) cc=aa*bb plot(cc, type="l") p=findPeaks(cc, 5) points(p, cc[p]) p 输出是 [1] 3 22 41 这似乎是错误的,因为我预计“本地高峰”会超过3个... 有什么想法吗?
16 r  time-series 

6
R的计算速度?
我的任务是将我们当前的大型随机模型之一从SAS迁移到新语言。就个人而言,我更喜欢传统的编译语言,但PI希望我签出我从未使用过的R。我们将模型从SAS中剔除的动机是:(1)许多人因为SAS昂贵而无法使用它;(2)我们正在寻求摆脱解释型语言;(3)SAS对于我们拥有的模型类型。 对于(1),显然R满足自由的需求。对于(2),理想情况下,我们想创建一个可执行文件,但是R通常用作脚本语言。我看到有人最近发布了R编译器-这是否广受欢迎?这个容易用吗?我们不想强迫用户自己下载R。对于(3),我们的SAS问题是所有时间都花在I / O写入和读取数据集上。我们的模型是计算密集型的,并且经常受到运行时的限制。(例如,有人在周末劫持人们的计算机来执行运行并不少见。)我们在Fortran中建立了一个类似的模型,该模型不会出现相同的问题,因为所有工作都在内存中完成。R如何工作?它是否与SAS相同,因为它可以在数据步骤中工作,读写文件?还是可以在内存中进行数组操作?
16 r  computing 

4
经典线性模型-模型选择
我有一个经典的线性模型,带有5个可能的回归变量。它们彼此不相关,并且与响应的相关性很低。我已经建立了一个模型,其中3个回归变量的t统计量具有显着系数(p <0.05)。对于添加的变量,将其余2个变量中的一个或两个相加得出t统计量的p值> 0.05。这使我相信3变量模型是“最佳”的。 但是,在R中使用anova(a,b)命令,其中a是3变量模型,b是完整模型,F统计量的p值<0.05,这表明我更喜欢完整模型而不是3变量模型。我该如何调和这些明显的矛盾? 谢谢PS编辑:一些进一步的背景。这是家庭作业,因此我将不发布细节,但是我们没有提供回归变量代表的详细信息-它们只是从1到5编号。我们被要求“推导适当的模型,给出理由”。

3
如何最好地以图形方式显示II型(beta)误差,功效和样本量?
我被要求写一篇关于统计学的入门书,我在努力用图形显示p值和幂之间的关系。我想出了这张图: 我的问题:有更好的显示方式吗? 这是我的R代码 x <- seq(-4, 4, length=1000) hx <- dnorm(x, mean=0, sd=1) plot(x, hx, type="n", xlim=c(-4, 8), ylim=c(0, 0.5), ylab = "", xlab = "", main= expression(paste("Type II (", beta, ") error")), axes=FALSE) axis(1, at = c(-qnorm(.025), 0, -4), labels = expression("p-value", 0, -infinity )) shift = qnorm(1-0.025, mean=0, …
16 r  teaching  power 

2
使用R的nls()进行变更点分析
我正在尝试实现“变化点”分析或nls()在R中使用的多阶段回归。 这是我制作的一些虚假数据。我想用来拟合数据的公式是: ÿ= β0+ β1个x + β2最大(0 ,X - δ)ÿ=β0+β1个X+β2最大值(0,X-δ)y = \beta_0 + \beta_1x + \beta_2\max(0,x-\delta) 这应该做的是使数据具有特定的截距和斜率(β0β0\beta_0和β1个β1个\beta_1),直到特定点,然后在某个x值(δδ\delta)之后,将斜率增加β2β2\beta_2。这就是整个最大事情。在δδ\delta点之前,它等于0,并且β2β2\beta_2将被清零。 因此,这是我的功能: changePoint <- function(x, b0, slope1, slope2, delta){ b0 + (x*slope1) + (max(0, x-delta) * slope2) } 我尝试以这种方式拟合模型 nls(y ~ changePoint(x, b0, slope1, slope2, delta), data = data, start = c(b0 = 50, …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.