Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

3
我可以使用什么测试来比较两个或多个回归模型的斜率?
我想测试两个变量对一个预测变量的响应差异。这是一个最小的可复制示例。 library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, subset …

2
用正则化或罚分拟合ARIMAX模型(例如,套索,弹性网或岭回归)
我在预测包中使用了auto.arima()函数来拟合具有各种协变量的ARMAX模型。但是,我经常有很多变量可供选择,并且通常最终得到一个最终模型,该模型可以使用其中的一个子集。我不喜欢用于变量选择的临时技术,因为我是人类并且容易受到偏见的影响,但是交叉验证时间序列比较困难,因此我没有找到一种自动尝试可用变量的不同子集的好方法,并且我无法根据自己的最佳判断来调整模型。 当我拟合glm模型时,可以通过glmnet软件包使用弹性网或套索进行正则化和变量选择。R中是否存在用于在ARMAX模型上使用弹性网的现有工具包,还是我必须自己开发?这是个好主意吗? 编辑:手动计算AR和MA项(例如,直到AR5和MA5)并使用glmnet拟合模型是否有意义? 编辑2:看来,FitAR软件包使我受益匪浅,但并非全部。

6
Shapiro-Wilk检验的解释
我是统计学的新手,需要您的帮助。 我有一个小样本,如下所示: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 我使用R运行了Shapiro-Wilk测试: shapiro.test(precisionH4U$H4U) 我得到以下结果: W = 0.9502, p-value = 0.6921 现在,如果我假设在0.05处的显着性水平大于p值,则alpha(0.6921> 0.05),并且我不能拒绝关于正态分布的零假设,但是我是否可以说样本具有正态分布? 谢谢!

3
如何通过PCA执行正交回归(最小二乘法)?
我总是用lm()R 在上执行线性回归。该函数返回系数,使得y = \ beta x。yyyxxxββ\betay=βx.y=βx.y = \beta x. 今天,我了解了总最小二乘法,并且princomp()可以使用该函数(主成分分析,PCA)来执行它。对我来说应该是有益的(更准确)。我使用进行了一些测试princomp(),例如: r <- princomp( ~ x + y) 我的问题是:如何解释其结果?如何获得回归系数?“系数”是指我必须用来乘以x值以得到接近y的数字\ beta。ββ\betaxxxyyy


3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

2
运行glm时出现错误“系统在计算上是奇异的”
我正在使用robustbase程序包来运行glm估计。但是,当我这样做时,出现以下错误: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 这是什么意思/表示?我该如何调试呢? PS。如果您需要任何答案(公式/规格或数据),我将很乐意提供。

1
R中秒/分钟间隔数据的“频率”值
我正在使用R(3.1.1)和ARIMA模型进行预测。我想知道什么是“频率”参数ts(),如果im使用时间序列数据,则该参数应在函数中分配: 以分钟为单位,并持续180天(每天1440分钟) 相隔数秒,分布在180天(86,400秒/天)中。 如果我没记错的话,R中以ts为单位的“频率”是每个“季节”的观测次数。 问题部分1: 在我的情况下,“季节”是什么? 如果季节是“日”,那么分钟的“频率”是1440,秒是86400? 问题第二部分: “频率”是否还取决于我要达到/预测的目标? 例如,就我而言,我想要一个非常短期的预测。每次比10分钟领先一步。 然后可以将季节视为一个小时而不是一天吗? 在那种情况下,频率= 60分钟,而频率= 3600秒? 例如,我尝试使用频率= 60作为分钟数据,与频率= 1440相比,得到了更好的结果(用于fourier查看Hyndman的以下链接) http://robjhyndman.com/hyndsight/forecasting-weekly-data/ (使用MAPE进行预测准确性的比较) 如果结果完全是任意的,并且无法更改频率。在我的数据上使用freq = 60的实际解释是什么? 我也认为值得一提的是,我的数据每隔两个小时包含一次季节性变化(通过观察原始数据和自相关函数)

2
为什么glmnet岭回归给我的答案与手动计算不同?
我正在使用glmnet计算岭回归估计值。我得到了一些结果,使我对glmnet确实在做我认为做的事情感到怀疑。为了验证这一点,我编写了一个简单的R脚本,在其中比较了Solve和glmnet中进行的岭回归的结果,两者之间的区别非常明显: n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) Y <- X%*%beta+rnorm(n,0,0.5) beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y) beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, family="gaussian")$beta@x beta1-beta2 差异的范数通常约为20,这不可能是由于数值算法不同而引起的,我一定做错了。glmnet为了获得与ridge相同的结果,我必须设置哪些设置?


1
比较通过不同距离和方法获得的分层聚类树状图
[最初的标题“用于层次聚类树的相似性的度量”后来被@ttnphns更改,以更好地反映该主题] 我正在对患者记录的数据帧执行许多层次的聚类分析(例如,类似于http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y) 我正在尝试不同的距离度量,不同的参数权重和不同的层级方法,以了解它们对树的最终聚类/结构/视图(树状图)的影响。我的问题是,是否存在用于计算不同层次树之间的差异的标准计算/度量,以及如何在R中实现这一点(例如,量化一些树几乎相同,而有些树则完全不同)。

7
为什么以及何时创建R包?
我知道这个问题是一个广泛的问题,但是我想知道决定为R创建(或不为)新程序包的决定性要点是什么。更具体地说,我要补充的是,问题不在于本身使用R,更多是关于编译各种脚本并将其集成到新程序包中的决定。 在可能导致这些决定的要点中,我想到了(以非穷尽的方式): 同一子域中其他软件包的不存在; 需要与其他研究者交流并允许实验重现; 在可能导致相反决定的要点中: 其他软件包已经使用的部分方法; 新功能的数量不足以创建新的独立程序包。 我可能已经忘记了两个列表中可能包含的许多要点,而且这些标准似乎在一定程度上是主观的。因此,您要说什么才有道理,什么时候开始将各种功能和数据汇总到一个新的有文档记录且广泛使用的软件包中?
28 r  software 

1
如何解释混合效应模型中随机效应的方差和相关性?
希望大家都不要介意这个问题,但是我需要帮助解释线性混合效果模型输出的输出,这是我一直试图在R中学习做的事情。我是纵向数据分析和线性混合效果回归的新手。我有一个模型,我将几周作为时间预测器,并在就业课程中得分作为结果。我用几周(时间)和几个固定影响,性别和种族对分数建模。我的模型包括随机效应。我需要帮助来了解方差和相关性的含义。输出如下: Random effects Group Name Variance EmpId intercept 680.236 weeks 13.562 Residual 774.256 相关系数是.231。 我可以将相关性解释为星期与分数之间存在正相关关系,但我希望能够用“ ...的23%”来表述。 我非常感谢您的帮助。 感谢“来宾”和Macro的答复。抱歉,由于没有回复,我参加了一次会议,现在正在追赶。这是输出和上下文。 这是我运行的LMER模型的摘要。 >summary(LMER.EduA) Linear mixed model fit by maximum likelihood Formula: Score ~ Weeks + (1 + Weeks | EmpID) Data: emp.LMER4 AIC BIC logLik deviance REMLdev 1815 1834 -732.6 1693 1685 Random …

5
违反线性回归的同调假设的危险是什么?
例如,考虑ChickWeightR中的数据集。方差明显随时间增长,因此,如果我使用简单的线性回归,例如: m <- lm(weight ~ Time*Diet, data=ChickWeight) 我的问题: 该模型的哪些方面值得怀疑? 问题是否仅限于在Time范围外推断? 线性回归对这种假设的违反有多大的容忍度(即必须引起异方差才能引起问题)?

3
谁可以跟随github来学习数据分析的最佳实践?
研究专家的数据分析代码是有帮助的。我最近一直在仔细阅读github,那里有很多人共享数据分析代码。这包括一些R软件包(当然可以直接从CRAN获得),还包括一些可重现的研究示例,尤其是使用R时(请参见github上的R列表)。 谁是可以跟随github来学习数据分析最佳实践的好人? (可选)它们共享哪种代码,为什么有用?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.