Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

2
R中的逐步回归-如何运作?
我正在尝试使用阶跃函数来理解R中逐步回归和向后回归之间的基本区别。对于逐步回归,我使用了以下命令 step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both") 对于以上代码,我得到了以下输出。 对于后向变量选择,我使用了以下命令 step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="backward") 我得到以下输出以供后退 据我所知,当未指定任何参数时,除非在R中指定了参数“ upper”和“ lower”,否则逐步选择将作为向后选择。但是,在逐步选择的输出中,会在+中添加+ disp第二步。通过在逐步选择中再次添加+ disp来实现的功能是什么?为什么R在第二步中加上+ disp,而结果却与向后选择相同(AIC值和模型选择值)。R在逐步选择中如何工作? 我真的很想了解此功能在R中的工作方式。在此先感谢您的帮助!
15 r  regression 

3
逻辑回归:Scikit Learn与glmnet
我正在尝试sklearn使用glmnetR中的包复制逻辑回归库的结果。 sklearn分w ^ ,Ç1个2wŤw + C∑我= 1ñ日志(exp(- ÿ一世(XŤ一世w + c ))+ 1 )分w,C1个2wŤw+C∑一世=1个ñ日志⁡(经验值⁡(-ÿ一世(X一世Ťw+C))+1个)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) 从的渐近点来看glmnet,它的实现将成本函数 分β,β0− [ 1ñ∑我= 1ñÿ一世(β0+ xŤ一世β)- 日志(1 + e(β0+ xŤ一世β))] + λ [ (α - 1 )| | β| |22/ 2+α | | β| |1个]分β,β0-[1个ñ∑一世=1个ñÿ一世(β0+X一世Ťβ)-日志⁡(1个+Ë(β0+X一世Ťβ))]+λ[(α-1个)||β||22/2+α||β||1个]\min_{\beta, \beta_0} -\left[\frac1N \sum_{i=1}^N y_i(\beta_0+x_i^T\beta)-\log(1+e^{(\beta_0+x_i^T\beta)})\right] + …

3
零成簇的非负数据模型(Tweedie GLM,零膨胀GLM等)是否可以预测精确的零?
当参数ppp(均值-方差关系的指数)在1到2之间。 类似地,零膨胀(无论是连续的还是离散的)模型可以具有大量的零。 我无法理解为什么当我使用这些模型进行预测或计算拟合值时,所有预测值都不为零。 这些模型可以实际预测确切的零吗? 例如 library(tweedie) library(statmod) # generate data y <- rtweedie( 100, xi=1.3, mu=1, phi=1) # xi=p x <- y+rnorm( length(y), 0, 0.2) # estimate p out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9)) # fit glm fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0)) # predict pred <- …

2
报告随机森林的训练错误有哪些措施?
我目前正在使用randomForestR中的程序包为分类问题拟合随机森林,并且不确定如何报告这些模型的训练错误。 当我使用通过命令获得的预测来计算时,我的训练误差接近0%: predict(model, data=X_train) X_train训练数据在哪里。 在回答一个相关问题时,我读到一个人应该使用袋外(OOB)训练误差作为随机森林的训练误差度量。该数量是通过使用以下命令获得的预测计算得出的: predict(model) 在这种情况下,OOB训练误差非常接近平均10-CV测试误差,即11%。 我想知道: 报告OOB训练错误作为随机森林的训练错误度量通常被接受吗? 传统的训练误差测量值人为地低是真的吗? 如果传统的训练误差度量是人为地降低的,那么我可以比较哪两个度量来检查RF是否过拟合?


1
多元生物学时间序列:VAR和季节性
我有一个多元时间序列数据集,其中包括相互作用的生物学和环境变量(可能还有一些外生变量)。除季节性外,数据中没有明显的长期趋势。我的目的是查看哪些变量彼此相关。预测并不是真正需要的。 作为时间序列分析的新手,我阅读了一些参考资料。据我了解,向量自回归(VAR)模型是合适的,但我对季节性并不满意,大多数示例都涉及到没有季节性的经济学领域(通常是时间序列分析……)。 我应该如何处理我的季节性数据?我考虑过对它们进行反季节化处理-例如在R中,我将使用decompose,然后使用这些$trend + $rand值来获得看起来非常平稳的信号(根据判断acf)。VAR模型的结果使我感到困惑(选择了1滞后模型,而我会凭直觉期望更多,并且只有自回归系数(而不是与其他滞后变量的回归系数)才有意义)。我是在做错什么,还是应该得出结论,我的变量不(线性)相关/我的模型不是一个好模型(子问题:是否存在与VAR等效的非线性?)。 [或者,我读到我可能可以使用虚拟的季节性变量,尽管我无法确切地知道如何实现它]。 逐步的建议将不胜感激,因为有经验的用户的详细信息实际上可能对我有帮助(当然,非常欢迎R代码段或指向具体示例的链接)。

1
为什么不能将glmer(family = binomial)输出与手动实现的Gauss-Newton算法匹配?
我想将lmer(really glmer)的输出与一个玩具二项式示例进行匹配。我读过小插曲,并相信自己了解发生了什么事。 但是显然我没有。卡住后,我根据随机效应固定了“真相”,然后单独估计了固定效应。我在下面包含此代码。要查看其合法性,您可以注释掉+ Z %*% b.k它,并将其与常规glm的结果匹配。我希望借用一些聪明才智来弄清楚为什么在包含随机效果的情况下我无法匹配lmer的输出。 # Setup - hard coding simple data set df <- data.frame(x1 = rep(c(1:5), 3), subject = sort(rep(c(1:3), 5))) df$subject <- factor(df$subject) # True coefficient values beta <- matrix(c(-3.3, 1), ncol = 1) # Intercept and slope, respectively u <- matrix(c(-.5, .6, .9), ncol = …

1
从多个线性模型直观呈现关系的最佳方法
我有一个带有约6个预测变量的线性模型,我将介绍估计值,F值,p值等。但是,我想知道哪种可视化图最好地代表单个预测变量对响应变量?散点图?条件图?效果图?等等?我将如何解释该情节? 我将在R中进行此操作,因此,如果可以的话,请随时提供示例。 编辑:我主要关心呈现任何给定的预测变量和响应变量之间的关系。

4
R中ARIMA残差的Ljung-Box统计信息:令人困惑的测试结果
我正在尝试预测一个时间序列,为此我使用了季节性ARIMA(0,0,0)(0,1,0)[12]模型(= fit2)。它与R关于auto.arima的建议不同(R计算得出的ARIMA(0,1,1)(0,1,0)[12]会更好,我将其命名为fit1)。但是,在我的时间序列的最后12个月,我的模型(fit2)在调整后似乎更合适(长期存在偏差,我添加了剩余均值,新的拟合似乎更贴近原始时间序列这是过去12个月的示例,MAPE最近12个月的两种情况: 时间序列如下所示: 到目前为止,一切都很好。我对这两个模型都进行了残差分析,这就是困惑。 acf(resid(fit1))看起来很棒,非常白噪声: 但是,Ljung-Box测试不适用于例如20个滞后: Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1) 我得到以下结果: X-squared = 26.8511, df = 19, p-value = 0.1082 据我了解,这是对残差不是独立的确认(p值太大,无法与独立假设一起保留)。 但是,对于滞后1来说,一切都很好: Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1) 给我结果: X-squared = 0.3512, df = 0, p-value < 2.2e-16 我可能不理解该测试,或者与我在acf图上看到的有些矛盾。自相关性很低。 然后我检查了fit2。自相关函数如下所示: 尽管在最初的几个滞后处存在如此明显的自相关,但Ljung-Box测试在20个滞后处给我的结果比fit1好得多: Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0) 结果是 : X-squared = 147.4062, df = 20, p-value < 2.2e-16 而仅仅在lag1处检查自相关,也可以得到零假设的证实! Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0) X-squared = 30.8958, …

2
如何在R中使用效果编码而不是伪编码进行回归?
我目前正在开发一个回归模型,其中我仅将分类/因子变量作为自变量。我的因变量是对数转换比率。 只需在R中运行正常回归就相当容易,因为R一旦它们成为“ factor”类型,R就会自动知道如何编写假人。但是,这种类型的编码还意味着将每个变量的一个类别用作基线,这使其难以解释。 我的教授告诉我,请改用效果编码(-1或1),因为这意味着对截距使用了均值。 有人知道如何处理吗? 到目前为止,我尝试过: gm <- mean(tapply(ds$ln.crea, ds$month, mean)) model <- lm(ln.crea ~ month + month*month + year + year*year, data = ds, contrasts = list(gm = contr.sum)) Call: lm(formula = ln.crea ~ month + month * month + year + year * year, data = ds, contrasts …

1
使用样条线查找密度函数的局部极值
我正在尝试找到概率密度函数的局部最大值(使用R density方法找到)。由于存在大量数据,因此我无法执行一种简单的“环顾四周”方法(即环顾一个点以查看其是否是相对于其邻居的局部最大值)。此外,与使用容错和其他参数构建“环顾四周”相反,使用样条插值法然后找到一阶导数的根似乎更为有效和通用。 所以,我的问题是: 给定来自的函数splinefun,哪些方法可以找到局部最大值? 有没有一种简单/标准的方法来查找使用返回的函数的派生形式splinefun? 有没有更好的/标准的方法来找到概率密度函数的局部最大值? 供参考,以下是我的密度函数图。我正在使用的其他密度函数在形式上相似。我应该说我是R的新手,但不是编程的新手,因此可能会有一个标准的库或程序包来实现我所需要的。 谢谢你的帮助!!
15 r  pdf  splines  maximum 

4
在R中添加观测值和/或预测变量时,有效地更新线性回归
我想在R中找到一种方法,以便在添加观察值或预测变量时有效地更新线性模型。在添加观察值时,biglm具有更新功能,但是我的数据足够小以驻留在内存中(尽管我确实有大量实例需要更新)。有一些方法可以赤手空拳,例如,更新QR因式分解(请参阅Hammarling和Lucas的“更新QR因式分解和最小二乘问题”),但我希望有一个现有的实现。

2
了解R的增强Dickey Fuller测试中的k滞后
我在R中进行了一些单位根测试,但我不完全确定k lag参数的含义。我使用了tseries软件包中的增强Dickey Fuller测试和Philipps Perron测试。显然,默认的参数(用于)仅取决于序列的长度。如果选择不同的我得到的结果将完全不同。拒绝null:ķķkadf.testķķk Dickey-Fuller = -3.9828, Lag order = 4, p-value = 0.01272 alternative hypothesis: stationary # 103^(1/3)=k=4 Dickey-Fuller = -2.7776, Lag order = 0, p-value = 0.2543 alternative hypothesis: stationary # k=0 Dickey-Fuller = -2.5365, Lag order = 6, p-value = 0.3542 alternative hypothesis: stationary # k=6 加上PP测试结果: …
15 r  time-series  trend 

2
精确召回曲线中的“基线”是什么
我试图了解精度召回曲线,了解什么是精度和召回率,但我不了解的是“基准”值。我正在阅读此链接 https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ 并且我不理解“完美分类器的精确召回曲线”中显示的基线部分,它有什么作用?以及如何计算呢?我们选择的仅仅是基线吗?例如,我有具有诸如retweet,status_countetc之类的属性的twitter数据,Favorited如果被收藏,我的班级标签为1,如果未被收藏,我的班级标签为0,我在其上应用了朴素贝叶斯,现在我想绘制精确调用曲线,在这种情况下应如何设置基线?

4
哪些变量解释了哪些PCA组件,反之亦然?
使用此数据: head(USArrests) nrow(USArrests) 我可以这样进行PCA: plot(USArrests) otherPCA <- princomp(USArrests) 我可以在中获得新组件 otherPCA$scores 和方差的比例由组件解释 summary(otherPCA) 但是,如果我想知道哪些变量主要由哪些主要成分来解释?反之亦然:例如PC1或PC2是否主要由解释murder?我怎样才能做到这一点? 例如,我可以说PC1是由murder或解释的80%assault吗? 我认为载荷在这里对我有帮助,但它们显示的是方向性,而不是我理解的方差,例如 otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.