Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
R中混合模型公式中随机效应的威尔金森式表示法的起源,例如(1 | id)
R中的模型公式,例如 y ~ x + a*b + c:d 基于所谓的Wilkinson表示法:Wilkinson和Rogers 1973,用于方差分析的阶乘模型的符号描述。 本文没有讨论混合模型的符号(那时可能还不存在)。那么R中的混合模型公式lme4以及相关程序包中使用了什么,例如 y ~ x + a*b + c:d + (1|school) + (a*b||town) 来自?谁是第一次引入它们,何时引入?是否有针对他们的“ Wilkinson表示法”之类的商定术语?我专门指的是 (model formula | grouping variable) (model formula || grouping variable)

2
optim和glm之间的残差标准误差
我尝试使用optim拟合glm甚至nlsR函数的简单线性回归的结果来重现。 参数估计是相同的,但是残差方差估计和其他参数的标准误差并不相同,尤其是在样本量较小时。我想这是在最大似然法和最小二乘法之间计算剩余标准误差的方式上的差异(除以n或除以n-k + 1参见示例中的波纹管)。 我从网上阅读的书中了解到优化不是一项简单的任务,但我想知道是否有可能以简单的方式重现glm使用时的标准误差估计optim。 模拟小型数据集 set.seed(1) n = 4 # very small sample size ! b0 <- 5 b1 <- 2 sigma <- 5 x <- runif(n, 1, 100) y = b0 + b1*x + rnorm(n, 0, sigma) 乐观估计 negLL <- function(beta, y, x) { b0 <- beta[1] b1 …


2
为什么在执行主成分分析之前先对数据进行日志转换?
我在这里遵循教程:http : //www.r-bloggers.com/computing-and-visualizing-pca-in-r/以更好地了解PCA。 本教程使用Iris数据集,并在PCA之前应用对数转换: 注意,在下面的代码中,我们按照[1]的建议对连续变量应用了对数转换,center并在调用中设置和scale等于,以在应用PCA之前标准化变量。TRUEprcomp 有人可以用简单的英文给我解释为什么您首先在Iris数据集的前四列上使用log函数。我知道它与使数据相对有关,但对日志,中心和刻度的确切功能感到困惑。 上面的参考文献[1]涉及Venables和Ripley,S-PLUS的Modern Applied Statistics,第11.1节,其中简要说明: 数据是物理测量,因此合理的初始策略是按对数比例工作。贯穿整个过程。

3
ETS()函数,如何避免与历史数据不一致的预测?
我正在研究R中的alogorithm,以使每月预测计算自动化。除其他外,我正在使用预报包中的ets()函数来计算预报。运行良好。 不幸的是,对于某些特定的时间序列,我得到的结果很奇怪。 请在下面找到我正在使用的代码: train_ts<- ts(values, frequency=12) fit2<-ets(train_ts, model="ZZZ", damped=TRUE, alpha=NULL, beta=NULL, gamma=NULL, phi=NULL, additive.only=FALSE, lambda=TRUE, lower=c(0.0001,0.0001,0.0001,0.8),upper=c(0.9999,0.9999,0.9999,0.98), opt.crit=c("lik","amse","mse","sigma","mae"), nmse=3, bounds=c("both","usual","admissible"), ic=c("aicc","aic","bic"), restrict=TRUE) ets <- forecast(fit2,h=forecasthorizon,method ='ets') 请在下面的相关历史数据集下面找到: values <- c(27, 27, 7, 24, 39, 40, 24, 45, 36, 37, 31, 47, 16, 24, 6, 21, 35, 36, 21, 40, 32, 33, …

3
如果不是Ward的标准,hclust()中的ward.D将执行哪种算法?
选项“ ward.D”(相当于R版本<= 3.0.3中唯一的Ward选项“ ward”)使用的选项不实现Ward(1963)的聚类标准,而选项“ ward.D2”实现该标准( Murtagh and Legendre 2014)。 (http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html) 显然,ward.D未能正确执行Ward的标准。尽管如此,它似乎在产生的聚类方面做得很好。如果不是Ward的标准,method =“ ward.D”会实现什么? 参考文献 Murtagh,F.,&Legendre,P.(2014年)。沃德的层次聚类聚类方法:哪些算法实现沃德准则?分类杂志,31(3),274-295。
16 r  clustering  ward 

1
R中的多元时间序列。如何找到滞后相关性并建立预测模型
我是该页面的新手,而统计学和R则是新手。我正在为一个大学项目,目的是发现河流中的雨水和水位之间的相关性。一旦证明了相关性,我便要对其进行预测/预测。 数据 我有一组数年的数据(每隔5分钟)包含特定的河流: 毫米降水 河流流量,立方米每秒 这条河没有积雪,因此该模型仅基于降雨和时间。有时会有冻结的温度,但是我正在考虑将这些时间段从异常数据中删除,因为这种情况超出了我项目的范围。 示例 在这里,您有几个示例数据图,这些数据来自几个小时后的降雨和水位上升。 红线是河流流量。橙色是雨。您可以看到总是下雨,然后河里的水上升。在时间序列结束时会再次下雨,但稍后会影响河流流量。 相关性在那里。这是我在R中所做的,以证明在R中使用ccf的相关性: 互相关 前导变量 滞后 这是我的R线用于第二个示例(一个降雨期): ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain") 我的解释是: 降雨导致(首先发生), 有一个显着的相关性,其峰值为(我可以检查确切的数字,我知道该部分)。≈ 450≈450\approx 450 我不知道如何找出相关性影响河流流量的时间,我认为这个名称是“保留”。我看到的是,雨后河水流失时,该图遵循第一个图的相同形状。我不能以此为依据说保留时间从持续到(我可以在返回的数据框中创建的对象中检查此值,看看水位何时恢复到该值)。是“下雨前”吗?有没有更好的方法来找到保留物?≈ 450≈450\approx 450≈ 800≈800\approx 800ccf 我对吗? 关于时间序列。此时间序列没有周期性或季节性。随时可能下雨并造成影响。夏季确实会减少,但仍然会发生,这是一个常年下雨的地区。 模型和预测。 我不知道如何创建一个模型来进行预测,该预测告诉我在下雨后河流会增加多少流量。我一直在尝试一些arima,auto arima但是还没有很成功。我应该使用Arima,vars或其他不同的多变量模型?任何指向示例的链接都会有很大帮助。 请让我知道,如果您知道创建此预测的最佳方法,则应使用哪种模型。我正在考虑做其他一些事情,但是为了简单起见,将它们从解释中删除。如果需要,我可以共享一些数据。

1
glmer中收敛警告的含义
我正在使用R中包中的glmer函数lme4,并且正在使用bobyqa优化器(即我的默认设置)。我收到警告,我很好奇这意味着什么。 Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a trust region step failed to reduce q 我搜索“信任区域步骤无法减少q”。在minqa程序包中找到了一些信息,上面写着 “请咨询Powell进行解释”。我做到了(如果需要,您也可以!请参见下面的参考资料和指向它们的链接),但是我不明白。实际上,我没有找到关于减少q的任何信息。 MJD Powell(2007)“ NEWUOA在无导数的无约束最小化方面的发展”,剑桥大学,应用数学和理论物理系,数值分析组,报告NA2007 / 05,http: //www.damtp.cam.ac.uk/ user / na / NA_papers / NA2007_05.pdf。 MJD Powell(2009),“没有导数的有界约束优化的BOBYQA算法”,报告号DAMTP 2009 / NA06,英国剑桥大学数学科学中心。http://www.damtp.cam.ac.uk/user/na/NA_papers/NA2009_06.pdf。 附言:我知道我可以更改优化器,并且我将查看是否可以得到没有警告或错误的输出。根据Ben Bolker的评论/答案,我还将检查渐变和粗麻布。我使用的是glmer内dredge从MuMIn,我不知道,如果本的答案没有一些额外的工作,修修补补,但我会在上面工作,一旦我的电脑上完成它在做什么,反正我离题了。 更新资料 …

3
对于不平衡数据,ROC曲线下的面积还是PR曲线下的面积?
我对使用哪种性能指标,ROC曲线下的面积(TPR与FPR的函数)或精确召回曲线下的面积(精度与召回的函数)之间的使用存在疑问。 我的数据不平衡,即,否定实例的数量比肯定实例大得多。 我正在使用weka的输出预测,示例是: inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 我正在使用pROC和ROCR r库。

1
了解lmer()模型中随机效应的方差
我无法理解lmer()模型的输出。它是结果变量(支持)的简单模型,具有不同的状态截距/状态随机效应: mlm1 <- lmer(Support ~ (1 | State)) 结果为summary(mlm1): Linear mixed model fit by REML Formula: Support ~ (1 | State) AIC BIC logLik deviance REMLdev 12088 12107 -6041 12076 12082 Random effects: Groups Name Variance Std.Dev. State (Intercept) 0.0063695 0.079809 Residual 1.1114756 1.054265 Number of obs: 4097, groups: State, …

2
在地图上显示时空相关性
我有整个美国气象站网络的数据。这给了我一个包含日期,纬度,经度和一些测量值的数据框。假设每天收集一次数据,并且受区域范围天气的驱动(不,我们将不进行讨论)。 我想以图形方式显示跨时间和空间的同时测量值如何关联。我的目标是显示正在调查的值的区域同质性(或缺乏同质性)。 资料集 首先,我带了一组在马萨诸塞州和缅因州的车站。我从NOAA的FTP站点上可用的索引文件中按纬度和经度选择了站点。 马上您就会看到一个问题:许多站点具有相似的标识符或非常接近。FWIW,我同时使用USAF和WBAN代码识别它们。深入了解元数据,我发现它们具有不同的坐标和高程,数据从一个站点停止,然后从另一个站点开始。因此,因为我不知道更好,所以必须将它们视为独立的站。这意味着数据包含彼此非常接近的站点对。 初步分析 我尝试按日历月对数据进行分组,然后计算不同对数据之间的普通最小二乘回归。然后,我将所有线对之间的相关性绘制为一条连接测站的线(下图)。线条颜色显示了来自OLS拟合的R2值。然后,该图显示了感兴趣区域中不同站点之间从一月,二月等开始的30多个数据点如何关联。 我已经编写了基础代码,以便仅在每6小时内有数据点时才计算每日平均值,因此数据在各个站点之间应该是可比较的。 问题 不幸的是,在一个绘图上根本没有太多数据可以理解。无法通过减小行的大小来解决。 ķķk 网络似乎太复杂了,所以我认为我需要找到一种降低复杂性或应用某种空间内核的方法。 我也不确定什么是最合适的指标来显示相关性,但是对于目标受众(非技术人员),OLS的相关系数可能只是最简单的解释。我可能还需要提供其他一些信息,例如梯度或标准误差。 问题 我正在学习同时进入该领域和R的方法,并希望就以下方面提出建议: 我要做什么的更正式的名字是什么?有一些有用的术语可以让我找到更多的文献吗?我的搜索正在为必不可少的应用程序绘制空白。 有没有更合适的方法来显示空间上分隔的多个数据集之间的相关性? ...尤其是易于从视觉上显示结果的方法? 这些是否在R中实现? 这些方法是否适合自动化?

3
如何在多元回归中的预测变量之间划分r平方?
我刚刚读过一篇论文,其中的作者对两个预测变量进行了多元回归。总体r平方值为0.65。他们提供了一个表格,用于在两个预测变量之间划分r平方。该表如下所示: rsquared beta df pvalue whole model 0.65 NA 2, 9 0.008 predictor 1 0.38 1.01 1, 10 0.002 predictor 2 0.27 0.65 1, 10 0.030 在该模型中,R使用mtcars数据集运行时,总体r平方值为0.76。 summary(lm(mpg ~ drat + wt, mtcars)) Call: lm(formula = mpg ~ drat + wt, data = mtcars) Residuals: Min 1Q Median 3Q Max …

2
与增强Dickey Fuller测试混淆
我正在研究electricityR包中可用的数据集TSA。我的目的是找出arima模型是否适合此数据并最终拟合。因此,我进行如下操作: 第一个:绘制下图所示的时间序列: 第二个:我想获取对数electricity以稳定方差,然后适当地对序列进行差分,但是在这样做之前,我测试了序列的平稳性使用adf(Dickey Fuller)测试的原始数据集,令人惊讶的是,结果如下: 代码和结果: adf.test(electricity) Augmented Dickey-Fuller Test data: electricity Dickey-Fuller = -9.6336, Lag order = 7, p-value = 0.01 alternative hypothesis: stationary Warning message: In adf.test(electricity) : p-value smaller than printed p-value 好吧,按照我的初学者的时间序列概念,我认为这意味着数据是固定的(p值小,拒绝非平稳性的零假设)。但是,从ts曲线来看,我发现这不可能是固定的。有人对此有有效的解释吗?

2
R语言rnorm和runif有什么区别[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6年前关闭。 函数rnorm和runifR 之间有什么区别?
16 r 

1
设置STL窗口宽度的标准
使用R进行STL分解,s.window控制如何快速的季节性成分可以改变。较小的值允许更快速的更改。将季节性窗口设置为无穷大等效于将季节性分量强制为周期性(即跨年相同)。 我的问题: 如果我有一个每月的时间序列(即频率等于),应该使用什么标准设置?121212s.window 那和时间序列频率之间有联系吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.