Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。


1
每日数据的时间序列预测:带回归的ARIMA
我使用的是每日时间序列的销售数据,其中包含大约2年的每日数据点。根据一些在线教程/示例,我试图确定数据的季节性。似乎有一个每周一次,每月一次,可能还有每年一次的周期性/季节性。 例如,有发薪日,尤其是在该月中的第1个发薪日,该发炎日在一周中持续几天。还有一些特定的假日效应,通过观察观察可以清楚地识别出来。 配备了一些观察结果之后,我尝试了以下操作: ARIMA(带有R-forecast包Arima和auto.arima来自R-forecast包),使用回归器(以及函数中需要的其他默认值)。我创建的回归器基本上是一个0/1值的矩阵: 11个月(n-1)个变量 12个假期变量 无法计算发薪日部分...因为它的影响比我想象的要复杂得多。发薪日效应的工作方式有所不同,具体取决于每月1日的工作日。 我使用7(即每周频率)对时间序列进行建模。我尝试了该测试-一次预测7天。结果是合理的:预测11周的平均准确度平均每周RMSE为5%。 TBATS模型(来自R-forecast包)-使用多个季节性(7,30.4375,365.25),并且显然没有回归。在每周平均RMSE 3.5%的情况下,准确性出乎意料地优于ARIMA模型。 在这种情况下,没有ARMA错误的模型的性能会稍好一些。现在,如果我仅将#1中所述的ARIMA模型的假日效应系数应用于TBATS模型的结果,则每周平均RMSE改善为2.95% 现在,在对这些模型的基础理论没有足够的背景知识或知识的情况下,我感到困惑的是,这种TBATS方法是否有效。尽管它在11周的测试中显着提高了RMSE,但我想知道它将来是否可以保持这种准确性。甚至将ARIMA的假日效果应用于TBATS结果是合理的。任何/所有贡献者的任何想法都将受到高度赞赏。 测试数据链接 注意:执行“将链接另存为”以下载文件。


1
如何使用R估计泊松过程?(或者:如何使用NHPoisson包?)
我有一个事件数据库(即日期变量)和相关的协变量。 这些事件是由非平稳泊松过程生成的,参数是某些协变量的未知(但可能是线性)函数。 我认为NHPoisson软件包仅用于此目的。但是经过15个小时的失败研究,我仍然不知道如何使用它。 哎呀,我什至尝试阅读两本参考书:Coles,S.(2001)。极值统计建模简介。施普林格。Casella,G.和Berger,RL,(2002年)。统计推断。布鲁克斯/科尔。 fitPP.fun文档中的一个示例似乎不适合我的设置;我没有极端的价值观!我只是裸露事件。 有人可以帮我举一个简单的例子,用单个协变量拟合参数的泊松过程,并假设吗?我对和估计很感兴趣。我提供了一个包含事件时间的两列数据集(假设是在任意时间之后以秒为单位测量),而另一列则提供了协变量?的值。λλ\lambdaXXXλ=λ0+α⋅Xλ=λ0+α⋅X\lambda = \lambda_0 + \alpha \cdot Xλ0λ0\lambda_0αα\alphat0t0t_0XXX

1
gbm软件包中输出项的含义?
我正在使用gbm软件包进行分类。如预期的那样,效果很好。但是我试图理解分类器的输出。输出中有五个术语。 `Iter TrainDeviance ValidDeviance StepSize Improve` 谁能解释每个词的含义,特别的意义提高。

1
可视化混合模型结果
我对混合模型经常遇到的问题之一是弄清楚数据可视化效果-可能会出现在纸或海报上的数据可视化效果-一旦获得结果即可。 现在,我正在研究一个Poisson混合效果模型,其公式如下所示: a <- glmer(counts ~ X + Y + Time + (Y + Time | Site) + offset(log(people)) 有了glm()中所装的东西,就可以轻松地使用predict()来获取新数据集的预测,并以此为基础进行构建。但是,使用这样的输出-您如何构建从X偏移(可能设置为Y)随时间变化的速率图?我认为仅凭固定效果估算值就可以很好地预测拟合度,但是95%CI呢? 还有其他人能想到的有助于可视化结果的东西吗?该模型的结果如下: Random effects: Groups Name Variance Std.Dev. Corr Site (Intercept) 5.3678e-01 0.7326513 time 2.4173e-05 0.0049167 0.250 Y 4.9378e-05 0.0070270 -0.911 0.172 Fixed effects: Estimate Std. Error z value Pr(>|z|) (Intercept) …

5
研究生统计课程提供的用于统计的开源Java库
我正在应用统计专业的研究生课程中学习,该课程使用以下教科书(以使您了解所涵盖的材料的水平):统计概念和方法,由GK Bhattacharyya和RA Johnson撰写。 教授要求我们对家庭作业使用SAS。 我的问题是:是否有一个Java库可以代替SAS用于此类类中常见的问题。 我目前正在尝试使用Apache Math Commons,尽管该库给我留下了深刻的印象(它的易用性和易理解性),但它似乎甚至缺少一些简单的东西,例如绘制直方图的能力(将其与图表库结合的想法) )。 我看过柯尔特,但最初的兴趣很快就消失了。 我们将不胜感激-我已经在Stackoverflow上查看了类似的问题,但没有发现任何令人信服的内容。 注意:我知道R,SciPy和Octave以及对它们进行调用的Java库-我正在寻找Java本机库或一组库,它们可以一起提供我要寻找的功能。 注意:此类课程中涉及的主题通常包括:单样本和两样本检验以及均值和中位数的置信区间,描述性统计量,拟合优度检验,单向和双向方差分析,同时推断,检验方差,回归分析和分类数据分析。
15 r  sas  java 

3
当Schoenfeld残差不佳时,比例风险回归模型有哪些选择?
我正在使用进行R的Cox比例风险回归coxph,其中包括许多变量。Martingale残差看起来很棒,而Schoenfeld残差对于ALMOST所有变量来说都很棒。存在三个变量的Schoenfeld残差不平坦,并且变量的性质使得它们可以随时间变化是有意义的。 这些是我不太感兴趣的变量,因此将它们分层即可。但是,它们都是连续变量,而不是类别变量。因此,我认为阶层不是可行的路线*。我试图建立的变量和时间之间的相互作用,如所描述这里,但我们得到的错误: In fitter(X, Y, strats, offset, init, control, weights = weights, : Ran out of iterations and did not converge 我正在处理将近1000个数据点,并且正在处理具有多个因素的六个变量,因此感觉就像我们正在限制如何对这些数据进行切片和切块的极限。不幸的是,我尝试过使用更少的包含变量的所有较简单的模型显然都较差(例如,Schoenfeld残差对于更多变量来说更加脆弱)。 我有什么选择?由于我不在乎这些行为不佳的特定变量,因此我只想忽略它们的输出,但是我怀疑这不是有效的解释! *一个是连续的,一个是大于100的整数,一个是6的整数。

1
为什么Rm中的rlm()回归系数估计与lm()不同?
我在R MASS软件包中使用rlm回归多元线性模型。它适用于许多样本,但对于特定模型,我得到了准零系数: Call: rlm(formula = Y ~ X1 + X2 + X3 + X4, data = mymodel, maxit = 50, na.action = na.omit) Residuals: Min 1Q Median 3Q Max -7.981e+01 -6.022e-03 -1.696e-04 8.458e-03 7.706e+01 Coefficients: Value Std. Error t value (Intercept) 0.0002 0.0001 1.8418 X1 0.0004 0.0000 13.4478 X2 -0.0004 …

2
生成三个相关的均匀分布的随机变量
假设我们有 X1∼unif(n,0,1),X1∼unif(n,0,1),X_1 \sim \textrm{unif}(n,0,1), X2∼unif(n,0,1),X2∼unif(n,0,1),X_2 \sim \textrm{unif}(n,0,1), 其中unif(n,0,1)unif(n,0,1)\textrm{unif}(n,0,1)是大小均匀的随机样本n,和 Y=X1,Y=X1,Y=X_1, Z=0.4X1+1−0.4−−−−−−√X2.Z=0.4X1+1−0.4X2.Z = 0.4 X_1 + \sqrt{1 - 0.4}X_2. 那么,YYY和的相关性ZžZ为0.40.40.4。 如何将其扩展到三个变量:X1X1个X_1,X2X2X_2,X3X3X_3?

2
如何使用非线性模型测试分组变量的效果?
我有一个关于在非线性模型中使用分组变量的问题。由于nls()函数不允许使用因子变量,因此我一直在努力确定是否可以测试因子对模型拟合的影响。我在下面提供了一个示例,在该示例中,我希望将“季节性von Bertalanffy”生长模型拟合到不同的生长处理方法(最常用于鱼类生长)。我想测试鱼生长的湖以及所给食物的效果(仅是一个人工例子)。我对这个问题的解决方法很熟悉-应用F检验比较模型对汇总数据的拟合与Chen等人概述的单独拟合。(1992)(ARSS-“残差平方和的分析”)。换句话说,对于以下示例, 我想有一种使用nlme()在R中执行此操作的简单方法,但是我遇到了问题。首先,通过使用分组变量,自由度高于我对单独模型的拟合所获得的自由度。其次,我无法嵌套分组变量-我看不出问题出在哪里。非常感谢使用nlme或其他方法的任何帮助。以下是我的人工示例的代码: ###seasonalized von Bertalanffy growth model soVBGF <- function(S.inf, k, age, age.0, age.s, c){ S.inf * (1-exp(-k*((age-age.0)+(c*sin(2*pi*(age-age.s))/2*pi)-(c*sin(2*pi*(age.0-age.s))/2*pi)))) } ###Make artificial data food <- c("corn", "corn", "wheat", "wheat") lake <- c("king", "queen", "king", "queen") #cornking, cornqueen, wheatking, wheatqueen S.inf <- c(140, 140, 130, 130) k <- c(0.5, 0.6, 0.8, …
15 r  mixed-model  nls 

3
使用R可视化损耗的最佳方法?
通过该站点,我最近发现了Sankey Diagrams,这是一种可视化传统流程图中发生的事情的好方法。 这里是一个热平衡图的一个很好的例子乔治·怀特塞兹和乔治·W·克拉布特里, 来源; 不要忘记能源,科学的长期基础研究 2007年2月9日:第一卷。315.没有 5813,第796-798页。 意识到没有Sankey R-package之后,我在网上找到了R脚本,但不幸的是,该脚本相当原始并且有些局限。寄予厚望的我在stackoverflow上要求使用Sankey R-package或更成熟的功能,但令我惊讶的是,由于我们没有在R中构建Sankey Diagrams的成熟功能。 在我发布赏金之后,Geek On Acid足够好,可以建议对现有脚本进行一些小小的改动,使其可以或多或少地用于我的特定目的。 改进的R脚本生成了该图, Source;stackoverflow.com。 但是,缺少R软件包是否表明Sankey Diagrams并不是一种在数据流中使用R可视化损耗的惊人方法,就像上图中所示的那样(请参阅初始stackoverflow问题以获取数据和R代码。也许有一种更好的可视化损耗的方法。 您认为使用R可视化数据流中损耗的最佳方法是什么?

1
如何获得黄土拟合的R平方?
如何计算R 和/或函数输出的R平方()统计量?例如,此数据:r2r2r^2loesspredict cars.lo <- loess(dist ~ speed, cars) cars.lp <- predict(cars.lo, data.frame(speed = seq(5, 30, 1)), se = TRUE) cars.lp有两个fit用于模型和se.fit标准误差的数组。
15 r  r-squared  loess 

3
如何在R中扩展数据帧
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我在用R做一些分析时遇到以下问题。 我有一个这样的数据框: Name | Group | Count Person 1 | A | 3 Person 2 | A | 1 Person 3 | A | 0 Person 1 | B | 5 Person 2 | B | 0 Person 3 | B | 1 Person 1 | C | 1 …
15 r 

3
有没有办法禁用CARET中的参数调整(网格)功能?
在选择最终模型之前,CARET将自动使用预先指定的调整网格来构建各种模型,然后在完整的训练数据上训练最终模型。我可以只用一种参数组合来提供自己的调整网格。但是,即使在这种情况下,CARET也会在调整参数中“选择”最佳模型(即使在这种情况下只有一个),然后将最终模型拟合到所有训练数据。这是我要避免的额外步骤。 如何简单地跳过调整网格中各种变化的模型搜索步骤,并强制CARET建立在所有训练数据上(而不是直接调用基础模型库)?
15 r  caret 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.