Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

2
使用Dynlm R包进行1步提前预测
我已经使用dynlm包对具有多个自变量的模型进行了拟合,其中一个是因变量的滞后。 假设我对自变量有1步超前预测,如何对因变量有1步超前预测? 这是一个例子: library(dynlm) y<-arima.sim(model=list(ar=c(.9)),n=10) #Create AR(1) dependant variable A<-rnorm(10) #Create independant variables B<-rnorm(10) C<-rnorm(10) y<-y+.5*A+.2*B-.3*C #Add relationship to independant variables data=cbind(y,A,B,C) #Fit linear model model<-dynlm(y~A+B+C+L(y,1),data=data) #Forecast A<-c(A,rnorm(1)) #Assume we already have 1-step forecasts for A,B,C B<-c(B,rnorm(1)) C<-c(C,rnorm(1)) y=window(y,end=end(y)+c(1,0),extend=TRUE) newdata<-cbind(y,A,B,C) predict(model,newdata) 这是使用dyn包的示例,该示例有效。 library(dyn) #Fit linear model model<-dyn$lm(y~A+B+C+lag(y,-1),data=data) #Forecast predict(model,newdata)the dyn …

6
在R中运行mlogit函数后进行预测
这是我想做的,但是似乎没有predict办法进行mlogit。有任何想法吗? library(mlogit) data("Fishing", package = "mlogit") Fish <- mlogit.data(Fishing, varying = c(2:9), shape = "wide", choice = "mode") Fish_fit<-Fish[-1,] Fish_test<-Fish[1,] m <- mlogit(mode ~price+ catch | income, data = Fish_fit) predict(m,newdata=Fish_test)

2
ggplot2中如何通过连续交互来连续绘制一个图?
假设我有数据: x1 <- rnorm(100,2,10) x2 <- rnorm(100,2,10) y <- x1+x2+x1*x2+rnorm(100,1,2) dat <- data.frame(y=y,x1=x1,x2=x2) res <- lm(y~x1*x2,data=dat) summary(res) 我想通过连续交互来绘制连续图,以使x1在X轴上,而x2用3条线表示,一条在Z分数为0时代表x2,在Z分数为+1时代表另一条,而在a Z分数为-1,每行分别有单独的颜色和标签。如何使用ggplot2执行此操作? 例如,它可能看起来像这样(尽管当然使用不同的彩色线条而不是不同的线条类型):

5
测量击中本垒打的均值回归
棒球之后的任何人都可能听说过多伦多何塞·包蒂斯塔(Jose Bautista)的MVP型表现。在之前的四年中,他每个赛季打出大约15次本垒打。去年他达到了54岁,在棒球历史上仅次于12位球员。 在2010年,他的薪水为240万,他要向车队索取2011年的1050万。他们出价760万。如果他能在2011年再次重申这一点,那么他将很容易获得这两个值。但是他重复的几率是多少?我们能期望他回归到平均水平有多难?我们可以预期他有多少表现是偶然的?我们可以预期他的2010年调整后的均值回归是什么?我该如何解决? 我一直在研究拉曼棒球数据库,并提出了一个查询,该查询返回前五个赛季中所有至少拥有50支蝙蝠的球员的本垒打总数。 表格看起来像这样(第10行中的Jose Jose Bautista注意) first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010 1 Bobby Abreu 15 16 20 15 20 2 Garret Anderson 17 16 15 13 2 3 Bronson Arroyo 2 1 1 0 1 4 Garrett Atkins 29 25 21 9 1 5 Brad Ausmus 2 …
11 r  regression  modeling 

4
由于Y和X的相关性,如何在解释方差中表示增益?
我正在寻找如何(直观地)向大一学生解释简单的线性相关性。 可视化的经典方法是给出带有直线回归线的Y〜X散点图。 最近,我想到了通过向图添加3张图像来扩展此类图形的想法,剩下的是:y〜1,然后是y〜x,resid(y〜x)〜x,最后是散点图残差(y〜x)〜1(以平均值为中心) 这是这种可视化的示例: 和产生它的R代码: set.seed(345) x <- runif(50) * 10 y <- x +rnorm(50) layout(matrix(c(1,2,2,2,2,3 ,3,3,3,4), 1,10)) plot(y~rep(1, length(y)), axes = F, xlab = "", ylim = range(y)) points(1,mean(y), col = 2, pch = 19, cex = 2) plot(y~x, ylab = "", ) abline(lm(y~x), col = 2, lwd = …

5
测试重复测量方差分析的正态假设?(在R中)
因此,假设有必要测试方差分析的正态性假设(请参见1和2) 如何在R中对其进行测试? 我希望做这样的事情: ## From Venables and Ripley (2002) p.165. utils::data(npk, package="MASS") npk.aovE <- aov(yield ~ N*P*K + Error(block), npk) residuals(npk.aovE) qqnorm(residuals(npk.aov)) 这是行不通的,因为“残差”没有针对重复测量方差分析的方法(对此也无法预测)。 那么在这种情况下应该怎么做? 是否可以从没有误差项的情况下简单地从同一拟合模型中提取残差?我对文献还不够熟悉,无法知道这是否有效,在此先感谢您的任何建议。

3
估计动态线性模型的参数
我要实现(在R中)以下非常简单的动态线性模型,对于该模型,我有2个未知的时变参数(观察误差的方差和状态误差的方差\ epsilon ^ 2_t)。ϵ1tϵt1\epsilon^1_tϵ2tϵt2\epsilon^2_t ÿŤθt + 1==θŤ+ ϵ1个ŤθŤ+ ϵ2ŤYt=θt+ϵt1θt+1=θt+ϵt2 \begin{matrix} Y_t & = & \theta_t + \epsilon^1_t\\ \theta_{t+1} & = & \theta_{t}+\epsilon^2_t \end{matrix} 我想在每个时间点估计这些参数,而不会产生任何前瞻性偏差。据我了解,我可以使用MCMC(在滚动窗口上避免向前看的偏差),也可以使用粒子滤波器(或顺序蒙特卡洛-SMC)。 哪种方法你使用,和 什么是这两种方法的利弊? 奖励问题:在这些方法中,如何选择参数的变化速度?我猜我们必须在这里输入信息,因为在使用大量数据估算参数与使用较少数据对参数更改做出更快反应之间存在讨价还价?
11 r  mcmc  dlm  particle-filter 

2
通过R中的因子变量自动生成汇总
我有一个如下数据框: case simulation temp plank oxygen 1 1 1 8 7 11 2 2 1 16 10 15 ... 17 17 2 26 12 17 18 18 2 15 8 12 19 19 2 28 11 21 20 20 2 24 6 14 我想按仿真变量的级别划分摘要。例如,我想要temp模拟== 1和模拟== 2 的平均值,以及标准偏差的平均值。 目前,我正在使用以下代码,这非常可怕: df <- …
11 r 


1
R中princomp()对象的summary()和loadings()之间有什么区别?
示例代码: (pc.cr <- princomp(USArrests)) summary(pc.cr) loadings(pc.cr) ## note that blank entries are small but not zero 我从每个人那里得到了不同的输出,而且我不确定我理解有什么不同。 这是输出: > summary(pc.cr) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 82.8908472 14.06956001 6.424204055 2.4578367034 Proportion of Variance 0.9655342 0.02781734 0.005799535 0.0008489079 Cumulative Proportion 0.9655342 0.99335156 0.999151092 1.0000000000 > loadings(pc.cr) ## note …
11 r  pca 

2
快速评估(可视化)R中有序分类数据之间的相关性?
我在调查中寻找不同问题的答案之间的相关性(“嗯,让我们看看问题11的答案是否与问题78的答案相关”)。所有答案都是分类的(大多数答案的范围是从“非常不高兴”到“非常高兴”),但是有几个答案却有所不同。它们中的大多数都可以视为序数,因此让我们在这里考虑这种情况。 由于我无权使用商业统计程序,因此必须使用R。 我尝试了Rattle(R的一个免费软件数据挖掘程序包,非常漂亮),但是不幸的是它不支持分类数据。我可以使用的一种技巧是在R中导入具有数字(1..5)的调查的编码版本,而不是“非常不高兴” ...“高兴”,并让Rattle相信它们是数字数据。 我当时想做一个散点图,并且使点的大小与每对数字的数量成正比。经过一番谷歌搜索后,我发现http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/,但是(对我来说)这似乎很复杂。 我不是统计学家(而是程序员),但是对此事有一定的了解,如果我理解正确的话,Spearman的观点是合适的。 因此,对于那些急着想解决问题的人来说,这是一个简短的问题:是否有办法快速将Spearman的rho绘制在R中?图形比数字矩阵更可取,因为它更易于观察,也可以包含在材料中。 先感谢您。 PS我考虑了一段时间,是将其发布在主要的SO网站还是此处。在两个网站上搜索R相关性后,我觉得这个网站更适合这个问题。

6
如何在R中的data.frame中查找因子的所有唯一组合的摘要统计信息?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 我想为data.frame中每个唯一的因素组合计算data.frame中变量的摘要。我应该使用plyr做到这一点吗?我可以使用循环而不是apply(); 因此只要找出每种独特的组合就足够了。

1
R中PCA双图中基础变量的箭头
冒着使问题成为特定于软件的风险,并以其普遍存在和特质为借口,我想问一下biplot()R中的函数,更具体地说,是有关其默认的叠加红色箭头的计算和绘图的问题。到基础变量。 [为了理解某些评论,最初发布的地块存在稀缺性问题,现在已删除。]
11 r  pca  biplot 

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
如何模拟审查数据
我想知道如何模拟n个Weibull分布寿命的样本,其中包括类型I右删失的观测值。例如,让n = 3,形状= 3,比例= 1,审查率= .15,审查时间= .88。我知道如何生成Weibull样本,但是我不知道如何生成在R中类型为I右删失的删失数据。 T = rweibull(3, shape=.5, scale=1)

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.