Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
比较混合效应模型和固定效应模型(测试随机效应的显着性)
给定三个变量y和x,它们是正连续的,而和z是分类的,我有两个候选模型,分别为: fit.me <- lmer( y ~ 1 + x + ( 1 + x | factor(z) ) ) 和 fit.fe <- lm( y ~ 1 + x ) 我希望比较这些模型,以确定哪种模型更合适。在我看来,从某种意义上讲,它fit.fe是嵌套的fit.me。通常,当这种一般情况成立时,可以执行卡方检验。在中R,我们可以使用以下命令执行此测试, anova(fit.fe,fit.me) 当两个模型包含随机效应(通过生成lmer从所述lme4包),则anova()命令工作正常。由于边界参数的存在,通常建议通过仿真测试所得的卡方统计量,尽管如此,我们仍可以在仿真过程中使用该统计量。 当两个模型都只包含固定效果时,此方法(以及相关的anova()命令)可以正常工作。 但是,当一个模型包含随机效应而精简模型仅包含固定效应时,如上述情况一样,该anova()命令将不起作用。 更具体地说,出现以下错误: > anova(fit.fe, fit.me) Error: $ operator not defined for this S4 class 从上方使用Chi-Square方法(模拟)有什么问题吗?还是这仅仅是anova()不知道如何处理由不同函数生成的线性模型的问题? 换句话说,手动生成从模型得出的卡方统计量是否合适?如果是这样,比较这些模型的适当自由度是多少?据我估计: F=((SSEreduced−SSEfull)/(p−k))((SSEfull)/(n−p−1))∼Fp−k,n−p−1F=((SSEreduced−SSEfull)/(p−k))((SSEfull)/(n−p−1))∼Fp−k,n−p−1 F …

1
如何找到平滑样条/黄土回归的p值?
我有一些变量,我很想找到它们之间的非线性关系。因此,我决定拟合一些样条曲线或黄土,并打印漂亮的图(请参见下面的代码)。但是,我还希望获得一些统计数据,以使我了解这种关系是随机性问题的可能性有多大……即,我需要一些总体p值,例如对于线性回归而言。换句话说,我需要知道拟合曲线是否有意义,因为我的代码会将曲线拟合到任何数据。 x <- rnorm(1000) y <- sin(x) + rnorm(1000, 0, 0.5) cor.test(x,y) plot(x, y, xlab = xlab, ylab = ylab) spl1 <- smooth.spline(x, y, tol = 1e-6, df = 8) lines(spl1, col = "green", lwd = 2) spl2 <- loess(y ~ x) x.pr <- seq(min(x), max(x), length.out = 100) lines(x.pr, …
10 r  regression  splines  loess 

3
“ R”中图聚类的方法和示例
我正在寻找使用'r'中的图集群对图中的节点进行分组/合并。 这是我的问题的一个惊人的玩具变化。 有两个“集群” 有一个“桥”连接集群 这是一个候选网络: 当我查看连接距离(“跳数”)时,如果可以的话,我可以得到以下矩阵: mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,2,2), c(2,1,1,1,1,1,1,1,2,2), c(1,1,1,2,2,2,1,1,1,1), c(1,1,2,3,3,2,2,1,1,1), c(1,1,2,3,3,2,2,1,1,1)) 这里的想法: 幸运的是,或者由于玩具的简单性,矩阵具有明显的斑块(在(很大)矩阵中)就不会出现这种情况。如果我将点与行之间的关系随机化,那将不是那么干净。 我可能写错了-如果我有错字,请告诉我。 这里的跳数是连接第i行的点与第j列的点的最短跳数。自跳仍然是跳,因此对角线全为跳。 因此,在此矩阵中,较大的距离(跳跃数)具有较高的数字。如果我想要一个显示“连通性”而不是距离的矩阵,那么我可以做一个点逆,将矩阵的每个像元都替换为其乘性逆。 问题: 为了帮助我找到自己的方式: 通过组合它们来减少图上节点数的术语是什么?它是集群,合并,纠结吗?我应该使用什么词? 有哪些成熟的技术?是否有关于该主题的教科书?您可以指向论文或网站吗? 现在,我尝试首先看一下这里-这是一个不错的“首次检查”地点。我没有找到想要的东西。如果我错过了(不是不太可能),您能给我指出关于简历的一个或两个有关该主题的问题吗? 要带我去哪里: 是否有一个“ R”包可以正确群集网络上的节点? 您能指出我要执行此操作的示例代码吗? 是否有一个“ R”包可以图形化地显示缩小后的网络? 您能指出我要执行此操作的示例代码吗? 提前致谢。

1
引导程序:估计值超出置信区间
我使用混合模型(带有交互作用的多个变量和一个随机变量)进行了引导。我得到了这个结果(只是部分): > boot_out ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = a001a1, statistic = bootReg, R = 1000) Bootstrap Statistics : original bias std. error t1* 4.887383e+01 -1.677061e+00 4.362948e-01 t2* 3.066825e+01 1.264024e+00 5.328387e-01 t3* 8.105422e+01 2.368599e+00 6.789091e-01 t4* 1.620562e+02 4.908711e+00 1.779522e+00 ...... 现在,我想获取截距的置信区间: > boot.ci(boot_out,type=c("norm","basic","perc"), index=1) BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on …

2
如何获得具有可靠标准误差的ANOVA表?
我正在使用R中的plm包运行汇总的OLS回归。尽管,我的问题更多是关于基本统计信息,所以我尝试首先将其发布在这里;) 由于我的回归结果会产生异方差残差,因此我想尝试使用异方差稳健的标准误差。作为结果,coeftest(mod, vcov.=vcovHC(mod, type="HC0"))我得到了一个表格,其中包含每个独立变量的估计值,标准误差,t值和p值,这些基本上就是我的“稳健”回归结果。 为了讨论不同变量的重要性,我想绘制每个独立变量解释的方差份额,因此我需要相应的平方和。但是,使用function aov(),我不知道如何告诉R使用可靠的标准错误。 现在我的问题是:如何获得表示稳健标准误差的ANOVA表/平方和?是否可以基于具有正常标准误差的回归,基于ANOVA表进行计算? 编辑: 换句话说,无视我的R发行: 如果使用稳健的标准误差不影响R,那么不同解释变量对解释方差的各自贡献也将保持不变吗?22^2 编辑: 在R中,aov(mod)实际上是否为panelmodel(plm)提供了正确的ANOVA表?

3
R中的glm-哪个pvalue表示整个模型的拟合优度?
我正在R(通用线性模型)中运行glms。我以为我知道pvalues-直到我看到调用glm的摘要不会为您提供代表整个模型的压倒性pvalue-至少不是在线性模型可以做到的地方。 我想知道这是否作为系数表顶部的Intercept的p值给出。因此,在下面的示例中,尽管Wind.speed..knots和canopy_density对模型可能很重要,但是我们如何知道模型本身是否很重要?我如何知道是否信任这些价值观?我是否想知道(Intercept)的Pr(> | z |)代表模型的重要性?这个模特重要吗?谢谢! 我应该注意,运行F检验不会给出pvalue,因为我收到一条错误消息,指出在二项式族上运行F检验是不合适的。 Call: glm(formula = Empetrum_bin ~ Wind.speed..knots. + canopy_density, family = binomial, data = CAIRNGORM) Deviance Residuals: Min 1Q Median 3Q Max -1.2327 -0.7167 -0.4302 -0.1855 2.3194 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.8226 1.2030 1.515 0.1298 Wind.speed..knots. -0.5791 0.2628 -2.203 0.0276 * …

3
当您有大量N,离散数据和许多变量时,如何从散点图矩阵中提取信息?
我正在研究乳腺癌数据集,并创建了所有属性的散点图,以了解哪个属性对预测(红色)的类别malignant(蓝色)影响最大benign。 我知道该行代表x轴,而列代表y轴,但是我看不到我可以对散点图中的数据或属性进行哪些观察。 我正在寻找一些帮助来解释/观察来自此散点图的数据,或者是否应该使用其他可视化来可视化此数据。 我用的R代码 link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff" breast <- read.arff(link) cols <- character(nrow(breast)) cols[] <- "black" cols[breast$class == 2] <- "red" cols[breast$class == 4] <- "blue" pairs(breast, col=cols)

2
如何更改R randomForests中的分类阈值?
所有物种分布建模文献都认为,当使用输出概率的模型(例如,RandomForests)预测物种的存在/不存在时,选择阈值概率来将物种实际分类为存在或不存在很重要,应该并不总是依赖默认值0.5。我需要一些帮助!这是我的代码: library(randomForest) library(PresenceAbsence) #build model RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500) #eventually I will apply this to (predict for) new data but for first I predict back to training data to compare observed vs. predicted RFpred <- predict(RFfit, …

2
插入符varImp用于randomForest模型
我在了解该varImp函数如何对带有caret包的randomForest模型起作用时遇到了麻烦。在下面的示例中,功能var3使用插入符号varImp函数的重要性为零,但基础的randomForest最终模型对功能var3的重要性为非零。为什么会这样呢? require(randomForest) require(caret) rf <- train(x, y, method = "rf", trControl = trainControl(method = "oob"), importance = TRUE, verbose = TRUE, tuneGrid = data.frame(mtry = num.predictors) ) fm <- rf$finalModel > varImp(f) rf variable importance Overall var1 100.00 var2 80.14 var3 0.00 > importance(fm) %IncMSE IncNodePurity var2 872.7935 40505276 var1 …
10 r  caret  random-forest 

3
在R(或一般而言)中是否可能迫使回归系数成为某个符号?
我正在处理一些现实世界的数据,回归模型产生了一些违反直觉的结果。通常,我相信统计数据,但实际上其中一些事情是不正确的。我看到的主要问题是,实际上必须将它们负相关时,一个变量的增加会引起响应的增加。 有没有一种方法可以为每个回归系数强制指定符号?任何这样做的R代码也将不胜感激。 感谢您提供的所有帮助!

4
确定ARIMA建模的参数(p,d,q)
我是统计学和R语言的新手。我想知道为我的数据集确定ARIMA参数的过程。您能帮我使用R并从理论上(如果可能的话)弄清楚吗? 数据范围为1月12日至14年3月,描述了每月的销售量。这是数据集: 99 58 52 83 94 73 97 83 86 63 77 70 87 84 60 105 87 93 110 71 158 52 33 68 82 88 84 这是趋势: 数据没有显示趋势,季节性行为或周期性。
10 r  arima  box-jenkins 

1
拟合GARCH(1,1)-R中具有协变量的模型
我对时间序列建模有一些经验,以简单的ARIMA模型等形式。现在,我有一些表现出波动性聚类的数据,我想尝试从数据上拟合GARCH(1,1)模型开始。 我有一个数据系列,并且我认为许多变量会影响它。因此,从基本的回归角度来看,它看起来像: ÿŤ= α + β1个XŤ 1+ β2X第2+ ϵŤ。yt=α+β1xt1+β2xt2+ϵt. y_t = \alpha + \beta_1 x_{t1} + \beta_2 x_{t2} + \epsilon_t . 但是我完全不知道如何将其实现为GARCH(1,1)-模型?我已经在中查看了rugarch-package和fGarch-package R,但是除了可以在Internet上找到的示例之外,我没有做任何有意义的事情。
10 r  regression  garch 

1
多层次建模的符号
一个需要指定用于训练多层模型(lmer从lme4 R库中使用)的公式总是能帮助我。我读了无数的教科书和教程,但从未正确地理解它。 因此,这是本教程中的一个示例,我希望看到公式中的公式。我们正在尝试根据不同的情景将语音频率建模为性别(女性的声音比男性普遍高)和人的态度(无论他/她以礼貌还是非正式的方式回答)的函数。同样,从subject专栏中您可以看到,每个人都经过多次测量。 > head(politeness, n=20) subject gender scenario attitude frequency 1 F1 F 1 pol 213.3 2 F1 F 1 inf 204.5 3 F1 F 2 pol 285.1 4 F1 F 2 inf 259.7 5 F1 F 3 pol 203.9 6 F1 F 3 inf 286.9 7 F1 F …

4
使用神经网络,auto.arima和ets进行R时间序列预测
我听说过一些有关使用神经网络预测时间序列的信息。 如何比较哪种预测时间序列(每日零售数据)的方法更好:auto.arima(x),ets(x)或nnetar(x)。 我可以通过AIC或BIC将auto.arima与ets进行比较。但是如何将它们与神经网络进行比较? 例如: > dput(x) c(1774, 1706, 1288, 1276, 2350, 1821, 1712, 1654, 1680, 1451, 1275, 2140, 1747, 1749, 1770, 1797, 1485, 1299, 2330, 1822, 1627, 1847, 1797, 1452, 1328, 2363, 1998, 1864, 2088, 2084, 594, 884, 1968, 1858, 1640, 1823, 1938, 1490, 1312, 2312, 1937, 1617, 1643, 1468, …

1
这两个回归模型之间的根本区别是什么?
假设我有一个具有显着相关性的双变量响应。我正在尝试比较两种模拟这些结果的方法。一种方法是对两个结果之间的差异进行建模: 另一种方法是对它们进行使用或建模: (yi2−yi1=β0+X′β)(yi2−yi1=β0+X′β)(y_{i2}-y_{i1}=\beta_0+X'\beta)glsgee(yij=β0+time+X′β)(yij=β0+time+X′β)(y_{ij}=\beta_0+\text{time}+X'\beta) 这是一个foo示例: #create foo data frame require(mvtnorm) require(reshape) set.seed(123456) sigma <- matrix(c(4,2,2,3), ncol=2) y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma) cor(y) x1<-rnorm(500) x2<-rbinom(500,1,0.4) df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2) df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long") df.long<-df.long[order(df.long$id),] df.wide$diff_y<-df.wide$y2-df.wide$y1 #regressions fit1<-lm(diff_y~x1+x2,data=df.wide) fit2<-lm(y~time+x1+x2,data=df.long) fit3<-gls(y~time+x1+x2,data=df.long, correlation = corAR1(form = ~ 1 | time)) fit1和之间有什么根本区别fit2?在fit2和之间fit3,假设它们与值和估计值如此接近?ppp

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.