Questions tagged «r»

对于(a)涉及“ R”作为问题的关键部分或预期答案的任何* on-topic *问题,请使用此标签;&(b)关于如何使用“ R”并非“正当”。

1
R:检验线性模型残差的正态性-使用哪些残差
我想对线性模型的残差进行Shapiro Wilk的W检验和Kolmogorov-Smirnov检验,以检查正态性。我只是想知道应该使用什么残差-原始残差,Pearson残差,学生化残差或标准化残差?对于Shapiro-Wilk的W检验,原始和Pearson残差的结果似乎相同,而其他残差的结果则不同。 fit=lm(mpg ~ 1 + hp + wt, data=mtcars) res1=residuals(fit,type="response") res2=residuals(fit,type="pearson") res3=rstudent(fit) res4=rstandard(fit) shapiro.test(res1) # W = 0.9279, p-value = 0.03427 shapiro.test(res2) # W = 0.9279, p-value = 0.03427 shapiro.test(res3) # W = 0.9058, p-value = 0.008722 shapiro.test(res4) # W = 0.9205, p-value = 0.02143 关于KS的同样问题,以及是否应按照以下方法针对正态分布(范数)测试残差 ks.test(res1, "pnorm") # …

1
观测值不独立时的无效推论
我在基本统计中了解到,对于一般的线性模型而言,要使推论有效,观察必须是独立的。发生聚类时,除非考虑到这一点,否则独立性不再可能导致无效的推理。解决这种聚类的一种方法是使用混合模型。我想找到一个示例数据集,无论是否模拟,都可以清楚地说明这一点。我尝试使用UCLA网站上的示例数据集之一来分析聚类数据 > require(foreign) > require(lme4) > dt <- read.dta("http://www.ats.ucla.edu/stat/stata/seminars/svy_stata_intro/srs.dta") > m1 <- lm(api00~growth+emer+yr_rnd, data=dt) > summary(m1) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 740.3981 11.5522 64.092 <2e-16 *** growth -0.1027 0.2112 -0.486 0.6271 emer -5.4449 0.5395 -10.092 <2e-16 *** yr_rnd -51.0757 19.9136 -2.565 0.0108 * > m2 <- lmer(api00~growth+emer+yr_rnd+(1|dnum), …


1
如何测试分配是否遵循幂定律?
我有关于多少用户发布多少问题的数据。例如, [UserCount, QuestionCount] [2, 100] [9, 10] [3, 80] ... ... 这意味着2个用户每个发布了100个问题,9个用户每个发布了10个问题,依此类推。那么,如何确定UserCount, QuestionCount分布是否遵循幂律? 我找到了poweRlaw软件包。但是,我只能传递一组数字来进行评估。(此软件包中提供的示例是单词频率。)那么,如何使用此软件包?还是我有什么问题?我也有每个用户的问题计数的数据,即[100, 100, 10, 10, 10 ... ]。如果我将此数据传递给程序包,我将得到什么?

1
为什么R的lm()返回的系数估算值与我的教科书不同?
背景 我正在尝试了解拟合模型课程中的第一个示例(因此,这似乎很简单)。我已经手工完成了计算,并且它们与示例匹配,但是当我在R中重复计算时,模型系数不可用。我认为差异可能是由于总体方差使用教科书(),而R可以是使用样本方差(小号2),但我不能看到这些在计算中使用。例如,如果在 某处使用,请注意以下帮助部分:σ2σ2\sigma^2小号2S2S^2lm()var()var() 分母n-1用于给出iid观测的(协)方差的无偏估计。 我已经看过了两者的代码lm(),lm.fit()并且都没有使用var(),但是lm.fit()将数据传递给了z <- .Call(C_Cdqrls, x, y, tol, FALSE)我无法访问的已编译C代码()。 题 谁能解释R为什么给出不同的结果?即使样本方差与总体方差的使用有所不同,为什么系数估计也不同? 数据 设置一条线以根据学校年级预测鞋子的大小。 # model data mod.dat <- read.table( text = 'grade shoe 1 1 2 5 4 9' , header = T); # mean mod.mu <- mean(mod.dat$shoe); # variability mod.var <- sum((mod.dat$shoe - mod.mu)^2) # model coefficients …
13 r  regression  self-study  lm 

2
在拟合回归时是否有理由不使用正交多项式?
总的来说,我想知道在对具有高阶变量的回归进行拟合时是否最好不要使用正交多项式。特别是,我想知道使用R: 如果poly()与raw = FALSE产生相同的拟合值作为poly()与raw = TRUE和poly与raw = FALSE解决了与多项式回归相关的问题,那么应该poly()用raw = FALSE 始终被用于拟合多项式回归?在什么情况下最好不要使用poly()?

2
在估算数据中使用邻居信息或查找偏离数据(在R中)
我有一个数据集,假设最近的邻居是最好的预测变量。只是可视化的双向梯度的完美示例- 假设我们缺少一些值,可以很容易地根据邻居和趋势进行预测。 R中的对应数据矩阵(用于锻炼的虚拟示例): miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE) miss.mat [,1] [,2] [,3] [,4] [,5] [,6] [,7] [1,] 5 6 7 8 9 10 11 [2,] 6 7 8 9 10 NA 12 [3,] 7 8 9 10 11 12 13 …


3
使用Lindsay Smith的教程逐步在R中实现PCA
我正在通过Lindsay I Smith撰写的出色PCA教程从事R的工作,并且陷入了最后阶段。下面的R脚本将带您进入阶段(第19页),该阶段是从(在此例中为单数)主成分重构原始数据的过程,这将产生沿PCA1轴的直线图(假设数据只有2个维度,其中第二个被有意删除)。 d = data.frame(x=c(2.5,0.5,2.2,1.9,3.1,2.3,2.0,1.0,1.5,1.1), y=c(2.4,0.7,2.9,2.2,3.0,2.7,1.6,1.1,1.6,0.9)) # mean-adjusted values d$x_adj = d$x - mean(d$x) d$y_adj = d$y - mean(d$y) # calculate covariance matrix and eigenvectors/values (cm = cov(d[,1:2])) #### outputs ############# # x y # x 0.6165556 0.6154444 # y 0.6154444 0.7165556 ########################## (e = eigen(cm)) ##### outputs ############## …
13 r  pca 


2
R中的Dunnett检验每次都返回不同的值
我正在使用R'multcomp'库(http://cran.r-project.org/web/packages/multcomp/)计算Dunnett的测试。我正在使用以下脚本: Group <- factor(c("A","A","B","B","B","C","C","C","D","D","D","E","E","F","F","F")) Value <- c(5,5.09901951359278,4.69041575982343,4.58257569495584,4.79583152331272,5,5.09901951359278,4.24264068711928,5.09901951359278,5.19615242270663,4.58257569495584,6.16441400296898,6.85565460040104,7.68114574786861,7.07106781186548,6.48074069840786) data <- data.frame(Group, Value) aov <- aov(Value ~ Group, data) summary(glht(aov, linfct=mcp(Group="Dunnett"))) 现在,如果我多次在R Console中运行此脚本,则每次得到的结果都会略有不同。这是一个例子: Simultaneous Tests for General Linear Hypotheses Multiple Comparisons of Means: Dunnett Contrasts Fit: aov(formula = Value ~ Group, data = data) Linear Hypotheses: Estimate Std. Error t value Pr(>|t|) …

2
ARIMA vs ARMA在不同系列上
在R(2.15.2)中,我在一个时间序列上安装了一次ARIMA(3,1,3),在一次有差异的时间序列上安装了一次ARMA(3,3)。拟合参数不同,这归因于ARIMA中的拟合方法。 同样,无论我使用哪种拟合方法,在与ARMA(3,3)相同的数据上拟合ARIMA(3,0,3)都不会得到相同的参数。 我有兴趣确定差异的出处以及可以使用哪些参数(如果有的话)拟合ARIMA,以获得与ARMA相同的拟合系数。 示例代码演示: library(tseries) set.seed(2) #getting a time series manually x<-c(1,2,1) e<-c(0,0.3,-0.2) n<-45 AR<-c(0.5,-0.4,-0.1) MA<-c(0.4,0.3,-0.2) for(i in 4:n){ tt<-rnorm(1) t<-x[length(x)]+tt+x[i-1]*AR[1]+x[i-2]*AR[2]+x[i-3]*AR[3]+e[i-1]*MA[1]+e[i-2]*MA[2]+e[i-3]*MA[3] x<-c(x,t) e<-c(e,tt) } par(mfrow=c(2,1)) plot(x) plot(diff(x,1)) #fitting different versions. What I would like to get is fit1 with ARIMA() fit1<-arma(diff(x,1,lag=1),c(3,3),include.intercept=F) fit2<-arima(x,c(3,1,3),include.mean=F) fit3<-arima(diff(x,1),c(3,0,3),include.mean=F) fit4<-arima(x,c(3,1,3),method="CSS",include.mean=F) fit5<-arima(diff(x,1),c(3,0,3),method="CSS",include.mean=F) cbind(fit1$coe,fit2$coe,fit3$coe,fit4$coe,fit5$coe) 编辑:使用条件平方和来的很接近,但还不完全是。感谢您对fit1的提示! Edit2:我不认为这是重复的。第2点和第3点解决的问题与我的不同,即使我重写了第1点提到的初始化, fit4<-arima(x,c(3,1,3),method="CSS",include.mean=F,init=fit1$coe) 我仍然得到不同的系数
13 r  time-series  arima  fitting  arma 

1
评估逻辑回归模型
我一直在研究逻辑模型,但在评估结果时遇到了一些困难。我的模型是二项式logit。我的解释变量是:具有15个级别的分类变量,二分变量和2个连续变量。我的N大于8000。 我正在尝试为公司的投资决策建模。因变量是投资(是/否),这15个级别变量是经理报告的不同投资障碍。其余变量是销售,信用和已用容量的控件。 下面是我的结果,使用rmsR中的包。 Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 8035 LR chi2 399.83 R2 0.067 C 0.632 1 5306 d.f. 17 g 0.544 Dxy 0.264 2 2729 Pr(> chi2) <0.0001 gr 1.723 gamma 0.266 max |deriv| 6e-09 gp 0.119 tau-a 0.118 Brier 0.213 Coef S.E. Wald …

2
摘要.glm()中的分散
我进行了glm.nb glm1<-glm.nb(x~factor(group)) 其中group为类别,x为度量变量。当我尝试获取结果摘要时,根据是否使用summary()或,我会得到略有不同的结果summary.glm。summary(glm1)给我 ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.1044 0.1519 0.687 0.4921 factor(gruppe)2 0.1580 0.2117 0.746 0.4555 factor(gruppe)3 0.3531 0.2085 1.693 0.0904 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for Negative Binomial(0.7109) family taken to …

4
与重尾分布相对应的Boxplot吗?
对于近似正态分布的数据,箱形图是快速可视化数据的中值和散布以及任何异常值的好方法。 但是,对于更重尾的分布,很多点显示为离群值,因为离群被定义为不在IQR的固定因子范围内,而对于重尾分布,这种情况当然会更频繁地发生。 那么人们使用什么可视化此类数据呢?还有更适应的东西吗?如果重要的话,我在R上使用ggplot。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.