Questions tagged «lm»

lm是统计数据包R中线性模型(即多元回归)函数的名称。通常,对于线性模型,请使用“ linear-model”标签。



2
如何在R中找到一个适合半正弦模型的模型?
我想假设波罗的海的海面温度年复一年,然后用函数/线性模型对其进行描述。我的想法是只将年输入为十进制数字(或num_months / 12),然后得出当时的温度。将其扔到R中的lm()函数中,它无法识别正弦数据,因此只能产生一条直线。因此,我将sin()函数放在I()括号内,并尝试了一些值以手动适合该函数,这接近我想要的值。但是海洋在夏天变暖得更快,而在秋天变慢了……所以第一年的模型是错误的,几年后变得更正确,然后在将来我猜想它会变得更多再犯错。 如何获得R来为我估算模型,所以我不必自己猜测数字?这里的关键是我希望它年复一年地产生相同的值,而不仅仅是一年正确。如果我对数学了解更多,也许我可以将其估计为类似于Poisson或Gaussian之类的东西,而不是sin(),但我也不知道该怎么做。任何帮助您接近一个好的答案将不胜感激。 这是我使用的数据,以及到目前为止显示结果的代码: # SST from Bradtke et al 2010 ToY <- c(1/12,2/12,3/12,4/12,5/12,6/12,7/12,8/12,9/12,10/12,11/12,12/12,13/12,14/12,15/12,16/12,17/12,18/12,19/12,20/12,21/12,22/12,23/12,24/12,25/12,26/12,27/12,28/12,29/12,30/12,31/12,32/12,33/12,34/12,35/12,36/12,37/12,38/12,39/12,40/12,41/12,42/12,43/12,44/12,45/12,46/12,47/12,48/12) Degrees <- c(3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5) SST <- data.frame(ToY, Degrees) SSTlm <- lm(SST$Degrees ~ I(sin(pi*2.07*SST$ToY))) summary(SSTlm) plot(SST,xlim=c(0,4),ylim=c(0,17)) par(new=T) plot(data.frame(ToY=SST$ToY,Degrees=8.4418-6.9431*sin(2.07*pi*SST$ToY)),type="l",xlim=c(0,4),ylim=c(0,17))
37 r  regression  time-series  lm 

2
R中lm中的调整后R平方公式是什么,应如何解释?
调整后的R平方在R中使用的确切公式是什么lm() ?我该怎么解释? 调整后的r平方公式 似乎存在一些公式来计算调整后的R平方。 Wherry的公式:1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} 麦克尼马尔公式:1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} 洛德公式:1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} 斯坦因公式:1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) 教科书说明 根据菲尔德的教科书《使用R发现统计信息》(2012年,第273页),R使用了Wherry方程,“告诉我们如果该模型是从采样样本中得出的,则Y可以解释多少差异”。他没有给出Wherry的配方。他建议(手动)使用Stein的公式来检查模型的交叉验证程度。 Kleiber / Zeileis,《应用计量经济学与R》(2008年,第59页)声称它是“ Theil的R平方调整后的值”,并且没有确切说明其解释与多个R平方的差异。 Dalgaard在Introductory Statistics with R(2008,p。113)中写道:“如果[调整后的R平方]乘以100%,则可以解释为'%方差减少'”。他没有说这对应哪个公式。 我以前曾想并广泛地读到R平方会给模型增加其他变量而受到惩罚。现在,使用这些不同的公式似乎需要不同的解释。我还研究了有关堆栈溢出的一个相关问题(在单变量最小二乘回归中,多个R平方和调整R平方之间有什么区别?),以及UPenn的Wharton学校统计词典。 问题 哪个公式用于通过R调整的r平方 lm()? 我该怎么解释?


2
最小二乘回归逐步线性代数计算
作为有关R中线性混合模型的问题的前传,并作为初学者/中级统计爱好者的参考,我决定以独立的“问答式”形式发布“手动”计算简单线性回归的系数和预测值。 该示例使用R内置数据集,mtcars并将其设置为充当自变量的车辆所消耗的每加仑英里数,并根据汽车的重量(连续变量)进行回归,并将汽缸数作为没有相互作用的三个水平(4、6或8)的因子。 编辑:如果您对此问题感兴趣,您肯定会在CV之外的Matthew Drury的这篇帖子中找到详细而令人满意的答案。

4
处理异方差的最佳方法?
我有一个线性模型的残差值随拟合值的函数关系图,其中异方差非常清楚。但是,我不确定现在应该如何进行,因为据我了解,这种异方差会使我的线性模型无效。(那正确吗?) 使用封装的rlm()功能使用健壮的线性拟合,MASS因为它显然对异方差具有健壮性。 由于我的系数的标准误差由于异方差性而错了,因此我可以调整标准误差以使其对异方差性很强吗?使用此处发布在堆栈溢出上的方法:具有异方差的回归校正的标准错误 哪种方法是解决我的问题的最佳方法?如果我使用解决方案2,那么我对模型的预测能力完全没有用吗? Breusch-Pagan检验确认方差不是恒定的。 我的残差在拟合值的函数中看起来像这样: (较大版本)

1
R:检验线性模型残差的正态性-使用哪些残差
我想对线性模型的残差进行Shapiro Wilk的W检验和Kolmogorov-Smirnov检验,以检查正态性。我只是想知道应该使用什么残差-原始残差,Pearson残差,学生化残差或标准化残差?对于Shapiro-Wilk的W检验,原始和Pearson残差的结果似乎相同,而其他残差的结果则不同。 fit=lm(mpg ~ 1 + hp + wt, data=mtcars) res1=residuals(fit,type="response") res2=residuals(fit,type="pearson") res3=rstudent(fit) res4=rstandard(fit) shapiro.test(res1) # W = 0.9279, p-value = 0.03427 shapiro.test(res2) # W = 0.9279, p-value = 0.03427 shapiro.test(res3) # W = 0.9058, p-value = 0.008722 shapiro.test(res4) # W = 0.9205, p-value = 0.02143 关于KS的同样问题,以及是否应按照以下方法针对正态分布(范数)测试残差 ks.test(res1, "pnorm") # …

1
为什么R的lm()返回的系数估算值与我的教科书不同?
背景 我正在尝试了解拟合模型课程中的第一个示例(因此,这似乎很简单)。我已经手工完成了计算,并且它们与示例匹配,但是当我在R中重复计算时,模型系数不可用。我认为差异可能是由于总体方差使用教科书(),而R可以是使用样本方差(小号2),但我不能看到这些在计算中使用。例如,如果在 某处使用,请注意以下帮助部分:σ2σ2\sigma^2小号2S2S^2lm()var()var() 分母n-1用于给出iid观测的(协)方差的无偏估计。 我已经看过了两者的代码lm(),lm.fit()并且都没有使用var(),但是lm.fit()将数据传递给了z <- .Call(C_Cdqrls, x, y, tol, FALSE)我无法访问的已编译C代码()。 题 谁能解释R为什么给出不同的结果?即使样本方差与总体方差的使用有所不同,为什么系数估计也不同? 数据 设置一条线以根据学校年级预测鞋子的大小。 # model data mod.dat <- read.table( text = 'grade shoe 1 1 2 5 4 9' , header = T); # mean mod.mu <- mean(mod.dat$shoe); # variability mod.var <- sum((mod.dat$shoe - mod.mu)^2) # model coefficients …
13 r  regression  self-study  lm 

1
重复测量方差分析:LM vs LMER
我试图重现两者之间lm以及lmer重复测量(2x2x2)之间的几个交互测试。我想比较这两种方法的原因是因为SPSS的重复测量GLM产生的结果与lm此处介绍的方法完全相同,因此最后我想比较SPSS与R-lmer。到目前为止,我仅设法(紧密地)复制了其中的一些交互。 您会在下面找到一个脚本来更好地说明我的观点: library(data.table) library(tidyr) library(lmerTest) library(MASS) set.seed(1) N <- 100 # number of subjects sigma <- 1 # popuplation sd rho <- .6 # correlation between variables # X1: a a a a b b b b # X2: a a b b a a b b # X3: a …

2
稳健的回归推断和Sandwich估计量
您能否举一个使用三明治估计器来执行可靠回归推断的示例? 我可以在中看到示例?sandwich,但是我不太理解如何使用函数返回的方差-协方差矩阵从lm(a ~ b, data)(r编码)到估计值和p值,该值是由回归模型得出的sandwich。
10 r  regression  lm  sandwich 

1
从简单的R lm模型重新计算对数似然
我只是想用dnorm()重新计算lm模型(在R中)的logLik函数提供的对数似然率。 对于大量数据(例如n = 1000),它可以(几乎完美)工作: > n <- 1000 > x <- 1:n > set.seed(1) > y <- 10 + 2*x + rnorm(n, 0, 2) > mod <- glm(y ~ x, family = gaussian) > logLik(mod) 'log Lik.' -2145.562 (df=3) > sigma <- sqrt(summary(mod)$dispersion) > sum(log(dnorm(x = y, mean = predict(mod), …

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
为什么线性回归不能预测简单确定性序列的结果?
我的一位同事向我发送了这个问题,显然是在互联网上巡回演出: If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ? 答案似乎是200。 3*6 4*8 5*10 6*12 7*14 8*16 9*18 10*20=200 当我在R中进行线性回归时: data <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98)) lm1 <- lm(b~a, data=data) new.data <- data.frame(a=c(10,20,30)) predict <- predict(lm1, newdata=new.data, interval='prediction') 我得到: fit lwr …
9 r  regression  lm 

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.