Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。


2
纵向数据:时间序列,重复测量或其他?
用简单的英语来说: 我有一个多元回归或ANOVA模型,但是每个人的响应变量都是时间的曲线函数。 如何确定哪个右侧变量导致曲线的形状或垂直偏移的显着差异? 这是时间序列问题,重复测量问题还是其他所有问题? 分析此类数据的最佳实践是什么(最好在中R,但我愿意使用其他软件)? 确切地说: 假设我有一个模型但实际上是从收集的一系列数据点在许多时间点,相同的个体被记录为数值变量。绘制数据表明,对于每个个体是时间的二次函数或周期性函数,其垂直偏移,形状或频率(在周期性情况下)可能极大地取决于协变量。协变量不会随时间变化-即,在数据收集期间,个体具有恒定的体重或治疗组。ÿ我Ĵ ķ= β0+ β1个X一世+ β2XĴ+ β3X一世XĴ+ ϵķÿ一世Ĵķ=β0+β1个X一世+β2XĴ+β3X一世XĴ+ϵķy_{ijk} = \beta_0 + \beta_1 x_i + \beta_2 x_j + \beta_3 x_i x_j + \epsilon_kÿ我Ĵ ķÿ一世Ĵķy_{ijk}ķķkŤŤtÿ我Ĵ ķ 吨ÿ一世ĴķŤy_{ijkt} 到目前为止,我已经尝试了以下R方法: 马诺娃 Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); ...这里YT是一个矩阵,其列为时间点,在此示例中为10个,但在实际数据中则更多。 问题:这将时间视为一个因素,但是每个人的时间点并不完全匹配。此外,其中有许多是与样本大小相关的,因此模型变得饱和。似乎随时间变化的响应变量的形状被忽略了。 混合模型(如Pinheiro和Bates,S和S-Plus中的混合效应模型) lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML') ...其中ID一个因素是按个人分组数据。在此示例中,响应随时间变化是周期性的,但是可以替代地存在二次项或其他时间函数。 …

1
有关使用Quantreg识别曲线形状的建议
我正在使用quantreg程序包使用数据集中我值的第99个百分位数来建立回归模型。根据我之前提出的stackoverflow 问题的建议,我使用了以下代码结构。 mod <- rq(y ~ log(x), data=df, tau=.99) pDF <- data.frame(x = seq(1,10000, length=1000) ) pDF <- within(pDF, y <- predict(mod, newdata = pDF) ) 我将其显示在数据之上。我已经使用ggplot2绘制了此图像,并使用了点的alpha值。我认为在我的分析中并未充分考虑我分布的尾巴。也许这是由于以下事实:百分位类型测量忽略了一些单独的点。 其中一项评论建议 包小插图包括有关非线性分位数回归的部分,以及带有平滑样条线的模型等。 根据我之前的问题,我假设对数关系,但是我不确定这是否正确。我以为我可以在第99个百分位间隔处提取所有点,然后分别检查它们,但是我不确定该怎么做,或者这是否是一个好方法。我将不胜感激有关如何改善识别这种关系的任何建议。

2
将混合模型(作为随机效应)与简单的线性模型(作为固定效应)进行比较
我正在完成对大量数据的一些分析。我想采用在工作的第一部分中使用的线性模型,并使用线性混合模型(LME)重新拟合它。除了将模型中使用的变量之一用作随机效应外,LME非常相似。该数据来自一小群受试者(约10个)中的许多观察值(> 1000),我知道,将受试者的效果建模为随机效果更好(这是我要转移的变量)。R代码如下所示: my_modelB <- lm(formula = A ~ B + C + D) lme_model <- lme(fixed=A ~ B + C, random=~1|D, data=my_data, method='REML') 一切运行正常,结果极为相似。如果我可以使用RLRsim或AIC / BIC之类的东西来比较这两种模型并确定最合适的模型,那就太好了。我的同事们不想举报LME,因为尽管我认为LME是更合适的模型,但是没有一种容易获得的选择“更好”的方法。有什么建议么?

2
使用趋势线公式通过Excel获取任何给定X的值
是否有一种简单的方法可以将图表中的趋势线公式应用于Excel中的任何给定X值? 例如,我要获得给定X = $ 2,006.00的Y值。我已经采用了公式并将其重新输入为: =-0.000000000008*X^3 - 0.00000001*X^2 + 0.0003*X - 0.0029 我不断通过添加更多数据来对趋势线进行调整,并且不想每次都重新输入公式。
10 regression  excel 

2
R中的复数回归图
我需要绘制复杂的图形以进行可视数据分析。我有2个变量和大量案例(> 1000)。例如(如果使分散度减少为“正常”,则为100): x <- rnorm(100,mean=95,sd=50) y <- rnorm(100,mean=35,sd=20) d <- data.frame(x=x,y=y) 1)我需要以点大小绘制原始数据,对应于巧合的相对频率,因此plot(x,y)这不是一种选择-我需要点大小。要做到这一点应该怎么做? 2)在同一图上,我需要绘制95%的置信区间椭圆和代表相关性变化的线(不知道如何正确命名)-像这样: library(corrgram) corrgram(d, order=TRUE, lower.panel=panel.ellipse, upper.panel=panel.pts) 但两个图都在一个图上。 3)最后,我需要在此基础上绘制一个生成的linar回归模型: r<-lm(y~x, data=d) abline(r,col=2,lwd=2) 但错误范围...类似于QQ绘图: 但是如果可能的话,会出现拟合错误。 所以问题是: 如何在一张图表上实现所有这些?

1
绘制分段回归线
除了lines用于单独绘制每个段或使用之外,是否有办法绘制像这样的分段模型的回归线geom_smooth(aes(group=Ind), method="lm", fill=FALSE)? m.sqft <- mean(sqft) model <- lm(price~sqft+I((sqft-m.sqft)*Ind)) # sqft, price: continuous variables, Ind: if sqft>mean(sqft) then 1 else 0 plot(sqft,price) abline(reg = model) Warning message: In abline(reg = model) : only using the first two of 3regression coefficients 谢谢。

2
如何在PLS中计算回归系数的置信区间?
PLS的基本模型是,给定的矩阵和向量y与 X = TP'+ E,y = T q'+ f相关, 其中T是一个潜在的n x k矩阵,而E ,f是噪声项(假设X,y为中心)。n×mn×mn \times mXXXnnnyyyX=TP′+E,X=TP′+E,X = T P' + E, y=Tq′+f,y=Tq′+f,y = T q' + f,TTTn×kn×kn \times kE,fE,fE, fX,yX,yX, y PLS生成T,P,q的估计T,P,qT,P,qT, P, q,以及回归系数\ hat {\ beta}的“捷径”向量,β^β^\hat{\beta}从而y∼Xβ^y∼Xβ^y \sim X \hat{\beta}。我想在一些简化的假设下找到\ hat {\ beta}的分布β^β^\hat{\beta},其中可能包括以下内容: 该模型是正确的,即 对于未知的T,P,q,X = TP'+ E,y = T q'+ …

1
在R中,“ glmnet”是否适合截距?
我正在使用R在R中拟合线性模型glmnet。原始(非正规化)模型使用来拟合,lm并且没有常数项(即,形式为lm(y~0+x1+x2,data))。 glmnet采用预测变量矩阵和响应向量。我一直在阅读glmnet文档,找不到常量术语。 那么,有没有办法要求glmnet通过原点强制线性拟合呢?
10 r  regression  lasso 

3
用于学习虚假时间序列回归的资源
我经常听到“虚假回归”(在时间序列中)和诸如单位根测试之类的相关术语,但从未理解。 为什么/何时会发生?(我相信这是两个时间序列进行协整的时候,即两者的某种线性组合是固定的,但是我不明白为什么协整会导致虚假。)如何避免这种情况? 我正在寻找对协整/单位根检验/ Granger因果关系与虚假回归有什么关系的高级理解(我记得其中三个是与虚假回归相关联的术语,但我不记得到底是什么),因此,无论是自定义响应还是指向我可以了解更多信息的引用的链接,都很棒。

1
GLS和SUR之间的区别
我一直在阅读有关广义最小二乘(GLS)的文章,并尝试将其与我的基本计量经济学背景联系起来。我记得在读研究生时使用的似乎无关的回归(SUR)似乎与GLS相似。我偶然发现的一篇论文甚至将SUR称为GLS的“特殊情况”。但是我仍然无法绕过异同。 所以问题是: GLS和SUR之间有什么异同?应该使用一种方法代替另一种方法的问题的标志是什么?

1
您使用哪种类型的残差拟合后分析?
当执行OLS多元线性回归时,我不是针对拟合值绘制残差,而是针对拟合值绘制(内部)学生化残差(协变量为dito)。这些残差定义为: Ë∗一世= e一世s2(1 - ħ我我)---------√ei∗=eis2(1−hii)\begin{equation} e^*_i = \frac{e_i}{\sqrt{s^2 (1-h_{ii})}} \end{equation} 其中是残差,h_ {ii}是帽子矩阵的对角元素。要获得R中的这些学生化残差,可以使用命令。Ë一世eie_iH我我hiih_{ii}rstandard 人们在这种情况下通常使用什么类型的残差?例如,您只是坚持使用Ë一世eie_i还是使用折刀残差或完全使用其他方式。 注意:我对定义没有人使用过的一种新型残差的论文不感兴趣。

2
在线性回归中,当我们仅对交互作用项感兴趣时,为什么还要包含二次项?
假设我对线性回归模型,用于ÿ一世= β0+ β1个X1个+ β2X2+ β3X1个X2Yi=β0+β1x1+β2x2+β3x1x2Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2,因为我想看看如果两个协变量之间的相互作用产生作用在Y。 在教授的课程笔记中(我没有与之联系),其中指出:当包括互动术语时,您应该包括他们的第二学位术语。即ÿ一世= β0+ β1个X1个+ β2X2+ β3X1个X2+ β4X21个+ β5X22Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 +\beta_4x_1^2 + \beta_5x_2^2应包含在回归。 当我们仅对互动感兴趣时,为什么要包含第二学位?

2
为什么我们要使用残差来检验回归误差的假设?
假设我们有一个模型Yi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiYi=β0+β1Xi1+β2Xi2+⋯+βkXik+ϵiY_i = \beta_0 + \beta_1X_{i1} + \beta_2X_{i2} + \dots + \beta_kX_{ik} + \epsilon_i。 回归有许多假设,例如误差ϵiϵi\epsilon_i应该以均值为零和恒定方差的正态分布。我被教导要检查使用正常的QQ阴谋测试残差的常态这些假设ei=Yi−Y^iei=Yi−Y^ie_i = Y_i - \hat{Y}_i和残差对拟合曲线图,以检查残差与不断变化而改变零附近。 但是,这些测试全部针对残差,而不是误差。 据我所知,误差被定义为每个观察值与其“真实”平均值的偏差。因此,我们可以写ϵi=Yi−E[Yi]ϵi=Yi−E[Yi]\epsilon_i = Y_i - \mathbb{E}[Y_i]。我们无法观察到这些错误。* 我的问题是:残差在模仿错误方面做得如何? 如果对残差似乎满足假设,是否也就对误差也满意?还有其他(更好)的方法来测试假设吗,例如将模型拟合到测试数据集并从中获取残差? *此外,这是否不需要正确指定模型?也就是说,响应确实有与预测的关系在该模型中指定的方式等。X1,X2,X1,X2,X_1, X_2, 如果我们缺少某些预测(比方说,),则期望ë [ ÿ 我 ] = β 0 + β 1 X 我1 + β 2 X 我2 + ⋯ + β …


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.