Questions tagged «linear-model»

指任何模型,其中随机变量通过在有限数量的参数中呈线性的函数与一个或多个随机变量相关。

4
在R中添加观测值和/或预测变量时,有效地更新线性回归
我想在R中找到一种方法,以便在添加观察值或预测变量时有效地更新线性模型。在添加观察值时,biglm具有更新功能,但是我的数据足够小以驻留在内存中(尽管我确实有大量实例需要更新)。有一些方法可以赤手空拳,例如,更新QR因式分解(请参阅Hammarling和Lucas的“更新QR因式分解和最小二乘问题”),但我希望有一个现有的实现。

1
受限制的最大似然比小于
此问题处理线性模型的特定版本中的受限最大似然(REML)估计,即: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), 其中为(Ñ × p)矩阵由参数化α ∈ [R ķ,因为是Σ (α )。β是令人讨厌的参数的未知向量;兴趣是在估计α,我们有ķ ≤ p « Ñ。通过最大可能性估计模型没有问题,但是我想使用REML。众所周知,参见例如LaMotte的,即似然甲' ÿ,其中阿是任何半正交矩阵,使得X(α)X(α)X(\alpha)n×pn×pn \times pα∈Rkα∈Rk\alpha \in \mathbb R^kΣ(α)Σ(α)\Sigma(\alpha)ββ\betaαα\alphak≤p≪nk≤p≪nk\leq p\ll nA′YA′YA'YAAA可以写成A′X=0A′X=0A'X=0 LREML(α∣Y)∝|X′X|1/2|Σ|−1/2|X′Σ−1X|−1/2exp{−12r′Σ−1r},r=(I−X(X′Σ−1X)+X′Σ−1)Y,LREML(α∣Y)∝|X′X|1/2|Σ|−1/2|X′Σ−1X|−1/2exp⁡{−12r′Σ−1r},r=(I−X(X′Σ−1X)+X′Σ−1)Y, L_{\text{REML}}(\alpha\mid Y) \propto\vert X'X\vert^{1/2} \vert \Sigma\vert^{-1/2}\vert X'\Sigma^{-1}X\vert^{-1/2}\exp\left\{-\frac{1}{2} r'\Sigma^{-1}r \right\}, \\ r = (I - X(X'\Sigma^{-1}X)^+X'\Sigma^{-1})Y, 当为完整列等级时XXX。 我的问题是,对于某些完全合理且科学有趣的,矩阵X (α …

1
QQ线的置信带
这个问题不是专门针对 R,但我选择用R它来说明。 考虑一下围绕(正常)qq线产生置信带的代码: library(car) library(MASS) b0<-lm(deaths~.,data=road) qqPlot(b0$resid,pch=16,line="robust") 我正在寻找一种解释(或替代性的解释为纸/在线文档的链接)这些置信带的构造方式(我已经在R的帮助文件中看到了对Fox 2002的引用,但可惜我没有这个方便的书)。 我的问题将通过一个例子更加精确。这是R计算这些特定CI的方式(我已经缩短/简化了中使用的代码car::qqPlot) x<-b0$resid good<-!is.na(x) ord<-order(x[good]) ord.x<-x[good][ord] n<-length(ord.x) P<-ppoints(n) z<-qnorm(P) plot(z,ord.x,type="n") coef<-coef(rlm(ord.x~z)) a<-coef[1] b<-coef[2] abline(a,b,col="red",lwd=2) conf<-0.95 zz<-qnorm(1-(1-conf)/2) SE<-(b/dnorm(z))*sqrt(P*(1-P)/n) #[WHY?] fit.value<-a+b*z upper<-fit.value+zz*SE lower<-fit.value-zz*SE lines(z,upper,lty=2,lwd=2,col="red") lines(z,lower,lty=2,lwd=2,col="red") 问题是:用于计算这些SE的公式的合理性是什么(例如line SE<-(b/dnorm(z))*sqrt(P*(1-P)/n))。 FWIW该公式与线性回归中常用的置信带公式非常不同

1
从正交多项式回归中恢复原始系数和方差
看来,如果我有一个回归模型如yi∼β0+β1xi+β2x2i+β3x3iyi∼β0+β1xi+β2xi2+β3xi3y_i \sim \beta_0 + \beta_1 x_i+\beta_2 x_i^2 +\beta_3 x_i^3我可以拟合原始多项式并获得不可靠的结果,也可以拟合正交多项式并获得没有直接物理解释的系数(例如,我无法使用它们来找到原始比例上的极值位置)。似乎我应该能够同时兼顾两个方面,并且能够将拟合的正交系数及其方差转换回原始比例。我已经学习了应用线性回归的研究生课程(使用Kutner,5ed),并且浏览了Draper(3ed,由Kutner引用)中的多项式回归一章,但是没有找到有关如何执行此操作的讨论。的帮助文本poly()中的R功能没有。我也没有在网络搜索中找到任何内容,包括此处。正在从拟合正交多项式的系数中重构原始系数(并获得其方差)。 无法做,我在浪费时间。 可能是可行的,但在一般情况下还不知道怎么做。 可能但未讨论,因为“谁愿意?” 可能但由于“显而易见”而未进行讨论。 如果答案是3或4,如果有人能耐心地解释如何做到这一点或指出这样做的来源,我将不胜感激。如果是1或2,我仍然很想知道障碍是什么。非常感谢您阅读本文,如果我忽略了明显的内容,我向您致歉。

3
线性回归F统计量,R平方和残差标准误差告诉我们什么?
我对以下术语的线性回归上下文的意义差异感到非常困惑: F统计 R平方 残留标准误差 我找到了这个网站,这使我对线性回归中涉及的不同术语有了深刻的了解,但是,据我所知,上述术语看起来非常相似。我会引用我读到的东西和让我感到困惑的东西: 残差标准误差是线性回归拟合的质量的度量.......残差标准误差是响应(dist)偏离真实回归线的平均值。 1.因此,实际上这是观测值与lm线的平均距离吗? R平方统计量可用来衡量模型对实际数据的拟合程度。 2.现在我很困惑,因为如果RSE告诉我们观察点与回归线有多远,则低RSE实际上告诉我们“您的模型基于观察到的数据点非常合适”->因此,我们的模型有多好模型适合,那么R平方和RSE有什么区别? F统计量可以很好地指示我们的预测变量与响应变量之间是否存在关系。 3.的确,我们可以有一个F值来表示非线性的强关系,因此我们的RSE高而我们的R平方很低

1
如何针对重复测量设计计算方差分析:R中的aov()vs lm()
标题说明了一切,我很困惑。下面的代码在R中运行重复的aov(),并运行我认为是等效的lm()的调用,但是它们返回不同的误差残差(尽管平方和相同)。 显然,来自aov()的残差和拟合值是模型中使用的残差和拟合值,因为它们的平方和加到summary(my.aov)中报告的每个模型/残差平方和。那么,应用于重复测量设计的实际线性模型是什么? set.seed(1) # make data frame, # 5 participants, with 2 experimental factors, each with 2 levels # factor1 is A, B # factor2 is 1, 2 DF <- data.frame(participant=factor(1:5), A.1=rnorm(5, 50, 20), A.2=rnorm(5, 100, 20), B.1=rnorm(5, 20, 20), B.2=rnorm(5, 50, 20)) # get our experimental conditions conditions <- …

3
执行线性回归,但强制求解通过一些特定数据点
我知道如何对一组点执行线性回归。也就是说,我知道如何将自己选择的多项式拟合到给定的数据集(从LSE的角度来看)。但是,我不知道的是如何迫使我的解决方案经过我选择的某些特定要点。我之前已经看过这件事,但是我不记得该过程叫什么,更不用说它是如何完成的了。 作为一个非常简单而具体的示例,让我们说我在xy平面上散布了100个点,我选择通过它们拟合任意阶多项式。我知道如何很好地执行此线性回归。但是,让我们说我想“强制”解决方案,例如,通过x坐标,和x = 89的三个数据点(及其对应的y坐标)当然)。x = 19 x = 89x = 3x=3x=3x = 19x=19x=19x = 89x=89x=89 这个通用程序叫什么,它是如何完成的,还有什么我需要注意的陷阱吗? 编辑: 我想补充一点,我正在寻找一种具体的方法来做到这一点。我编写了一个程序,该程序实际上以两种方式之一进行线性回归,即直接或通过梯度下降来反转协方差矩阵。我要问的是,究竟是如何逐步地修改我所做的事情,以使多项式解经过特定点? 谢谢!

3
回归模型的定义和定界
一个令人尴尬的简单问题-但似乎之前尚未在Cross Validated上问过: 回归模型的定义是什么? 还有一个支持问题 什么不是回归模型? 关于后者,我对棘手的示例感兴趣,这些示例的答案不是立即显而易见的,例如ARIMA或GARCH。

2
选择将组分开的PCA组件
我经常使用PCA诊断我的多元数据(具有数十万个变量和数十个或数百个样本的组学数据)。数据通常来自具有定义某些组的几个类别自变量的实验,在找到能够显示感兴趣的组之间分离的组件之前,我经常必须经过几个组件。我想出了一种相当原始的方式来找到这种可区分的组件,我想知道 在何种程度上是合理/合理的,并且 是否有更好的方法可以达到相同目的。 请注意,这是探索性的。在说服别人之前,我想说服自己。如果我发现有一些组件可以清楚地区分感兴趣的组(例如,控制组与治疗组),即使它们是响应方差的一小部分,则我更相信它,而不是受监督机器的结果学习。 这是我的方法。我将使用R中pca3d的“ metabo”示例数据集。 这个想法是评估独立变量可以解释每个分量有多少差异。为此,我为每个组件计算一个简单模型,并使用作为度量标准,以将组件从“最有趣”到“最不有趣”进行排序。R2R2R^2 require( pca3d ) # data on metabolic profiles of TB patients and controls data( metabo ) # first column is the independent variable pca <- prcomp( metabo[,-1], scale.= T ) # create a model for each component lm.m <- lm( pca$x ~ metabo[,1] …

2
多类感知器如何工作?
我没有数学背景,但是我了解简单的Perceptron的工作原理,并且我认为我掌握了超平面的概念(我想像它是3D空间中的一个平面,它将两个点云分开,就像一条线分开一样2D空间中的两个点云)。 但是我不明白一架飞机或一条直线如何分别在3D空间或2D空间中分隔三个不同的点云–从几何上讲这是不可能的,是吗? 我试图理解Wikipedia文章中的相应部分,但是在句子“这里,输入x和输出y是从任意集合中提取”时,已经惨遭失败。有人可以向我解释多类感知器,以及它与超平面的想法如何结合,还是可以向我指出一个不太数学的解释?

2
线性与非线性回归
我有一组值和,它们在理论上呈指数相关:Xxxÿyy ÿ= 一个Xby=axby = ax^b 一种获取系数的方法是在两侧应用自然对数并拟合线性模型: > fit <- lm(log(y)~log(x)) > a <- exp(fit$coefficients[1]) > b <- fit$coefficients[2] 获得此结果的另一种方法是使用非线性回归,给定一组理论上的起始值: > fit <- nls(y~a*x^b, start=c(a=50, b=1.3)) 如果应用第二种算法,我的测试将显示出更好且与理论相关的结果。但是,我想知道每种方法的统计意义和含义。 他们哪个更好?

1
对混合效应模型的预测:如何处理随机效应?
让我们考虑这个假设的数据集: set.seed(12345) num.subjects <- 10 dose <- rep(c(1,10,50,100), num.subjects) subject <- rep(1:num.subjects, each=4) group <- rep(1:2, each=num.subjects/2*4) response <- dose*dose/10 * group + rnorm(length(dose), 50, 30) df <- data.frame(dose=dose, response=response, subject=subject, group=group) 我们可以使用lme随机效应模型对响应进行建模: require(nlme) model <- lme(response ~ dose + group + dose*group, random = ~1|subject, df) 我想使用predict该模型的结果来获取例如第1组的一般主题对剂量10的响应: pred <- …

2
如何在多元回归分析中使用
下图是回归测试的残留散点图,对于这些测试,可以肯定已经满足“正态性”,“均方差性”和“独立性”的假设!为了测试“线性”假设,尽管通过查看图表可以推测出该关系是曲线的,但是问题是:“ R2线性”的值如何用于测试线性假设?“ R2线性”值确定该关系是否为线性的可接受范围是什么?如果不满足线性假设并且对IV进行转换也无济于事怎么办? 这是测试完整结果的链接。 散点图:

3
如何证明阶乘方差分析中的误差项合理?
关于多元ANOVA的一个可能非常基本的问题。假设采用双向设计,我们同时测试主要效果A,B和交互作用A:B。在测试类型为I SS的A的主要效果时,效果SS的计算方式为差异,其中是仅具有截距的模型的残差平方误差和,和的RSS与因子A的模式添加。我的问题涉及错误术语的选择:- [R 小号小号(1 )- [R 小号小号(甲)[R 小号小号(1 )- [R 小号小号(一)RSS(1)−RSS(A)RSS(1) - RSS(A)[R 小号小号(1 )RSS(1)RSS(1)[R 小号小号(一)RSS(A)RSS(A) 您如何证明此测试的误差项通常是从包含主效应和相互作用的完整模型A + B + A:B的RSS计算而来的? F一种= (R S小号1个− R S小号一种)/(dF[R 小号小号1个- dF[R 小号小号一种)[R 小号小号A + B + A :B/天F[R 小号小号A + B + A :BFA=(RSS1−RSSA)/(dfRSS1−dfRSSA)RSSA+B+A:B/dfRSSA+B+A:B F_{A} = \frac{(RSS_{1} - RSS_{A}) / (df_{RSS 1} - …

4
线性模型与非线性模型的区别
我已经阅读了有关线性模型与非线性模型的属性的一些解释,但是仍然有时我不确定手头的模型是线性模型还是非线性模型。例如,以下模型是线性的还是非线性的? yt=β0+β1B(L;θ)Xt+εtyt=β0+β1B(L;θ)Xt+εty_t=\beta_0 + \beta_1B(L;\theta)X_t+\varepsilon_t 带有: B(L;θ)=∑k=1Kb(k;θ)LkB(L;θ)=∑k=1Kb(k;θ)LkB(L;\theta)=\sum_{k=1}^{K}b(k;\theta)L^k LkXt=Xt−kLkXt=Xt−kL^kX_t=X_{t-k} 其中表示(衰减的)指数Almon多项式函数,其形式为:b(k;θ)b(k;θ)b(k;\theta) b(k;θ)=exp(θ1k+θ2k2)∑Kk=1exp(θ1k+θ2k2)b(k;θ)=exp⁡(θ1k+θ2k2)∑k=1Kexp⁡(θ1k+θ2k2)b(k;\theta)=\frac{\exp(\theta_1 k+\theta_2k^2)}{\sum_{k=1}^{K}\exp(\theta_1k+\theta_2k^2)} 在我看来,我的主要方程式(第一个方程式)相对于是线性的,因为该项只是乘以一个权重。但是我要说加权函数(最后一个方程)相对于参数 ans是非线性的。θ 1 θ 2XtXtX_tθ1θ1\theta_1θ2θ2\theta_2 有人可以向我解释我的主要函数是线性函数还是非线性函数,这对估计程序意味着什么-我必须应用线性或非线性最小二乘法吗?此外,可辨别的特征是什么,通过它我可以确定一个函数是非线性函数还是线性函数?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.