Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
R平方的有趣推导
多年前,我通过试验数据和转换发现了这种身份。在向我的统计教授解释了这一点之后,他进入下一堂课,使用了矢量和矩阵符号作为一页证明。不幸的是我丢了他给我的纸。(那是在2007年) 有人能够重建证明吗? 让 (X一世,ÿ一世)(X一世,ÿ一世)(x_i,y_i)是您的原始数据点。通过旋转角度定义一组新的数据点;称这些点。θθ\theta(X′一世,ÿ′一世)(X一世′,ÿ一世′)(x'_i,y'_i) 原始点集的R平方值等于导数相对于新点集每个坐标的标准偏差自然对数的的负乘积,每个点在求θθ\thetaθ = 0θ=0\theta=0 [R2= - (ddθln(σX′)∣∣θ = 0)(ddθln(σÿ′)∣∣θ = 0)[R2=-(ddθln⁡(σX′)|θ=0)(ddθln⁡(σÿ′)|θ=0)r^2= - \left(\left.\frac{d}{d\theta}\ln(\sigma_{x'})\right|_{\theta=0} \right) \left(\left.\frac{d}{d\theta}\ln(\sigma_{y'})\right|_{\theta=0} \right)

2
残差与潜在的干扰有何关系?
在最小二乘法中,我们要估计模型中的未知参数: Yj=α+βxj+εj(j=1...n)Yj=α+βxj+εj(j=1...n)Y_j = \alpha + \beta x_j + \varepsilon_j \enspace (j=1...n) 一旦完成(对于某些观测值),我们将获得拟合的回归线: Yj=α^+β^x+ej(j=1,...n)Yj=α^+β^x+ej(j=1,...n)Y_j = \hat{\alpha} + \hat{\beta}x +e_j \enspace (j =1,...n) 现在显然我们想检查一些图以确保满足假设。假设您要检查均方差,但是,实际上我们正在检查残差。假设您检查了残差与预测值的关系图,如果这表明我们看到了明显的异方差性,那么这与干扰项什么关系?残差中的异方差是否表示扰动方面的异方差? ejeje_jεjεj\varepsilon_j

1
简单线性回归中截距和斜率的估计值是否独立?
考虑线性模型 ÿ一世= α + βX一世+ϵ一世yi=α+βxi+ϵiy_i= \alpha + \beta x_i + \epsilon_i 并估计坡度和截距 α^α^\hat{\alpha} 和 β^β^\hat{\beta}使用普通的最小二乘法。此数学统计参考说明如下:α^α^\hat{\alpha} 和 β^β^\hat{\beta} 是独立的(以他们的定理证明)。 我不确定我为什么。以来 α^=ÿ¯-β^X¯α^=y¯−β^x¯\hat{\alpha}=\bar{y}-\hat{\beta} \bar{x} 这不是在说 α^α^\hat{\alpha} 和 β^β^\hat{\beta}有关系吗?我可能在这里错过了一些非常明显的东西。

1
样本量很小的回归
我想使用4到5个解释变量进行回归,但是我只有15个观察值。无法假设这些变量是正态分布的,是否存在非参数或任何其他有效的回归方法?

2
如何评估适应功能的优劣
尽管我对分类和回归有一定的了解,但我还是生存分析的新手。 对于回归,我们具有MSE和R平方统计量。但是,除了某种图形化的图(KM曲线),我们如何说生存模型A优于生存模型B? 如果可能的话,请举例说明差异(例如R中的rpart包)。您如何证明一棵CART生存树比另一棵CART生存树好?可以使用哪些指标?


3
如何将和包括在回归中,以及是否将它们居中?
我想将项及其平方(预测变量)包括在回归中,因为我假设低值对因变量有积极影响,而高值则有负面影响。在应该捕获更高价值的作用。因此,我期望的系数为正,的系数为负。除了,我还包括其他预测变量。xxxx2x2x^2xxxx2x2x^2xxxx2x2x^2xxx 我在这里读过一些文章,在这种情况下,最好将变量居中以避免多重共线性。 进行多元回归时,何时应将预测变量居中以及何时应对其进行标准化? 我应该分别将两个变量居中(平均)还是应该仅居中然后取平方,还是应该仅居中并包含原始?xxxx2x2x^2xxx 如果是一个计数变量,是否有问题?xxx 为了避免成为计数变量,我考虑过将其除以理论上定义的面积,例如5平方公里。这应该有点类似于点密度计算。xxx 但是,恐怕在这种情况下,如和x²= 4时,我对系数符号的最初假设将不再成立。x=2x=2x=2x²=4x²=4x²=4 x=2/5 km2x=2/5 km2x= 2 / 5 \text{ km}^2 = 0.4 km20.4 km20.4 \text{ km}^2 但是x2x2x^2会更小,因为 x2=(2/5)2=0.16x2=(2/5)2=0.16x^2= (2/5)^2= 0.16。

1
为什么在检验正态性时残差的相关性不重要?
当(即,来自线性回归模型)时, ,在这种情况下为残差是相关的而不是独立的。但是,当我们进行回归诊断并想测试假设 ,每本教科书都建议对残差使用Q–Q图和统计检验旨在测试某些。ÿ= A X+ εY=AX+εY = AX + \varepsilonÿYYε 〜Ñ(0,σ2I)⇒e^=(I−H)Y∼N(0,(I−H)σ2)ε∼N(0,σ2I)⇒e^=(I−H)Y∼N(0,(I−H)σ2)\varepsilon \sim \mathcal{N}(0, \sigma^2 I) \hspace{1em} \Rightarrow \hspace{1em} \hat{e} = (I - H) Y \sim \mathcal{N}(0, (I - H) \sigma^2_{})e^1,…,e^ne^1,…,e^n\hat{e}_1, \ldots, \hat{e}_nε∼N(0,σ2I)ε∼N(0,σ2I)\varepsilon \sim \mathcal{N}(0, \sigma^2 I)e^e^\hat{e}e^∼N(0,σ2I)e^∼N(0,σ2I)\hat{e} \sim \mathcal{N}(0, \sigma^2 I)σ2∈ [Rσ2∈R\sigma^2 \in \mathbb{R} 对于这些测试,残差是相关的而不是独立的无关紧要?通常建议使用标准化残差: 但这仅使它们同余,而不是独立的。e^′一世=Ë^一世1个−H我我−-----√,e^i′=e^i1−hii,\hat{e}_i' = \frac{\hat{e}_i}{\sqrt{1 - h_{ii}}}, 重新表述这个问题: …

1
拟合时变系数DLM
我想使DLM具有随时间变化的系数,即通常线性回归的扩展, yt=θ1+θ2x2yt=θ1+θ2x2y_t = \theta_1 + \theta_2x_2。 我有一个预测变量()和一个响应变量(y_t),分别是1950年至2011年的海洋和内陆年度鱼获量。我希望遵循DLM回归模型,x2x2x_2ytyty_t yt=θt,1+θt,2xtyt=θt,1+θt,2xty_t = \theta_{t,1} + \theta_{t,2}x_t 系统演化方程在哪里 θt=Gtθt−1θt=Gtθt−1\theta_t = G_t \theta_{t-1} 摘自Petris等人的“带R的动态线性模型”的第43页。 一些编码, fishdata <- read.csv("http://dl.dropbox.com/s/4w0utkqdhqribl4/fishdata.csv", header=T) x <- fishdata$marinefao y <- fishdata$inlandfao lmodel <- lm(y ~ x) summary(lmodel) plot(x, y) abline(lmodel) 显然,回归模型的时变系数在这里更为合适。我从第121页至第125页沿用他的示例,并将其应用于我自己的数据。这是示例中的代码 ############ PAGE 123 require(dlm) capm <- read.table("http://shazam.econ.ubc.ca/intro/P.txt", header=T) capm.ts <- ts(capm, …

2
随着时间的推移纳入更详细的解释变量
我试图了解如何最好地建模一个变量,随着时间的推移,我已经获得了越来越详细的预测变量。例如,考虑对拖欠贷款的回收率建模。假设我们有一个包含20年数据的数据集,并且在那15年中,我们仅知道贷款是否已抵押,而对于抵押的特征一无所知。但是,在过去的五年中,我们可以将抵押品划分为一系列类别,这些类别可以很好地预测回收率。 给定此设置后,我要使模型适合数据,确定度量标准,例如预测变量的统计显着性,然后使用模型进行预测。 这适合什么缺失的数据框架?是否有与以下事实相关的特殊考虑:更详细的解释变量仅在给定的时间点之后才可用,而不是分散在整个历史样本中?

3
为什么线性回归不能预测简单确定性序列的结果?
我的一位同事向我发送了这个问题,显然是在互联网上巡回演出: If $3 = 18, 4 = 32, 5 = 50, 6 = 72, 7 = 98$, Then, $10 =$ ? 答案似乎是200。 3*6 4*8 5*10 6*12 7*14 8*16 9*18 10*20=200 当我在R中进行线性回归时: data <- data.frame(a=c(3,4,5,6,7), b=c(18,32,50,72,98)) lm1 <- lm(b~a, data=data) new.data <- data.frame(a=c(10,20,30)) predict <- predict(lm1, newdata=new.data, interval='prediction') 我得到: fit lwr …
9 r  regression  lm 

1
将岭回归应用于欠定方程组?
当,对值施加球形限制最小二乘问题可以写成 对于超定系统,。\ | \ cdot \ | _2是向量的欧几里得范数。y=Xβ+ey=Xβ+ey = X\beta + eδδ\deltaββ\betamin ∥y−Xβ∥22s.t. ∥β∥22≤δ2min⁡ ‖y−Xβ‖22s.t.⁡ ‖β‖22≤δ2\begin{equation} \begin{array} &\operatorname{min}\ \| y - X\beta \|^2_2 \\ \operatorname{s.t.}\ \ \|\beta\|^2_2 \le \delta^2 \end{array} \end{equation}∥⋅∥2‖⋅‖2\|\cdot\|_2 \ beta的对应解ββ\beta由 β^=(XTX+λI)−1XTy ,β^=(XTX+λI)−1XTy ,\begin{equation} \hat{\beta} = \left(X^TX + \lambda I\right)^{-1}X^T y \ , \end{equation} 可以从拉格朗日乘数的方法得出(λλ\lambda是乘数): L(β,λ)=∥y−Xβ∥22+λ(∥β∥22−δ2)L(β,λ)=‖y−Xβ‖22+λ(‖β‖22−δ2)\begin{equation} \mathcal{L}(\beta,\lambda) = …

1
差异数据设置
使用差异回归模型中的差异哪种设置正确 ÿ我小号Ť= α +γs* T+ λdŤ+ δ∗ (T∗dŤ)+ϵ我小号Ťÿ一世sŤ=α+γs∗Ť+λdŤ+δ∗(Ť∗dŤ)+ϵ一世sŤY_{ist} = \alpha +\gamma_s*T + \lambda d_t + \delta*(T*d_t)+ \epsilon_{ist} 如果观察到的是治疗组,则T是一个等于1的假人,而d是在发生治疗后的时间段中等于1的假人。 1)每个组和时间的随机样本(即4个随机样本) 要么 2)在两个时间段内跟踪相同单位的面板数据? 有关系吗?如果没有,在任何情况下都可以使用OLS吗?

1
R:方差分析和线性回归
我是统计学的新手,我试图了解ANOVA和线性回归之间的区别。我正在使用R进行探索。我阅读了许多有关为何方差分析和回归分析为何不同但仍然相同以及如何可视化等方面的文章。我认为我的确很不错,但仍然缺少一点。 我了解到,方差分析将组内的方差与组间的方差进行比较,以确定任何测试组之间是否存在差异。(https://controls.engin.umich.edu/wiki/index.php/Factor_analysis_and_ANOVA) 对于线性回归,我在该论坛上找到了一篇帖子,其中说到当我们测试b(斜率)= 0时,也可以进行测试。) 对于两个以上的小组,我发现一个网站指出: 零假设是:H0:µ1=µ2=µ3H0:µ1=µ2=µ3\text{H}_0: µ_1 = µ_2 = µ_3 线性回归模型为:y=b0+b1X1+b2X2+ey=b0+b1X1+b2X2+Ëy = b_0 + b_1X_1 + b_2X_2 + e 但是,线性回归的输出是一组的截距,其他两组的截距之差。(http://www.real-statistics.com/multiple-regression/anova-using-regression/) 对我来说,这看起来像是实际上比较了截距,而不是斜率? 在这里可以找到截距而不是斜率的另一个示例:(http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/) 我现在正在努力了解线性回归中实际比较的是什么?斜坡,拦截或两者兼而有之?
9 r  regression  anova 

3
逻辑回归:最大化正阳性-误阳性
我有一个逻辑回归模型(通过弹性网络正则化通过R中的glmnet拟合),并且我想最大化真实肯定和错误肯定之间的差异。为此,请注意以下步骤: 拟合标准逻辑回归模型 使用预测阈值为0.5,确定所有积极预测 为肯定预测的观测值分配权重1,为所有其他权重分配权重0 拟合加权逻辑回归模型 这种方法有什么缺点?解决此问题的正确方法是什么? 希望最大程度地提高正负数之间的差异的原因是由于我的应用程序的设计。作为课堂项目的一部分,我正在在线市场上建立一个自主参与者-如果我的模型预测它可以购买某些东西并以后以更高的价格出售,它就会出价。我想坚持逻辑回归并根据固定成本和单价增量(我在每笔交易中获得或损失相同的金额)输出二进制结果(成功,失败)。误报会伤害我,因为这意味着我买了东西,无法以更高的价格出售。但是,错误的否定并不会伤害我(仅就机会成本而言),因为这仅意味着如果我不购买,但如果我有购买,我就可以赚钱。同样, 我同意0.5的临界值是完全任意的,并且当我在预测阈值上优化了步骤1中的模型时,该模型在真/假阳性之间产生了最大差异,结果接近0.4。我认为这是由于数据的偏斜性质-负数与正数之比约为1:3。 现在,我正在执行以下步骤: 将数据拆分为训练/测试 在训练中拟合模型,在测试集中进行预测并计算真假阳性之间的差异 完全拟合模型,在测试集中进行预测并计算真假阳性之间的差异 尽管训练集是全套的子集,但在步骤3中,正确/错误肯定之间的差异小于在步骤2中。由于我不在乎#3中的模型是否具有更多的真实负数和更少的虚假负数,因此我可以做些什么而无需更改似然函数本身?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.