Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

3
最大可能性或边际可能性哪一个更好,为什么?
在执行回归时,如果我们遵循以下定义:部分可能性,轮廓可能性和边际可能性之间的区别是什么? 即,最大似然 找到使L(β,θ| data)最大化的β和θ。 同时,边际似然 我们利用可以识别以β为条件的θ的概率分布这一事实,将θ从似然方程中积分出来。 哪种方法可以最大化最大化?为什么?

5
如何降低时间序列的趋势?
如何降低时间序列的趋势?可以先采取区别对待并进行Dickey Fuller测试,如果它静止不动,那么我们还好吗? 我还在网上发现,可以通过在Stata中进行以下操作来消除时间序列的趋势: reg lncredit time predict u_lncredit, residuals twoway line u_lncredit time dfuller u_lncredit, drift regress lags(0) 降低时间序列的最佳方法是什么?

1
R:检验线性模型残差的正态性-使用哪些残差
我想对线性模型的残差进行Shapiro Wilk的W检验和Kolmogorov-Smirnov检验,以检查正态性。我只是想知道应该使用什么残差-原始残差,Pearson残差,学生化残差或标准化残差?对于Shapiro-Wilk的W检验,原始和Pearson残差的结果似乎相同,而其他残差的结果则不同。 fit=lm(mpg ~ 1 + hp + wt, data=mtcars) res1=residuals(fit,type="response") res2=residuals(fit,type="pearson") res3=rstudent(fit) res4=rstandard(fit) shapiro.test(res1) # W = 0.9279, p-value = 0.03427 shapiro.test(res2) # W = 0.9279, p-value = 0.03427 shapiro.test(res3) # W = 0.9058, p-value = 0.008722 shapiro.test(res4) # W = 0.9205, p-value = 0.02143 关于KS的同样问题,以及是否应按照以下方法针对正态分布(范数)测试残差 ks.test(res1, "pnorm") # …

1
为什么R的lm()返回的系数估算值与我的教科书不同?
背景 我正在尝试了解拟合模型课程中的第一个示例(因此,这似乎很简单)。我已经手工完成了计算,并且它们与示例匹配,但是当我在R中重复计算时,模型系数不可用。我认为差异可能是由于总体方差使用教科书(),而R可以是使用样本方差(小号2),但我不能看到这些在计算中使用。例如,如果在 某处使用,请注意以下帮助部分:σ2σ2\sigma^2小号2S2S^2lm()var()var() 分母n-1用于给出iid观测的(协)方差的无偏估计。 我已经看过了两者的代码lm(),lm.fit()并且都没有使用var(),但是lm.fit()将数据传递给了z <- .Call(C_Cdqrls, x, y, tol, FALSE)我无法访问的已编译C代码()。 题 谁能解释R为什么给出不同的结果?即使样本方差与总体方差的使用有所不同,为什么系数估计也不同? 数据 设置一条线以根据学校年级预测鞋子的大小。 # model data mod.dat <- read.table( text = 'grade shoe 1 1 2 5 4 9' , header = T); # mean mod.mu <- mean(mod.dat$shoe); # variability mod.var <- sum((mod.dat$shoe - mod.mu)^2) # model coefficients …
13 r  regression  self-study  lm 

2
在拟合回归时是否有理由不使用正交多项式?
总的来说,我想知道在对具有高阶变量的回归进行拟合时是否最好不要使用正交多项式。特别是,我想知道使用R: 如果poly()与raw = FALSE产生相同的拟合值作为poly()与raw = TRUE和poly与raw = FALSE解决了与多项式回归相关的问题,那么应该poly()用raw = FALSE 始终被用于拟合多项式回归?在什么情况下最好不要使用poly()?

2
偏最小二乘(PLS)回归的模型假设
我正在尝试查找有关PLS回归假设的信息(单)。我对将PLS的假设与OLS回归的假设进行比较特别感兴趣。 ÿyy 我已经阅读/浏览了有关PLS主题的大量文献;Wold(Svante and Herman),Abdi和许多其他人的论文,但找不到令人满意的来源。 沃尔德等。(2001)PLS回归:化学计量学的基本工具确实提到了PLS的假设,但是只提到了 X不必独立, 该系统是一些潜在变量的函数, 该系统在整个分析过程中应表现出同质性,并且 测量误差是可以接受的。 XXX 没有提及观察到的数据或模型残差的任何要求。有谁知道解决这个问题的资源吗?考虑基础数学类似于PCA(以最大化ÿyy和X之间的协方差为目标XXX)是(y,X)(y,X)(y, X)的多元正态性吗?模型残差是否需要表现出方差均匀性? 我也相信我在某处读到,观察不必是独立的。就重复测量研究而言,这意味着什么?


1
为什么截距的标准
截距项的标准误差(β 0)在Ŷ = β 1 X + β 0 + ε由下式给出小号È (β 0 )2 = σ 2 [ 1β^0β^0\hat{\beta}_0y=β1x+β0+εy=β1x+β0+εy=\beta_1x+\beta_0+\varepsilon 其中ˉX是平均的X我的。SE(β^0)2=σ2[1n+x¯2∑ni=1(xi−x¯)2]SE(β^0)2=σ2[1n+x¯2∑i=1n(xi−x¯)2]SE(\hat{\beta}_0)^2 = \sigma^2\left[\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right]x¯x¯\bar{x}xixix_i 据我了解,在SE量化你的uncertainty-例如,在样本的95%,区间将包含真实β 0。我不明白的SE,不确定性的度量,如何与增加ˉ X。如果我只是转移我的数据,使ˉ X = 0,我的不确定性下降?那似乎是不合理的。[β^0−2SE,β^0+2SE][β^0−2SE,β^0+2SE][\hat{\beta}_0-2SE,\hat{\beta}_0+2SE]β0β0\beta_0x¯x¯\bar{x}x¯=0x¯=0\bar{x}=0 类似的解释是-在我的数据的非中心版本对应于我的预测在X = 0,而在中心的数据,β 0对应于我的预测在X = ˉ X。那么,这是否意味着,然后我讲我在预测的不确定性X = 0比我对我的预测在不确定性较大的X = ˉ X?这似乎也是不合理的,对于所有x值,误差ϵ具有相同的方差β^0β^0\hat{\beta}_0x=0x=0x=0β^0β^0\hat{\beta}_0x=x¯x=x¯x=\bar{x}x=0x=0x=0x=x¯x=x¯x=\bar{x}ϵϵ\epsilonxxx,所以我对所有预测值的不确定性都应该相同。xxx 我敢肯定,我的理解存在差距。有人可以帮助我了解发生了什么吗?

1
广义线性模型的几何解释
对于线性模型,我们可以有估计的模型的经由OLS一个很好的几何解释:Ý = X β + ë。ÿ是y的到空间跨越由x和残余投影ë是垂直于该空间跨越×。ÿ= X β+ eÿ=Xβ+Ëy=x\beta+eÿ^= X β^+ e^ÿ^=Xβ^+Ë^\hat{y}=x\hat{\beta}+\hat{e}ÿ^ÿ^\hat{y}Ë^Ë^\hat{e} 现在,我的问题是:广义线性模型是否有任何几何解释(逻辑回归,泊松,生存)?我如何解释估计的二值逻辑回归模型很好奇p = 物流(X β)几何,以类似的方式为线性模型。它甚至没有错误项。 p^=物流(X β^)p^=后勤(Xβ^)\hat{p} = \textrm{logistic}(x\hat{\beta}) 我发现了一个关于广义线性模型的几何解释的话题。http://statweb.stanford.edu/~lpekelis/talks/13_obs_studies.html#(7)。不幸的是,没有可用的数字,很难想象。 任何帮助,参考和建议将不胜感激!!!



2
线性与非线性回归
我有一组值和,它们在理论上呈指数相关:Xxxÿyy ÿ= 一个Xby=axby = ax^b 一种获取系数的方法是在两侧应用自然对数并拟合线性模型: > fit <- lm(log(y)~log(x)) > a <- exp(fit$coefficients[1]) > b <- fit$coefficients[2] 获得此结果的另一种方法是使用非线性回归,给定一组理论上的起始值: > fit <- nls(y~a*x^b, start=c(a=50, b=1.3)) 如果应用第二种算法,我的测试将显示出更好且与理论相关的结果。但是,我想知道每种方法的统计意义和含义。 他们哪个更好?

1
当使用单独的建模/验证集构建回归模型时,“重新分发”验证数据是否合适?
假设我在建模/验证观察之间划分为80/20。我已经将模型拟合到建模数据集,并且对在验证数据集上看到的错误感到满意。在推出模型以对未来观察进行评分之前,是否将验证与建模数据结合起来以获取100%数据的更新参数估计值是否合适?我听说过两种观点: 我执行的验证是对模型结构的验证,即我已应用的一组预测变量和转换。当我可以使用它来更新估算值时,将20%的数据留在表上是没有意义的。 我执行的验证部分是对我在建模数据集上计算出的参数估计值的验证。如果我更新模型拟合度,那么我已经更改了估计值,并且不再具有测试更新模型性能的客观方法。 我一直遵循#1的论点,但最近我听到几个人争论#2。我想看看其他人对此有何看法。您是否在文献中或其他地方看到过有关该主题的精彩讨论?

1
面板数据模型中一组内的标准化因变量?
在识别组中对因变量进行标准化是否有意义? 以下工作文件(法律亚马逊地区的森林砍伐放缓;价格或政策?,pdf)使用标准化的因变量来分析巴西总体政策变化对森林砍伐的影响。 标准化按如下方式完成: Ynewit=Yit−Yi¯¯¯¯¯sd(Yit)Yitnew=Yit−Yi¯sd(Yit) Y^{new}_{it} = \frac{Y_{it} - \overline{Y_i}}{sd(Y_{it})} 作者认为,这是为了“考虑市政当局内森林砍伐增量的相对变化”。作者特此使用面板数据的有限元估计(第12页)。新法律出台后的每一年都应包括一个后政策假人。 如果以这种方式标准化因变量,应该如何解释系数? 标准化不是非正统的吗,因为它为群体/市镇随时间变化较小的观测值提供了更高的价值?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.