Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
序数逻辑回归的解释
我在R中运行此序数逻辑回归: mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars) 我得到了该模型的摘要: summary(mtcars_ordinal) Re-fitting to get Hessian Call: polr(formula = as.factor(carb) ~ mpg, data = mtcars) Coefficients: Value Std. Error t value mpg -0.2335 0.06855 -3.406 Intercepts: Value Std. Error t value 1|2 -6.4706 1.6443 -3.9352 2|3 -4.4158 1.3634 -3.2388 3|4 -3.8508 1.3087 -2.9425 …


1
R中的函数“效果”有什么作用?
我不理解effects()R的帮助文件中的解释: 对于用lm或拟合的线性模型aov,其影响是通过在拟合过程中将数据投影到QR分解生成的连续正交子空间上而获得的不相关的单自由度值。 谁能解释这是什么意思? 一维子空间所涉及的正交子空间是否被QR分解的Q部分的列所覆盖(因此彼此正交)?还是应该与其他东西正交?
17 r  regression 

2
回归中的定性变量编码导致“奇异”
我有一个称为“质量”的自变量;此变量具有3种响应方式(质量差;质量中等;质量高)。我想将此自变量引入我的多元线性回归中。当我有一个二进制自变量(虚拟变量,我可以编写代码0/ 1)时,很容易将其引入多元线性回归模型。 但是,通过3种响应方式,我尝试像下面这样编写此变量: Bad quality Medium quality High quality 0 1 0 1 0 0 0 0 1 0 1 0 但是当我尝试进行多元线性回归时存在一个问题:模态Medium quality给我NA: Coefficients: (1 not defined because of singularities) 如何使用3种方式对变量“质量”进行编码?我是否必须创建一个变量作为因子(factorin R),但是可以在多元线性回归中引入该因子吗?

2
如何计算估计的OLS的方差
我知道 β0^=y¯−β1^x¯β0^=y¯−β1^x¯\hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x} ,这是我得到多远,当我计算方差: Var(β0^)=Var(y¯−β1^x¯)=Var((−x¯)β1^+y¯)=Var((−x¯)β1^)+Var(y¯)=(−x¯)2Var(β1^)+0=(x¯)2Var(β1^)+0=σ2(x¯)2∑i=1n(xi−x¯)2Var(β0^)=Var(y¯−β1^x¯)=Var((−x¯)β1^+y¯)=Var((−x¯)β1^)+Var(y¯)=(−x¯)2Var(β1^)+0=(x¯)2Var(β1^)+0=σ2(x¯)2∑i=1n(xi−x¯)2\begin{align*} Var(\hat{\beta_0}) &= Var(\bar{y} - \hat{\beta_1}\bar{x}) \\ &= Var((-\bar{x})\hat{\beta_1}+\bar{y}) \\ &= Var((-\bar{x})\hat{\beta_1})+Var(\bar{y}) \\ &= (-\bar{x})^2 Var(\hat{\beta_1}) + 0 \\ &= (\bar{x})^2 Var(\hat{\beta_1}) + 0 \\ &= \frac{\sigma^2 (\bar{x})^2}{\displaystyle\sum\limits_{i=1}^n (x_i - \bar{x})^2} \end{align*} 但这距离我还很远。我想要计算的最终公式是 Var(β0^)=σ2n−1∑i=1nx2i∑i=1n(xi−x¯)2Var(β0^)=σ2n−1∑i=1nxi2∑i=1n(xi−x¯)2\begin{align*} Var(\hat{\beta_0}) &= \frac{\sigma^2 n^{-1}\displaystyle\sum\limits_{i=1}^n x_i^2}{\displaystyle\sum\limits_{i=1}^n (x_i - \bar{x})^2} \end{align*} 我不确定如何获得假设我的数学到那里是正确的) 。(x¯)2=1n∑i=1nx2i(x¯)2=1n∑i=1nxi2(\bar{x})^2 = \frac{1}{n}\displaystyle\sum\limits_{i=1}^n …


2
如何用一阶差分变量解释回归?
我有两个时间序列: 代表市场风险溢价(ERP;红线) 由政府债券代理的无风险利率(蓝线) 我想测试无风险利率能否解释ERP。在此,我基本上遵循了Tsay(2010,第3版,第96页)的建议:Financial Time Series: 拟合线性回归模型并检查残差的序列相关性。 如果残差序列是单位根非平稳性,则将因变量和解释变量的第一个差值作为第一个差。 第一步,我得到以下结果: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.77019 0.25103 26.97 <2e-16 *** Risk_Free_Rate -0.65320 0.04123 -15.84 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 如该图所示,该关系是负的并且是重要的。但是,残差是序列相关的: 因此,我首先要区分因变量和解释变量。这是我得到的: Coefficients: Estimate Std. Error t …

4
移动平均模型误差项
这是Box-Jenkins MA模型的基本问题。据我了解,MA模型基本上是时间序列值对先前误差项的线性回归。也就是说,观测值首先针对其先前值回归,然后将一个或多个值用作MA的误差项模型。YYYet,...,et−net,...,et−ne_t,..., e_{t-n}YYYYt−1,...,Yt−nYt−1,...,Yt−nY_{t-1}, ..., Y_{t-n}Y−Y^Y−Y^Y - \hat{Y} 但是,如何在ARIMA(0,0,2)模型中计算误差项?如果使用MA模型时没有自回归部分,因此没有估计值,那么我怎么可能有一个误差项?

4
在线性回归中确认残差的分布
假设我们进行了简单的线性回归y=β0+β1x+uy=β0+β1x+uy=\beta_0+\beta_1x+u,保存残差ui^ui^\hat{u_i}和绘制残差分布的直方图。如果我们得到的东西看起来像是熟悉的分布,是否可以假定我们的误差项具有该分布?说,如果我们发现残差类似于正态分布,那么假设总体中误差项的正态性是否有意义?我认为这是明智的,但是如何证明其合理性呢?

3
R中随时间变化的系数-怎么做?
更新:很抱歉要进行其他更新,但是我发现了一些需要解决的小数多项式和竞争性风险组合的解决方案。 问题 我在R中找不到一种简单的方法来进行时变系数分析。我希望能够将变量系数转换为时变系数(而不是变量),然后绘制随时间变化的图: β米ÿ_ v a r a a b l e= β0+ β1个* t + β2* Ť2。。。β米ÿ_v一种[R一世一种b升Ë=β0+β1个∗Ť+β2∗Ť2。。。\beta_{my\_variable}=\beta_0+\beta_1*t+\beta_2*t^2... 可能的解决方案 1)分割数据集 我看了这个示例(实验课程的第2部分),但是创建一个单独的数据集似乎很复杂,计算量大,而且不是很直观... 2)降级模型-coxvc软件包 该coxvc包提供了处理问题的一种优雅的方式-这里有一个手动。问题在于作者不再开发该软件包(最新版本是自2007年5月23日以来),经过一些电子邮件对话,我已经使该软件包起作用,但是我的数据集运行了5个小时(140 000项),并在此期间结束时给出极端估算。您可以在这里找到稍微更新的软件包 -我基本上只是更新了plot函数。 这可能只是一个调整问题,但是由于该软件无法轻松提供置信区间,并且该过程非常耗时,因此我现在正在寻找其他解决方案。 3)timereg包 令人印象深刻的timereg软件包也解决了这个问题,但是我不确定如何使用它,也无法给我一个顺利的过程。 4)分数多项式时间(FPT)模型 我发现Anika Buchholz在“评估随时间变化的疗法和预后因素的长期效果 ”方面的出色论文,在涵盖不同模型方面做得很好。她的结论是,Sauerbrei等人提出的FPT似乎最适合于时间相关系数: FPT非常擅长检测时变效应,而“降低秩次”方法会导致模型过于复杂,因为它不包括时变效应的选择。 研究似乎很完整,但对我来说却有点遥不可及。自从她碰巧与Sauerbrei合作以来,我还有些纳闷。听起来似乎不错,但我想可以使用mfp软件包进行分析,但是我不确定如何做。 5)cmprsk软件包 我一直在考虑进行竞争性风险分析,但是计算非常耗时,因此我改用常规的Cox回归。该CRR有thoug时间依赖性协变量的选项: .... cov2 matrix of covariates that will be multiplied by functions of time; if …





3
使用套索进行变量选择后的推论
我正在使用Lasso在相对较低的尺寸设置(n >> p)中进行特征选择。拟合套索模型后,我想使用具有非零系数的协变量来拟合无惩罚的模型。我这样做是因为我想要无偏差的估计,而套索不能给我。我还希望无偏估计的p值和置信区间。 我很难找到有关该主题的文献。我发现的大多数文献都是关于将置信区间放在套索估计上,而不是重新拟合的模型。 根据我的阅读,仅使用整个数据集来重新拟合模型会导致不切实际的p值/ std错误。目前,样本分割(按照Wasserman和Roeder(2014年)或Meinshausen等人(2009年)的样式)似乎是一个不错的选择,但我正在寻找更多建议。 有没有人遇到这个问题?如果是这样,请您提供一些建议。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.