Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
关联特征后,为什么Lasso或ElasticNet的性能优于Ridge
我有一组150个功能,其中许多功能彼此之间高度相关。我的目标是预测范围为1-8的离散变量的值。我的样本大小为550,我正在使用10倍交叉验证。 AFAIK,在正则化方法(套索,ElasticNet和Ridge)中,Ridge更严格地关联特征之间。这就是为什么我期望使用Ridge可以得到更准确的预测的原因。但是,我的结果表明,Lasso或Elastic的平均绝对误差在0.61左右,而岭回归的平均分误差是0.97。我不知道对此会有什么解释。这是因为我拥有许多功能,而Lasso却因为选择了某种功能而摆脱了多余的功能,因此性能更好了吗?

3
如何决定使用哪个glm家庭?
我有一些鱼密度数据,我试图在几种不同的采集技术之间进行比较,该数据有很多零,并且直方图看上去像是适合泊松分布的vaugley,除了密度以外,它不是整数数据。我对GLM相对陌生,最近几天一直在网上寻找如何确定使用哪个发行版,但是在寻找任何有助于做出此决定的资源方面完全失败了。数据的直方图示例如下所示: 我不知道如何决定要为GLM使用的合适家庭。如果有人有任何建议或可以给我资源,我应该检查一下,那就太好了。

3
负R平方是什么意思?
假设我有一些数据,然后将数据与模型拟合(非线性回归)。然后,我计算R平方()。R2[R2R^2 如果R平方为负,那是什么意思?这是否意味着我的模型不好?我知道的范围可以是[-1,1]。当为0时,这还意味着什么?R2[R2R^2R2[R2R^2

3
Logistic回归还是T检验?
一群人回答一个问题。答案可以是“是”或“否”。研究人员想知道年龄是否与答案的类型有关。 通过进行逻辑回归来评估该关联,其中年龄是解释变量,答案类型(是,否)是因变量。通过计算分别回答“是”和“否”的组的平均年龄,并通过进行T检验以比较均值来分别解决。 两种测试都是在不同的人的建议下进行的,但他们都不确定哪种方法是正确的。鉴于研究问题,哪种测试更好? 对于假设检验,p值不显着(回归)和显着(T检验)。样本少于20例。

2
使用相关矩阵选择回归的预测变量是否正确?
几天前,我的一位心理学家和研究员向我介绍了他为线性回归模型选择变量的方法。我猜这不好,但是我需要请其他人确保。方法是: 查看所有变量(包括因变量Y)之间的相关矩阵,并选择与Y最相关的那些预测变量Xs。 他没有提到任何标准。 问:他说的对吗? [我认为这种选择方法是错误的,因为有很多事情,比如说应该选择哪个预测变量,甚至是省略变量偏差(OVB)的理论。]


2
非线性回归文献综述
有谁知道关于非线性回归的统计文献的好评论文章?我主要对一致性结果和渐近性感兴趣。 特别感兴趣的是模型 yit=m(xit,θ)+ϵit,yit=m(xit,θ)+ϵit,y_{it} = m(x_{it},\theta) + \epsilon_{it}, 用于面板数据。 非参数方法的兴趣不大。 也欢迎提供期刊建议。 目前,我正在阅读《计量经济学手册》中的 Amemiya(1983),但我希望能得到更多更新的信息。 Wooldridge,JM(1996)《计量经济学杂志》中的“用不同的工具为不同的方程式估计方程系统” 是一个比上述评论晚的贡献的例子,因此不包括在内。


1
逆向岭回归:给定响应矩阵和回归系数,找到合适的预测因子
考虑一个标准的OLS回归问题:我有矩阵\ Y和\ X,我想找到\ B以最小化L = \ | \ Y- \ X \ B \ | ^ 2。 该解决方案由\ hat \ B = \ argmin_ \ B \ {L \} =(\ X ^ \ top \ X)^ + \ X ^ \ top \ Y给出。\newcommand{\Y}{\mathbf Y}\newcommand{\X}{\mathbf X}\newcommand{\B}{\boldsymbol\beta}\DeclareMathOperator*{argmin}{argmin}YY\YXX\Xββ\Bβ = argmin β { …

2
为什么脊回归不像套索那样将某些系数缩小为零?
在解释LASSO回归时,通常使用菱形和圆形图。据说因为LASSO中约束的形状是菱形,所以获得的最小二乘解可能会触及菱形的角,从而导致某些变量的收缩。但是,在山脊回归中,因为它是一个圆,所以它通常不会接触轴。我不明白为什么它不能接触轴,或者收缩某些参数的可能性比LASSO低。最重要的是,为什么LASSO和ridge的方差比普通的最小二乘法低?以上是我对ridge和LASSO的理解,可能是错误的。有人可以帮助我理解为什么这两种回归方法的方差较低吗?

1
在多元线性回归中,为什么预测点的图不位于一条直线上?
我正在使用多元线性回归来描述Y与X1,X2之间的关系。 从理论上,我理解多元回归假设Y与每个X(Y和X1,Y和X2)之间存在线性关系。我没有使用X的任何转换。 因此,我得到的模型具有R = 0.45和所有显着X(P <0.05)。然后我针对X1绘制Y。我不明白为什么作为模型预测的红色圆圈没有形成一条线。正如我之前所说,我希望每对Y和X都由一条线拟合。 该图以这种方式在python中生成: fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro'); ax.set_title('blue: true, red: OLS') ax.set_xlabel('X') ax.set_ylabel('Y') plt.show()

1
逻辑回归中的Pearson VS Deviance残差
我知道标准化的Pearson残差是以传统的概率方式获得的: ri=yi−πiπi(1−πi)−−−−−−−−√ri=yi−πiπi(1−πi) r_i = \frac{y_i-\pi_i}{\sqrt{\pi_i(1-\pi_i)}} 和偏差残差通过更统计的方式获得(每个点对可能性的贡献): di=si−2[yilogπi^+(1−yi)log(1−πi)]−−−−−−−−−−−−−−−−−−−−−−−−−−√di=si−2[yilog⁡πi^+(1−yi)log⁡(1−πi)] d_i = s_i \sqrt{-2[y_i \log \hat{\pi_i} + (1 - y_i)\log(1-\pi_i)]} 其中 = 1,如果 = 1和 = -1,如果 = 0。sisis_iyiyiy_isisis_iyiyiy_i 您能直观地向我解释如何解释偏差残差的公式吗? 此外,如果我要选择一个,那一个更合适,为什么呢? 顺便说一句,一些参考文献声称我们基于以下项得出偏差残差 −12ri2−12ri2-\frac{1}{2}{r_i}^2 其中是上面提到的。ririr_i

1
在什么条件下,岭回归能够比普通最小二乘回归有所改善?
岭回归估计参数ββ\boldsymbol \beta中的线性模型y=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \beta通过β^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y,其中λλ\lambda是正则化参数。众所周知,当有许多相关的预测变量时,它的性能通常优于OLS回归(λ=0λ=0\lambda=0)。 岭回归的存在定理说,总是存在一个参数λ∗>0λ∗>0\lambda^* > 0,使得β^λβ^λ\hat{\boldsymbol \beta}_\lambda均方误差严格小于OLS的均方误差估算β^OLS=β^0β^OLS=β^0\hat{\boldsymbol \beta}_\mathrm{OLS}=\hat{\boldsymbol \beta}_0。换句话说,\ lambda的最佳值λλ\lambda始终为非零。这显然是在1970年的Hoerl和Kennard中首先得到证实的,并且在我在网上找到的许多讲义中都重复了这一点(例如,在这里和在这里)。我的问题是关于该定理的假设: 是否有关于协方差矩阵\ mathbf X ^ \ top \ mathbf X的假设X⊤XX⊤X\mathbf X^\top \mathbf X? 是否有关于\ mathbf X的维数的假设XX\mathbf X? 尤其是,如果预测变量正交(即X⊤XX⊤X\mathbf X^\top \mathbf X是对角线),或者即使\ mathbf …

3
IV分位数回归文献
在过去的几个月里,我为阅读今年夏天的硕士论文集中阅读了分位数回归。具体来说,我已经阅读了罗杰·科恩克(Roger Koenker)2005年有关该主题的大部分书籍。现在,我想将现有知识扩展到允许工具变量(IV)的分位数回归技术。这似乎是一个活跃的研究领域,并且正在迅速发展。 也许有人可以建议我: 有关IV分位数回归的论文或其他文献 这些不同的统计技术的简要概述 不同技术的利弊 我主要是在寻找文学知识,以使我入门并全面了解现有知识。因此,第一点很重要。第二和第三将是很好!我的兴趣主要在于横截面方法,但也欢迎使用面板方法。 提前致谢。

2
在地图上显示时空相关性
我有整个美国气象站网络的数据。这给了我一个包含日期,纬度,经度和一些测量值的数据框。假设每天收集一次数据,并且受区域范围天气的驱动(不,我们将不进行讨论)。 我想以图形方式显示跨时间和空间的同时测量值如何关联。我的目标是显示正在调查的值的区域同质性(或缺乏同质性)。 资料集 首先,我带了一组在马萨诸塞州和缅因州的车站。我从NOAA的FTP站点上可用的索引文件中按纬度和经度选择了站点。 马上您就会看到一个问题:许多站点具有相似的标识符或非常接近。FWIW,我同时使用USAF和WBAN代码识别它们。深入了解元数据,我发现它们具有不同的坐标和高程,数据从一个站点停止,然后从另一个站点开始。因此,因为我不知道更好,所以必须将它们视为独立的站。这意味着数据包含彼此非常接近的站点对。 初步分析 我尝试按日历月对数据进行分组,然后计算不同对数据之间的普通最小二乘回归。然后,我将所有线对之间的相关性绘制为一条连接测站的线(下图)。线条颜色显示了来自OLS拟合的R2值。然后,该图显示了感兴趣区域中不同站点之间从一月,二月等开始的30多个数据点如何关联。 我已经编写了基础代码,以便仅在每6小时内有数据点时才计算每日平均值,因此数据在各个站点之间应该是可比较的。 问题 不幸的是,在一个绘图上根本没有太多数据可以理解。无法通过减小行的大小来解决。 ķķk 网络似乎太复杂了,所以我认为我需要找到一种降低复杂性或应用某种空间内核的方法。 我也不确定什么是最合适的指标来显示相关性,但是对于目标受众(非技术人员),OLS的相关系数可能只是最简单的解释。我可能还需要提供其他一些信息,例如梯度或标准误差。 问题 我正在学习同时进入该领域和R的方法,并希望就以下方面提出建议: 我要做什么的更正式的名字是什么?有一些有用的术语可以让我找到更多的文献吗?我的搜索正在为必不可少的应用程序绘制空白。 有没有更合适的方法来显示空间上分隔的多个数据集之间的相关性? ...尤其是易于从视觉上显示结果的方法? 这些是否在R中实现? 这些方法是否适合自动化?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.