Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
如何直观地理解SARIMAX?
我正在尝试阅读有关电力负荷预测的论文,但我在内部概念(特别是SARIMAX模型)中苦苦挣扎。该模型用于预测负载,并使用许多我不了解的统计概念(我是本科计算机科学专业的学生,​​您可以认为我是统计学的外行)。我没有必要完全了解它是如何工作的,但是我至少想直观地了解正在发生的事情。 我一直在尝试将SARIMAX分成较小的部分,并试图分别理解每个部分,然后将它们组合在一起。你们能帮我吗?到目前为止,这就是我所拥有的。 我从AR和MA开始。 AR:自回归。我已经了解了回归是什么,并且据我所知,它只是回答了这个问题:给定一组值/点,如何找到一个解释这些值的模型?因此,例如,我们有线性回归,它试图找到一条可以解释所有这些点的线。自回归是一种试图使用先前的值解释值的回归。 MA:移动平均线。我实际上在这里很迷路。我知道什么是移动平均线,但是移动平均线模型似乎与“正常”移动平均线没有任何关系。该模型的公式似乎与AR很尴尬,我似乎无法理解我在互联网上找到的任何概念。MA的目的是什么?MA和AR有什么区别? 所以现在有了ARMA。然后,我来自Integrated,据我所知,它仅是为了使ARMA模型具有增加或减少的趋势。(这是否等于说ARIMA允许它是非平稳的?) 现在是来自季节性的S,这增加了ARIMA的周期性,例如,在负载预测的情况下,该参数基本上表示每天6 PM的负载看起来非常相似。 最后,来自外生变量的X基本上允许在模型中考虑外部变量,例如天气预报。 所以我们终于有了SARIMAX!我的解释可以吗?认识到这些解释并不需要严格正确。有人可以直观地解释我的意思吗?

4
具有跳过层连接的神经网络
我对神经网络的回归感兴趣。 具有零隐藏节点+跳过层连接的神经网络是线性模型。 相同的神经网络又有隐藏的节点呢?我想知道跳过层连接的作用是什么? 直观地讲,如果您包括跳过层连接,那么最终模型将是线性模型+某些非线性部分的总和。 向神经网络添加跳过层连接有什么优点或缺点?

1
是否有结合分类和回归的算法?
我想知道是否有任何算法可以同时进行分类和回归。例如,我想让算法学习一个分类器,同时在每个标签内,它也学习一个连续的目标。因此,对于每个训练示例,它都具有分类标签和连续值。 我可以先训练一个分类器,然后再在每个标签中训练一个回归器,但是我只是在想,如果有一种算法可以同时实现这两个功能,那就太好了。

5
最高主成分如何保持对因变量的预测能力(甚至导致更好的预测)?
假设我正在回归。为什么通过选择X的前k个主成分,模型对Y保持预测能力?ÿ〜XY∼XY \sim XķkkXXXÿYY 从降维/特征选择的角度来看,如果我理解。。。v k是X的协方差矩阵的特征向量,具有最高k个特征值,则X v 1,X v 2。。。X v k是具有最大方差的前k个主成分。据我所知,我们可以将特征数量减少到k并保留大多数预测能力。v1个,v2,。。。vķv1,v2,...vkv_1, v_2, ... v_kXXXķkkXv1个,Xv2。。。XvķXv1,Xv2...XvkXv_1, Xv_2 ... Xv_kķkkķkk 但是,为什么前分量保留对Y的预测能力?ķkkÿYY 如果我们谈论的一般OLS ,没有理由认为,如果功能ž 我有最大方差,然后ž 我对大多数预测能力Ÿ。ÿ〜žY∼ZY \sim Zž一世ZiZ_iž一世ZiZ_iÿYY 看到评论后进行更新:我想我已经看到了很多使用PCA进行降维的示例。我一直认为这意味着我们剩下的维度具有最大的预测能力。否则降维的目的是什么?

2
截距和斜率的OLS估计量之间的相关性
在简单的回归模型中 y=β0+β1x+ε,y=β0+β1x+ε, y = \beta_0 + \beta_1 x + \varepsilon, OLS估计量和是相关的。ββ^OLS0β^0OLS\hat{\beta}_0^{OLS}β^OLS1β^1OLS\hat{\beta}_1^{OLS} 两个估计量之间的相关性公式为(如果我正确推导得出的话): Corr(β^OLS0,β^OLS1)=−∑ni=1xin−−√∑ni=1x2i−−−−−−−√.Corr⁡(β^0OLS,β^1OLS)=−∑i=1nxin∑i=1nxi2. \operatorname{Corr}(\hat{\beta}_0^{OLS},\hat{\beta}_1^{OLS}) = \frac{-\sum_{i=1}^{n}x_i}{\sqrt{n} \sqrt{\sum_{i=1}^{n}x_i^2} }. 问题: 关于相关性的直观解释是什么? 相关性的存在是否有任何重要含义? 编辑了该帖子,并删除了相关性随样本大小消失的断言。(感谢@whuber和@ChristophHanck。)

3
回归中岭正则化的解释
关于最小二乘背景下的岭罚,我有几个问题: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1)该表达式表明X的协方差矩阵朝对角线矩阵收缩,这意味着(假设变量在过程之前已标准化)输入变量之间的相关性将降低。这种解释正确吗? 2)如果它是收缩应用程序,为什么不使用,假设我们可以通过归一化将lambda限制在[0,1]范围内。(λID+(1−λ)X′X)(λID+(1−λ)X′X)(\lambda I_D + (1-\lambda)X'X) 3)什么是的规范化,以便可以将其限制在[0,1]之类的标准范围内。λλ\lambda 4)在对角线上添加一个常数会影响所有特征值。仅攻击奇异值或接近奇异值会更好吗?这是否等同于在回归之前将PCA应用于X并保留前N个主要成分,或者它具有不同的名称(因为它不会修改交叉协方差计算)? 5)我们可以对交叉协方差进行正则化吗,或者有什么用,意味着βridge=(λID+X′X)−1(γX′y)βridge=(λID+X′X)−1(γX′y)\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y) 较小的会降低交叉协方差。显然,这会同等地降低所有,但是也许有一种更聪明的方法,如根据协方差值进行硬/软阈值设置。βγγ\gammaββ\beta

3
如何为这种奇形分布建模(几乎是反向J型)
下面显示的我的因变量不适合我所知的任何股票分布。线性回归会以某种奇怪的方式生成与预测的Y相关的某种非正态,右偏残差(第二个图)。对转换或以其他方式获得最有效结果和最佳预测准确性的任何建议?如果可能,我希望避免将笨拙的分类分为5个值(例如0,lo%,med%,hi%,1)。


2
比较平滑样条与黄土进行平滑?
我希望更好地了解使用黄土或平滑样条曲线平滑某些曲线的利弊。 我的问题的另一个变化是,是否有一种方法可以构造出与使用黄土相同的结果的平滑样条。 欢迎任何参考或见识。

2
逻辑回归背后的直觉
最近,我开始学习机器学习,但是未能掌握逻辑回归的直觉。 以下是我了解的关于逻辑回归的事实。 作为假设的基础,我们使用S形函数。我确实理解为什么这是一个正确的选择,但是为什么它是我不理解的唯一选择。假设表示适当的输出为的概率,因此我们函数的域应该为,这是我在这里发现有用和合适的S型函数的唯一属性,但是许多函数都满足此属性。另外,S形函数具有形式的导数,但是我看不到这种特殊形式在逻辑回归中的效用。[ 0 ,1 ] ˚F (X )(1 - ˚F (X ))1个1个1[ 0 ,1 ][0,1个][0,1]F(x )(1 − f(x ))F(X)(1个-F(X))f(x)(1-f(x)) 问题:sigmoid函数有何特别之处,为什么我们不能在域使用任何其他函数?[ 0 ,1 ][0,1个][0,1] 成本函数由两个参数如果如果则。就像上面一样,我确实理解为什么它是正确的,但是为什么它是唯一的形式?例如,为什么不是成本函数的好选择?Ý = 1 ,Ç Ò 小号吨(ħ θ(X ),Ý )= - 日志(1 - H ^ θ(X ))y = 0 | ħ θ (X )Ç Ò 小号吨( ħθ(x),y)=−log(hθ(x))CØsŤ(Hθ(X),ÿ)=-日志⁡(Hθ(X)){\rm …



2
支持向量回归如何直观地工作?
SVM的所有示例均与分类有关。我不了解如何在回归中使用用于回归的SVM(支持向量回归)。 根据我的理解,SVM可以最大化两个类之间的余量,以找到最佳的超平面。这将如何解决回归问题?
25 regression  svm 

3
为什么在机器学习中电源或对数转换没有被很好地教授?
机器学习(ML)大量使用线性和逻辑回归技术。这也依赖于功能工程技术(feature transform,kernel,等)。 为什么没有任何关于variable transformation(例如power transformation)在ML提到?(例如,我从没听说过使用根或登录要素,它们通常仅使用多项式或RBF。)同样,为什么ML专家不关心因变量的要素转换?(例如,我从没听说过对y进行对数转换;他们只是不对y进行转换。) 编辑:也许不是肯定的问题,我真正的问题是“对变量的幂转换在ML中不重要吗?”

1
多重相关系数和确定系数几何解释
我对回归的多重相关性和确定系数的几何含义感兴趣或矢量记号,RRRR2R2R^2yi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} 这里的设计矩阵有行和列,其中第一个是,它是1s的向量,对应于截距。XX\mathbf{X}nnnkkkx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_nβ1β1\beta_1 在维主题空间而不是维变量空间中,几何更有趣。定义帽子矩阵:nnnkkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top 这是的列空间上的正交投影,即 由代表每个变量的向量跨越的原点的平坦部分,其中第一个是。然后将观测到的响应投影到平面上的“阴影”上,拟合值的向量,如果沿着投影的路径看,我们会看到残差向量形成了三角形的第三边。这应该为我们提供两种途径来对进行几何解释XX\mathbf{X}kkkxixi\mathbf{x}_i1n1n\mathbf{1}_nHH\mathbf{H}ý = ħ Ŷ ë = ÿ - ÿ - [R 2yy\mathbf{y}y^=Hyy^=Hy\mathbf{\hat{y}} = \mathbf{Hy}e=y−y^e=y−y^\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}R2R2R^2: 多重相关系数的平方,它定义为和之间的相关性。这将在几何上显示为角度的余弦。RRRÿyy\mathbf{y}y^y^\mathbf{\hat{y}} …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.