Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

2
使用KKT 显示范数正则回归与范数约束回归之间的等价关系
根据参考文献1册,第二册和纸。 已经提到,正规化回归(Ridge,LASSO和Elastic Net)与其约束公式之间存在等价关系。 我还查看了交叉验证1和交叉验证2,但是我看不到明确的答案表明等价或逻辑。 我的问题是 如何使用Karush–Kuhn–Tucker(KKT)证明这种等效性? 以下公式适用于Ridge回归。 注意 这个问题不是功课。只是增加了我对该主题的理解。 更新 我还不知道

3
如果数据不是线性的,则线性回归会有意义吗?
我执行了线性回归,得出了显着结果,但是当我检查散点图的线性时,我不确定数据是否线性。 还有其他方法可以在不检查散点图的情况下测试线性度吗? 如果不是线性回归,线性回归会有意义吗? [编辑以包括散点图]
11 regression 

2
了解多项式回归(MLR)的置信区间的形状
我很难掌握多项式回归的置信区间的形状。 这是一个人工示例,。左图显示了UPV(无标度预测方差),右图显示了置信区间和(人工)在X = 1.5,X = 2和X = 3处的测量点。Y^=a+b⋅X+c⋅X2Y^=a+b⋅X+c⋅X2\hat{Y}=a+b\cdot X+c\cdot X^2 基础数据的详细信息: 数据集由三个数据点(1.5; 1),(2; 2.5)和(3; 2.5)组成。 每个点被“测量”了10次,每个测量值属于。对30个结果点进行了具有多项式模型的MLR。y±0.5y±0.5y \pm 0.5 的置信区间计算与式 和 (两个公式均取自Myers,Montgomery,Anderson-Cook的“ Response Surface Methodology”第四版,第407和34页)UPV=Var[y^(x0)]σ^2=x′0(X′X)−1x0UPV=Var[y^(x0)]σ^2=x0′(X′X)−1x0 UPV=\frac{Var[\hat{y}(x_0)]}{\hat{\sigma}^2}=x_0'(X'X)^{-1}x_0 y^(x0)−tα/2,df(error)σ^2⋅x′0(X′X)−1x0−−−−−−−−−−−−−−√y^(x0)−tα/2,df(error)σ^2⋅x0′(X′X)−1x0 \hat{y}(x_0) - t_{\alpha /2, df(error)}\sqrt{\hat{\sigma}^2\cdot x_0'(X'X)^{-1}x_0} ≤μy|x0≤y^(x0)+tα/2,df(error)σ^2⋅x′0(X′X)−1x0−−−−−−−−−−−−−−√.≤μy|x0≤y^(x0)+tα/2,df(error)σ^2⋅x0′(X′X)−1x0. \leq \mu_{y|x_0} \leq \hat{y}(x_0) + t_{\alpha /2, df(error)}\sqrt{\hat{\sigma}^2\cdot x_0'(X'X)^{-1}x_0} . tα/2,df(error)=2tα/2,df(error)=2t_{\alpha /2, df(error)}=2和。σ^2=MSE=SSE/(n−p)∼0.075σ^2=MSE=SSE/(n−p)∼0.075 \hat{\sigma}^2=MSE=SSE/(n-p)\sim0.075 我对置信区间的绝对值不是特别感兴趣,而是对仅取决于的UPV形状感兴趣。x′0(X′X)−1x0x0′(X′X)−1x0x_0'(X'X)^{-1}x_0 图1: 设计空间之外的非常高的预测方差是正常的,因为我们在推断 …

1
是否应使用自由度校正来推断GLM参数?
这个问题是受到马丁(Martijn)在这里的回答的启发。 假设我们为一个像二项式或泊松模型这样的单参数系列拟合了GLM,并且它是一个完全似然过程(相对于拟泊松模型)。然后,方差是平均值的函数。对于二项式:和Poisson。var [ X] = E[ X] E[ 1 - X]变种[X]=Ë[X]Ë[1个-X]\text{var}[X] = E[X]E[1-X]var [ X] = E[ X]变种[X]=Ë[X]\text{var}[X] = E[X] 与线性回归时残差呈正态分布的情况不同,这些系数的有限精确采样分布是未知的,它可能是结果和协变量的复杂组合。此外,使用GLM的均值估算值,可以用作结果方差的插件估算值。 但是,像线性回归一样,系数具有渐近正态分布,因此在有限样本推论中,我们可以用正态曲线近似其采样分布。 我的问题是:通过对有限样本中系数的样本分布使用T分布近似值,我们可以获得任何收益吗?一方面,我们知道方差,但我们不知道确切的分布,所以当引导程序或折刀估计器可以适当地解决这些差异时,T近似似乎是错误的选择。另一方面,在实践中,也许只偏爱保守的T分布。

1
多元线性回归与几个单变量回归模型
在单变量回归设置中,我们尝试建模 y=Xβ+noisey=Xβ+noisey = X\beta +noise 其中的向量Ñ观察和X ∈ [R Ñ × 中号与设计矩阵米预测因子。该解决方案是β 0 = (X Ť X )- 1 X ý。y∈Rny∈Rny \in \mathbb{R}^nnnnX∈Rn×mX∈Rn×mX \in \mathbb{R}^{n \times m}mmmβ0=(XTX)−1Xyβ0=(XTX)−1Xy\beta_0 = (X^TX)^{-1}Xy 在多元回归设置中,我们尝试建模 Y=Xβ+noiseY=Xβ+noiseY = X\beta +noise 其中是矩阵Ñ观察和p不同潜在变量。该解决方案是β 0 = (X Ť X )- 1 X ý。y∈Rn×py∈Rn×py \in \mathbb{R}^{n \times p}nnnpppβ0=(XTX)−1XYβ0=(XTX)−1XY\beta_0 = (X^TX)^{-1}XY 我的问题是,与执行不同的单变量线性回归有何不同?我在这里读到,在后一种情况下,我们考虑了因变量之间的相关性,但我从数学上看不到它。ppp

2
为什么这些回归方差分析表相同?
我有两个相同Y的回归和三个级别的X。总体n = 15,X的每个组或级别中的n = 5。第一个回归将X视为分类,将指标变量分配给级别2和3一个作为参考。指示器/虚拟对象如下:如果级别= 2,则X1 = 1;否则,则为0;如果级别= 3,则X2 = 1;否则,则为0。 结果,我的拟合模型看起来像这样:y = b0 + b1(x1)+ b2(x2) 我运行回归,并且输出包括此方差分析表: 其余输出与此处无关。 好吧,现在我对相同的数据进行不同的回归。我放弃分类分析并将X视为连续的,但是我向方程式中添加了一个变量:X ^ 2,即X的平方。因此,现在我具有以下模型:y = b0 + b1(X)+ b2(X) ^ 2 如果我运行它,它将吐出与我上面显示的完全相同的方差分析表。为什么这两个回归会产生相同的表? [这个小难题的贷方是加利福尼亚大学洛杉矶分校生物统计学系的托马斯·贝林。
11 regression  anova 

4
人工神经网络是否等效于具有多项式特征的线性回归?
与其他机器学习算法相比,我想提高对神经网络及其好处的理解。我的理解如下,我的问题是: 你能纠正和补充我的理解吗?:) 我的理解: (1)人工神经网络=根据输入值预测输出值的函数。根据通用近似定理(https://en.wikipedia.org/wiki/Universal_approximation_theorem),只要有足够的神经元,通常就可以具有任何可能的预测功能(尽管它应该表现良好)。 (2)通过将输入值的多项式作为附加输入值,对于线性回归也是如此,因为您可以通过多项式很好地近似(比较泰勒展开)。 (3)这意味着,从某种意义上说,就最佳可能结果而言,这两种方法是等效的。 (4)因此,它们的主要区别在于哪种方法适合于更好的计算实现。换句话说,根据训练示例,您可以使用哪种方法为最终定义预测函数的参数找到更快的良好值。 我欢迎对其他链接或书籍的任何想法,评论和建议,以改善我的想法。

2
将数据分为测试和训练集纯粹是一种“统计”事情吗?
我是一名学习机器学习/数据科学的物理专业学生,所以我并不是要这个问题引起任何冲突:)但是,任何物理本科课程的很大一部分都是做实验室/实验,这意味着很多数据处理和统计分析。但是,我注意到物理学家处理数据的方式与我的数据科学/统计学习书籍处理数据的方式之间存在巨大差异。 关键区别在于,当尝试对从物理实验获得的数据进行回归时,将回归算法应用于WHOLE数据集,因此绝对不会拆分为训练集和测试集。在物理学世界中,基于整个数据集为模型计算R ^ 2或某种类型的伪R ^ 2。在统计世界中,几乎总是将数据分为80-20、70-30等...,然后根据测试数据集对模型进行评估。 还有一些重大的物理实验(ATLAS,BICEP2等)从未进行过数据拆分,所以我想知道为什么物理学家/实验学家进行统计的方式与数据科学家的方式之间存在如此严格的差异做统计。

1
当岭和套索分别表现良好但产生不同系数时如何解释结果
我正在使用Lasso和Ridge来运行回归模型(以预测介于0-5之间的离散结果变量)。在运行模型之前,我使用的SelectKBest方法scikit-learn将功能集从250减少到25。如果没有初始特征选择,套索和里奇均会降低准确性得分(这可能是由于样本量小600)所致。另外,请注意,某些功能是相关的。 运行模型后,我观察到Lasso和Ridge的预测精度几乎相同。但是,当我按系数的绝对值对它们进行排序后检查前10个特征时,我发现最多有%50重叠。 也就是说,鉴于每种方法分配的特征的重要性不同,基于所选模型,我可能会有完全不同的解释。 通常,这些功能代表网站中用户行为的某些方面。因此,我想通过突出具有较强预测能力而不是较弱特征(用户行为)的特征(用户行为)来解释发现。但是,我目前不知道如何前进。我应该如何解释模型?例如,应该结合两者并突出显示重叠部分,还是我应该选择Lasso,因为它提供了更多的可解释性?

2
如果您不能正交处理,请原始处理(多项式回归)
当执行多项式回归在,人们有时会使用原始多项式,有时正交多项式。但是当他们使用似乎完全武断的东西时。XYYYXXX 在这里和这里使用原始多项式。但是在这里和这里,正交多项式似乎给出了正确的结果。什么,怎么,为什么?! 与此相反,当从教科书(例如ISLR)中学习多项式回归时,甚至没有提到原始多项式或正交多项式-只是给出了要拟合的模型。 那么我们什么时候必须使用什么呢? 为什么,等的各个 p值在这两个值之间相差很多?X 2XXXX2X2X^2

2
如果以巧妙的方式应用收缩率,对于效率更高的估算器来说,收缩率是否始终会更好?
假设我有两个估算器和是相同参数一致估算器,并且 ,在psd的意义上为。因此,渐近比更有效。这两个估计器基于不同的损失函数。 β 2β0√βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2) β 1 β 2V1≤V2V1≤V2V_1 \leq V_2βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2 现在,我想寻找一些收缩技术来改善估计量的有限样本属性。 假设我发现了一种收缩技术,可以改善有限样本中的估算器,并为我提供等于的MSE值。这是否意味着我可以找到一种适用于收缩方法 ,使我的MSE 不大于? γ 2 β 1βˆ2β^2\widehat{\beta}_2γˆ2γ^2\widehat{\gamma}_2βˆ1β^1\widehat{\beta}_1 γˆ2γ^2\widehat{\gamma}_2 换句话说,如果巧妙地应用了收缩率,那么对于更高效的估算器来说,收缩率是否总是更好地工作?

3
偏态数据回归
尝试根据人口统计和服务计算访问次数。数据非常歪斜。 直方图: qq图(左边是对数): m <- lm(d$Visits~d$Age+d$Gender+city+service) m <- lm(log(d$Visits)~d$Age+d$Gender+city+service) city和service是因子变量。 对于所有变量,我都得到一个较低的p值***,但是我也得到了.05的一个较低的r平方。我该怎么办?另一个模型可以工作吗,例如指数模型或其他模型?

1
与SVM相比,支持向量回归有何不同?
我了解有关SVM和SVR的基础知识,但我仍然不知道如何找到一种将余量最大化的超平面的问题适合SVR。 其次,我读了一些关于信息,该用作SVR的容限。这是什么意思?ϵϵ\epsilon 第三,在SVM和SVR中使用的决策函数参数之间是否有区别?

2
决策树和回归-预测值是否超出训练数据范围?
对于决策树,预测值是否可以超出训练数据的范围? 例如,如果目标变量的训练数据集范围是0-100,那么当我生成模型并将其应用于其他对象时,我的值可以为-5吗?还是150? 鉴于我对决策树回归的理解是,它仍然是基于规则的-左/右进展,并且在训练集中的树的底部,它永远不会看到超出特定范围的值,因此它将永远无法预测吗?


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.