Questions tagged «linear»

对于涉及线性假设的统计主题,例如,线性回归或线性混合模型,或讨论应用于统计的线性代数。

3
PCA的线性
PCA被认为是线性过程,但是: PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), 其中 。这就是说,由PCA在数据矩阵上获得的特征向量的总和不等于由PCA在数据矩阵的总和上获得的特征向量。但是线性函数的定义不是:X=X1+X2+…+XnX=X1+X2+…+XnX=X_1+X_2+\ldots+X_nXiXiX_iXiXiX_ifff f(x+y)=f(x)+f(y)?f(x+y)=f(x)+f(y)?f(x+y)=f(x)+f(y)? 那么,如果PCA不满足线性这一非常基本的条件,为什么将其视为“线性”呢?
35 pca  linear 

3
决策树桩是线性模型吗?
决策树桩是只有一个拆分的决策树。也可以将其编写为分段函数。 例如,假设是一个矢量,并且X 1是第一部件X,在回归设置,某些决策残端可以是XXxX1个X1个x_1XXx F(x )= { 35X1个≤ 2X1个> 2F(X)={3X1个≤25X1个>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} 但这是线性模型吗?其中可以写成?这个问题听起来可能很奇怪,因为如答案和注释中所述,如果我们绘制分段函数,它就不是一条线。请参阅下一部分,以了解为什么我要问这个问题。F(x )= βŤXF(X)=βŤXf(x)=\beta^T x 编辑: 我问这个问题的原因是逻辑回归是一个(广义的)线性模型,决策边界是一条线,也适用于决策树桩。注意,我们还有一个问题:为什么逻辑回归是线性模型?。另一方面,决策树桩似乎不是线性模型。 我问这个问题的另一个原因是因为这个问题: 在提升时,如果基础学习者是线性模型,那么最终模型是否只是简单的线性模型? 在这里,如果我们使用线性模型作为基础学习者,那么除了线性回归之外,我们什么都不会得到。但是,如果我们选择基础学习者作为决策树桩,那么我们将获得非常有趣的模型。 这是一个具有2个特征和1个连续响应的回归决策树桩示例。

1
在多元线性回归中,为什么预测点的图不位于一条直线上?
我正在使用多元线性回归来描述Y与X1,X2之间的关系。 从理论上,我理解多元回归假设Y与每个X(Y和X1,Y和X2)之间存在线性关系。我没有使用X的任何转换。 因此,我得到的模型具有R = 0.45和所有显着X(P <0.05)。然后我针对X1绘制Y。我不明白为什么作为模型预测的红色圆圈没有形成一条线。正如我之前所说,我希望每对Y和X都由一条线拟合。 该图以这种方式在python中生成: fig, ax = plt.subplots() plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro'); ax.set_title('blue: true, red: OLS') ax.set_xlabel('X') ax.set_ylabel('Y') plt.show()

1
线性模型的BLUE(OLS解决方案)以外的其他无偏估计量
对于线性模型,OLS解决方案为参数提供了最佳的线性无偏估计量。 当然,我们可以将偏差换成较低的方差,例如岭回归。但是我的问题是关于没有偏见。是否还有其他一些较常用的估计器,它们没有偏倚但与OLS估计的参数相比具有更高的方差? 如果我有一个庞大的数据集,我当然可以对其进行二次采样,并用较少的数据估计参数,并增加方差。我认为这可能是有用的。 这更多是一个修辞性的问题,因为当我阅读有关BLUE估计量的信息时,没有提供更糟糕的选择。我猜想提供更差的选择还可以帮助人们更好地理解BLUE估计器的功能。


5
为什么线性回归基于假设和输入数据点之间的垂直距离使用成本函数?
假设我们有输入(预测)数据和输出(响应)数据点A,B,C,D,E,并且我们希望通过这些点拟合一条线。这是一个简单的问题,可以说明问题,但也可以扩展到更高的维度。 问题陈述 当前最佳拟合或假设由上面的黑线表示。蓝色箭头()表示数据点与当前最佳拟合之间的垂直距离,方法是从该点绘制一条垂直线直至与该线相交。→→\color{blue}\rightarrow 绘制绿色箭头(),使其在相交点处垂直于当前假设,因此代表数据点与当前假设之间的最小距离。对于点A和点B,绘制一条垂直于当前最佳猜测的线,并且该线类似于垂直于x轴的线。对于这两点,蓝线和绿线重叠,但对于C,D和E点则不重叠。→→\color{green}\rightarrow 最小二乘原理通过在任何给定的训练周期中通过一条数据线(A,B,C,D或E)绘制一条垂直线到估计的假设()来定义线性回归的成本函数,并由表示→→\color{blue}\rightarrow CostFunction=∑Ni=1(yi−hθ(xi))2CostFunction=∑i=1N(yi−hθ(xi))2Cost Function = \sum_{i=1}^N(y_i-h_\theta(x_i))^2 这里代表数据点,代表最佳拟合。(xi,yi)(xi,yi)(x_i, y_i)hθ(xi)hθ(xi)h_\theta(x_i) 点(A,B,C,D或E)之间的最小距离由从该点到当前最佳猜测的垂直线(绿色箭头)表示。 最小二乘函数的目的是定义一个目标函数,当最小化该函数时,将使假设与所有组合点之间的距离最小,但不一定会使假设与单个输入点之间的距离最小。 **题** 我们为什么不将线性回归的成本函数定义为输入数据点与通过输入数据点的假设(由垂直于假设的直线定义)之间的最小距离,如()?→→\color{green}\rightarrow


2
为什么线性回归对残差有假设,而广义线性模型对响应有假设?
为什么线性回归和广义模型的假设不一致? 在线性回归中,我们假设残差来自高斯 在其他回归(逻辑回归,毒物回归)中,我们假设响应来自某种分布(二项式,泊松等)。 为什么有时会假设剩余而其他时间会在响应时?是因为我们要导出不同的属性? 编辑:我认为mark999的显示两种形式是相等的。但是,我对iid还有其他疑问: 我的另一个问题 是,逻辑回归是否有iid假设?显示广义线性模型没有iid假设(独立但不相同) 对于线性回归,是否真的成立,如果我们对残差进行假设,我们将有iid,但是如果对响应进行假设,我们将拥有独立但不相同的样本(具有不同不同高斯样本)?μμ\mu

3
线性回归F统计量,R平方和残差标准误差告诉我们什么?
我对以下术语的线性回归上下文的意义差异感到非常困惑: F统计 R平方 残留标准误差 我找到了这个网站,这使我对线性回归中涉及的不同术语有了深刻的了解,但是,据我所知,上述术语看起来非常相似。我会引用我读到的东西和让我感到困惑的东西: 残差标准误差是线性回归拟合的质量的度量.......残差标准误差是响应(dist)偏离真实回归线的平均值。 1.因此,实际上这是观测值与lm线的平均距离吗? R平方统计量可用来衡量模型对实际数据的拟合程度。 2.现在我很困惑,因为如果RSE告诉我们观察点与回归线有多远,则低RSE实际上告诉我们“您的模型基于观察到的数据点非常合适”->因此,我们的模型有多好模型适合,那么R平方和RSE有什么区别? F统计量可以很好地指示我们的预测变量与响应变量之间是否存在关系。 3.的确,我们可以有一个F值来表示非线性的强关系,因此我们的RSE高而我们的R平方很低



2
关于线性关系,r,r平方和残留标准偏差告诉我们什么?
我从事回归分析解释的工作很少,但是我对r,r平方和残差标准偏差的含义感到非常困惑。我知道定义: 表征 r测量散点图上两个变量之间线性关系的强度和方向 R平方是数据与拟合回归线的接近程度的统计量度。 残留标准偏差是用于描述围绕线性函数形成的点的标准偏差的统计术语,并且是对被测量因变量的准确性的估计。(不知道单位是什么,这里有关单位的任何信息都将有所帮助) (来源:此处) 问题 尽管我“理解”了这些特征,但我确实理解了这些术语如何共同得出关于数据集的结论。我将在此处插入一个小示例,也许这可以作为回答我的问题的指南(随时使用您自己的示例!) 示例 这不是howework问题,但是我在书中进行搜索以获得一个简单示例(我正在分析的当前数据集过于复杂和庞大,无法在此处显示) 在一个大玉米田中随机选择了20个地块,每个地块10 x 4米。对于每个样地,观察植物密度(样地中的植物数量)和平均穗轴重量(每穗轴的谷物克数)。下表给出了结果:(来源:生命科学统计) ╔═══════════════╦════════════╦══╗ ║ Platn density ║ Cob weight ║ ║ ╠═══════════════╬════════════╬══╣ ║ 137 ║ 212 ║ ║ ║ 107 ║ 241 ║ ║ ║ 132 ║ 215 ║ ║ ║ 135 ║ 225 ║ ║ ║ 115 ║ …

3
如何以并行/分布式方式运行线性回归以进行大数据设置?
我正在处理一个非常大的线性回归问题,数据量太大,以至于必须将它们存储在一组机器上。将所有样本聚合到一台计算机的内存(甚至磁盘)中将太大了 为了对这些数据进行回归,我正在考虑一种并行方法,即对每个单独的框进行回归,然后根据每个单独的beta的统计数据(可能是平均值或中位数)来计算beta。 这有意义吗 ?如果是的话,我应该如何获得预期的总R2R2R^2的每一个人R2R2R^2?

5
线性回归过时了吗?[关闭]
已关闭。这个问题是基于观点的。它当前不接受答案。 想改善这个问题吗?更新问题,以便通过编辑此帖子以事实和引用的形式回答。 2年前关闭。 我目前正在参加线性回归课程,但我无法撼动自己的感觉,即我正在学习的内容不再与现代统计学或机器学习相关。当如今有这么多有趣的数据集经常违反线性回归的许多不切实际的假设时,为什么要花那么多时间进行简单或多元线性回归的推理?为什么不代之以关于更灵活,更现代的工具(如使用支持向量机或高斯过程进行回归)的推理呢?尽管比在空间中找到一架超飞机要复杂得多,但这不会为学生提供更好的背景来解决现代问题吗?

4
认为问题非常适合线性回归
我正在使用Montgomery,Peck和Vining的《线性回归分析简介》学习线性回归。我想选择一个数据分析项目。 我天真地认为,仅当人们怀疑解释变量和响应变量之间存在线性函数关系时,线性回归才合适。但是,现实世界中似乎没有多少应用程序可以满足此标准。然而线性回归如此普遍。 经验丰富的统计学家会在考虑项目的哪些方面,如果它们适合我,那么他们会寻找非常适合线性回归的问题和数据。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.