Questions tagged «least-squares»

指选择参数值以最小化两个量(例如变量的观测值)和该观测值的期望值取决于参数值之间的平方差的一般估计技术。高斯线性模型由最小二乘法拟合,而最小二乘则是使用均方误差(MSE)作为评估估计量的基础。


3
为什么通过向对角线添加一个常数来使岭估计比OLS更好?
据我所知,岭回归估计是ββ\beta最小化上的大小的平方残余总和和惩罚ββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] 但是,我不完全理解与不同的事实的重要性,因为它仅向的对角线添加一个小常数。确实,β OLS X ' Xβridgeβridge\beta_\text{ridge}βOLSβOLS\beta_\text{OLS}X′XX′XX'X βOLS=(X′X)−1X′yβOLS=(X′X)−1X′y\beta_\text{OLS} = (X'X)^{-1}X'y 我的书中提到,这使估算值在数值上更稳定-为什么? 数值稳定性与向岭估计值的趋近于0的收缩有关还是仅仅是巧合?

3
平均绝对误差或均方根误差?
为什么要使用均方根误差(RMSE)而不是均方根绝对误差(MAE)? 你好 我一直在研究在计算中产生的误差-我最初将误差计算为均方根标准化平方误差。 仔细观察,我发现平方误差的效果比较小的误差赋予更大的权重,将误差估计偏向奇异的异常值。回想起来,这是显而易见的。 所以我的问题是-在什么情况下,均方根误差比平均绝对误差更适合度量误差?后者对我来说似乎更合适,或者我缺少什么? 为了说明这一点,我在下面附加了一个示例: 散点图显示了两个具有良好相关性的变量, 右边的两个直方图使用标准化的RMSE(顶部)和MAE(底部)绘制了Y(观察到的)和Y(预测的)之间的误差。 该数据没有明显的异常值,MAE的误差低于RMSE。除了使用MAE之外,是否有任何一种合理的方法来使用一种误差度量来代替另一种误差度量?
58 least-squares  mean  rms  mae 

3
Y必须服从正态分布的误解来自何处?
看似有信誉的消息来源声称因变量必须正态分布: 模型假设:是正态分布,误差是正态分布,,并且是独立的,并且是固定的,并且是恒定方差。YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 宾夕法尼亚州立大学,STAT 504离散数据分析 其次,线性回归分析要求所有变量均为多元正态。 统计解决方案,线性回归假设 当响应变量具有正态分布时,这是适当的 维基百科,广义线性模型 对于这种误解如何或为何蔓延,有很好的解释吗?它的起源已知吗? 有关 线性回归和关于响应变量的假设

5
OLS残差不呈正态分布时的回归
该站点上有多个主题讨论如何确定OLS残差是否渐近正态分布。这个极好的答案提供了另一种用R代码评估残差的正态性的方法。这是关于标准化残差和观察到的残差之间实际差异的另一讨论。 但是,可以说残差绝对不是正态分布的,如本例所示。在这里,我们有数千个观测值,显然我们必须拒绝正态分布残差假设。解决该问题的一种方法是采用某种形式的鲁棒估计器,如答案中所述。但是,我不仅限于OLS,实际上我想了解其他glm或非线性方法的好处。 违反残留假设的OLS正态性的数据建模的最有效方法是什么?或者至少应该是开发合理的回归分析方法的第一步?



4
为什么要使用S型函数而不是其他函数?
为什么事实上的标准S形函数在(非深度)神经网络和逻辑回归中如此流行?1个1 + e− x1个1个+Ë-X\frac{1}{1+e^{-x}} 我们为什么不使用许多其他可导函数,它们的计算时间更快或更慢的衰减(因此消失的梯度发生得更少)。维基百科上关于Sigmoid函数的例子很少。是我最喜欢的具有缓慢衰减和快速计算的功能。X1 + | x |X1个+|X|\frac{x}{1+|x|} 编辑 这个问题与具有优点/缺点的神经网络中激活函数的综合列表不同,因为我只对“为什么”感兴趣,而对乙状结肠不感兴趣。

5
如何得出岭回归解?
我在脊回归解决方案的推导中遇到一些问题。 我知道没有正则化项的回归解决方案: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. 但是在将L2项到成本函数之后,解决方案变成了λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

5
最小化平方误差等于最小化绝对误差吗?为什么平方误差比后者更受欢迎?
当我们进行线性回归,以适应一组数据点(X 1,ÿ 1),(X 2,ÿ 2),。。。,(x n,y n),经典方法将平方误差最小化。我一直对一个问题感到困惑,该问题将最小化平方误差会产生与最小化绝对误差相同的结果ÿ= a x + by=ax+by=ax+b(x1个,ÿ1个),(X2,ÿ2),。。。,(xñ,ÿñ)(x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_n)?如果没有,为什么最小化平方误差更好?除了“目标函数是可微的”之外,还有其他原因吗? 平方误差也广泛用于评估模型性能,但是绝对误差不那么受欢迎。为什么平方误差比绝对误差更常用?如果不考虑求导数,则计算绝对误差与计算平方误差一样容易,那么为什么平方误差如此普遍?有什么独特的优势可以解释其盛行吗? 谢谢。

8
在测试自变量对变化得分的影响时,将基线测量值作为控制变量是否有效?
我正在尝试运行OLS回归: DV:一年中体重的变化(初始体重-最终体重) IV:您是否运动。 但是,较轻的人较重的人每运动一次会减轻更多的体重,这似乎是合理的。因此,我想包含一个控制变量: CV:初始起始重量。 但是,现在都使用初始权重来计算因变量AND作为控制变量。 这个可以吗?这是否违反了OLS的假设?

1
证明OLS模型中的系数服从(nk)自由度的t分布
背景 假设我们有一个普通的最小二乘模型,其中我们的回归模型中有系数, kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} 其中是系数的向量,是由定义的设计矩阵ββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots & \dots & x_{n\;(k-1)} \end{pmatrix} ,错误是IID正常, ϵ∼N(0,σ2I).ϵ∼N(0,σ2I).\mathbf{\epsilon} \sim \mathcal{N}\left(\mathbf{0},\sigma^2 …

3
如何通过PCA执行正交回归(最小二乘法)?
我总是用lm()R 在上执行线性回归。该函数返回系数,使得y = \ beta x。yyyxxxββ\betay=βx.y=βx.y = \beta x. 今天,我了解了总最小二乘法,并且princomp()可以使用该函数(主成分分析,PCA)来执行它。对我来说应该是有益的(更准确)。我使用进行了一些测试princomp(),例如: r <- princomp( ~ x + y) 我的问题是:如何解释其结果?如何获得回归系数?“系数”是指我必须用来乘以x值以得到接近y的数字\ beta。ββ\betaxxxyyy

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
为什么RSS分布卡方数np?
我想了解为什么在OLS模型下RSS(残差平方和)分布为(是模型中参数的数量,是观测值的数量)。χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn 对于提出这样的基本问题,我深表歉意,但似乎无法在线(或在我的面向应用程序的教科书中)找到答案。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.