统计和大数据 least-squares

2

我想构建一个回归模型，该模型是多个OLS模型的平均值，每个模型都基于完整数据的子集。其背后的思想是基于本文的。我创建k个折叠并建立k个OLS模型，每个模型都基于没有折叠之一的数据。然后，我平均回归系数以获得最终模型。这让我印象深刻，类似于随机森林回归，其中建立了多个回归树并将其平均。但是，平均OLS模型的性能似乎比仅在整个数据上构建一个OLS模型差。我的问题是：为多个OLS模型求平均有理论上的错误或不合需要的理由吗？我们可以期望平均多个OLS模型来减少过度拟合吗？下面是一个R示例。 #Load and prepare data library(MASS) data(Boston) trn <- Boston[1:400,] tst <- Boston[401:nrow(Boston),] #Create function to build k averaging OLS model lmave <- function(formula, data, k, ...){ lmall <- lm(formula, data, ...) folds <- cut(seq(1, nrow(data)), breaks=k, labels=FALSE) for(i in 1:k){ tstIdx <- which(folds==i, arr.ind = TRUE) tst <- …

13 regression least-squares ensemble

3

简单线性回归，p值和AIC

我知道这个话题在这里之前已经提出过很多次了，但是我仍然不确定如何最好地解释我的回归输出。我有一个非常简单的数据集，由一列x值和一列y值组成，并根据位置（位置）分为两组。要点看起来像这样一位同事假设，我们应该将单独的简单线性回归拟合到每个组，我已经使用进行了拟合y ~ x * C(loc)。输出如下所示。 OLS Regression Results ============================================================================== Dep. Variable: y R-squared: 0.873 Model: OLS Adj. R-squared: 0.866 Method: Least Squares F-statistic: 139.2 Date: Mon, 13 Jun 2016 Prob (F-statistic): 3.05e-27 Time: 14:18:50 Log-Likelihood: -27.981 No. Observations: 65 AIC: 63.96 Df Residuals: 61 BIC: 72.66 Df Model: …

13 regression p-value least-squares aic

2

回归系数的协方差的解释是什么？

R中的lm函数可以打印出回归系数的估计协方差。这些信息给我们带来了什么？我们现在可以更好地解释模型或诊断模型中可能存在的问题吗？

13 r multiple-regression least-squares

4

如何为非线性最小二乘拟合选择初始值

上面的问题说明了一切。基本上，我的问题是针对一个通用的拟合函数（可能会任意复杂），该函数在我尝试估算的参数中是非线性的，如何选择初始值来初始化拟合？我正在尝试做非线性最小二乘法。有什么策略或方法吗？已经研究过了吗？有参考吗？除了临时猜测之外，还有什么吗？具体来说，现在正在使用的一种拟合形式是具有我要估计的五个参数的高斯加线性形式，例如 ÿ= A e- （x - BC）2+ D x + Ey=Ae−(x−BC)2+Dx+Ey=A e^{-\left(\frac{x-B}{C}\right)^2}+Dx+E 其中（横坐标数据）和y = log 10（纵坐标数据）意味着在对数对数空间中，我的数据看起来像一条直线加一个高斯近似的凸点。我没有任何理论，关于如何初始化非线性拟合的任何指导，除了可能像线的斜率和凹凸的中心/宽度之类的图形和眼球之外，都没有指导我。但是我有一百多种适合的方法，而不是图形和猜测，我更喜欢一些可以自动化的方法。x = 日志10x=log10x = \log_{10}ÿ= 日志10y=log10y = \log_{10} 我在图书馆或在线找不到任何参考。我唯一能想到的就是随机选择初始值。MATLAB提供了从[0,1]均匀分布的值中随机选择值的功能。因此，对于每个数据集，我都会运行随机初始化的拟合一千次，然后选择最高的那个。还有其他（更好的）想法吗？[R2r2r^2 附录1 首先，这是数据集的一些直观表示，目的是向大家展示我在谈论哪种数据。我要以原始形式发布数据，而无需进行任何形式的转换，然后将其以可视化的形式记录在日志-日志空间中，因为它阐明了某些数据的功能，同时扭曲了其他功能。我同时发布了好坏数据的样本。每个图中的六个面板中的每个面板都显示四个数据集，它们分别绘制为红色，绿色，蓝色和青色，每个数据集恰好具有20个数据点。由于数据中出现的颠簸，我试图用直线加高斯拟合它们中的每一个。第一个数字是一些好的数据。第二个图是与图一相同的好数据的对数-对数图。第三个数字是一些不良数据。第四个图是图三的对数-对数图。数据更多，这只是两个子集。大部分数据（大约3/4）都是好数据，类似于我在此处显示的好数据。现在发表一些评论，请耐心等待，因为这可能会花费很长时间，但是我认为所有这些细节都是必要的。我会尽量简洁。我原本期望一个简单的幂定律（意思是对数-对数空间中的直线）。当我在对数-对数空间中绘制所有图形时，我看到了4.8 mHz附近的意外凸起。对颠簸进行了彻底的调查，并在其他工作中也发现了颠簸，因此并不是我们搞砸了。它实际上在那儿，其他出版的作品也提到了这一点。因此，我只是在线性形式中添加了一个高斯项。请注意，此拟合将在对数-对数空间中完成（因此，我的两个问题包括此问题）。现在，在阅读了Stumpy Joe Pete对我的另一个问题（根本与这些数据无关）的答案并阅读了这个，这个以及其中的引用（由Clauset逐句填充）之后，我意识到我不应该适合log-log空间。所以现在我想在预先转换的空间中做所有事情。问题1：从好的数据来看，我仍然认为在预变换空间中线性加高斯仍然是一种好形式。我很想听听其他有更多数据经验的人的想法。高斯+线性合理吗？我应该只做高斯吗？还是完全不同的形式？问题2：无论问题1的答案是什么，我仍然需要（最有可能）非线性最小二乘拟合，因此仍需要初始化方面的帮助。在看到两组数据的情况下，我们非常希望捕获4-5 mHz附近的第一个凸起。因此，我不想添加更多的高斯项，而我们的高斯项应以第一个颠簸为中心，这几乎总是更大的颠簸。我们希望在0.8mHz至5mHz之间的“更高的精度”。我们不太关心较高的频率，但也不想完全忽略它们。那么也许是某种权衡？还是B总是可以在4.8mHz附近初始化？ Fff大号LL L = A e− （f- 乙C）2+ D f+ E。L=Ae−(f−BC)2+Df+E.L=A e^{-\left(\frac{f-B}{C}\right)^2}+Df+E. Fff …

13 least-squares nonlinear-regression starting-values

1

如何阅读R的nls的拟合优度？

我试图解释nls（）的输出。我已经阅读了这篇文章，但我仍然不明白如何选择最合适的。根据我的拟合，我有两个输出： > summary(m) Formula: y ~ I(a * x^b) Parameters: Estimate Std. Error t value Pr(>|t|) a 479.92903 62.96371 7.622 0.000618 *** b 0.27553 0.04534 6.077 0.001744 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 120.1 on 5 degrees …

12 r least-squares nonlinear-regression goodness-of-fit

2

梯度下降在此数据集上找不到普通最小二乘法的解？

我一直在研究线性回归，并在下面的集合{（x，y）}上进行过尝试，其中x以平方英尺为单位指定房屋面积，y以美元指定价格。这是Andrew Ng Notes中的第一个示例。 2104,400 1600,330 2400,369 1416,232 3000,540 我开发了一个示例代码，但是当我运行它时，成本随着每一步都在增加，而应该随着每一步而降低。代码和输出如下。bias是W 0 X 0，其中X 0 = 1。featureWeights是[X 1，X 2，...，X N ] 的数组我还尝试了这里提供的在线python解决方案，并在此处进行了说明。但是此示例也提供了相同的输出。理解概念的差距在哪里？码： package com.practice.cnn; import java.util.Arrays; public class LinearRegressionExample { private float ALPHA = 0.0001f; private int featureCount = 0; private int rowCount = 0; private float bias = …

12 regression least-squares gradient-descent supervised-learning

2

“最小二乘法”和“线性回归”，它们是同义词吗？

最小二乘法和线性回归有什么区别？是同一回事吗？

12 regression least-squares terminology

1

手动计算对数似然，以进行广义非线性最小二乘回归（nlme）

我正在尝试为函数优化的广义非线性最小二乘回归计算对数似然功能在R包，使用由距离上AA进化树假设（布朗运动产生的方差协方差矩阵从包中）。以下可重现的R代码使用x，y数据和具有9个分类单元的随机树来拟合gnls模型：f(x)=β1(1+xβ2)β3f(x)=β1(1+xβ2)β3f(x)=\frac{\beta_1}{(1+\frac x\beta_2)^{\beta_3}}gnlsnlmecorBrownian(phy=tree)ape require(ape) require(nlme) require(expm) tree <- rtree(9) x <- c(0,14.51,32.9,44.41,86.18,136.28,178.21,262.3,521.94) y <- c(100,93.69,82.09,62.24,32.71,48.4,35.98,15.73,9.71) data <- data.frame(x,y,row.names=tree$tip.label) model <- y~beta1/((1+(x/beta2))^beta3) f=function(beta,x) beta[1]/((1+(x/beta[2]))^beta[3]) start <- c(beta1=103.651004,beta2=119.55067,beta3=1.370105) correlation <- corBrownian(phy=tree) fit <- gnls(model=model,data=data,start=start,correlation=correlation) logLik(fit) 我想logLik根据从获得的估计参数来“手动”计算对数似然（在R中，但不使用函数），gnls因此它与的输出匹配logLik(fit)。注意：我不是要估计参数；我只想计算该函数估计的参数的对数似然gnls性（尽管如果有人提供了一个可重现的示例，说明了如何在不使用的情况下估计参数gnls，我将非常感兴趣！）。我不确定如何在R中执行此操作。S和S-Plus的混合效果模型（Pinheiro和Bates）中描述的线性代数表示法让我非常头疼，而且我的尝试都没有logLik(fit)。以下是Pinheiro和Bates描述的详细信息：对数似然为广义非线性最小二乘模型其中的计算方法如下：φ 我 = 甲我 βÿ一世= f一世（ϕ一世，v一世）+ ϵ一世yi=fi(ϕi,vi)+ϵiy_i=f_i(\phi_i,v_i)+\epsilon_iϕ一世= A一世βϕi=Aiβ\phi_i=A_i\beta 升（β，σ2，δ| ÿ）= − 12{ N日志（2 πσ2）+ ∑我= …

12 r maximum-likelihood least-squares nonlinear-regression mixed-model

5

递归（在线）正则化最小二乘算法

谁能指出我的Tikhonov正则化（正则化最小二乘）在线（递归）算法的方向吗？在离线环境，我将计算β = （X Ť X + λ我）- 1 X Ť ÿ使用在我的原始数据集λ是使用n重交叉验证中发现。一个新的ÿ值可以预测对于给定的X使用Ŷ = X Ť β。β^= （XŤX+ λ我）− 1XŤÿβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TYλλλÿyyXxxÿ= xŤβ^y=xTβ^y=x^T\hat\beta 在在线设置中，我不断绘制新的数据点。如何更新β当我绘制新的额外的数据样本不会对整个数据集做了充分的重新计算（原件+新）？β^β^\hat\beta

12 regression machine-learning least-squares regularization online

1

使用最小二乘法与广义线性模型与非线性最小二乘拟合指数函数

我有一个代表指数衰减的数据集。我想对这个数据拟合指数函数。我尝试对数转换响应变量，然后使用最小二乘法拟合一条线。使用具有对数链接函数和响应变量周围的伽马分布的广义线性模型；并使用非线性最小二乘法。尽管每种方法的两个系数都相似，但我得到的答案不同。我感到困惑的地方是我不确定哪种方法最适合使用以及为什么使用。有人可以比较和对比这些方法吗？谢谢。y=Beaxy=Beaxy = Be^{ax}

12 modeling generalized-linear-model least-squares nonlinear-regression curve-fitting

4

对于给定的估算技术和参数，样本应为多大？

是否有经验法则或什至没有任何方法来说明样本的大小，以便用给定数量的参数估计模型？因此，例如，如果我想估计具有5个参数的最小二乘回归，则样本应为多大？您使用哪种估计技术（例如，最大似然，最小二乘，GMM），或者要执行多少测试或什么测试，有关系吗？做出决定时是否应考虑样本变异性？

12 sample-size estimation least-squares maximum-likelihood

5

证明OLS估计量是尺度相等的吗？

我没有尺度等方差的正式定义，但是这是《统计学习入门》在p上对此的描述。217：标准最小二乘系数...是等比例的：将乘以常数只会导致将最小二乘系数估计值按比例缩放。XĴXĴX_jCCc1 / c1个/C1/c 为简单起见，我们假设通用线性模型，其中，是矩阵（其中），其中，和是具有的实值随机变量的维向量。- [R β ＆Element; [R p + 1 ε Ñ ë [ ε ] = 0 Ñ × 1ÿ = X β+εÿ=Xβ+ϵ\mathbf{y} = \mathbf{X}\boldsymbol\beta + \boldsymbol\epsilonÿ ∈ řñÿ∈[Rñ\mathbf{y} \in \mathbb{R}^NXX\mathbf{X}ñ× （p + 1 ）ñ×（p+1个）N \times (p+1)p + 1 < Np+1个<ñp+1 < N[R[R\mathbb{R}β ＆Element; [Rp + 1β∈[Rp+1个\boldsymbol\beta …

11 least-squares linear-model

3

检测共线性的不同方法的优点是什么？

我想检测共线性是否是我的OLS回归中的问题。我知道方差膨胀因子和条件指数是两种常用的度量，但是我发现很难找到每种方法的优劣或分数应该是确定的任何东西。指出执行方法和/或适当分数的突出来源将非常有用。在“是否有理由偏爱多重共线性的特定度量？”时提出了类似的问题。但是我理想的是可以引用一个参考。

11 multiple-regression references least-squares multicollinearity vif

3

为什么是垂直距离？

为什么OLS估计涉及到点与直线的垂直偏差而不是水平距离？

11 least-squares

2

在线参考介绍OLS

我开始研究普通最小二乘（OLS）估计量，但仍处于起步阶段。我已经买了一些关于计量经济学的书，但是我没有在网上找到任何东西。因此，我想知道是否存在一个网站，主页或其他在线资源，它们以详尽的方式解释了最小二乘估计。我正在寻找提供一般介绍或概述的材料。到目前为止，我在互联网上没有发现任何令人难以置信的东西。有人有一些有用的参考吗？理想的在线参考文献以一种简单的方式解释了OLS的用途。理想情况下，它还提供有关特定主题的示例和更多信息，例如估算器的数学推导，OLS的假设或估算器无偏的数学点。我不是在寻找计量经济学书的pdf文件。

11 references least-squares

Questions tagged «least-squares»