Questions tagged «linear-model»

指任何模型,其中随机变量通过在有限数量的参数中呈线性的函数与一个或多个随机变量相关。

4
(为什么)过拟合模型的系数往往较大?
我认为变量的系数越大,模型在该维度上“摆动”的能力就越强,从而增加了拟合噪声的机会。尽管我认为我对模型中的方差与大系数之间的关系有一个合理的认识,但是我对为什么它们出现在过拟合模型中却没有很好的认识。说它们是过度拟合的症状是不正确的,系数收缩更是一种减少模型方差的技术吗?通过系数收缩进行正则化的原理似乎是:大系数是过度拟合模型的结果,但也许我误解了该技术背后的动机。 我的直觉是大系数通常是过度拟合的症状,来自以下示例: 假设我们要拟合全部位于x轴上的个点。我们可以很容易地构造一个多项式,其解为这些点:。假设我们的点位于。该技术给出所有大于等于10的系数(一个系数除外)。随着我们添加更多点(从而增加多项式的次数),这些系数的大小将迅速增加。f (x )= (x − x 1)(x − x 2)。。。。(X - X ñ - 1)(X - X Ñ)X = 1 ,2 ,3 ,4ññnF(x )= (x − x1个)(x − x2)。。。。(x − xn − 1)(x − xñ)F(X)=(X-X1个)(X-X2)。。。。(X-Xñ-1个)(X-Xñ)f(x) = (x-x_1)(x-x_2)....(x-x_{n-1})(x-x_n)X = 1 ,2 ,3 ,4X=1个,2,3,4x=1,2,3,4 这个示例是我当前如何将模型系数的大小与生成的模型的“复杂性”联系起来的方式,但是我担心这种情况对于实际显示行为是不正确的。我特意建立了一个过拟合模型(对二次抽样模型生成的数据进行了10次多项式OLS拟合),并惊讶地发现模型中的系数很小: set.seed(123) xv = seq(-5,15,length.out=1e4) x=sample(xv,20) …

3
R如何处理lm中的缺失值?
我想针对矩阵A中的每一列对向量B进行回归。如果没有缺失数据,这是微不足道的,但是如果矩阵A包含缺失值,那么我对A的回归就被约束为仅包含所有存在值(默认的na.omit行为)。对于没有缺失数据的列,这会产生不正确的结果。我可以将列矩阵B相对于矩阵A的各个列进行回归,但是我要完成数千次回归,这是缓慢而乏味的。该na.exclude功能似乎是专为这种情况下,但我不能让它工作。我在这里做错了什么?如果重要,请在OSX上使用R 2.13。 A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) # Missing value in first column; now we have 9 residuals A[1,1] = NA dim(lm(A~B)$residuals) #[1] 9 2 (the expected 9 residuals, given na.omit() is the default) # …


5
如何得出多元线性回归的最小二乘估计?
在简单线性回归的情况下,您可以得出最小二乘估计量这样您就不必知道即可估算β 1 = Σ (X 我 - ˉ X)(Ý 我 - ˉ ÿ)y=β0+β1xy=β0+β1xy=\beta_0+\beta_1xβ 0 β 1β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 假设我有,我怎么得到而不估计\帽子\ beta_2?还是不可能?β 1 β 2y=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2β^1β^1\hat\beta_1β^2β^2\hat\beta_2

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
证明OLS模型中的系数服从(nk)自由度的t分布
背景 假设我们有一个普通的最小二乘模型,其中我们的回归模型中有系数, kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} 其中是系数的向量,是由定义的设计矩阵ββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots & \dots & x_{n\;(k-1)} \end{pmatrix} ,错误是IID正常, ϵ∼N(0,σ2I).ϵ∼N(0,σ2I).\mathbf{\epsilon} \sim \mathcal{N}\left(\mathbf{0},\sigma^2 …

1
自由度可以是非整数吗?
当我使用GAM时,它给了我剩余的DF为(代码的最后一行)。这意味着什么?超越GAM示例,通常,自由度可以是非整数吗?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

7
测试矩阵列之间的线性相关性
我有一个行列式为零的安全收益相关矩阵。(这有点令人惊讶,因为样本相关矩阵和相应的协方差矩阵在理论上应该是正定的。) 我的假设是,至少一种证券线性依赖于其他证券。R中是否有一个函数可以按顺序测试每个列的线性相关性? 例如,一种方法是一次建立一个安全性的相关矩阵,并在每个步骤计算行列式。当行列式= 0时,请停止运行,因为您已确定证券是其他证券的线性组合。 识别在这样的矩阵中的线性相关性的任何其他技术是可以理解的。

2
通用线性模型与广义线性模型(具有身份链接功能?)
这是我的第一篇文章,所以如果我不遵循某些标准,请对我放轻松!我搜索了我的问题,但没有任何反应。 我的问题主要涉及通用线性建模(GLM)与广义线性建模(GZLM)之间的实际差异。在我的情况下,与GZLM相比,ANCOVA中将有一些连续变量作为协变量,而有一些因子。我想研究每个变量的主要影响,以及我将在模型中概述的三种交互作用。我可以看到这个假设正在ANCOVA或使用GZLM进行测试。在某种程度上,我了解运行像ANCOVA这样的常规线性模型的数学过程和推理,并且我有点理解GZLM允许使用链接函数来连接线性模型和因变量(好吧,我撒谎,也许我不知道)非常了解数学)。我真正的不 无法理解在GZLM中使用的概率分布是正常的(即,身份链接功能?)时,进行一种分析而不是进行另一种分析的实际差异或原因。当我一个接一个地运行时,我得到了截然不同的结果。我可以跑吗?我的数据有些不正常,但在ANCOVA和GZLM中都可以使用。在两种情况下都支持我的假设,但在GZLM中,p值“更好”。 我的想法是,ANCOVA是一个线性模型,具有使用身份链接函数的正态分布因变量,这正是我可以在GZLM中输入的内容,但是它们仍然有所不同。 如果可以,请为我阐明这些问题! 根据第一个答案,我还有另一个问题: 如果除使用的显着性检验(即F检验与Wald Chi Square)相同以外,是否最合适?ANCOVA是“首选方法”,但我不确定为什么F检验会更可取。有人可以帮我阐明这个问题吗?谢谢!

2
贝叶斯套索vs普通套索
套索可使用不同的实现软件。我知道在不同的论坛上有很多关于贝叶斯方法与常客方法的讨论。我的问题特别针对套索- 贝叶斯套索与常规套索有什么区别或优势? 这是该包中的两个实现示例: # just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) 那么我什么时候应该选择一种或其他方法呢?还是一样?

2
最小二乘回归逐步线性代数计算
作为有关R中线性混合模型的问题的前传,并作为初学者/中级统计爱好者的参考,我决定以独立的“问答式”形式发布“手动”计算简单线性回归的系数和预测值。 该示例使用R内置数据集,mtcars并将其设置为充当自变量的车辆所消耗的每加仑英里数,并根据汽车的重量(连续变量)进行回归,并将汽缸数作为没有相互作用的三个水平(4、6或8)的因子。 编辑:如果您对此问题感兴趣,您肯定会在CV之外的Matthew Drury的这篇帖子中找到详细而令人满意的答案。

3
方差不等的回归建模
我想拟合一个线性模型(lm),其中残差方差显然取决于解释变量。 我知道的方法是将glm与Gamma族一起使用,对方差建模,然后将其逆值放入lm函数的权重中(例如:http : //nitro.biosci.arizona.edu/r/chapter31 .pdf) 我在想: 这是唯一的技术吗? 还有哪些其他相关方法? 哪些R包/功能与此类建模相关?(其他然后是glm,lm)

1
常用统计检验为线性模型
(更新:我对此进行了更深入的研究,并将结果发布在此处) 命名统计测试的列表非常庞大。许多常见检验依赖于简单线性模型的推论,例如,单样本t检验只是y =β+ε,它是针对零模型y =μ+ε进行检验的,即β=μ,其中μ为零值-通常为μ= 0。 我发现这对教学目的比死记硬背地学习命名模型,何时使用它们以及它们的假设好像它们之间没有任何关系相比更具启发性。这种方法促进并不能增进理解。但是,我找不到一个很好的资源来收集这些信息。我对基本模型之间的等效性感兴趣,而不是对它们的推断方法感兴趣。尽管据我所知,所有这些线性模型的似然比检验得出的结果与“经典”推论相同。 下面是我已经了解迄今为止等价,忽略误差项ε∼N(0,σ2)ε∼N(0,σ2)\varepsilon \sim \mathcal N(0, \sigma^2),并假设所有零假设是的效果由于缺少: 单样本t检验: y=β0H0:β0=0y=β0H0:β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0。 配对样本t检验: y2−y1=β0H0:β0=0y2−y1=β0H0:β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 这与成对差异的一样本t检验相同。 两样本t检验: y=β1∗xi+β0H0:β1=0y=β1∗xi+β0H0:β1=0y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0 其中x是指标(0或1)。 Pearson相关: y=β1∗x+β0H0:β1=0y=β1∗x+β0H0:β1=0y = \beta_1 * x …

5
线性模型的假设以及残差不是正态分布时的处理方法
我对线性回归的假设有些困惑。 到目前为止,我检查了是否: 所有的解释变量都与响应变量线性相关。(就是这种情况) 解释变量之间存在共线性。(几乎没有共线性)。 我模型的数据点的库克距离小于1(这种情况是,所有距离都小于0.4,因此没有影响点)。 残差是正态分布的。(事实并非如此) 但是我然后阅读以下内容: 经常会因为(a)因变量和/或自变量的分布本身显着为非正态分布,和/或(b)违反线性假设而引起违反正态性的情况。 问题1 听起来好像自变量和因变量需要按正态分布,但据我所知并非如此。我的因变量以及我的一个自变量都不是正态分布的。应该是吗? 问题2 我的残差的QQ正态图如下所示: 这与正态分布略有不同,并且shapiro.test也拒绝了残差来自正态分布的原假设: > shapiro.test(residuals(lmresult)) W = 0.9171, p-value = 3.618e-06 残差与拟合值看起来像: 如果我的残差不是正态分布,该怎么办?这是否意味着线性模型完全没有用?

1
如何从R中的线性模型的新输入预测值?
已锁定。该问题及其答案被锁定,因为该问题是题外话,但具有历史意义。它目前不接受新的答案或互动。 我在R:中创建了线性模型mod = lm(train_y ~ train_x)。我想通过它的X列表,并获得其预测/估计/预测的Y。我看过了predict(),但是我认为这是用于其他目的,或者我只是不知道如何使用它。 我猜想通过获取模型的系数,我可以手动地一对一插入test_x变量,并获得预测的Y,但是我猜想有一种更有效的方法。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.