Questions tagged «linear-model»

指任何模型,其中随机变量通过在有限数量的参数中呈线性的函数与一个或多个随机变量相关。

3
线性回归中的线性假设仅仅是的定义吗?
我正在修改线性回归。 格林的教科书指出: 现在,在线性回归模型上当然会有其他假设,例如。该假设与线性假设(实际上定义为)相结合,将结构置于模型上。E(ϵ|X)=0E(ϵ|X)=0E(\epsilon|X)=0ϵϵ\epsilon 但是,线性假设本身不会在我们的模型中添加任何结构,因为可以是完全任意的。对于任何变量,无论两者之间的关系如何,我们都可以定义一个使得线性假设成立。因此,线性“假设”的确可以称为一个定义的,而不是一个假设。ϵϵ\epsilonX,yX,yX, yϵϵ\epsilon εϵϵ\epsilon 因此我想知道: 格林草率吗?他实际上应该写出:吗?这是一个“线性假设”,实际上将结构放在模型上。E(y|X)=XβE(y|X)=XβE(y|X)=X\beta 还是我必须接受线性假设不将结构放在模型上而是仅定义一个,而其他假设将使用定义将结构放在模型上吗?εϵϵ\epsilonϵϵ\epsilon 编辑:由于其他假设似乎有些混乱,因此让我在此处添加全套假设: 这摘自Greene,《计量经济学分析》,第7版。p。16。


2
具有逆自变量的回归
假设我有一个因变量的向量和一个自变量的向量当相对绘制时,我发现两者之间存在线性关系(上升趋势)。现在,这也意味着和之间存在线性下降趋势。Y N X Y 1ñNNÿYYñNNXXXÿYY YX1个X1X\frac{1}{X}ÿYYXXX 现在,如果我运行回归: 并获得拟合值ÿ = β Xÿ= β* X+ ϵY=β∗X+ϵY = \beta * X + \epsilonÿ^= β^XY^=β^X\hat{Y} = \hat{\beta}X 然后运行回归:并获得拟合值 〜Ŷ = α 1ÿ= α * 1X+ ϵY=α∗1X+ϵY = \alpha * \frac{1}{X} + \epsilonÿ〜= α^1个XY~=α^1X\tilde{Y} = \hat{\alpha} \frac{1}{X} 和这两个预测值大约相等吗? 〜ÿÿ^Y^\hat{Y}ÿ〜Y~\tilde{Y}


1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
线性模型异方差
我有以下线性模型: 为了解决残差的异方差性,我尝试对因变量应用log转换为但我仍然看到对残差具有相同的扇出效果。DV值相对较小,因此在这种情况下,取对数前的+1常数加法可能不合适。日志(是+ 1 )log⁡(Y+1)\log(Y + 1) > summary(Y) Min. :-0.0005647 1st Qu.: 0.0001066 Median : 0.0003060 Mean : 0.0004617 3rd Qu.: 0.0006333 Max. : 0.0105730 NA's :30.0000000 如何转换变量以改善预测误差和方差,尤其是对于最右边的拟合值?

2
在线性回归中,当我们仅对交互作用项感兴趣时,为什么还要包含二次项?
假设我对线性回归模型,用于ÿ一世= β0+ β1个X1个+ β2X2+ β3X1个X2Yi=β0+β1x1+β2x2+β3x1x2Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2,因为我想看看如果两个协变量之间的相互作用产生作用在Y。 在教授的课程笔记中(我没有与之联系),其中指出:当包括互动术语时,您应该包括他们的第二学位术语。即ÿ一世= β0+ β1个X1个+ β2X2+ β3X1个X2+ β4X21个+ β5X22Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22Y_i = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 +\beta_4x_1^2 + \beta_5x_2^2应包含在回归。 当我们仅对互动感兴趣时,为什么要包含第二学位?

3
使用回归来投影超出数据范围可以吗?永远不行吗?有时候好吗?
您对使用回归来投影数据范围之外有什么想法?如果我们确定模型遵循线性或幂模型形状,那么超出数据范围的模型是否有用?例如,我的数量受价格驱动。我们应该能够预测我认为超出数据范围的价格。你的想法? VOL PRICE 3044 4.97 2549 4.97 3131 4.98 2708 4.98 2860 4.98 2907 4.98 3107 4.98 3194 4.98 2753 4.98 3228 4.98 3019 4.98 3077 4.99 2597 4.99 2706 4.99 3000 4.99 3022 4.99 3084 4.99 3973 4.99 3675 4.99 3065 4.99 3407 4.99 2359 4.99 2802 4.99 2589 …

2
是否有一种优雅/有见地的方式来理解多个对象的线性回归身份
在线性回归中,我遇到了一个令人愉快的结果:如果我们拟合模型 E[Y]=β1X1+β2X2+c,E[Y]=β1X1+β2X2+c,E[Y] = \beta_1 X_1 + \beta_2 X_2 + c, 然后,如果我们标准化并居中 YYY, X1X1X_1 和 X2X2X_2 数据, R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R2=Cor(Y,X1)β1+Cor(Y,X2)β2.R^2 = \mathrm{Cor}(Y,X_1) \beta_1 + \mathrm{Cor}(Y, X_2) \beta_2. 在我看来,这就像是2个变量的版本 R2=Cor(Y,X)2R2=Cor(Y,X)2R^2 = \mathrm{Cor}(Y,X)^2 对于 y=mx+cy=mx+cy=mx+c 回归,这是令人愉快的。 但是,我所知道的唯一证据无论如何都不具有建设性或洞察力(请参阅下文),但纵观它,似乎应该容易理解。 范例想法: 的 β1β1\beta_1 和 β2β2\beta_2 参数给我们的“比例” X1X1X_1 和 X2X2X_2 在 YYY,因此我们采用各自比例的相关性... 的 ββ\betas是偏相关, R2R2R^2 是平方多重相关...相关乘以部分相关... 如果我们先正交化,那么 ββ\betas将是 Cov/VarCov/Var\mathrm{Cov}/\mathrm{Var}...这个结果在某种程度上讲几何意义吗? …

5
使用十分位找到相关性是一种统计上有效的方法吗?
我有一个1,449个不相关的数据点的样本(r平方0.006)。 在分析数据时,我发现通过将自变量值分为正向和负向组,每组因变量的平均值似乎存在显着差异。 使用自变量值将点分成10个bin(十分位数),十分位数与平均因变量值之间的相关性似乎更强(r平方0.27)。 我对统计信息了解不多,因此这里有几个问题: 这是有效的统计方法吗? 有没有找到最佳箱数的方法? 这种方法的正确用语是什么,以便我可以使用Google? 有哪些入门资源可用于学习这种方法? 我可以使用哪些其他方法来查找此数据中的关系? 这是十进制数据供参考:https : //gist.github.com/georgeu2000/81a907dc5e3b7952bc90 编辑:这是数据的图像: 行业动量是自变量,入口点质量是因变量

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
如何在线性模型中说明空间协方差?
背景 我有一项实地研究的数据,在该研究中,两个模块中的每个模块有四个处理级别和六个重复项。(4x6x2 = 48个观察值) 街区相距约1英里,街区内有42个2m x 4m地块的网格和1m宽的人行道。我的研究在每个区块中仅使用了24个地块。 我想评估评估空间协方差。 这是一个使用单个块中的数据进行分析的示例,其中不考虑空间协方差。在数据集中,plot图的id是图的ID,图1的中心位于0,0的每个图x的x位置和yy位置。level是处理级别,并且response是响应变量。 layout <- structure(list(plot = c(1L, 3L, 5L, 7L, 8L, 11L, 12L, 15L, 16L, 17L, 18L, 22L, 23L, 26L, 28L, 30L, 31L, 32L, 35L, 36L, 37L, 39L, 40L, 42L), level = c(0L, 10L, 1L, 4L, 10L, 0L, 4L, 10L, 0L, 4L, 0L, …

1
线性回归偏差方差分解中的方差项
在“统计学习的要素”中,线性模型的偏差方差分解的表达式为 其中是实际目标函数,是模型和是对线性估计。˚F (X 0)σ 2 ε ÿ = ˚F (X )+ εEr r (x0)=σ2ϵ+E[f(x0)- ËF^(x0)]2+ | | h (x0)| |2σ2ϵ,E[R[R(X0)=σϵ2+Ë[F(X0)-ËF^(X0)]2+||H(X0)||2σϵ2,Err(x_0)=\sigma_\epsilon^2+E[f(x_0)-E\hat f(x_0)]^2+||h(x_0)||^2\sigma_\epsilon^2,F(x0)F(X0)f(x_0)σ2ϵσϵ2 \sigma_\epsilon^2y=f(x)+ϵy=f(x)+ϵy=f(x)+\epsilonf^(x)f^(x)\hat f(x)f(x)f(x)f(x) 方差项在这里令我感到困扰,因为等式暗示如果目标无噪声,即,方差将为零但这对我来说没有意义,因为即使噪声为零,对于不同的训练集,我仍然可以获得不同的估计值,这意味着方差不为零。σ2ϵ=0.σϵ2=0.\sigma_\epsilon^2=0.f^(x0)f^(x0)\hat f(x_0) 例如,假设目标函数是二次方,并且训练数据包含从该二次方随机采样的两个点;显然,每次从二次目标中随机采样两个点时,我都会得到不同的线性拟合。那么方差如何为零?f(x0)f(x0)f(x_0) 谁能帮助我找出我对偏差方差分解的理解中存在的问题?

1
正态分布误差和中心极限定理
在Wooldridge的《计量经济学入门》一书中有一个报价: 证明误差的正态分布合理的参数通常是这样的:由于是影响的许多不同的未观察因素的总和,因此我们可以调用中心极限定理来得出具有近似正态分布的结论。uuuyyyuuu 此引用与线性模型假设之一有关,即: u∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2) 其中uuu是总体模型中的误差项。 现在,据我所知,中心极限定理指出 Zi=(Yi¯¯¯¯¯−μ)/(σ/√n)Zi=(Yi¯−μ)/(σ/√n)Z_i=(\overline{Y_i}-μ)/(σ/√n) (其中Yi¯¯¯¯¯Yi¯\overline{Y_i} 是从任何具有均值μμμ和方差σ^ 2的总体中抽取的随机样本的平均值σ2σ2σ^2) 接近标准正态变量的n→∞n→∞n \rightarrow \infty。 题: 帮助我了解Z_i的渐近正态性如何ZiZiZ_i暗示u∼N(μ,σ2)u∼N(μ,σ2)u \sim N(μ, σ^2)

1
普通的最小二乘是什么?
我的一个朋友最近问什么是普通的,关于普通最小二乘。我们似乎没有在讨论中取得任何进展。我们都同意OLS是线性模型的特例,它具有许多用途,众所周知,并且是许多其他模型的特例。但这真的是全部吗? 因此,我想知道: 名字的真正来源是什么? 谁是第一个使用这个名字的人?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.