Questions tagged «linear-model»

指任何模型,其中随机变量通过在有限数量的参数中呈线性的函数与一个或多个随机变量相关。



2
去除统计学上显着的截距项会增加线性模型中的
在具有单个解释变量的简单线性模型中, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i 我发现删除截距项可以大大提高拟合度(值从0.3变为0.9)。但是,截距项似乎具有统计意义。R2R2R^2 带拦截: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** …

9
y与x的线性回归与x与y的线性回归之间有什么区别?
无论您计算pearson(x,y)还是pearson(y,x),x和y的Pearson相关系数都相同。这表明在给定x的情况下对y进行线性回归或在给定y的情况下对x进行线性回归应该是相同的,但我认为情况并非如此。 当关系不对称时,有人可以阐明这个问题吗?它与皮尔逊相关系数(我一直认为这是总结最佳拟合线)之间有什么关系?

4
PCA和方差比例说明
通常,用第一个主成分来解释像PCA这样的分析中的方差分数是什么意思?有人可以直观地解释这一点,但也可以就主成分分析(PCA)给出“解释方差”的精确数学定义吗?XXx 对于简单的线性回归,总是将最佳拟合线的r平方描述为所解释的方差的比例,但我也不知道该怎么做。这里的方差比例是否只是点与最佳拟合线的偏差的延伸?

2
线性回归中预测值的置信区间形状
我注意到,线性回归中预测值的置信区间在预测器的平均值附近趋于狭窄,在预测器的最小值和最大值附近趋于胖。这可以从以下4个线性回归的图中看出: 我最初认为这是因为大多数预测变量的值都集中在预测变量的均值附近。但是,我然后注意到,即使许多的值集中在预测变量的极值附近,也会出现置信区间的狭窄中间,如左下方线性回归所示,预测变量的哪些值集中在预测值的最小值附近。预测变量。 有谁能解释为什么线性回归预测值的置信区间在中间趋于狭窄而在极端处趋于肥胖?

4
在LM和GLM之间选择对数转换后的响应变量
我试图了解使用广义线性模型(GLM)与线性模型(LM)的原理。我在下面创建了一个示例数据集: 日志(y)= x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon 该示例的误差不随y的大小而变化,因此我假设对数转换的y的线性模型是最好的。在下面的示例中,确实是这种情况(我认为)-因为LM在对数转换后的数据上的AIC最低。具有对数链接功能的Gamma分布GLM的AIC具有较低的平方和(SS),但是附加的自由度会导致AIC稍高。我惊讶于高斯分布AIC如此之高(即使SS是模型中最低的)。εε\varepsilonÿyy 我希望就何时应该使用GLM模型获得一些建议-即我应该在LM模型拟合残差中寻找一些东西来告诉我另一种分布更合适吗?另外,应该如何选择合适的分销家庭。 在此先感谢您的帮助。 [编辑]:我现在调整了摘要统计信息,以便对数转换后的线性模型的SS与具有对数链接功能的GLM模型相当。现在显示统计图。 例 set.seed(1111) n <- 1000 y <- rnorm(n, mean=0, sd=1) y <- exp(y) hist(y, n=20) hist(log(y), n=20) x <- log(y) - rnorm(n, mean=0, sd=1) hist(x, n=20) df <- data.frame(y=y, x=x) df2 <- data.frame(x=seq(from=min(df$x), to=max(df$x),,100)) #models mod.name <- …

4
快速线性回归对异常值具有鲁棒性
我正在处理具有离群值的线性数据,其中一些离估计回归线的距离至少是5个标准差。我正在寻找一种线性回归技术,以减少这些点的影响。 到目前为止,我所做的是估计所有数据的回归线,然后丢弃残差非常大的平方(例如前10%)的数据点,并在没有这些点的情况下重复进行回归。 在文献中,有很多可能的方法:最小限度的平方,分位数回归,m估计量等。我真的不知道我应该尝试哪种方法,因此我正在寻找建议。对我来说重要的是,选择的方法应该快速,因为会在优化例程的每个步骤中计算出稳健的回归。非常感谢!

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
Y必须服从正态分布的误解来自何处?
看似有信誉的消息来源声称因变量必须正态分布: 模型假设:是正态分布,误差是正态分布,,并且是独立的,并且是固定的,并且是恒定方差。YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 宾夕法尼亚州立大学,STAT 504离散数据分析 其次,线性回归分析要求所有变量均为多元正态。 统计解决方案,线性回归假设 当响应变量具有正态分布时,这是适当的 维基百科,广义线性模型 对于这种误解如何或为何蔓延,有很好的解释吗?它的起源已知吗? 有关 线性回归和关于响应变量的假设

3
在多元回归模型中具有相关的预测变量有什么影响?
我在线性模型课程中了解到,如果两个预测变量相关,并且两个预测变量都包含在模型中,那么一个预测变量将是不重要的。例如,假设房屋的大小和卧室的数量是相关的。当使用这两个预测器预测房屋成本时,可以放弃其中一个,因为它们都提供了大量相同的信息。从直觉上讲,这是有道理的,但是我还有一些技术问题: 当仅在模型中包含一个或两个预测变量时,这种影响如何在回归系数的p值中体现出来? 通过在模型中包括两个预测变量或仅包含一个预测变量,如何影响回归系数的方差? 我怎么知道模型将选择不太重要的预测变量? 仅包含一个或两个预测变量如何改变我的预测成本的价值/差异?

3
为什么多项式回归被视为多元线性回归的特例?
如果多项式回归建模非线性关系,那么如何将其视为多元线性回归的特殊情况? Wikipedia指出:“尽管多项式回归将非线性模型拟合到数据中,但作为统计估计问题,它是线性的,这是因为在估计的未知参数中回归函数是线性的从数据中。”E(y|x)E(y|x)\mathbb{E}(y | x) 如果参数是 2 阶项的系数,则多项式回归如何在未知参数中线性化?≥≥\ge

3
简单线性回归中回归系数的导数方差
在简单的线性回归,我们有y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + u,其中u∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)。我导出的估计: β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , 其中x¯x¯\bar{x}和y¯y¯\bar{y}是的样本均值xxx和yyy。 现在,我想找到的方差β 1。我衍生像下面这样: 无功(^ β 1)= σ 2(1 - 1β^1β^1\hat\beta_1Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . 推导如下: Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , …

2
我怎么知道哪种交叉验证最好?
我试图找出哪种交叉验证方法最适合我的情况。 以下数据只是解决问题的一个示例(R中),但我的真实X数据(xmat)相互关联,并且与y变量(ymat)的关联程度不同。我提供了R代码,但我的问题不是关于R而是关于方法。Xmat包含X个变量V1至V100,而ymat包含单个y变量。 set.seed(1233) xmat <- matrix(sample(-1:1, 20000, replace = TRUE), ncol = 100) colnames(xmat) <- paste("V", 1:100, sep ="") rownames(xmat) <- paste("S", 1:200, sep ="") # the real y data are correlated with xmat ymat <- matrix(rnorm(200, 70,20), ncol = 1) rownames(ymat) <- paste("S", 1:200, sep="") 我想y根据中的所有变量建立一个预测模型xmat。因此它将是一个线性回归模型y ~ V1 + …

5
如果我的线性回归数据包含多个混合线性关系,该怎么办?
假设我正在研究水仙花对各种土壤条件的反应。我收集了有关土壤pH值与水仙花成熟高度的数据。我期望线性关系,所以我开始进行线性回归。 但是,当我开始研究时,并没有意识到该种群实际上含有两种水仙花,每种水仙花对土壤pH的反应都非常不同。因此,该图包含两个不同的线性关系: 当然,我可以盯着它并手动将其分离。但我想知道是否有更严格的方法。 问题: 是否有统计检验来确定一个数据集适合单行还是N行? 如何运行线性回归以拟合N条线?换句话说,如何解开混合数据? 我可以想到一些组合方法,但它们在计算上似乎很昂贵。 说明: 在数据收集时,尚不存在两种变体。未观察到,未记录和未记录每种水仙花的变化。 无法恢复此信息。自收集数据以来,水仙花已经死亡。 我的印象是,该问题类似于应用集群算法,因为您几乎需要在开始之前就知道集群的数量。我相信,使用任何数据集,增加行数将减少总均方根误差。在极端情况下,您可以将数据集分为任意对,并在每对之间画一条线。(例如,如果您有1000个数据点,则可以将它们分成500对任意对,并在每对之间画一条线。)拟合将是精确的,并且rms误差将恰好为零。但这不是我们想要的。我们想要“正确”的行数。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.