Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

1
使用Bootstrap估计回归系数置信区间的两种方法
我正在对数据应用线性模型: ÿ一世= β0+ β1个X一世+ ϵ一世,ϵ一世〜ñ(0 ,σ2)。ÿ一世=β0+β1个X一世+ϵ一世,ϵ一世〜ñ(0,σ2)。 y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}, \quad\epsilon_{i} \sim N(0,\sigma^{2}). 我想使用自举方法来估计系数(,)的置信区间(CI)。我可以通过两种方式应用bootstrap方法: β 1β0β0\beta_{0}β1个β1个\beta_{1} 配对响应预测器样本:对对进行随机重采样,并将线性回归应用于每次运行。后跑,我们得到的估计系数的集合。最后,计算的分位数。中号^ β Ĵ,Ĵ = 1 ,。。。米^ β Ĵÿ一世− x一世ÿ一世-X一世y_{i}-x_{i}米米mβĴ^,Ĵ = 1 ,。。。米βĴ^,Ĵ=1个,。。。米{\hat{\beta_{j}}}, j=1,...mβĴ^βĴ^{\hat{\beta_{j}}} 样本误差:首先对原始观测数据应用线性回归,从该模型中我们获得和误差。然后,对误差随机重采样,并使用和 。再次应用线性回归。后跑,我们得到估计coefficeints集合。最后,计算的分位数。βØ^βØ^\hat{\beta_{o}}ϵ一世ϵ一世\epsilon_{i}ϵ∗一世ϵ一世∗\epsilon^{*}_{i}βØ^βØ^\hat{\beta_{o}}ÿ∗一世= βØ^X一世+ ϵ∗一世ÿ一世∗=βØ^X一世+ϵ一世∗y^{*}_{i}=\hat{\beta_{o}}x_{i}+\epsilon^{*}_{i}米米mβĴ^,Ĵ = 1 ,。。。,米βĴ^,Ĵ=1个,。。。,米{\hat{\beta_{j}}}, j=1,...,mβĴ^βĴ^{\hat{\beta_{j}}} 我的问题是: 这两种方法有何不同? 在哪种假设下这两种方法给出的结果相同?

3
如何计算glm(R)的拟合优度
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 6年前。 我从运行glm函数得到以下结果。 我如何解释以下值: 零偏差 残余偏差 AIC 他们和健康的好处有关吗?我可以根据这些结果(例如R平方或其他任何度量)来计算拟合优度吗? Call: glm(formula = tmpData$Y ~ tmpData$X1 + tmpData$X2 + tmpData$X3 + as.numeric(tmpData$X4) + tmpData$X5 + tmpData$X6 + tmpData$X7) Deviance Residuals: Min 1Q Median 3Q Max -0.52628 -0.24781 -0.02916 0.25581 0.48509 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept -1.305e-01 …

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

5
在两个变量的对数之间具有线性关系的直观含义是什么?
我有两个变量,当按原样相互绘制时,它们并没有显示出太多的相关性,但是当我绘制每个变量的对数时,它们之间却呈现出非常清晰的线性关系。 所以我最终得到一个类型的模型: log(Y)=alog(X)+blog⁡(Y)=alog⁡(X)+b\log(Y) = a \log(X) + b,在数学上很棒,但是似乎没有常规线性模型的解释价值。 如何解释这样的模型?


1
从贝叶斯网络到神经网络:如何将多元回归转换为多输出网络
我正在处理贝叶斯层次线性模型,这里是描述它的网络。 ÿYY代表超市中某产品的每日销售额(已观察)。 XXX是已知的回归矩阵,包括价格,促销,星期几,天气,假期。 1小号SS是每种产品的未知潜在库存水平,这会导致最多的问题,并且我认为是二进制变量的向量,每个产品一个,其中表示缺货,因此该产品不可用。 即使在理论上未知,我也通过HMM对每个产品进行了估算,因此可以将其视为X。我只是为了适当的形式主义而决定对它进行着色。1个11 ηη\eta是任何单个产品的混合效果参数,其中考虑的混合效果是产品价格,促销和缺货。 b 1 b 2ββ\beta是固定回归系数的向量,而和是混合效应系数的向量。一组代表品牌,另一组代表风味(这是一个例子,实际上我有很多组,但是为了清楚起见,这里我只报告两个)。b1个b1b_1b2b2b_2 Σ b 1 Σ b 2ΣηΣη\Sigma_{\eta},和是混合效果的超参数。Σb1个Σb1\Sigma_{b_1}Σb2Σb2\Sigma_{b_2} 因为我有计数数据,所以可以说我将每个产品的销售额都视泊松分布在回归变量上的条件而定(即使对于某些产品,线性近似成立,而对于其他产品,零膨胀模型更好)。在这种情况下,我将有一个乘积(这仅适用于那些对贝叶斯模型本身感兴趣的人,如果您发现它不感兴趣或不琐碎,请跳至该问题:)):ÿYY Ση〜我w ^(α0,γ0)Ση∼IW(α0,γ0)\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0) Σb1个〜我w ^(α1个,γ1个)Σb1∼IW(α1,γ1)\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1) α 0,γ 0,α 1,γ 1,α 2,γ 2Σb2〜我w ^(α2,γ2)Σb2∼IW(α2,γ2)\Sigma_{b_2} \sim IW(\alpha_2,\gamma_2),已知。α0,γ0,α1个,γ1个,α2,γ2α0,γ0,α1,γ1,α2,γ2\alpha_0,\gamma_0,\alpha_1,\gamma_1,\alpha_2,\gamma_2 η〜ñ(0,Ση)η∼N(0,Ση)\eta \sim N(\mathbf{0},\Sigma_{\eta}) b1个〜ñ(0,Σb1个)b1∼N(0,Σb1)b_1 \sim N(\mathbf{0},\Sigma_{b_1}) b2〜ñ(0,Σb2)b2∼N(0,Σb2)b_2 \sim N(\mathbf{0},\Sigma_{b_2}) Σ ββ〜ñ(0,Σβ)β∼N(0,Σβ)\beta \sim N(\mathbf{0},\Sigma_{\beta}),已知。ΣβΣβ\Sigma_{\beta} λ吨我Ĵ ķ= …

1
为什么LASSO在高维度上找不到我的理想预测变量对?
我正在R中进行LASSO回归的小型实验,以测试它是否能够找到理想的预测变量对。该对的定义如下:f1 + f2 =结果 这里的结果是称为“年龄”的预定向量。通过取年龄向量的一半并将其余值设置为0,可以创建F1和f2,例如:age = [1,2,3,4,5,6],f1 = [1,2,3, 0,0,0]和f2 = [0,0,0,4,5,6]。通过从正态分布N(1,1)进行采样,我将此预测变量对与数量增加的随机创建变量结合在一起。 我看到的是当我命中2 ^ 16个变量时,LASSO再也找不到了。请参阅下面的结果。 为什么会这样呢?您可以使用以下脚本重现结果。我注意到,当我选择其他年龄向量时,例如:[1:193],LASSO确实找到了高维(> 2 ^ 16)对。 剧本: ## Setup ## library(glmnet) library(doParallel) library(caret) mae <- function(errors){MAE <- mean(abs(errors));return(MAE)} seed = 1 n_start <- 2 #start at 2^n features n_end <- 16 #finish with 2^n features cl <- …

5
多元回归的假设:正态性假设与恒定方差假设有何不同?
我读到这些是使用多元回归模型的条件: 模型的残差几乎是正常的, 残差的变异性几乎恒定 残差是独立的,并且 每个变量都与结果线性相关。 1和2有何不同? 您可以在这里看到一个: 因此,上图表明,相距2个标准差的残差与Y帽相距10个。这意味着残差遵循正态分布。您不能从中推断出2吗?残差的变异性几乎恒定吗?

1
逐步回归引起的咆哮
我很了解回归模型中逐步/向前/向后选择的问题。有许多研究人员谴责这些方法并指出更好的选择。我很好奇是否存在任何统计分析的故事: 使用逐步回归; 根据最终模型得出了一些重要结论 结论是错误的,对个人,研究或组织产生负面影响 我的想法是,如果逐步方法不好,那么使用它们在“现实世界”中应该会有后果。

2
F统计遵循F分布的证明
鉴于这个问题:证明OLS模型中的系数服从具有(nk)自由度的t分布 我很想知道为什么 F=(TSS−RSS)/(p−1)RSS/(n−p),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, 其中是模型参数的数量,是观测值的数量,是总方差,是残差,遵循分布。Ñ Ť 小号小号ř 小号小号˚F p - 1 ,ñ - ppppnnnTSSTSSTSSRSSRSSRSSFp−1,n−pFp−1,n−pF_{p-1,n-p} 我必须承认,我什至没有尝试证明这一点,因为我不知道从哪里开始。


5
使用正则化算法时,我们仍然需要进行特征选择吗?
关于运行统计学习算法之前是否需要使用特征选择方法(随机森林特征重要性值或单变量特征选择方法等),我有一个问题。 我们知道,为避免过度拟合,我们可以对权重向量引入正则化惩罚。 因此,如果要进行线性回归,则可以引入L2或L1甚至弹性网正则化参数。为了获得稀疏解,L1惩罚有助于特征选择。 然后,是否仍需要在运行L1正则化或回归(例如Lasso)之前进行特征选择?从技术上讲,套索正在帮助我减少L1损失,那么为什么在运行算法之前需要选择特征? 我读了一篇研究文章,说先做Anova再做SVM比单独使用SVM可以提供更好的性能。现在的问题是:SVM本质上使用L2规范进行正则化。为了最大化裕量,它正在最小化权重向量范数。因此,它正在对其目标函数进行正则化。那么从技术上讲,诸如SVM之类的算法就不应该困扰于特征选择方法吗?但是该报告仍然说,在普通SVM功能更强大之前进行Univariate Feature选择。 有想法的人吗?

1
边际效应标准误差如何使用增量法?
我有兴趣更好地理解delta方法,以近似包括交互项的回归模型的平均边际效应的标准误差。我已经研究了增量方法下的相关问题,但没有一个提供了我想要的东西。 考虑以下示例数据作为激励示例: set.seed(1) x1 <- rnorm(100) x2 <- rbinom(100,1,.5) y <- x1 + x2 + x1*x2 + rnorm(100) m <- lm(y ~ x1*x2) 我感兴趣的平均边际效应(AMES)x1和x2。为了计算这些,我只需执行以下操作: cf <- summary(m)$coef me_x1 <- cf['x1',1] + cf['x1:x2',1]*x2 # MEs of x1 given x2 me_x2 <- cf['x2',1] + cf['x1:x2',1]*x1 # MEs of x2 given x1 mean(me_x1) …

1
如何在R的线性回归中获得均方误差的值
让由R函数lm获得的线性回归模型想知道是否可以通过均方误差命令获得。 我有一个示例的以下输出 > lm <- lm(MuscleMAss~Age,data) > sm<-summary(lm) > sm Call: lm(formula = MuscleMAss ~ Age, data = data) Residuals: Min 1Q Median 3Q Max -16.1368 -6.1968 -0.5969 6.7607 23.4731 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 156.3466 5.5123 28.36 <2e-16 *** Age -1.1900 0.0902 -13.19 <2e-16 *** --- …
20 r  regression  error 

3
针对某些值测试模型系数(回归斜率)
在R,当我有一个(广义)线性模型(lm,glm,gls,glmm,...),我怎样才能测试系数(回归斜率)对大于0的任何其它值?在模型摘要中,会自动报告系数的t检验结果,但仅用于与0进行比较。我想将其与另一个值进行比较。 我知道我可以使用一个小技巧与reparametrizing y ~ x为y - T*x ~ x,其中T是测试值,并运行此重新参数模型,但我追求简单的解决方案,这将可能在原有的模式工作。
20 r  regression  t-test 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.