Questions tagged «multiple-regression»

包含两个或多个非恒定自变量的回归。


2
通过多元回归捕获季节性以获取每日数据
我有一个季节性很强的产品的每日销售数据。我想在回归模型中捕获季节性。我已经读到,如果您有季度或每月数据,那么在这种情况下,您可以分别创建3和11个虚拟变量-但是我可以处理每日数据吗? 我有三年的每日数据。自变量是价格点,促销标志(是/否)和温度。因变量是该产品的销售额。我不是在寻找时间序列模型,而是在使用多元回归模型。

1
系数路径–岭,套索和弹性净回归的比较
我想比较使用脊线,套索和弹性网选择的模型。下图显示了使用所有三种方法的系数路径:山脊(图A,alpha = 0),套索(图B; alpha = 1)和弹性网(图C; alpha = 0.5)。最佳解决方案取决于所选的lambda值,该值是基于交叉验证选择的。 查看这些图时,我希望弹性网(图C)表现出分组效应。然而,目前情况尚不清楚。套索和弹性网的系数路径非常相似。这可能是什么原因?这仅仅是编码错误吗?我在R中使用了以下代码: library(glmnet) X<- as.matrix(mydata[,2:22]) Y<- mydata[,23] par(mfrow=c(1,3)) ans1<-cv.glmnet(X, Y, alpha=0) # ridge plot(ans1$glmnet.fit, "lambda", label=FALSE) text (6, 0.4, "A", cex=1.8, font=1) ans2<-cv.glmnet(X, Y, alpha=1) # lasso plot(ans2$glmnet.fit, "lambda", label=FALSE) text (-0.8, 0.48, "B", cex=1.8, font=1) ans3<-cv.glmnet(X, Y, alpha=0.5) # elastic net …


1
如何使用R计算临界t值?
抱歉,这是一个新问题。我正在尝试第一次自学统计学。我想我的基本过程已经停滞了,但是我很难用R执行它。 因此,我正在尝试评估形式的多元线性回归中回归系数的重要性 y^=Xβ^y^=Xβ^ \hat y = X \hat \beta 我认为用于测试的t统计量由H0:β^j=0,Ha:β^j≠0H0:β^j=0,Ha:β^j≠0H_0: \hat \beta_j = 0, H_a: \hat \beta_j \neq 0 t0=β^j−0se(β^j)=β^jσ^2Cjj−−−−−√=β^jCjjSSRes/(n−p)−−−−−−−−−−−−−−√t0=β^j−0se(β^j)=β^jσ^2Cjj=β^jCjjSSRes/(n−p)t_0 = \frac{\hat \beta_j - 0}{\text{se}(\hat \beta_j)} = \frac{\hat \beta_j}{\sqrt{\hat \sigma^2 C_{jj}}} = \frac{\hat \beta_j}{\sqrt{C_{jj} SS_{Res}/(n-p)}} 其中是对角线在条目。CjjCjjC_{jj}jthjthj^{th}(X′X)−1(X′X)−1(X'X)^{-1} 到目前为止,一切都很好。我知道如何使用R中的矩阵运算来计算所有这些值。但是为了拒绝null,这本书说我需要 |t0|>tα/2,n−p|t0|>tα/2,n−p|t_0| > t_{\alpha/2,n-p} 如何使用R 计算此临界值?tα/2,n−ptα/2,n−pt_{\alpha/2,n-p} 现在,我知道如何找到这些值的唯一方法是查看书后的表格。肯定有更好的办法。

3
研究人员1运行1000个回归,研究人员2仅运行1,两者都得到相同的结果-他们应该做出不同的推论吗?
想象一个研究人员正在探索一个数据集并运行1000个不同的回归,他发现其中一个有趣的关系。 现在想象一下,具有相同数据的另一位研究人员 仅进行了1次回归,结果发现另一位研究人员进行了1000次回归才能找到相同的结果。研究者2不认识研究者1。 研究人员1是否应做出与研究人员2不同的推论?为什么?例如,研究人员1应该执行多重比较校正,而研究人员2不应该执行多重比较校正吗? 如果研究人员2首先向您显示了他的单一回归,您将做出什么推论?如果该研究人员1向您显示了他的结果之后,您是否应该更改自己的推断?如果是这样,那为什么重要呢? PS 1:如果谈论假设研究者使问题变得抽象,请考虑一下:假设您使用最佳方法对论文进行了一次回归。然后,另一位研究人员使用相同的数据探索了1000种不同的回归,直到发现与您运行的完全相同的回归。你们两个应该推论吗?两种情况的证据是否相同?如果您知道其他研究人员的结果,是否应该更改自己的推论?公众应如何评估两项研究的证据? PS 2:请尽量具体,并在可能的情况下提供数学/理论上的依据!

1
用R计算的多元正交多项式是什么?
单变量点集中的正交多项式是在点上产生值的多项式,其点积和成对相关性为零。R可以产生具有函数poly的正交多项式。 相同的函数具有变式多项式,该变式在多变量点集上生成正交多项式。无论如何,所得的多项式在成对零相关的意义上是不正交的。实际上,由于一阶多项式应该只是原始变量,因此除非原始变量不相关,否则一阶多项式就不会是正交的。 然后,我的问题是: R中由polym计算的多元正交多项式是什么?它们只是单变量正交多项式的乘积吗?它们是用来干什么的? 可以存在真正的多元正交多项式吗?有没有简单的生产方法?在R中?它们实际用于回归吗? 更新资料 在回应Superpronker的评论时,我举一个例子说明不相关多项式的含义: > x<-rnorm(10000) > cor(cbind(poly(x,degree=3))) 1 2 3 1 1.000000e+00 -6.809725e-17 2.253577e-18 2 -6.809725e-17 1.000000e+00 -2.765115e-17 3 2.253577e-18 -2.765115e-17 1.000000e+00 多边形函数返回以点x评估的正交多项式(此处每个多项式为10,000点)。不同多项式上的值之间的相关性为零(存在一些数字误差)。 使用多元多项式时,相关性不为零: > x<-rnorm(1000) > y<-rnorm(1000) > cor(cbind(polym(x,y,degree=2))) 1.0 2.0 0.1 1.1 0.2 1.0 1.000000e+00 2.351107e-17 2.803716e-02 -0.02838553 3.802363e-02 2.0 2.351107e-17 1.000000e+00 -1.899282e-02 0.10336693 …

1
证明马氏距离与杠杆之间的关系?
我在维基百科上看到过公式。与马氏距离和杠杆有关: 马氏距离与杠杆统计Hhh密切相关,但具有不同的标度:d2= (N− 1 )(h − 1ñ)。D2=(N−1)(h−1N).D^2 = (N - 1)(h - \tfrac{1}{N}). 在链接的文章中,维基百科用以下术语描述了Hhh: 在该线性回归模型,用于杠杆得分一世Ť ^ hithi^{th}数据单位被定义为:H我我= (高)我我,hii=(H)ii,h_{ii}=(H)_{ii},在一世Ť ^ hithi^{th}帽子矩阵的对角元素H= X(X⊤X)− 1X⊤H=X(X⊤X)−1X⊤H=X(X^{\top}X)^{-1}X^{\top},其中⊤表示矩阵转置。⊤⊤^{\top} 我在任何地方都找不到证明。我试图从定义开始,但是没有任何进展。任何人都可以给出提示吗?

1
贝瑞反演
我拥有关于美国葡萄酒销售的大量市场数据集,我想估计对某些优质葡萄酒的需求。这些市场份额基本上来自于以下形式的随机效用模型: 其中包括观察到的产品特征,表示产品价格,是影响需求且与价格相关的未观察到的产品特征,是误差项,索引个人,索引产品和指数市场(在这种情况下为城市)。Uijt=X′jtβ−αpjt+ξjt+ϵijt≡δjt+ϵjtUijt=Xjt′β−αpjt+ξjt+ϵijt≡δjt+ϵjtU_{ijt} = X’_{jt}\beta - \alpha p_{jt} + \xi_{jt} + \epsilon_{ijt} \equiv \delta_{jt} + \epsilon_{jt}XXXξ ε 我Ĵ 吨pppξξ\xiϵϵ\epsiloniiijjjttt 由于无法使用质量术语,因此我无法使用通常的条件logit模型,并且我没有好的仪器。但是,Berry(1994)开发了一种在多项式logit框架中线性化市场方程组非线性系统的策略,但我无法弄清楚他如何进行反演步骤。ξξ\xi 在真正的参数值,他说,估计市场份额应该等于“真实的”市场份额:为然后他建议将市场份额从 为 可以解决并将其消除。如果有人可以阐明该反演步骤的工作原理,甚至可以在Stata中实现它,那就太好了。非常感谢。小号Ĵ吨=小号 Ĵ吨(δ,α,β)δ=小号 -1(小号,α,β)ξsˆjt(X,β,α,ξ)=Sjts^jt(X,β,α,ξ)=Sjt\widehat{s}_{jt} (X, \beta , \alpha , \xi) = S_{jt}Sjt=sˆjt(δ,α,β)Sjt=s^jt(δ,α,β)S_{jt} = \widehat{s}_{jt}(\delta , \alpha , \beta)δ=sˆ−1(S,α,β)δ=s^−1(S,α,β)\delta = \widehat{s}^{-1}(S, \alpha, \beta)ξξ\xi Berry,ST 1994,“估计产品差异的离散选择模型”,兰德经济学期刊,第25卷,第2期,第242-62页

1
多重共线性和样条回归是否存在问题?
当使用自然的(即受限制的)三次样条曲线时,创建的基函数是高度共线性的,当在回归中使用时,似乎会产生非常高的VIF(方差膨胀因子)统计数据,表示多重共线性。当出于预测目的考虑模型的情况时,这是一个问题吗?由于样条线构造的性质,似乎总是这样。 这是R中的示例: library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 0.9109491 0.9969515 0.9989905 1.0000000 mod<-glm(class~.,data=dat,family=binomial()) #model vif(mod) #massively high OUTPUT: x V2 V3 V4 …


1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
LASSO回归系数的解释
我目前正在为具有约300个变量和800个观察值的数据集构建二进制结果的预测模型。我已经在该站点上阅读了很多有关逐步回归相关问题以及为什么不使用它的知识。 我一直在阅读LASSO回归及其功能选择功能,并已成功使用“插入符号”包和“ glmnet”实现了它。 我能够提取与优化模型的系数lambda,并alpha从“插入符号”; 但是,我不熟悉如何解释系数。 LASSO系数的解释方法是否与逻辑回归相同? 在逻辑回归中使用从LASSO中选择的特征是否合适? 编辑 系数的解释(如LASSO回归的指数系数一样)是系数保持1个单位变化时的对数赔率,同时保持所有其他系数不变。 https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpreting-odds-ratios-in-logistic-regression/


1
为什么不每次都进行强大的回归?
此页面的示例表明,简单回归明显受到异常值的影响,可以通过鲁棒回归技术来克服:http : //www.alastairsanderson.com/R/tutorials/robust-regression-in-R/ 。我相信lmrob和ltsReg是其他强大的回归技术。 为什么不应该每次都不进行鲁棒回归(例如rlm或rq),而不是执行简单回归(lm)?这些强大的回归技术有什么缺点吗?感谢您的见解。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.