Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

4
快速线性回归对异常值具有鲁棒性
我正在处理具有离群值的线性数据,其中一些离估计回归线的距离至少是5个标准差。我正在寻找一种线性回归技术,以减少这些点的影响。 到目前为止,我所做的是估计所有数据的回归线,然后丢弃残差非常大的平方(例如前10%)的数据点,并在没有这些点的情况下重复进行回归。 在文献中,有很多可能的方法:最小限度的平方,分位数回归,m估计量等。我真的不知道我应该尝试哪种方法,因此我正在寻找建议。对我来说重要的是,选择的方法应该快速,因为会在优化例程的每个步骤中计算出稳健的回归。非常感谢!

1
Scikit学习中的一键式与虚拟编码
编码分类变量有两种不同的方法。假设一个分类变量具有n个值。一键编码将其转换为n个变量,而伪编码将其转换为n-1个变量。如果我们有k个分类变量,每个分类变量都有n个值。一种热编码以kn个变量结束,而伪编码以kn-k个变量结束。 我听说对于一键编码,拦截会导致共线性问题,这会使模型不可靠。有人称其为“ 虚拟变量陷阱 ”。 我的问题: Scikit-learn的线性回归模型允许用户禁用拦截。因此,对于一键编码,我应该始终设置fit_intercept = False吗?对于虚拟编码,fit_intercept应该始终设置为True吗?我在网站上没有看到任何“警告”。 由于一键编码会生成更多变量,因此它是否比伪编码具有更大的自由度?


4
为什么方差分析等同于线性回归?
我读到方差分析和线性回归是一回事。考虑到方差分析的输出是一些值和一些值,您将基于该结论得出结论,即样本在不同样本中的均值是相同还是不同。pFFFppp 但是,假设均值不相等(拒绝零假设),则ANOVA不会告诉您有关线性模型系数的任何信息。那么线性回归与ANOVA有何相同?
50 regression  anova 


7
简单线性回归中切换响应和解释变量的影响
假设yyy和之间存在某种“真实”关系,xxx使得y=ax+b+ϵy=ax+b+ϵy = ax + b + \epsilon,其中和是常数,是同等噪声。当我从那个R代码随机生成数据时:然后适合一个模型,显然,我得到和合理估计。b ϵaaabbbϵϵ\epsilonx <- 1:100; y <- ax + b + rnorm(length(x))y ~ xaaabbb 如果我在切换变量的作用(x ~ y),但是,然后重写结果为是的函数,将得到的斜率总是更陡比由所估计的(或更负或更积极的)回归。我正在尝试确切地理解为什么会这样,如果有人能给我关于那里发生的事情的直觉,我将不胜感激。yyyxxxy ~ x
48 regression 

7
经验丰富的开发人员从何处开始统计
在2015年上半年,我参加了机器学习课程(由GREAT课程的Andrew Ng 撰写)。并学习了机器学习的基础知识(线性回归,逻辑回归,SVM,神经网络...) 我也是开发人员已有10年了,因此学习一种新的编程语言将不是问题。 最近,我开始学习R以实现机器学习算法。 但是我已经意识到,如果我想继续学习,我将需要更正式的统计学知识,目前我对它不是一个正规的知识,但是由于其局限性,例如,我无法正确确定几个线性模型中的哪个会更好(通常我倾向于使用R平方,但显然这不是一个好主意)。 因此,对我来说,很明显我需要学习统计学的基础知识(我是在uni上学习的,但是却忘记了大部分),我应该在哪里学习,请注意,我实际上并不需要一门全面的课程一个月之内就可以让我了解足够的知识,这样我就可以渴望并了解更多:)。 到目前为止,我已经阅读了有关“ 无泪统计 ”的信息,还有其他建议吗?

11
是否可以在不使用绘图和线性代数的情况下完成简单的线性回归?
我完全是盲人,来自编程背景。 我想做的是学习机器学习,为此,我首先需要学习线性回归。我在互联网上找到的有关该主题的所有说明都首先绘制了数据。我正在寻找不依赖于图和图的线性回归的实用解释。 这是我对简单线性回归的目标的理解: 简单的线性回归试图找到一旦给出的公式,即可X为您提供最接近的估算值Y。 因此,据我所知,需要做的是将预测变量(例如,以平方英尺为单位的房屋面积)与自变量(价格)进行比较。在我的示例中,您可能可以创建一种非可视的方法,以获取最佳公式以从房屋面积计算房屋价格。例如,也许您会得到附近一千套房屋的面积和价格,然后将价格除以面积?结果(至少在我所居住的伊朗)差异很小。因此,您可能会得到以下信息: Price = 2333 Rials * Area of the house 当然,您将需要遍历数据集中的所有1000栋房屋,将面积放在上面的公式中,将估算值与实际价格进行比较,对结果求平方(我想防止差异互相抵消)然后获取一个数字,然后继续使用2333来减少错误。 当然,这是蛮力选择,可能需要花费很多时间才能计算出错误并得出最佳选择,但是您明白我的意思了吗?我没有说任何关于图形,线条,情节上的点的信息,也不是将线条拟合到现有数据的最佳方法。 那么,为什么要为此需要散点图和线性代数呢?有没有非视觉的方式? 首先,我的假设正确吗?如果没有,我希望得到纠正。我是否可以在不使用线性代数的情况下提出公式? 如果能得到一个带有解释的示例,我将不胜感激,以便我可以将其与文字一起使用以检验我的理解。

2
样条曲线是否适合数据?
我的问题:我最近遇到了一位统计学家,他告诉我样条线仅对探索数据有用,并且过度拟合,因此对预测没有用。他更喜欢使用简单的多项式进行探索...由于我是样条曲线的忠实拥护者,因此与我的直觉相违背,我有兴趣了解这些论证的有效性,以及是否存在大量的反样条曲线,维权人士在那里? 背景:创建模型时,我尝试遵循回归建模策略(1)的Frank Harrell。他认为受限三次样条是探索连续变量的有效工具。他还认为,多项式在建模某些关系(例如阈值,对数(2))方面很差。为了测试模型的线性,他建议对样条曲线进行ANOVA测试: H0:β2=β3=…=βk−1=0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 我用谷歌搜索样条曲线的过度拟合,但没有发现太多用处(除了关于不使用过多结的一般警告之外)。在这个论坛上,似乎更喜欢样条线建模,Kolassa,Harrell和gung。 我找到了一篇有关多项式的博文,这是有关预测多项式的过拟合的魔鬼。该帖子以以下评论结尾: 在某种程度上,这里提供的示例是作弊的-多项式回归是高度不稳健的。在实践中,更好的方法是使用样条线而不是多项式。 现在,这提示我检查样条的效果如何: library(rms) p4 <- poly(1:100, degree=4) true4 <- p4 %*% c(1,2,-6,9) days <- 1:70 set.seed(7987) noise4 <- true4 + rnorm(100, sd=.5) reg.n4.4 <- lm(noise4[1:70] ~ poly(days, 4)) reg.n4.4ns <- lm(noise4[1:70] ~ ns(days,4)) dd <- …

5
如果两组的t检验和ANOVA相等,为什么它们的假设不相等?
我确定我已经完全把它包裹在头上了,但是我只是想不通。 t检验使用Z分布比较两个正态分布。这就是为什么DATA中存在正常性的原因。 与OLS一样,ANOVA等效于具有虚拟变量的线性回归,并且使用平方和。这就是为什么存在RESIDUALS正常性的假设。 我花了几年的时间,但我认为我终于掌握了这些基本事实。那么为什么t检验等同于两组ANOVA?如果他们甚至不对数据假设相同的东西,怎么能等效呢?

5
了解回归-模型的作用
如果您不知道要为其获取参数的函数,那么回归模型有什么用? 我看到一项研究说,母乳喂养孩子的母亲在以后的生活中患糖尿病的可能性较小。该研究来自对约1000名母亲的调查,并控制了其他因素,并使用了对数线性模型。 现在这是否意味着他们认为确定糖尿病可能性的所有因素都符合一个很好的功能(可能是指数形式),可以很好地转化为具有对数的线性模型,并且证明母乳喂养的女性是否具有统计学意义? 我肯定会丢失一些东西,但是,他们到底怎么知道这个模型的?

4
什么是对比度矩阵?
什么究竟是对比矩阵(一个术语,关于与分类预测分析),以及如何准确地进行对比矩阵指定?即什么是列,什么是行,对该矩阵的约束是什么,列j和行中的数字i是什么意思?我试图研究文档和网络,但似乎每个人都在使用它,但任何地方都没有定义。我可以对可用的预定义对比进行后向工程,但是我认为没有该定义就应该可用。 > contr.treatment(4) 2 3 4 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 > contr.sum(4) [,1] [,2] [,3] 1 1 0 0 2 0 1 0 3 0 0 1 4 -1 -1 -1 > contr.helmert(4) [,1] [,2] [,3] 1 -1 …


3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
Y必须服从正态分布的误解来自何处?
看似有信誉的消息来源声称因变量必须正态分布: 模型假设:是正态分布,误差是正态分布,,并且是独立的,并且是固定的,并且是恒定方差。YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 宾夕法尼亚州立大学,STAT 504离散数据分析 其次,线性回归分析要求所有变量均为多元正态。 统计解决方案,线性回归假设 当响应变量具有正态分布时,这是适当的 维基百科,广义线性模型 对于这种误解如何或为何蔓延,有很好的解释吗?它的起源已知吗? 有关 线性回归和关于响应变量的假设

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.