Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

4
麦克法登的伪R2解释
我有一个二进制逻辑回归模型,其麦克法登(McFadden)的伪R平方为0.192,有一个称为支付的因变量(1 =付款,0 =不付款)。这个伪R平方的解释是什么? 它是嵌套模型的相对比较(例如,一个6变量模型的McFadden伪R平方为0.192,而一个5变量模型(从上述6变量模型中删除一个变量后),该5变量模型具有伪R -平方为0.131。我们是否要在模型中保留第6个变量?)还是它是绝对数量(例如,给定模型的McFadden伪R平方为0.192,比任何现有的模型都具有McFadden伪模型更好) R平方为0.180(甚至对于非嵌套模型也是如此)?这些只是查看McFadden的伪R平方的可能方法;但是,我认为这两种观点相距遥远,因此我在这里提出此问题的原因。 我已经对该主题进行了大量研究,但仍无法找到我想要的答案,因为它能够解释McFadden的0.192伪R平方。任何见解和/或参考将不胜感激!在回答这个问题之前,我知道这不是描述逻辑回归模型的最佳方法,但是无论如何,我都希望对这一统计信息有更深入的了解!


3
使用scikit-learn进行多项式回归
我正在尝试使用scikit-learn进行多项式回归。从我的理解中,多项式回归是线性回归的特例。我希望可以对scikit的广义线性模型之一进行参数化以适合高阶多项式,但是我认为没有选择的余地。 我确实设法使用了支持向量回归器和多核。这对我的数据子集效果很好,但是要适应较大的数据集需要花费很长时间,因此我仍然需要更快地找到某些东西(即使以某种精度进行交易)。 我在这里错过明显的东西吗?

4
您如何解释RMSLE(均方根对数误差)?
我一直在进行机器学习竞赛,他们使用RMSLE(均方根对数误差)评估性能,从而预测一类设备的销售价格。问题是我不确定如何解释最终结果的成功。 例如,如果我达到了的RMSLE,是否可以将它的指数幂提高并像rmse一样解释它?(即)?e e 1.052 = 2.863 = R M S E1.0521.0521.052ËËeË1.052= 2.863 = R M小号ËË1.052=2.863=[R中号小号Ëe^{1.052}=2.863=RMSE 然后,我能否说我的预测平均为实际价格的?还是有更好的方法来解释指标?还是除了与其他模型的其他RMSLE进行比较外,甚至可以完全解释该指标? ± $ 2.863±$2.863\pm \$2.863

3
R:尽管数据集中没有NaN,随机森林仍在“外部函数调用”错误中抛出NaN / Inf [关闭]
我正在使用插入符号在数据集上运行交叉验证的随机森林。Y变量是一个因素。我的数据集中没有NaN,Inf或NA。但是,当运行随机森林时,我得到 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …


1
当不满足假设时,回归模型有多不正确?
在拟合回归模型时,如果不满足输出的假设,将会发生什么,特别是: 如果残差不均等会怎样?如果残差在残差与拟合图中显示出增加或减少的模式。 如果残差不是正态分布并且未通过Shapiro-Wilk检验,会发生什么?Shapiro-Wilk正态性检验是一个非常严格的检验,有时,即使Normal-QQ图看起来有些合理,数据也无法通过检验。 如果一个或多个预测变量不是正态分布,在正态QQ图上看起来不正确,或者数据未通过Shapiro-Wilk检验,该怎么办? 我知道没有硬的黑白划分,0.94是正确的,而0.95是错误的,在这个问题上,我想知道: 未能通过正态性意味着对于根据R-Squared值而言非常合适的模型。它变得不那么可靠,还是完全没有用? 偏差在多大程度上可以接受,或者完全可以接受? 当对数据应用转换以满足正态性标准时,如果数据更正常(Shapiro-Wilk测试中的P值较高,正常QQ图上的外观更好),或者该模型无用(等效值或比原始版本差),直到数据通过正常性测试?

1
为什么我得出的封闭套索解决方案不正确?
套索问题具有封闭形式的解决方案:\ beta_j ^ {\ text {lasso}} = \ mathrm {sgn}(\ beta ^ {\ text {LS}} _ j)(| \ beta_j ^ {\ text {LS }} |-\\ alpha)^ +( 如果X具有正交列)。这在以下线程中得到了证明:封闭形式套索解决方案的派生。β 套索 Ĵ = 小号克Ñ(β LS Ĵ)(| β LS Ĵ | - α )+ Xβlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= …

5
违反线性回归的同调假设的危险是什么?
例如,考虑ChickWeightR中的数据集。方差明显随时间增长,因此,如果我使用简单的线性回归,例如: m <- lm(weight ~ Time*Diet, data=ChickWeight) 我的问题: 该模型的哪些方面值得怀疑? 问题是否仅限于在Time范围外推断? 线性回归对这种假设的违反有多大的容忍度(即必须引起异方差才能引起问题)?

4
GLM的伪R平方公式
我在《用R扩展线性模型》一书朱利安·J·法拉维(第59页)中找到了伪的公式。[R2[R2R^2 1 - ResidualDeviance空距离1个-残差空距离1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}。 这是GLM的伪的通用公式吗?[R2[R2R^2


1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

6
为什么我们需要多元回归(而不是一堆单变量回归)?
我刚刚浏览了这本精彩的书:Johnson和Wichern的应用多元统计分析。具有讽刺意味的是,我仍然无法理解使用多变量(回归)模型而不是单独的单变量(回归)模型的动机。我经历了stats.statexchange帖子1和2,它们解释了(a)多元回归和多元回归之间的差异和(b)多元回归结果的解释,但是我无法根据所有信息调整使用多元统计模型上网了解他们。 我的问题是: 为什么我们需要多元回归?为了得出推论,同时考虑结果而不是单独考虑结果的好处是什么。 何时使用多元模型以及何时使用多个单变量模型(针对多个结果)。 举一个在UCLA网站上给出的例子,它具有三个结果:控制源,自我概念和动机。关于1.和2.,当我们进行三个单变量多元回归与一个多元多元回归时,我们可以比较分析吗?如何证明彼此的正当性? 我还没有碰到很多利用多元统计模型的学术论文。这是因为存在多元正态性假设,模型拟合/解释的复杂性还是任何其他特定原因?

3
为什么居中的自变量可以适度改变主效应?
受这个CV线程的启发,我有一个与多元回归和交互相关的问题:使用中心变量分层回归分析的交互项?我们应该集中哪些变量? 在检查调节效果时,我将我的自变量居中并乘以居中的变量,以计算出交互项。然后,我进行回归分析,并检查主要影响和相互作用影响,这可能表明存在中度影响。 如果我重做分析而没有居中,则确定系数(R2R2R^2)显然不会改变,而回归系数(ββ\beta)会改变。这似乎很清楚而且合乎逻辑。 我不了解的是:主要效果的p值会随着居中而发生实质性变化,尽管交互作用并没有(正确)。因此,我对主要影响的解释可能会发生巨大变化-取决于是否居中。(在两次分析中,它仍然是相同的数据!) 有人可以澄清吗?-因为那将意味着使变量居中的选项是强制性的,因此每个人都应该这样做以使用相同的数据获得相同的结果。 非常感谢您分发该问题以及您的全面解释。请放心,非常感谢您的帮助! 对我来说,居中的最大优势是避免多重共线性。建立规则是否居中仍然令人困惑。我的印象是,尽管这样做有一些“风险”,但大多数资源都建议以中心为中心。我再次想指出一个事实,两位处理相同材料和数据的研究人员可能得出不同的结果,因为一个人居中而另一个人居中。我刚刚读过Bortz(他曾是德国和欧洲的教授,并且是统计之星)的书的一部分,他甚至没有提到这种技术。只是指出在涉及变量时要特别注意解释变量的主要作用。 毕竟,当您使用一个IV,一个主持人(或第二个IV)和DV进行回归时,您是否建议居中?

2
为什么RSS分布卡方数np?
我想了解为什么在OLS模型下RSS(残差平方和)分布为(是模型中参数的数量,是观测值的数量)。χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p)pppnnn 对于提出这样的基本问题,我深表歉意,但似乎无法在线(或在我的面向应用程序的教科书中)找到答案。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.