Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

7
分解一个连续的预测变量有什么好处?
我想知道在模型中使用它之前,取一个连续的预测变量并将其分解(例如分解为五分位数)的价值是什么。 在我看来,通过对变量进行分类,我们会丢失信息。 这样是否可以为非线性效应建模? 如果我们保持变量连续并且不是真正的线性关系,我们是否需要提出某种曲线以最适合数据?

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R何时平方负数?
我的理解是不能为负,因为它是R的平方。但是,我在SPSS中运行了具有单个自变量和因变量的简单线性回归。我的SPSS输出给我R 2的负值。如果我要根据R手动计算,则R 2将为正。SPSS做了什么将其计算为负值?R2R2R^2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 我使用的代码: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP 我得到负值。谁能解释这意味着什么?



3
套索为什么提供变量选择?
我一直在阅读《统计学习的元素》,我想知道为什么套索不能提供变量选择,而岭回归却不提供。 两种方法都将残差平方和最小化,并对参数的可能值具有约束。对于套索,约束是,而对于山脊,约束是,对于某些。ββ\beta| | β | | 2 ≤ 吨吨||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt 我已经看过这本书中的菱形与椭圆形图片,对于套索为什么会碰到约束区域的角点,我有一些直觉,这意味着系数之一设置为零。但是,我的直觉很弱,我没有被说服。它应该很容易看到,但是我不知道为什么这是真的。 因此,我想我正在寻找数学上的证明,或者是对为什么残留平方和的轮廓可能会击中约束区域的角的直观解释 (而这种情况不太可能发生,约束是)。| | β | | 2||β||1||β||1||\beta||_1||β||2||β||2||\beta||_2

3
诊断逻辑回归?
对于线性回归,我们可以检查诊断图(残差图,普通QQ图等),以检查是否违反了线性回归的假设。 对于逻辑回归,我很难找到解释如何诊断逻辑回归模型合适的资源。挖掘一些GLM的课程笔记,它只是指出检查残差对进行Logistic回归拟合的诊断没有帮助。 环顾互联网,似乎还有各种“诊断”程序,例如检查模型偏差和执行卡方检验,但其他消息来源指出这是不合适的,您应该执行Hosmer-Lemeshow拟合优度测试。然后,我发现其他来源指出该测试可能高度依赖于实际的分组和截止值(可能不可靠)。 那么如何诊断逻辑回归拟合呢?

6
当有封闭形式的数学解可用时,为什么要使用梯度下降进行线性回归?
我正在在线学习机器学习课程,并了解了有关梯度下降的知识,用于计算假设中的最佳值。 h(x) = B0 + B1X 如果我们可以通过以下公式轻松找到值,为什么需要使用渐变下降?这看起来也很简单。但是GD需要多次迭代才能获得该值。 B1 = Correlation * (Std. Dev. of y/ Std. Dev. of x) B0 = Mean(Y) – B1 * Mean(X) 注意:如https://www.dezyre.com/data-science-in-r-programming-tutorial/linear-regression-tutorial中所述 我确实检查了以下问题,但对我来说不清楚。 为什么需要梯度下降? 为什么优化是通过梯度下降而不是解析方法来解决的? 上面的答案比较了GD与使用导数。

9
线性回归分析应如何处理离群值?
通常,统计分析人员会得到一组数据集,并要求使用线性回归之类的技术来拟合模型。通常,数据集带有免责声明,类似于“哦,是的,我们搞砸了收集其中一些数据点-尽您所能”。 这种情况导致回归拟合受到可能存在错误数据的异常值的严重影响。给定以下内容: 从科学和道德的角度来看,无缘无故丢掉数据是危险的,除了“会使拟合看起来很糟糕”。 在现实生活中,收集数据的人员经常无法回答诸如“在生成此数据集时,您究竟弄错了哪些要点?”之类的问题。 哪些统计检验或经验法则可以用作排除线性回归分析中异常值的基础? 多线性回归是否有特殊考虑?

7
最小回归的最小样本量的经验法则
在社会科学领域的一项研究计划中,有人问我以下问题: 在确定多元回归的最小样本量时,我总是走100 + m(其中m是预测变量的数量)。这样合适吗 我经常遇到很多类似的问题,通常有不同的经验法则。我也在各种教科书中读了很多这样的经验法则。有时我想知道规则在引用方面的普及是否基于该标准的设定低。但是,我也意识到良好启发式方法在简化决策过程中的价值。 问题: 在设计研究的应用研究人员的背景下,简单的经验法则对于最小样本量有什么用? 您是否会建议使用另一条经验法则来确定多元回归的最小样本量? 或者,您将建议采用哪些替代策略来确定多元回归的最小样本量?特别是,如果将值分配给非统计人员可以轻松应用任何策略的程度,那将是很好的。


2
求解封闭形式vs梯度下降中的回归参数
在Andrew Ng的机器学习课程中,他介绍了线性回归和逻辑回归,并展示了如何使用梯度下降和牛顿方法拟合模型参数。 我知道梯度下降在机器学习的某些应用(例如,反向传播)中可能很有用,但在更一般的情况下,有任何理由为什么您不会以封闭形式求解参数-即,采用成本函数和通过微积分求解? 如果可用,在封闭形式的解决方案上使用像梯度下降这样的迭代算法通常有什么优势?

8
生成与现有变量具有定义的相关性的随机变量
对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量]

12
关于线性回归最常见的误解是什么?
我很好奇,对于那些与其他研究人员合作有丰富经验的人,您遇到的关于线性回归的最常见误解是什么? 我认为这是一个有用的练习,可以提前考虑常见的误解,以便 预测人们的错误并能够成功阐明为什么某些误解是不正确的 如果我自己怀有一些误解,请意识到! 我能想到的几个基本原则: 自变量/因变量必须正态分布 变量必须标准化才能准确解释 还有其他吗? 欢迎所有答复。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.