7 分解一个连续的预测变量有什么好处? 我想知道在模型中使用它之前,取一个连续的预测变量并将其分解(例如分解为五分位数)的价值是什么。 在我看来,通过对变量进行分类,我们会丢失信息。 这样是否可以为非线性效应建模? 如果我们保持变量连续并且不是真正的线性关系,我们是否需要提出某种曲线以最适合数据? 78 regression modeling continuous-data binning regression-strategies
3 示例:使用glmnet获得二进制结果的LASSO回归 我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, … 77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold
3 R何时平方负数? 我的理解是不能为负,因为它是R的平方。但是,我在SPSS中运行了具有单个自变量和因变量的简单线性回归。我的SPSS输出给我R 2的负值。如果我要根据R手动计算,则R 2将为正。SPSS做了什么将其计算为负值?R2R2R^2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 我使用的代码: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP 我得到负值。谁能解释这意味着什么? 77 regression spss r-squared
5 什么是逐步回归的现代易用替代方法? 我有一个包含约30个独立变量的数据集,并希望构建一个广义线性模型(GLM)来探索它们与因变量之间的关系。 我知道,我在这种情况下所教的方法,逐步回归,现在被认为是统计上的罪过。 在这种情况下应使用哪些现代的模型选择方法? 76 regression generalized-linear-model model-selection stepwise-regression
3 为什么Logistic回归不称为Logistic分类? 由于Logistic回归是处理分类因变量的统计分类模型,因此为什么不将其称为Logistic分类?不应该将“回归”名称保留给处理连续因变量的模型吗? 75 regression machine-learning logistic classification terminology
3 套索为什么提供变量选择? 我一直在阅读《统计学习的元素》,我想知道为什么套索不能提供变量选择,而岭回归却不提供。 两种方法都将残差平方和最小化,并对参数的可能值具有约束。对于套索,约束是,而对于山脊,约束是,对于某些。ββ\beta| | β | | 2 ≤ 吨吨||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt 我已经看过这本书中的菱形与椭圆形图片,对于套索为什么会碰到约束区域的角点,我有一些直觉,这意味着系数之一设置为零。但是,我的直觉很弱,我没有被说服。它应该很容易看到,但是我不知道为什么这是真的。 因此,我想我正在寻找数学上的证明,或者是对为什么残留平方和的轮廓可能会击中约束区域的角的直观解释 (而这种情况不太可能发生,约束是)。| | β | | 2||β||1||β||1||\beta||_1||β||2||β||2||\beta||_2 75 regression feature-selection lasso regularization
3 诊断逻辑回归? 对于线性回归,我们可以检查诊断图(残差图,普通QQ图等),以检查是否违反了线性回归的假设。 对于逻辑回归,我很难找到解释如何诊断逻辑回归模型合适的资源。挖掘一些GLM的课程笔记,它只是指出检查残差对进行Logistic回归拟合的诊断没有帮助。 环顾互联网,似乎还有各种“诊断”程序,例如检查模型偏差和执行卡方检验,但其他消息来源指出这是不合适的,您应该执行Hosmer-Lemeshow拟合优度测试。然后,我发现其他来源指出该测试可能高度依赖于实际的分组和截止值(可能不可靠)。 那么如何诊断逻辑回归拟合呢? 74 regression logistic
6 当有封闭形式的数学解可用时,为什么要使用梯度下降进行线性回归? 我正在在线学习机器学习课程,并了解了有关梯度下降的知识,用于计算假设中的最佳值。 h(x) = B0 + B1X 如果我们可以通过以下公式轻松找到值,为什么需要使用渐变下降?这看起来也很简单。但是GD需要多次迭代才能获得该值。 B1 = Correlation * (Std. Dev. of y/ Std. Dev. of x) B0 = Mean(Y) – B1 * Mean(X) 注意:如https://www.dezyre.com/data-science-in-r-programming-tutorial/linear-regression-tutorial中所述 我确实检查了以下问题,但对我来说不清楚。 为什么需要梯度下降? 为什么优化是通过梯度下降而不是解析方法来解决的? 上面的答案比较了GD与使用导数。 73 regression machine-learning gradient-descent
9 线性回归分析应如何处理离群值? 通常,统计分析人员会得到一组数据集,并要求使用线性回归之类的技术来拟合模型。通常,数据集带有免责声明,类似于“哦,是的,我们搞砸了收集其中一些数据点-尽您所能”。 这种情况导致回归拟合受到可能存在错误数据的异常值的严重影响。给定以下内容: 从科学和道德的角度来看,无缘无故丢掉数据是危险的,除了“会使拟合看起来很糟糕”。 在现实生活中,收集数据的人员经常无法回答诸如“在生成此数据集时,您究竟弄错了哪些要点?”之类的问题。 哪些统计检验或经验法则可以用作排除线性回归分析中异常值的基础? 多线性回归是否有特殊考虑? 73 regression outliers
7 最小回归的最小样本量的经验法则 在社会科学领域的一项研究计划中,有人问我以下问题: 在确定多元回归的最小样本量时,我总是走100 + m(其中m是预测变量的数量)。这样合适吗 我经常遇到很多类似的问题,通常有不同的经验法则。我也在各种教科书中读了很多这样的经验法则。有时我想知道规则在引用方面的普及是否基于该标准的设定低。但是,我也意识到良好启发式方法在简化决策过程中的价值。 问题: 在设计研究的应用研究人员的背景下,简单的经验法则对于最小样本量有什么用? 您是否会建议使用另一条经验法则来确定多元回归的最小样本量? 或者,您将建议采用哪些替代策略来确定多元回归的最小样本量?特别是,如果将值分配给非统计人员可以轻松应用任何策略的程度,那将是很好的。 72 regression sample-size power-analysis rule-of-thumb
10 线性回归通常假设的完整清单是什么? 线性回归的通常假设是什么? 它们是否包括: 自变量和因变量之间的线性关系 独立错误 错误的正态分布 同调性 还有其他吗? 72 regression assumptions
2 求解封闭形式vs梯度下降中的回归参数 在Andrew Ng的机器学习课程中,他介绍了线性回归和逻辑回归,并展示了如何使用梯度下降和牛顿方法拟合模型参数。 我知道梯度下降在机器学习的某些应用(例如,反向传播)中可能很有用,但在更一般的情况下,有任何理由为什么您不会以封闭形式求解参数-即,采用成本函数和通过微积分求解? 如果可用,在封闭形式的解决方案上使用像梯度下降这样的迭代算法通常有什么优势? 71 regression machine-learning logistic gradient-descent
8 生成与现有变量具有定义的相关性的随机变量 对于模拟研究,我必须生成随机变量,这些变量显示与现有变量的预定义(填充)相关性。ÿYY 我研究了这些R软件包copula,CDVine它们可以生成具有给定依赖关系结构的随机多变量分布。但是,不可能将结果变量之一固定为现有变量。 任何想法和现有功能的链接表示赞赏! 结论: 提出了两个有效的答案,有不同的解决方案: 一个R 脚本由卡拉卡尔,其计算与一个随机变量精确(样品)的相关性,以一个预定义的变量 我发现了一个R 函数,该函数计算与预定义变量具有定义的总体相关性的随机变量 [@ttnphns的补充:我可以自由地将问题标题从单个固定变量的情况扩展到任意数量的固定变量;即如何生成具有预定义正确性和一些固定的现有变量的变量] 71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models
12 关于线性回归最常见的误解是什么? 我很好奇,对于那些与其他研究人员合作有丰富经验的人,您遇到的关于线性回归的最常见误解是什么? 我认为这是一个有用的练习,可以提前考虑常见的误解,以便 预测人们的错误并能够成功阐明为什么某些误解是不正确的 如果我自己怀有一些误解,请意识到! 我能想到的几个基本原则: 自变量/因变量必须正态分布 变量必须标准化才能准确解释 还有其他吗? 欢迎所有答复。 70 regression multiple-regression
4 如何可视化进行规范相关分析(与主成分分析相比)? 典型相关分析(CCA)是与主成分分析(PCA)相关的技术。虽然使用散点图教授PCA或线性回归很容易(请参阅Google图像搜索中的几千个示例),但我还没有看到类似的直观CCA二维示例。如何从视觉上解释线性CCA的作用? 70 regression data-visualization pca canonical-correlation geometry