统计和大数据 regression

5

在两个非重叠人群（患者和健康人群，总计n=60n=60n=60）的数据集中，我想（从300300300独立变量中）找到连续因变量的重要预测因子。存在预测变量之间的相关性。我有兴趣了解是否有任何预测变量与“现实中”的因变量相关（而不是尽可能准确地预测因变量）。当我对众多可能的方法不知所措时，我想问一问最推荐哪种方法。根据我的理解，不建议逐步加入或排除预测变量例如，对每个预测变量分别运行线性回归，并使用FDR校正p值以进行多次比较（可能非常保守？）主成分回归：难以解释，因为我无法讲述单个预测变量的预测能力，而只能讲述成分。还有其他建议吗？

31 regression pca feature-selection stepwise-regression underdetermined

3

包括其他预测变量后使符号翻转的回归系数

想像您使用四个数值预测变量（IV1，...，IV4）运行线性回归如果仅将IV1作为预测变量，则标准beta为 +.20 当您还包括IV2到IV4时，IV1的标准回归系数的符号会变为-.25（即变为负数）。这引起了一些问题：关于术语，您是否称其为“抑制效应”？您将使用什么策略来解释和理解这种影响？在实践中，您是否有此类效果的示例，您如何解释和理解这些效果？

31 regression predictor

4

使用复杂数据进行分析，有什么不同？

假设您正在做线性模型，但是数据很复杂。yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon 我的数据集很复杂，因为中的所有数字均为形式。处理此类数据时，在程序上有什么不同吗？yyy(a+bi)(a+bi)(a + bi) 我问是因为，您最终将获得复杂的协方差矩阵，并测试具有复杂价值的统计数据。做最小二乘时，是否需要使用共轭转置而不是转置？复数值协方差有意义吗？

31 regression anova data-transformation complex-numbers

2

我们是否需要梯度下降来找到线性回归模型的系数？

我正在尝试使用 Coursera资料。在本讲座中，Andrew Ng使用梯度下降算法来找到将误差函数（成本函数）最小化的线性回归模型的系数。对于线性回归，是否需要梯度下降？看来我可以分析误差函数并将其设置为零以求解系数。那正确吗？

31 regression machine-learning linear-model gradient-descent

7

在回归分析中，为什么我们将自变量称为“独立”？

我的意思是其中一些变量之间具有很强的相关性。我们如何/为什么/在什么情况下将它们定义为自变量？

30 regression terminology predictor

2

L1正则化何时比L2更好，反之亦然？

注意：我知道L1具有功能选择属性。我试图了解当功能选择完全不相关时应该选择哪一个。如何决定要使用哪个正则化（L1或L2）？ L1 / L2正则化的优点和缺点是什么？是否建议首先使用L1选择特征，然后将L2应用于这些选定变量？

30 regression lasso regularization ridge-regression

2

负二项式回归的假设是什么？

我正在使用大型数据集（机密信息，所以我不能分享太多），得出的结论是，负二项式回归是必要的。我以前从未做过glm回归，也找不到关于这些假设的任何明确信息。它们对于MLR是否相同？我可以用相同的方式转换变量吗（我已经发现转换因变量是一个错误的调用，因为它必须是自然数）？我已经确定负二项式分布会有助于数据的过度分散（方差约为2000，平均值为48）。谢谢您的帮助！！

30 regression generalized-linear-model data-transformation assumptions negative-binomial

6

Logistic回归和感知器之间有什么区别？

我经历安德鲁Ng的讲课笔记机器学习。这些注释向我们介绍了逻辑回归，然后介绍了感知器。注释在描述Perceptron时说，我们只是更改了用于逻辑回归的阈值函数的定义。之后，我们可以使用Perceptron模型进行分类。所以我的问题是-如果需要指定此参数，并且我们将Perceptron视为一种分类技术，那么逻辑回归到底是什么？是仅用于获取数据点属于其中一个类别的概率吗？

30 regression machine-learning self-study logistic perceptron

1

Cox回归是否具有潜在的泊松分布？

我们的小团队正在讨论并陷入困境。有谁知道Cox回归是否具有潜在的泊松分布。我们曾辩论过，风险持续时间恒定的Cox回归可能与Poisson回归具有强大的方差相似。有任何想法吗？

30 regression poisson-distribution cox-model

5

如何得出多元线性回归的最小二乘估计？

在简单线性回归的情况下，您可以得出最小二乘估计量这样您就不必知道即可估算β 1 = Σ （X 我 - ˉ X）（Ý 我 - ˉ ÿ）y=β0+β1xy=β0+β1xy=\beta_0+\beta_1xβ 0 β 1β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 假设我有，我怎么得到而不估计\帽子\ beta_2？还是不可能？β 1 β 2y=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2β^1β^1\hat\beta_1β^2β^2\hat\beta_2

30 regression multiple-regression generalized-linear-model linear-model

5

如何在机器学习中处理分层/嵌套数据

我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入：{年龄，性别，国家/地区，城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

10

回归均值vs赌徒的谬误

一方面，我具有对均值的回归，另一方面，我具有赌徒的谬误。 Miller和Sanjurjo（2019）将赌徒的谬误定义为“错误地认为随机序列具有系统性的逆转趋势，即类似结果的条纹更有可能结束而不是持续。”例如，一枚掉头的硬币在下一次审判中，连续几次被认为很有可能落伍。根据上次的平均值回归，我在上一场比赛中表现不错，而在下一场比赛中，我的表现可能会更差。但是根据赌徒的谬误：假设硬币是公平的，请考虑以下两个概率 20头的概率，然后1尾= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 20头的概率，则1头= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 然后... 考虑一个简单的例子：一类学生对一个主题进行100项对/错测试。假设所有学生在所有问题上随机选择。然后，每个学生的分数将是一组独立且均匀分布的随机变量中的一个的实现，预期均值为50。自然，偶然地，有些学生的分数将大大高于50，而有些分数将大大低于50。如果一个人只拿得分最高的10％的学生，然后再给他们第二次测试，然后他们再次在所有项目上随机选择，那么平均得分将再次接近50。因此，这些学生的均值将一直“回归”到所有参加原始考试的学生的均值。无论学生在原始考试中得分是多少，他们在第二项考试中得分的最佳预测是50。特殊情况下，如果只拿得分最高的10％的学生，然后再给他们第二次测试，然后他们再次在所有项目上随机选择，则平均得分将再次接近50。根据赌徒的谬论，难道不应该期望得分的可能性相同，而不一定要接近50吗？ Miller，JB和Sanjurjo，A.（2019）。当样本量被忽略时，经验如何确定赌徒的谬误。

29 regression mean fallacy gambling

1

证明OLS模型中的系数服从（nk）自由度的t分布

背景假设我们有一个普通的最小二乘模型，其中我们的回归模型中有系数， kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} 其中是系数的向量，是由定义的设计矩阵ββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots & \dots & x_{n\;(k-1)} \end{pmatrix} ，错误是IID正常， ϵ∼N(0,σ2I).ϵ∼N(0,σ2I).\mathbf{\epsilon} \sim \mathcal{N}\left(\mathbf{0},\sigma^2 …

29 regression linear-model least-squares t-distribution

1

如何通过逻辑回归计算拟合值的标准误差？

当您从逻辑回归模型预测拟合值时，如何计算标准误差？我的意思是拟合值，而不是系数（涉及Fishers信息矩阵）。我只发现了如何获得与数字R（例如，这里的R-帮助，或在这里对堆栈溢出），但我找不到公式。 pred <- predict(y.glm, newdata= something, se.fit=TRUE) 如果您可以提供在线资源（最好是在大学网站上），那就太好了。

29 r regression logistic mathematical-statistics references

3

逻辑回归中简单预测对优势比的解释

我对使用逻辑回归有些陌生，并且对以下值的解释之间的差异有些困惑，我认为这是相同的：指数贝塔值使用beta值预测结果的可能性。这是我使用的模型的简化版本，营养不足和保险都是二进制的，财富是连续的： Under.Nutrition ~ insurance + wealth 我的（实际）模型返回的保险指数值为0.8，我将其解释为： “被保险人营养不足的概率是未保险人营养不足的概率的0.8倍。” 但是，当我通过将0和1的值分别输入保险变量和财富平均值来计算个人的概率差异时，营养不足的差异仅为0.04。计算公式如下： Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) 如果有人可以解释为什么这些值不同，以及什么是更好的解释（尤其是第二个值），我将不胜感激。进一步的澄清编辑据我了解，未投保的人（其中B1对应于保险）营养不足的可能性为： Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) / (1+exp(β0 + β1*0+ β2*wealth)) 虽然被保险人营养不足的可能性是： Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) / (1+exp(β0 …

29 regression logistic interpretation prediction odds-ratio

Questions tagged «regression»