Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

5
从许多自变量中检测出重要的预测变量
在两个非重叠人群(患者和健康人群,总计n=60n=60n=60)的数据集中,我想(从300300300独立变量中)找到连续因变量的重要预测因子。存在预测变量之间的相关性。我有兴趣了解是否有任何预测变量与“现实中”的因变量相关(而不是尽可能准确地预测因变量)。当我对众多可能的方法不知所措时,我想问一问最推荐哪种方法。 根据我的理解,不建议逐步加入或排除预测变量 例如,对每个预测变量分别运行线性回归,并使用FDR校正p值以进行多次比较(可能非常保守?) 主成分回归:难以解释,因为我无法讲述单个预测变量的预测能力,而只能讲述成分。 还有其他建议吗?

3
包括其他预测变量后使符号翻转的回归系数
想像 您使用四个数值预测变量(IV1,...,IV4)运行线性回归 如果仅将IV1作为预测变量,则标准beta为 +.20 当您还包括IV2到IV4时,IV1的标准回归系数的符号会变为-.25(即变为负数)。 这引起了一些问题: 关于术语,您是否称其为“抑制效应”? 您将使用什么策略来解释和理解这种影响? 在实践中,您是否有此类效果的示例,您如何解释和理解这些效果?

4
使用复杂数据进行分析,有什么不同?
假设您正在做线性模型,但是数据很复杂。yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon 我的数据集很复杂,因为中的所有数字均为形式。处理此类数据时,在程序上有什么不同吗?yyy(a+bi)(a+bi)(a + bi) 我问是因为,您最终将获得复杂的协方差矩阵,并测试具有复杂价值的统计数据。 做最小二乘时,是否需要使用共轭转置而不是转置?复数值协方差有意义吗?




2
负二项式回归的假设是什么?
我正在使用大型数据集(机密信息,所以我不能分享太多),得出的结论是,负二项式回归是必要的。我以前从未做过glm回归,也找不到关于这些假设的任何明确信息。它们对于MLR是否相同? 我可以用相同的方式转换变量吗(我已经发现转换因变量是一个错误的调用,因为它必须是自然数)?我已经确定负二项式分布会有助于数据的过度分散(方差约为2000,平均值为48)。 谢谢您的帮助!!

6
Logistic回归和感知器之间有什么区别?
我经历安德鲁Ng的讲课笔记机器学习。 这些注释向我们介绍了逻辑回归,然后介绍了感知器。注释在描述Perceptron时说,我们只是更改了用于逻辑回归的阈值函数的定义。之后,我们可以使用Perceptron模型进行分类。 所以我的问题是-如果需要指定此参数,并且我们将Perceptron视为一种分类技术,那么逻辑回归到底是什么?是仅用于获取数据点属于其中一个类别的概率吗?


5
如何得出多元线性回归的最小二乘估计?
在简单线性回归的情况下,您可以得出最小二乘估计量这样您就不必知道即可估算β 1 = Σ (X 我 - ˉ X)(Ý 我 - ˉ ÿ)y=β0+β1xy=β0+β1xy=\beta_0+\beta_1xβ 0 β 1β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 假设我有,我怎么得到而不估计\帽子\ beta_2?还是不可能?β 1 β 2y=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2β^1β^1\hat\beta_1β^2β^2\hat\beta_2

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

10
回归均值vs赌徒的谬误
一方面,我具有对均值的回归,另一方面,我具有赌徒的谬误。 Miller和Sanjurjo(2019)将赌徒的谬误定义为“错误地认为随机序列具有系统性的逆转趋势,即类似结果的条纹更有可能结束而不是持续。”例如,一枚掉头的硬币在下一次审判中,连续几次被认为很有可能落伍。 根据上次的平均值回归,我在上一场比赛中表现不错,而在下一场比赛中,我的表现可能会更差。 但是根据赌徒的谬误:假设硬币是公平的,请考虑以下两个概率 20头的概率,然后1尾= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 20头的概率,则1头= 0.520×0.5=0.5210.520×0.5=0.5210.5^{20} × 0.5 = 0.5^{21} 然后... 考虑一个简单的例子:一类学生对一个主题进行100项对/错测试。假设所有学生在所有问题上随机选择。然后,每个学生的分数将是一组独立且均匀分布的随机变量中的一个的实现,预期均值为50。 自然,偶然地,有些学生的分数将大大高于50,而有些分数将大大低于50。如果一个人只拿得分最高的10%的学生,然后再给他们第二次测试,然后他们再次在所有项目上随机选择,那么平均得分将再次接近50。 因此,这些学生的均值将一直“回归”到所有参加原始考试的学生的均值。无论学生在原始考试中得分是多少,他们在第二项考试中得分的最佳预测是50。 特殊情况下,如果只拿得分最高的10%的学生,然后再给他们第二次测试,然后他们再次在所有项目上随机选择,则平均得分将再次接近50。 根据赌徒的谬论,难道不应该期望得分的可能性相同,而不一定要接近50吗? Miller,JB和Sanjurjo,A.(2019)。当样本量被忽略时,经验如何确定赌徒的谬误。

1
证明OLS模型中的系数服从(nk)自由度的t分布
背景 假设我们有一个普通的最小二乘模型,其中我们的回归模型中有系数, kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} 其中是系数的向量,是由定义的设计矩阵ββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots & \dots & x_{n\;(k-1)} \end{pmatrix} ,错误是IID正常, ϵ∼N(0,σ2I).ϵ∼N(0,σ2I).\mathbf{\epsilon} \sim \mathcal{N}\left(\mathbf{0},\sigma^2 …

1
如何通过逻辑回归计算拟合值的标准误差?
当您从逻辑回归模型预测拟合值时,如何计算标准误差?我的意思是拟合值,而不是系数(涉及Fishers信息矩阵)。 我只发现了如何获得与数字R(例如,这里的R-帮助,或在这里对堆栈溢出),但我找不到公式。 pred <- predict(y.glm, newdata= something, se.fit=TRUE) 如果您可以提供在线资源(最好是在大学网站上),那就太好了。

3
逻辑回归中简单预测对优势比的解释
我对使用逻辑回归有些陌生,并且对以下值的解释之间的差异有些困惑,我认为这是相同的: 指数贝塔值 使用beta值预测结果的可能性。 这是我使用的模型的简化版本,营养不足和保险都是二进制的,财富是连续的: Under.Nutrition ~ insurance + wealth 我的(实际)模型返回的保险指数值为0.8,我将其解释为: “被保险人营养不足的概率是未保险人营养不足的概率的0.8倍。” 但是,当我通过将0和1的值分别输入保险变量和财富平均值来计算个人的概率差异时,营养不足的差异仅为0.04。计算公式如下: Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) 如果有人可以解释为什么这些值不同,以及什么是更好的解释(尤其是第二个值),我将不胜感激。 进一步的澄清编辑 据我了解,未投保的人(其中B1对应于保险)营养不足的可能性为: Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) / (1+exp(β0 + β1*0+ β2*wealth)) 虽然被保险人营养不足的可能性是: Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) / (1+exp(β0 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.