Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。


2
检查具有统计意义的峰值
我有一组数据yyy和。我想检验以下假设:有一个峰值。也就是说,随着增加,首先增加,然后减少。xxxyyyxxxyyy 我的第一个想法是将和在SLR中。也就是说,如果我发现之前的系数显着为正,而之前的系数显着为负,那么我支持该假设。但是,这仅检查一种关系(二次关系),并不一定捕获峰值的存在。xxxx2x2x^2xxxx2x2x^2 然后我想到了找到,即一个区域(排序值),在和之间,另外两个区域至少包含与一样多的点,并且 \ bar {y_b}> \ bar {y_a}和\ bar {y_b}> \ bar {y_c}。如果假设是正确的,那么我们应该期望有很多这样的区域b。因此,如果b的数量足够大,则应该支持该假设。bbbxxxbbbaaacccxxxbbbyb¯>ya¯yb¯>ya¯\bar{y_b}>\bar{y_a}yb¯>yc¯yb¯>yc¯\bar{y_b}>\bar{y_c}bbbbbb 您是否认为我在为我的假设找到合适的检验的正确道路上?还是我发明了轮子,并且有解决此问题的方法?非常感谢您的投入。 更新。我的因变量是count(非负整数)。yyy


1
什么是前向逐步回归算法?
也许只是我很累,但是在尝试理解前向逐步回归算法时遇到了麻烦。从“统计学习要素”第60页: 前向逐步回归(FS)比前向逐步回归受到的约束更大。它像逐步回归一样开始,其截距等于y的均值,并且中心预测变量的系数最初均为0。 在每一步中,算法都会识别与当前残差最相关的变量。然后,它计算该所选变量的残差的简单线性回归系数,然后将其添加到该变量的当前系数中。一直持续到所有变量都与残差不相关为止(即,当N> p时,最小二乘拟合)。 那么,这是算法吗?: b[1]=mean(y) b[2..n]=0 r=(y-X*b) index, maxCorr = max(transpose(r)*X) while(abs(maxCorr) > someThreshold) b[index]=b[index]+regress(r,X[1..n][index]) r=(y-X*b) index, maxCorr = max(transpose(r)*X) 其中b是系数的列向量,X是输入矩阵,而y是输出的列向量。即y = X * b +错误。 询问是因为此算法仅在我正在测试的数据集中给我一些非零系数(阈值= .0001),并且预测精度根本不是很好。

2
当具有基于不同样本量的组平均值的预测变量时,该怎么办?
考虑一个经典的数据分析问题,其中您有一个结果YiYiY_{i},以及它与多个预测变量Xi1,...,XipXi1,...,XipX_{i1}, ..., X_{ip}。这里要考虑的基本应用程序类型是 YiYiY_{i}是某些团体级别的结果,例如市的犯罪率iii。 预测变量是组级别的特征,例如城市人口统计学特征iii。 基本目标是拟合回归模型(可能具有随机效应,但暂时不要考虑): E(Yi|Xi)=β0+β1Xi1+...+βpXipE(Yi|Xi)=β0+β1Xi1+...+βpXip E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} 当一个(或多个)预测变量是每个单位样本量不同的调查结果时,是否会出现技术上的困难?例如,假设Xi1Xi1X_{i1}是城市总分,iii它是来自城市的个体样本的平均响应,iii但是这些平均值所基于的样本量却大不相同: City12345⋮Sample size2010030053⋮CitySample size120210033004553⋮⋮\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 …

1
从正交多项式回归中恢复原始系数和方差
看来,如果我有一个回归模型如yi∼β0+β1xi+β2x2i+β3x3iyi∼β0+β1xi+β2xi2+β3xi3y_i \sim \beta_0 + \beta_1 x_i+\beta_2 x_i^2 +\beta_3 x_i^3我可以拟合原始多项式并获得不可靠的结果,也可以拟合正交多项式并获得没有直接物理解释的系数(例如,我无法使用它们来找到原始比例上的极值位置)。似乎我应该能够同时兼顾两个方面,并且能够将拟合的正交系数及其方差转换回原始比例。我已经学习了应用线性回归的研究生课程(使用Kutner,5ed),并且浏览了Draper(3ed,由Kutner引用)中的多项式回归一章,但是没有找到有关如何执行此操作的讨论。的帮助文本poly()中的R功能没有。我也没有在网络搜索中找到任何内容,包括此处。正在从拟合正交多项式的系数中重构原始系数(并获得其方差)。 无法做,我在浪费时间。 可能是可行的,但在一般情况下还不知道怎么做。 可能但未讨论,因为“谁愿意?” 可能但由于“显而易见”而未进行讨论。 如果答案是3或4,如果有人能耐心地解释如何做到这一点或指出这样做的来源,我将不胜感激。如果是1或2,我仍然很想知道障碍是什么。非常感谢您阅读本文,如果我忽略了明显的内容,我向您致歉。

1
可用于分类变量(R中)的不同编码类型是什么?何时使用它们?
如果您拟合线性模型或混合模型,则可以使用不同类型的编码将类别或名义变量转换为估计参数的多个变量,例如虚拟编码(R默认)和效果编码。 我听说在进行交互时最好使用效果编码(有时称为偏差编码或对比度编码),但是可能存在哪些对比度,何时使用哪种类型的对比度? 上下文是R中使用的混合建模lme4,但我认为可以使用更广泛的响应。抱歉,如果我错过了类似的问题。 编辑:两个有用的链接是:效果编码和伪编码说明。

2
关于逻辑回归的问题
我想运行一个二元logistic回归模型,以在10年内(1997-2006年)从一组自变量中模拟冲突(因变量)的存在与否,每年有107个观测值。我的独立人是: 土地退化(针对两种退化类型); 人口增加(0-否; 1-是); 生计类型(0-1型; 1-2-2型); 人口密度(三种密度水平); NDVI连续(最大蔬菜生产率); NDVI t − 1(比上一年的蔬菜下降-0-否; 1-是)和t−1t−1_{t-1} 和NDVI t − 2(从两年后的蔬菜开始下降-0-否; 1-是)。t−2t−2_{t-2} 我对此很陌生-这是我的讲师给我的一个项目-因此,我将感谢您的一些建议或指导。我已经测试了多大学衔。 本质上,我的数据被划分为107个观测单位(空间区域),覆盖了10年(总共1070年),对于每个观测单位,它给出的是当时该单位内独立变量条件的“快照”值(区域)。我想知道如何设置逻辑回归(或表格)以分别识别每年的107个值,以便可以评估不同单位年之间的时间NDVI变化吗?

4
“适度”还是“互动”?
我遇到了在很多情况下可以互换使用的这两个术语。 基本上,调节者(M)是影响X和Y之间关系的因素。调节分析通常使用回归模型进行。例如,性别(M)会影响“产品研究”(X)和“产品购买”(Y)之间的关系。 在交互中,X1和X2交互以影响Y。此处的相同示例是“产品研究”(X1)受“性别”(X2)影响,并且一起影响“产品购买”(Y)。 我可以看到,适度时,M影响XY关系,但在交互作用中,M(在这种情况下为性别)影响其他IV。 问题:如果我的项目目的是看性别如何影响X和Y之间的关系,我应该使用节制还是互动? 注意:我的项目是关于X和Y之间的相关性,而不是X和Y之间的因果关系。


2
Box-Jenkins选型
时间序列分析中的Box-Jenkins模型选择过程从查看序列的自相关和部分自相关函数开始。这些图可以建议ARMA (p ,q )模型中的适当和q。通过要求用户应用AIC / BIC标准来选择那些具有白噪声误差项的模型中最简化的模型,从而继续执行该过程。pppqqq(p,q)(p,q)(p,q) 我想知道这些目视检查和基于标准的模型选择步骤如何影响最终模型的估计标准误差。我知道,例如,横截面域中的许多搜索过程都会使标准误向下偏移。 第一步,通过查看数据(ACF / PACF)选择适当的滞后次数如何影响时间序列模型的标准误差? 我猜想根据AIC / BIC分数选择模型会产生与横截面方法类似的影响。我实际上对这方面也不了解,所以在这一点上任何评论也将不胜感激。 最后,如果您写下用于每个步骤的精确标准,是否可以引导整个过程来估计标准误差并消除这些担忧?


7
短时间序列值得建模吗?
这是一些背景。我有兴趣确定两个环境变量(温度,营养水平)如何影响11年内响应变量的平均值。每年,都有超过10万个位置的数据。 目的是确定在11年的时间段内,响应变量的平均值是否已响应环境变量的变化(例如,温度升高+更多养分将=更大响应)。 不幸的是,由于响应是平均值(不看平均值,只有规则的年际变化会淹没信号),因此回归将是11个数据点(每年1个平均值),并带有2个解释变量。在我看来,即使数据集非常小,线性正回归也很难被认为是有意义的(除非关系非常强,否则甚至不满足名义上的40点/变量)。 我做这个假设对吗?谁能提供我可能会缺少的其他想法/观点? PS:一些警告:没有等待更多年就无法获取更多数据。因此,可用数据是我们真正需要处理的。

4
比较具有不同因变量的模型的逻辑系数?
这是我几天前问的一个后续问题。我觉得它在这个问题上有不同的倾向,因此列出了一个新问题。 问题是:我可以比较具有不同因变量的模型之间的系数大小吗?例如,我只想说一个例子,就是想知道经济是在众议院还是在总统选举中更能预测投票结果。在这种情况下,我的两个因变量将是众议院的投票(民主党代表1,共和党代表0)和总统投票(民主党代表1,共和党代表0),而我的独立变量是经济。我希望两个办公室都能取得统计上的显著成果,但是我如何评估它在两个方面的作用是否更大?这可能不是一个特别有趣的示例,但是我很好奇是否有一种比较方法。我知道不能只看系数的“大小”。所以,有可能比较具有不同因变量的模型上的系数吗?而且,如果是这样,怎么做? 如果这没有任何意义,请告诉我。所有建议和评论表示赞赏。

2
Sane逐步回归?
假设我要构建一个二进制分类器。我有数千个功能,而样本只有几十个。从领域知识来看,我有充分的理由相信仅使用一些功能就可以准确预测类标签,但是我不知道哪个功能可以正确预测。我还希望最终决策规则易于解释/解释,从而进一步需要少量功能。我功能的某些子集高度相关,因此,独立选择最具预测性的几个子集将行不通。我还希望能够对我的功能进行有意义的假设检验。 在这些条件下,以下逐步回归程序是否合理: 给定模型中已经存在的特征(或仅在第一次迭代中截取),选择添加到模型中时产生最大对数似然比的特征。使用似然比卡方检验为在此选择中执行的每个假设检验计算名义P值。这里的无效之处在于,将额外的变量添加到模型中不会提供任何额外的预测能力。另一种选择是,它确实提高了预测能力 将每个迭代的步骤1中测试的假设作为一个族来对待,并使用Benjamini-Hochberg之类的东西为最小P值(针对所选特征)计算错误发现率。 除非满足某些停止条件,否则转到1。 报告对个人特征的错误发现率,但不能用于模型作为一个整体的P值(因为这将是大规模膨胀)。给定先前添加到模型中的所有特征,这些多个测试校正的P值中的每一个均代表该特征的统计显着性。 在这种情况下这样做是否能成功避免所有典型的逐步回归批评?以这种方式计算的错误发现率是否合理?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.