Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

5
审查数据到底是什么?
我已经阅读了审查数据的不同描述: A)如该线程中所述,审查低于或高于某个阈值的未量化数据。未量化表示数据高于或低于某个阈值,但我们不知道确切值。然后在回归模型中将数据标记为低阈值或高阈值。它与本演示文稿中的描述相符,我发现它很清楚(第一页的第二张幻灯片)。换句话说,因为我们不知道该范围之外的真实值,所以将YYY限制为最小值,最大值或两者均设为上限。 B)一个朋友告诉我,只要我们至少有一些关于未知Y i结果的极限信息,我们就可以对部分未知的 YYY观测值应用审查数据模型。例如,我们希望基于一些定性标准(商品类型,国家/地区,投标人的财富等)来估计无声拍卖和公开拍卖的最终价格。对于公开拍卖,我们知道所有最终价格Y i,对于无声拍卖,我们只知道第一个出价(例如$ 1,000),而不是最终价格。有人告诉我,在这种情况下,数据是从上方进行审查的,因此应采用审查后的回归模型。YiYiY_iYiYiY_i C)最后是Wikipedia给出的定义,其中YYY完全缺失,但预测变量可用。我不确定此示例与截断的数据有何不同。 那么,检查数据到底是什么呢?

4
“相关性”是否也意味着回归分析中的斜率?
我正在阅读一篇论文,作者写道: 通过多元回归分析研究了A,B,C对Y的影响。以Y为因变量,将A,B,C输入回归方程。方差分析如表3所示。B对Y的影响非常显着,B与Y的相关性为0.27。 英语不是我的母语,我在这里真的很困惑。 首先,他说他将进行回归分析,然后向我们展示方差分析。为什么? 然后他写了相关系数,这不是来自相关分析吗?还是这个词也可以用来描述回归斜率?

1
回归系数和部分回归系数有什么区别?
我在阿卜迪(2003)中读到 当自变量成对正交时,通过计算此自变量与因变量之间的回归斜率,可以评估它们各自在回归中的作用。在这种情况下(即IV的正交性),部分回归系数等于回归系数。在所有其他情况下,回归系数将与部分回归系数不同。 但是,该文档先前并未解释这两种回归系数之间的区别。 Abdi,H.(2003年)。偏回归系数。在Lewis-Beck M.,Bryman,A.,Futing T.(编)(2003年)《社会科学百科全书:研究方法》中。加利福尼亚州千橡市:SAGE出版物。

4
可以将随机森林方法论应用于线性回归吗?
随机森林通过创建决策树的集合来工作,其中每棵树都是使用原始训练数据的引导样本(输入变量和观察值的样本)创建的。 可以将类似的过程应用于线性回归吗?使用随机引导样本为k个回归中的每一个创建k个线性回归模型 不创建类似模型的“随机回归”的原因是什么? 谢谢。如果有什么我只是从根本上误会了,请告诉我。

3
通过多项式回归了解置信带
我试图理解我在下面的图中看到的结果。通常,我倾向于使用Excel并获得线性回归线,但在以下情况下,我使用R并通过以下命令获得多项式回归: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() 所以我的问题可以归结为: 蓝色回归线周围的灰色区域(箭头1)是什么?这是多项式回归的标准偏差吗? 我可以说灰色区域(箭头2)外部的任何东西都是“离群值”,而灰色区域(箭头3)内部的所有东西都在标准偏差之内吗?

3
每叶具有线性回归模型的回归树算法
简短版:我正在寻找可以构建决策树的R包,而决策树中的每个叶子都是完整的线性回归模型。AFAIK,该库rpart创建决策树,其中因变量在每个叶子中都是恒定的。是否存在rpart可以构建此类树的另一个库(或我不知道的设置)? 加长版:我正在寻找一种基于训练数据集构建决策树的算法。树中的每个决策根据自变量之一的条件将训练数据集分为两部分。树的根包含完整的数据集,并且数据集中的每一项仅包含在一个叶节点中。 该算法如下所示: 从完整的数据集开始,该数据集是树的根节点。选择这个节点,并调用它。NNN 在的数据上创建线性回归模型。NNN 如果的的线性模型比某个阈值更高,那么我们已处理完毕的,所以标记作为叶并跳转到步骤5。R2R2R^2NNNθR2θR2\theta_{R^2}NNNNNN 尝试随机决策,然后选择在子节点中产生最佳决策: nnnR2R2R^2 选择一个随机独立变量,以及一个随机阈值θ 我。viviv_iθiθi\theta_i 决定拆分所述数据集的Ñ成两个新节点,Ñ和〜Ñ。vi≤θivi≤θiv_i \leq \theta_iNNNN^N^\hat{N}N~N~\tilde{N} 创建两个线性回归模型Ñ和〜Ñ,并计算它们的- [R 2(它们调用ř和〜- [R )。N^N^\hat{N}N~N~\tilde{N}R2R2R^2r^r^\hat{r}r~r~\tilde{r} 从所有这些元组(v 我,θ 我,- [R , 〜 - [R )中,选择一个具有最大米我Ñ ([R , 〜 - [R )。 这就产生了树一个新的决定,并ñ有两个新的子节点ñ和〜ñ。nnn(vi,θi,r^,r~)(vi,θi,r^,r~)(v_i, \theta_i, \hat{r}, \tilde{r})min(r^,r~)min(r^,r~)min(\hat{r}, \tilde{r})NNNN^N^\hat{N}N~N~\tilde{N} 我们已经完成了处理。选择一个尚未处理的新节点N,然后返回步骤2。如果所有节点均已处理,则算法结束。NNNNNN 这将以递归方式建立决策树,将数据分成较小的部分,并在每个部分上计算线性模型。 步骤3是退出条件,可以防止算法过度拟合。当然,还有其他可能的退出条件: 出口如果的树中的深度为上述θ d Ë p 吨ħNNNθdepthθdepth\theta_{depth} 出口如果在数据集中小于θ d 一吨一个小号ë 吨NNNθdatasetθdataset\theta_{data …
14 r  regression  rpart  cart 

2
逐步回归是否提供总体r平方的有偏估计?
在心理学和其他领域,通常采用逐步回归的形式,涉及以下内容: 查看其余的预测变量(最初在模型中没有),并确定导致最大r平方变化的预测变量; 如果r平方变化的p值小于alpha(通常为.05),则包括该预测变量并返回步骤1,否则停止。 例如,请参阅SPSS中的此过程。 出于各种原因,通常会对该程序进行批判(请参阅Stata网站上的讨论并提供参考资料)。 特别是,Stata网站总结了Frank Harrell的一些评论。我对索赔感兴趣: [逐步回归]产生严重偏高的R平方值。 具体来说,我目前的一些研究集中在估计总体r平方。通过总体r平方,我指的是总体中由总体数据生成方程式解释的方差百分比。我正在审查的许多现有文献都使用了逐步回归程序,我想知道所提供的估计数是否有偏差,以及有多少偏差。特别是,典型的研究将有30个预测变量,n = 200,输入的alpha为0.05,r平方估计约为0.50。 我所知道的: 渐近地,具有非零系数的任何预测变量将是统计上显着的预测变量,并且r平方将等于调整后的r平方。因此,渐进式逐步回归应该估计真实的回归方程和真实的总体r平方。 对于较小的样本量,与模型中所有预测变量相比,某些预测变量的可能省略将导致较小的r平方。但是,通常r平方对样本数据的偏见也会增加r平方。因此,我天真的想法是,这两个相反的力在一定条件下可能导致无偏的r平方。更一般而言,偏差的方向将取决于数据的各种特征和alpha包含标准。 设置更严格的alpha包含准则(例如.01,.001等)应会降低预期的估计r平方,因为在任何数据生成中包含任何预测变量的可能性都较小。 通常,r平方是总体r平方的向上偏差估计,并且随着更多的预测变量和较小的样本量,该偏差的程度也会增加。 题 最后,我的问题是: 逐步回归的r平方在多大程度上导致总体r平方的估计偏差? 这种偏差在多大程度上与样本数量,预测变量数量,alpha包含标准或数据属性有关? 是否有关于此主题的参考?

4
R中的Brant测试[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 6个月前关闭。 在顺序逻辑回归中测试平行回归假设时,我发现有几种方法。我既使用了图形方法(如Harrell的书中所述),也使用了R中使用 序数包的方法。 但是,我还要对单个变量和整个模型运行Brant测试(来自Stata)。我环顾四周,但找不到在R中实现的代码。 R中有Brant测试的实现吗?

3
估计
我有一个如下的理论经济模型, y=a+b1x1+b2x2+b3x3+uy=a+b1x1+b2x2+b3x3+u y = a + b_1x_1 + b_2x_2 + b_3x_3 + u 因此,理论认为存在,和因子来估计。x1x1x_1x2x2x_2x3x3x_3yyy 现在我有了真实的数据,我需要估计,,。问题在于实际数据集仅包含和数据;没有数据。所以我实际上可以拟合的模型是:b1b1b_1b2b2b_2b3b3b_3x1x1x_1x2x2x_2x3x3x_3 y=a+b1x1+b2x2+uy=a+b1x1+b2x2+uy = a + b_1x_1 + b_2x_2 + u 可以估计这个模型吗? 我会失去任何估计吗? 如果我确实估计,b_2,那么b_3x_3项去哪儿?b 2 b 3 x 3b1b1b_1b2b2b_2b3x3b3x3b_3x_3 它由错误项uuu吗? 并且我们想假设x3x3x_3与x1x1x_1和x_2不相关x2x2x_2。

3
测试两个斜率值之间的显着差异
对于两个不同区域中的特定物种,我拥有的数据是y〜time的回归斜率值,标准误差,n值和ap值。我想检查一个区域的回归斜率是否与另一区域的回归斜率显着不同-使用此类数据可以做到吗?有人对我该有什么建议吗?不幸的是,我无法访问原始数据... 抱歉,这是一个简单的问题!

6
在活动中花费的时间作为自变量
我想将花费在做某事上的时间(例如,数周的母乳喂养)作为线性模型中的自变量。但是,某些观察结果根本不参与该行为。将它们编码为0并不是真正正确的方法,因为0在质量上与大于0的任何值都存在差异(即,不进行母乳喂养的女性可能与做过母乳的女性(甚至是长期不做母乳的女性)有很大差异)。我能提供的最好的方法是对假人进行分类,以对花费的时间进行分类,但这浪费了宝贵的信息。零膨胀的Poisson之类的东西似乎也有可能,但是我无法确切地弄清楚这种情况下的情况。有没有人有什么建议?

1
如何找到残差并绘制它们
我得到了数据 x = c(21,34,6,47,10,49,23,32,12,16,29,49,28,8,57,9,31,10,21,26,31,52,21,8,18,5,18,26,27,26,32,2,59,58,19,14,16,9,23,28,34,70,69,54,39,9,21,54,26) y = c(47,76,33,78,62,78,33,64,83,67,61,85,46,53,55,71,59,41,82,56,39,89,31,43,29,55, 81,82,82,85,59,74,80,88,29,58,71,60,86,91,72,89,80,84,54,71,75,84,79) 如何获得残差并将其与作图xxx?以及我如何测试残差看起来是否近似正常? 我不确定我是否正确完成了原始线性拟合,因为我得到了方程但讲义指出线性回归线的形式应为。y=6.9x−5.5y=6.9x−5.5y=6.9x-5.5yi=β0+β1x+ϵyi=β0+β1x+ϵy_i=\beta_0+\beta_1x+\epsilon
14 r  regression 

2
分位数建模中的模型性能
我正在使用分位数回归(例如,通过gbm或quantreg在R中)-不关注中位数,而是关注较高的分位数(例如,第75位)。来自预测建模的背景,我想衡量模型在测试集上的拟合程度,并能够向业务用户进行描述。我的问题是?在具有连续目标的典型设置中,我可以执行以下操作: 计算总体RMSE 根据预测值对数据集进行十进制分析,然后将实际平均值与每个十分位数中预测的平均值进行比较。 等等。 在这种情况下,如果确实没有实际值(至少我不认为)可以与预测进行比较,该怎么办? 这是示例代码: install.packages("quantreg") library(quantreg) install.packages("gbm") library(gbm) data("barro") trainIndx<-sample(1:nrow(barro),size=round(nrow(barro)*0.7),replace=FALSE) train<-barro[trainIndx,] valid<-barro[-trainIndx,] modGBM<-gbm(y.net~., # formula data=train, # dataset distribution=list(name="quantile",alpha=0.75), # see the help for other choices n.trees=5000, # number of trees shrinkage=0.005, # shrinkage or learning rate, # 0.001 to 0.1 usually work interaction.depth=5, # 1: additive model, …

3
贝叶斯变量选择-真的有效吗?
我以为我可能会喜欢上一些不错的博客文章和其中的链接论文,以选择一些贝叶斯变量来玩。我用rjags(我是个菜鸟)编写了一个程序,并获取了埃克森美孚的价格数据,以及一些不太可能解释其收益的信息(例如,钯金价格)以及其他应该高度相关的信息(例如SP500) )。 运行lm(),我们看到有强有力的证据证明模型过度参数化,但是绝对应该排除钯: Call: lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + EnergyStks, data = chkr) Residuals: Min 1Q Median 3Q Max -1.663e-03 -4.419e-04 3.099e-05 3.991e-04 1.677e-03 Coefficients: Estimate Std. Error t value Pr(>|t|) SP 0.51913 0.19772 2.626 0.010588 * Palladium 0.01620 0.03744 0.433 …

3
您将如何在R中进行贝叶斯ANOVA和回归分析?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 我有一个相当简单的数据集,由一个自变量,一个因变量和一个分类变量组成。我在运行诸如aov()和的频繁测试方面有丰富的经验lm(),但是我无法弄清楚如何在R中执行它们的贝叶斯等效项。 我想对前两个变量进行贝叶斯线性回归,并使用分类变量作为分组进行方差的贝叶斯分析,但是我找不到任何简单的示例来说明如何使用R做到这一点。都?此外,贝叶斯分析所创建的输出统计信息到底是什么,它们表示什么? 我对统计数据不是很精通,但是共识似乎是,现在认为使用带有p值的基本测试有些误入歧途,我正在努力跟上。问候。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.