Questions tagged «regression»

用于分析一个(或多个)“因变量”和“因变量”之间的关系的技术。

3
回归平均谜题
在丹尼尔·卡尼曼(Daniel Kahneman)的“思考,快速和慢速”的“回归均值”一章中,给出了一个示例,并要求读者根据整体销售预测和上一年的销售数量来预测各个商店的销售。例如(这本书的示例有4家商店,为简单起见,我在这里使用2家): Store 2011 2012 1 100 ? 2 500 ? Total 600 660 天真的预测是商店1和2分别为110和550,每个商店增加10%。但是,作者声称这种幼稚的方法是错误的。绩效较差的商店更有可能增加10%以上,而绩效较好的商店则增加(甚至减少)少于10%。因此,预测115(增加15%)和535(增加7%)将比幼稚的预测“更正确”。 我不明白的是,我们如何得出结论,商店1的销售额为100必然是表现较差的商店?也许由于位置差异,商店1和2的真实时间序列平均值是10和550,商店1在2011年是超级年份,商店2在2011年是灾难性年份。那么这没有道理吗预测商店1的减少和商店2的增加? 我知道原始示例中未提供时间序列信息,但我的印象是“均值回归”是指横截面均值,因此时间序列信息并不重要。我有什么误会?

1
Logistic回归中的巨大系数-这意味着什么,该怎么做?
我在逻辑回归中获得了巨大的系数,请参见的系数krajULKV: > summary(m5) Call: glm(formula = cbind(ml, ad) ~ rok + obdobi + kraj + resid_usili2 + rok:obdobi + rok:kraj + obdobi:kraj + kraj:resid_usili2 + rok:obdobi:kraj, family = "quasibinomial") Deviance Residuals: Min 1Q Median 3Q Max -2.7796 -1.0958 -0.3101 1.0034 2.8370 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -486.72087 …


2
具有纵向数据的SVM回归
我每个患者大约有500个变量,每个变量都有一个连续值,并在三个不同的时间点(两个月后和一年后)进行测量。通过回归,我想预测新患者的治疗结果。 是否可以对此类纵向数据使用SVM回归?

4
扩展逻辑回归以得到0到1之间的结果
我有一个回归问题,其中结果不是严格地为0、1,而是包括从0到1的所有实数,包括。ÿ= [ 0 ,0.12 ,0.31 ,。。。, 1 ]Y=[0,0.12,0.31,...,1]Y = [ 0, 0.12, 0.31, ..., 1 ] 尽管我的问题略有不同,但该问题已经在该线程中进行了讨论。 出于与通常使用逻辑回归相同的原因,我无法使用线性回归。在线性回归中,A)非常大的IVs值会使预测结果偏向1,而B)线性回归的结果不限于0.1的极限。 从我的教科书看这个逻辑成本函数,我认为方程式旨在计算仅当和的值不等于0或1 时,成本才大于0 。成本= - ÿ日志(h (x ))− (1 − y)日志(1 − h (x ))Cost=−ylog⁡(h(x))−(1−y)log⁡(1−h(x))\text{Cost} = -y \log(h(x)) - (1 - y) \log(1-h(x))ÿyyXxx 通过修改成本函数来度量所有假设误差是否有可能使用逻辑回归?

3
在回归中添加更多变量且幅度更大时,符号翻转
基本设置: 回归模型: y=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵy=constant+β1x1+β2x2+β3x3+β4x4+αC+ϵy = \text{constant} +\beta_1x_1+\beta_2x_2+\beta_3x_3+\beta_4x_4+\alpha C+\epsilon 其中C是控制变量的向量。 我感兴趣的是 ββ\beta 并期待 β1β1\beta_1 和 β2β2\beta_2是负面的。但是,模型中存在多重共线性问题,相关系数由corr(x1x1x_1,x2)=x2)=x_2)= 0.9345,corr(x1x1x_1,x3)=x3)=x_3)= 0.1765,corr(x2x2x_2,x3)=x3)=x_3)= 0.3019。 所以 x1x1x_1 和 x2x2x_2是高度相关的,因此它们实际上应该提供相同的信息。我运行三个回归: 排除 x1x1x_1变量; 2.排除x2x2x_2变量; 3.两者兼有的原始模型x1x1x_1 和 x2x2x_2。 结果: 对于回归1和2,它提供了预期的符号β2β2\beta_2 和 β1β1\beta_1分别且幅度相似。和β2β2\beta_2 和 β1β1\beta_1 在对标准误差进行HAC校正后,两个模型中的均值在10%的水平上均显着。 β3β3\beta_3 在两个模型中均为正,但不显着。 但是3 β1β1\beta_1 具有预期的符号,但符号为 β2β2\beta_2 是正的,其幅度是其两倍 β1β1\beta_1绝对价值 而且两者β1β1\beta_1 和 β2β2\beta_2无关紧要。此外,β3β3\beta_3 与回归1和2相比减少了近一半。 我的问题是: 为什么在3中 β2β2\beta_2 变得积极并且远大于 …

2
从关系数据中学习
设置 许多算法对单个关系或表进行操作,而许多现实世界数据库将信息存储在多个表中(Domingos,2003年)。 问题 哪些类型的算法可以从多个(关系)表中很好地学习。特别是,我对适用于回归和分类任务的算法(而不是面向网络分析的算法,例如链接预测)感兴趣。 我知道下面列出了几种方法(但可以肯定的是我缺少了一些方法): 多关系数据挖掘(MRDM)(Dzeroski,2002) 归纳逻辑编程(ILP)(Muggleton,1992年) 统计关系学习(SRL)(Getoor,2007年) Džeroski,S。(2003)。多关系数据挖掘:简介。ACM SIGKDD勘探通讯。 Getoor,Lise和Ben Taskar编辑。统计关系学习简介。麻省理工学院出版社,2007。 S. Muggleton和C. Feng。逻辑程序的有效归纳。第一次算法学习理论会议论文集,第368–381页。1990年,东京,欧姆萨(Ohmsha)。

4
Box Cox转换以进行回归
我正在尝试仅使用一个预测变量(例如(x,y))将线性模型拟合到某些数据上。数据使得对于较小的x值,y值与直线紧密匹配,但是,随着x值的增加,y值变得更加不稳定。这是此类数据(R代码)的示例 y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9) x = seq(1,10,1) 我很想知道是否存在任何幂变换(也许是Box cox?),这使我比简单地进行线性拟合(如下所示)更适合数据。 fit = lm(y ~ x)

1
线性回归模型的置信度和预测区间
好吧,所以我试图理解线性回归。我有一个数据集,看起来还不错,但是我很困惑。这是我的线性模型摘要: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.2068621 0.0247002 8.375 4.13e-09 *** temp 0.0031074 0.0004779 6.502 4.79e-07 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.04226 on 28 degrees of freedom Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 …
9 r  regression 

2
确定组中最大的贡献者
我对统计信息了解不多,请多多包涵。假设我有一组1000名工人。我想弄清楚谁是最努力的人,但我只能以一个小时的工作量为一组,以1-100人为单位来衡量完成的工作量。假设每个工人总是做相同数量的工作,那么在大量的试验和组合中,我能按谁最努力的方式对工人进行排名吗? 注意:这只是一个隐喻,因此不必担心实际运行测试,只需假设我已经有大量数据即可。 编辑: 当我说“假设每个工人总是做相同数量的工作”时,我的意思是每个人每天都做相同数量的工作。因此,乔伊每天将做大约100个工作单元,格雷格将做大约50个工作单元。问题是我只能观察小组完成的工作单元数。 更多编辑: 关于一次工作的工人数量及其工作频率。可能有许多工人同时工作。一些工人可能最终会比其他工人工作更多,也就是说,我们可以假设一些工人将近90%的时间在工作,而其他工人几乎永远不会。 我知道这很困难,但是我将拥有一个非常大的数据集,因此希望这会使它变得容易一些。 对于每个小时,我们知道哪些工人在工作以及完成了多少工作。从这些信息中,我想找出谁做得最多。 如果数据为JSON格式,则将如下所示: [ { "work_done": 12345, "Workers": [ "andy", "bob", "cameron", "david" ] }, { "work_done": 432, "Workers": [ "steve", "joe", "andy"] }, { "work_done": 59042, "Workers": [ "bob", "aaron", "michelle", "scott", "henry" ] }, ... ]

4
何时使用非参数回归?
我在SAS中使用PROC GLM来拟合以下形式的回归方程 ÿ=b0+b1个X1个+b2X2+b3X3+b4Ťÿ=b0+b1个X1个+b2X2+b3X3+b4Ť Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t 产生的残差的QQ图表示偏离正常值。任何变换都无法使残差正常。ÿÿY 此时,我可以安全地切换到非参数方法,例如PROC LOESS。 我已经使用过PROC LOESS,并且看起来比PROC GLM更好。但是我对非参数回归没有太多的了解。我不知道何时选择非参数回归而不是参数回归。 有人可以帮我弄这个吗? 我将继续添加另一个问题。以下是模型中我的变量的描述。 有时我得到负的预测成本。这根本不符合逻辑。我该如何解决这个问题?ÿ= 医疗费用X1个= 注射次数X2= 手术数量X3= 物理疗法的数量t = 时间ÿ=医疗费用X1个=注射次数X2=手术数量X3=物理疗法的数量Ť=时间 Y =\text{cost of medical care}\\ X_1 =\text{number of injections}\\ X_2 =\text{number of surgeries}\\ X_3 =\text{number of physical therapies}\\ t =\text{time}

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

3
使用Pearson相关和线性回归的Bonferroni校正
我正在针对3个DV的5个IV(5个人格特质,性格外向,和agree,尽责,神经质,开放)运行统计数据,包括PCT态度,CBT态度,PCT与CBT态度。我还添加了年龄和性别,以查看还有其他影响。 我正在测试以查看人格特征是否可以预测DV的态度。 最初,我对所有变量都使用了Pearson相关性(45个测试)。 主要发现是外向性与PCT态度在p = 0.05相关。但是,当我进行45次测试时,我对Bonferroni进行了alpha = 0.05 / 45 = 0.001的校正,因此这一发现无关紧要。 然后,我对所有变量进行了简单的线性回归,对于PCT态度,外向性再次很重要。如果我进行Bonferroni校正,那么它再次显得微不足道。 问题: 我需要Bonferroni纠正Pearson的相关性吗? 如果我这样做了,因此对PCT的态度无忧无虑,那么进行线性回归还有意义吗? 如果我进行线性回归,是否还需要对此进行Bonferroni校正? 我只报告校正后的值还是未校正和校正后的值?


1
通过以坐标作为预测变量进行回归建模空间趋势
我打算将坐标作为协变量包括在回归方程中,以便针对数据中存在的空间趋势进行调整。之后,我想测试随机变化中空间自相关的残差。我有几个问题: 我应该执行线性回归,其中仅自变量是和坐标,然后测试空间自相关的残差,还是应该不仅包括坐标作为协变量,还包括其他变量,然后测试残差。xxxyyy 如果我期望具有二次趋势,然后不仅包括,还包括,和,那么其中的一些(和)的值将大于阈值-我应该排除那些值较高的变量不重要吗?那我该如何解释趋势,它肯定不再是二次方了?x,yx,yx,yxyxyxyx2x2x^2y2y2y^2xyxyxyy2y2y^2pppppp 我想我应该将和坐标视为其他任何协变量,并通过构造部分残差图来测试它们是否与因变量具有线性关系...但是一旦我对它们进行了变换(如果它们显示它们需要变换),那将不会不再是那种趋势(特别是如果我将,和在二次趋势中)。例如,它可能表明需要转换,而则不需要转换?在这些情况下我应该如何应对?xxxyyyxyxyxyx2x2x^2y2y2y^2x2x2x^2xxx 谢谢。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.