Questions tagged «predictor»

指模型中用于预测响应的变量。此标记还可以用于解释性和描述性建模中的变量,而不仅仅是预测性建模。相同的构造在不同的上下文中具有许多名称,包括:自变量,解释性变量,回归变量,协变量等。此标记可用于任何这些同义词。 X


4
创建模型时,是否应保留“没有统计学意义的协变量”?
我在模型的计算中有几个协变量,但并不是所有协变量都具有统计学意义。我应该删除那些不是吗? 这个问题讨论了这种现象,但没有回答我的问题: 如何解释ANCOVA中协变量的非显着影响? 但是,该问题的答案中没有任何内容建议删除不重要的协变量,因此,现在我倾向于认为它们应该保留。即使在阅读该答案之前,我也想过,因为协变量仍然可以解释某些方差(从而有助于模型),而不必解释超出某个阈值(显着性阈值,我认为不适用于协变量)的数量。 在CV上还有另一个问题,对于这个问题的答案似乎暗示着应将协变量保持在无关紧要的位置,但是对此尚不清楚。(我想链接到该问题,但是我暂时无法再次找到它。) 因此...模型计算中是否应保留未显示统计显着性的协变量?(我已经编辑了这个问题,以阐明无论如何计算都不会在模型输出中显示协变量。) 为了增加复杂性,如果协变量对于数据的某些子集(必须单独处理的子集)在统计上有意义,该怎么办。我将默认保留这样的协变量,否则在其中一种情况下,要么必须使用不同的模型,要么在统计上缺少重要的协变量。但是,如果您也对此拆分案有答案,请提及它。


3
包括其他预测变量后使符号翻转的回归系数
想像 您使用四个数值预测变量(IV1,...,IV4)运行线性回归 如果仅将IV1作为预测变量,则标准beta为 +.20 当您还包括IV2到IV4时,IV1的标准回归系数的符号会变为-.25(即变为负数)。 这引起了一些问题: 关于术语,您是否称其为“抑制效应”? 您将使用什么策略来解释和理解这种影响? 在实践中,您是否有此类效果的示例,您如何解释和理解这些效果?



4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

4
需要受治疗影响的协变量的良好数据示例
我查看了很多R数据集,DASL中的发布以及其他地方,但没有找到很多有趣的数据集的很好的例子来说明实验数据的协方差分析。在统计教科书中有许多“玩具”数据集,其中包含人为的数据。 我想举一个例子: 数据是真实的,有一个有趣的故事 至少有一个治疗因素和两个协变量 至少一个协变量受一种或多种治疗因素的影响,而一个不受治疗的影响。 实验性而非观察性,最好 背景 我的真正目标是找到一个很好的例子,将我的R包放入小插图中。但是更大的目标是,人们需要看到良好的例子来说明协方差分析中的一些重要问题。考虑以下组合方案(请理解,我的农业知识充其量只是肤浅的)。 我们进行了一项实验,其中将肥料随机分配给田地,并种植了农作物。经过适当的生育期后,我们收获农作物并测量一些质量特征-这就是响应变量。但是,我们还记录了生长期的总降雨量,以及收获时的土壤酸度,当然还记录了使用的肥料。因此,我们有两个协变量和一个处理。 分析结果数据的常用方法是将处理作为一个因素拟合线性模型,并对协变量进行累加效应。然后总结一下结果,在平均降雨量和3平均土壤酸度下,计算“调整均值”(AKA最小二乘均值),这是每种肥料模型预测的结果。这使一切都处于平等地位,因为当我们比较这些结果时,我们将降雨量和酸度保持恒定。 但这可能是错误的做法-因为肥料可能会影响土壤酸度以及反应。这会使调整后的方法产生误导,因为处理效果包括其对酸度的影响。解决此问题的一种方法是将酸度从模型中剔除,然后通过降雨调整后的方法进行公平的比较。但是,如果酸度很重要,那么这种公平性将付出巨大代价,这会增加残留变化。 有多种方法可以解决此问题,方法是在模型中使用调整后的酸度版本而不是其原始值。我的R软件包lsmeans即将更新,这将使这一切变得容易。但是我想有一个很好的例子来说明这一点。我将非常感谢并适当感谢任何能将我引向一些出色的说明性数据集的人。


2
在泊松模型中,将时间用作协变量或偏移量有什么区别?
最近,我发现了如何使用(例如)时间的对数作为Poisson回归中的偏移量来建模随时间变化的曝光量。 我知道偏移量对应于时间与系数1协变量。 我想更好地了解使用时间作为偏移量或作为正常协变量(从而估算系数)之间的区别。在哪种情况下我应该使用一种方法或另一种方法? 升级:我不知道这是否有趣,但是我使用重复重复500次的随机拆分数据对这两种方法进行了验证,我注意到使用offset方法会导致更大的测试错误。

3
如何将序数分类变量作为自变量处理
我正在使用Logit模型。我的因变量是二进制。但是,我有一个独立变量,该变量是分类的并包含响应:1.very good, 2.good, 3.average, 4.poor and 5.very poor。因此,它是序数(“定量分类”)。我不确定如何在模型中处理此问题。我正在使用gretl。 [@ttnphns的注:尽管问题说模型是logit的(因为因数是分类的),但关键问题-序数自变量-基本上是相同的,无论是分类还是定量的因数。因此,这个问题也与线性回归同样相关-与逻辑回归或其他logit模型一样。]


3
我们真的需要包括“所有相关的预测变量”吗?
使用回归模型进行推理的基本假设是,“所有相关的预测变量”已包含在预测方程式中。理由是未能包含重要的现实因素会导致系数出现偏差,从而导致推论不准确(即省略了可变偏差)。 但是,在研究实践中,我从未见过任何类似 “所有相关预测变量”的事物。许多现象有许多重要原因,要把它们全部包括在内,将是非常困难的,即使不是不可能的话。一个现成的例子就是将抑郁症建模为结果:没有人建立类似于“所有相关变量”的模型的任何东西:例如,父母的历史,人格特质,社会支持,收入,他们的互动等,等等... 此外,除非有非常大的样本量,否则拟合这样一个复杂的模型将导致高度不稳定的估计。 我的问题很简单:“包含所有相关预测变量”的假设/建议是否只是我们“说”但实际上没有表达的意思?如果不是,那么我们为什么要提供它作为实际的建模建议? 这是否意味着大多数系数可能会产生误导?(例如,仅使用几种预测因子的人格因素和抑郁症研究)。换句话说,对于我们的科学结论而言,这有多大的问题?

1
将标准化的beta转换回原始变量
我意识到这可能是一个非常简单的问题,但是在搜索后找不到所需的答案。 我有一个需要标准化变量的问题,需要运行(岭回归)来计算beta的岭估计。 然后,我需要将它们转换回原始变量比例。 但是我该怎么做呢? 我找到了双变量情况的公式 β∗= β^小号X小号ÿ。β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. 这在D. Gujarati的《基本计量经济学》第175页,公式(6.3.8)中给出。 凡是在标准化的变量从回归运行的估计和是一样的估计转换回原来的规模,是因变量的样本标准差,以及是样本标准差。* β小号ÿ 小号Xβ∗β∗\beta^*β^β^\hat\beta小号ÿSyS_y小号XSxS_x 不幸的是,这本书没有涵盖多元回归的类似结果。 另外我不确定我是否理解双变量情况?简单的代数运算以原始比例给出的公式:β^β^\hat\beta β^=β∗小号ÿ小号Xβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} 在我看来,对已经由放气的变量计算的必须再次由放气才能转换回去吗?(加上为什么不重新添加平均值?)小号X小号Xβ^β^\hat\beta小号XSxS_x小号XSxS_x 因此,有人可以在理想情况下通过推导解释多变量案例的处理方法,以便我可以理解结果吗?

4
比较不同预测变量集的重要性
我曾为有特定问题的研究学生提供建议,并且我很想在此站点上得到其他人的意见。 内容: 研究人员具有三种类型的预测变量。每种类型包含不同数量的预测变量。每个预测变量都是一个连续变量: 社交:S1,S2,S3,S4(即四个预测变量) 认知:C1,C2(即两个预测变量) 行为:B1,B2,B3(即三个预测变量) 结果变量也是连续的。样本包括大约60名参与者。 研究人员想评论哪种类型的预测变量在解释结果变量方面更重要。这与对这些类型的预测变量的相对重要性的更广泛的理论关注有关。 问题 有什么好方法可以评估一组预测变量相对于另一组预测变量的相对重要性? 对于每个集合中预测变量数量不同的事实,有什么好的策略? 您可能建议解释什么注意事项? 任何引用示例或技术讨论的内容也将受到欢迎。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.