6 估计和预测之间有什么区别? 例如,我有历史损失数据,并且正在计算极端分位数(风险价值或可能的最大损失)。获得的结果是用于估计损失还是预测损失?哪里可以划界线?我很困惑。 46 estimation predictor prediction-interval
4 创建模型时,是否应保留“没有统计学意义的协变量”? 我在模型的计算中有几个协变量,但并不是所有协变量都具有统计学意义。我应该删除那些不是吗? 这个问题讨论了这种现象,但没有回答我的问题: 如何解释ANCOVA中协变量的非显着影响? 但是,该问题的答案中没有任何内容建议删除不重要的协变量,因此,现在我倾向于认为它们应该保留。即使在阅读该答案之前,我也想过,因为协变量仍然可以解释某些方差(从而有助于模型),而不必解释超出某个阈值(显着性阈值,我认为不适用于协变量)的数量。 在CV上还有另一个问题,对于这个问题的答案似乎暗示着应将协变量保持在无关紧要的位置,但是对此尚不清楚。(我想链接到该问题,但是我暂时无法再次找到它。) 因此...模型计算中是否应保留未显示统计显着性的协变量?(我已经编辑了这个问题,以阐明无论如何计算都不会在模型输出中显示协变量。) 为了增加复杂性,如果协变量对于数据的某些子集(必须单独处理的子集)在统计上有意义,该怎么办。我将默认保留这样的协变量,否则在其中一种情况下,要么必须使用不同的模型,要么在统计上缺少重要的协变量。但是,如果您也对此拆分案有答案,请提及它。 39 regression statistical-significance ancova model predictor
2 何时以及如何在线性回归中使用标准化的解释变量 我有2个关于线性回归的简单问题: 建议什么时候标准化解释变量? 使用标准化值进行估算后,如何预测新值(如何标准化新值)? 一些参考会有所帮助。 37 regression predictive-models references standardization predictor
3 包括其他预测变量后使符号翻转的回归系数 想像 您使用四个数值预测变量(IV1,...,IV4)运行线性回归 如果仅将IV1作为预测变量,则标准beta为 +.20 当您还包括IV2到IV4时,IV1的标准回归系数的符号会变为-.25(即变为负数)。 这引起了一些问题: 关于术语,您是否称其为“抑制效应”? 您将使用什么策略来解释和理解这种影响? 在实践中,您是否有此类效果的示例,您如何解释和理解这些效果? 31 regression predictor
7 在回归分析中,为什么我们将自变量称为“独立”? 我的意思是其中一些变量之间具有很强的相关性。我们如何/为什么/在什么情况下将它们定义为自变量? 30 regression terminology predictor
4 自变量=随机变量? 我略微混淆如果自变量在统计模型(也称为预测器或功能),例如,线性回归,是一个随机变量?ÿ = β 0 + β 1 XXXXY=β0+β1XY=β0+β1XY=\beta_0+\beta_1 X 25 regression random-variable experiment-design predictor
4 边缘情况下精度和召回率的正确值是多少? 精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。 20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon
4 需要受治疗影响的协变量的良好数据示例 我查看了很多R数据集,DASL中的发布以及其他地方,但没有找到很多有趣的数据集的很好的例子来说明实验数据的协方差分析。在统计教科书中有许多“玩具”数据集,其中包含人为的数据。 我想举一个例子: 数据是真实的,有一个有趣的故事 至少有一个治疗因素和两个协变量 至少一个协变量受一种或多种治疗因素的影响,而一个不受治疗的影响。 实验性而非观察性,最好 背景 我的真正目标是找到一个很好的例子,将我的R包放入小插图中。但是更大的目标是,人们需要看到良好的例子来说明协方差分析中的一些重要问题。考虑以下组合方案(请理解,我的农业知识充其量只是肤浅的)。 我们进行了一项实验,其中将肥料随机分配给田地,并种植了农作物。经过适当的生育期后,我们收获农作物并测量一些质量特征-这就是响应变量。但是,我们还记录了生长期的总降雨量,以及收获时的土壤酸度,当然还记录了使用的肥料。因此,我们有两个协变量和一个处理。 分析结果数据的常用方法是将处理作为一个因素拟合线性模型,并对协变量进行累加效应。然后总结一下结果,在平均降雨量和3平均土壤酸度下,计算“调整均值”(AKA最小二乘均值),这是每种肥料模型预测的结果。这使一切都处于平等地位,因为当我们比较这些结果时,我们将降雨量和酸度保持恒定。 但这可能是错误的做法-因为肥料可能会影响土壤酸度以及反应。这会使调整后的方法产生误导,因为处理效果包括其对酸度的影响。解决此问题的一种方法是将酸度从模型中剔除,然后通过降雨调整后的方法进行公平的比较。但是,如果酸度很重要,那么这种公平性将付出巨大代价,这会增加残留变化。 有多种方法可以解决此问题,方法是在模型中使用调整后的酸度版本而不是其原始值。我的R软件包lsmeans即将更新,这将使这一切变得容易。但是我想有一个很好的例子来说明这一点。我将非常感谢并适当感谢任何能将我引向一些出色的说明性数据集的人。 19 dataset ancova predictor
4 可以输入多元回归方程式的最大自变量数 在多元回归方程中可以输入的自变量的数量限制是多少?我想根据其对结果变量的相对贡献来检查10个预测变量。我应该使用邦费罗尼校正来进行多次分析吗? 19 regression predictor importance bonferroni
2 在泊松模型中,将时间用作协变量或偏移量有什么区别? 最近,我发现了如何使用(例如)时间的对数作为Poisson回归中的偏移量来建模随时间变化的曝光量。 我知道偏移量对应于时间与系数1协变量。 我想更好地了解使用时间作为偏移量或作为正常协变量(从而估算系数)之间的区别。在哪种情况下我应该使用一种方法或另一种方法? 升级:我不知道这是否有趣,但是我使用重复重复500次的随机拆分数据对这两种方法进行了验证,我注意到使用offset方法会导致更大的测试错误。 18 poisson-regression predictor offset
3 如何将序数分类变量作为自变量处理 我正在使用Logit模型。我的因变量是二进制。但是,我有一个独立变量,该变量是分类的并包含响应:1.very good, 2.good, 3.average, 4.poor and 5.very poor。因此,它是序数(“定量分类”)。我不确定如何在模型中处理此问题。我正在使用gretl。 [@ttnphns的注:尽管问题说模型是logit的(因为因数是分类的),但关键问题-序数自变量-基本上是相同的,无论是分类还是定量的因数。因此,这个问题也与线性回归同样相关-与逻辑回归或其他logit模型一样。] 18 regression logistic ordinal-data predictor
3 具有序数自变量的连续因变量 给定连续因变量y和包括序数变量X 1的自变量,如何拟合线性模型R?是否有关于此类模型的论文? 17 r regression lasso ordinal-data predictor
3 我们真的需要包括“所有相关的预测变量”吗? 使用回归模型进行推理的基本假设是,“所有相关的预测变量”已包含在预测方程式中。理由是未能包含重要的现实因素会导致系数出现偏差,从而导致推论不准确(即省略了可变偏差)。 但是,在研究实践中,我从未见过任何类似 “所有相关预测变量”的事物。许多现象有许多重要原因,要把它们全部包括在内,将是非常困难的,即使不是不可能的话。一个现成的例子就是将抑郁症建模为结果:没有人建立类似于“所有相关变量”的模型的任何东西:例如,父母的历史,人格特质,社会支持,收入,他们的互动等,等等... 此外,除非有非常大的样本量,否则拟合这样一个复杂的模型将导致高度不稳定的估计。 我的问题很简单:“包含所有相关预测变量”的假设/建议是否只是我们“说”但实际上没有表达的意思?如果不是,那么我们为什么要提供它作为实际的建模建议? 这是否意味着大多数系数可能会产生误导?(例如,仅使用几种预测因子的人格因素和抑郁症研究)。换句话说,对于我们的科学结论而言,这有多大的问题? 15 regression assumptions bias predictor confounding
1 将标准化的beta转换回原始变量 我意识到这可能是一个非常简单的问题,但是在搜索后找不到所需的答案。 我有一个需要标准化变量的问题,需要运行(岭回归)来计算beta的岭估计。 然后,我需要将它们转换回原始变量比例。 但是我该怎么做呢? 我找到了双变量情况的公式 β∗= β^小号X小号ÿ。β∗=β^SxSy. \beta^* = \hat\beta \frac{S_x}{S_y} \>. 这在D. Gujarati的《基本计量经济学》第175页,公式(6.3.8)中给出。 凡是在标准化的变量从回归运行的估计和是一样的估计转换回原来的规模,是因变量的样本标准差,以及是样本标准差。* β小号ÿ 小号Xβ∗β∗\beta^*β^β^\hat\beta小号ÿSyS_y小号XSxS_x 不幸的是,这本书没有涵盖多元回归的类似结果。 另外我不确定我是否理解双变量情况?简单的代数运算以原始比例给出的公式:β^β^\hat\beta β^=β∗小号ÿ小号Xβ^=β∗SySx \hat\beta=\beta^* \frac{S_y}{S_x} 在我看来,对已经由放气的变量计算的必须再次由放气才能转换回去吗?(加上为什么不重新添加平均值?)小号X小号Xβ^β^\hat\beta小号XSxS_x小号XSxS_x 因此,有人可以在理想情况下通过推导解释多变量案例的处理方法,以便我可以理解结果吗? 14 regression standard-error standardization predictor centering
4 比较不同预测变量集的重要性 我曾为有特定问题的研究学生提供建议,并且我很想在此站点上得到其他人的意见。 内容: 研究人员具有三种类型的预测变量。每种类型包含不同数量的预测变量。每个预测变量都是一个连续变量: 社交:S1,S2,S3,S4(即四个预测变量) 认知:C1,C2(即两个预测变量) 行为:B1,B2,B3(即三个预测变量) 结果变量也是连续的。样本包括大约60名参与者。 研究人员想评论哪种类型的预测变量在解释结果变量方面更重要。这与对这些类型的预测变量的相对重要性的更广泛的理论关注有关。 问题 有什么好方法可以评估一组预测变量相对于另一组预测变量的相对重要性? 对于每个集合中预测变量数量不同的事实,有什么好的策略? 您可能建议解释什么注意事项? 任何引用示例或技术讨论的内容也将受到欢迎。 13 regression predictor importance