Questions tagged «interpretation»

通常指从统计分析结果中得出实质性结论。

1
广义估计方程和GLMM有什么区别?
我正在使用logit链接在3级不平衡数据上运行GEE。这与混合效果(GLMM)和logit链接的GLM有什么不同(就我得出的结论和系数的含义而言)? 更多详细信息:观察结果是单次bernoulli试验。它们分为教室和学校。使用R。按需省略NA。6个预测变量也包括交互项。 (我不是要让孩子们抬头看他们是否抬头。) 我倾向于对系数进行比对。两者的含义是否相同? 关于GEE模型中的“边际均值”,我的内心深处潜藏着一些东西。我需要向我解释一下。 谢谢。

1
如何在线性回归中解释系数标准误差?
我想知道在R中使用显示功能时如何解释回归的系数标准误。 例如,在以下输出中: lm(formula = y ~ x1 + x2, data = sub.pyth) coef.est coef.se (Intercept) 1.32 0.39 x1 0.51 0.05 x2 0.81 0.02 n = 40, k = 3 residual sd = 0.90, R-Squared = 0.97 更高的标准误差是否意味着更大的意义? 同样对于残留标准偏差,较高的值表示较大的扩展,但是R平方显示出非常接近的拟合度,这不是矛盾吗?

3
如何解释层次聚类分析的树状图
考虑下面的R示例: plot( hclust(dist(USArrests), "ave") ) y轴的“高度”到底是什么意思? 查看北卡罗来纳州和加利福尼亚州(位于左侧)。加利福尼亚在北卡罗来纳州比在亚利桑那州“更近”吗?我可以做出这种解释吗? 夏威夷(右)加入集群很晚。我可以看到它,因为它比其他州“更高”。通常,我如何正确解释树状图中标签“较高”或“较低”的事实?

3
用分类变量解释logit回归中的交互项
我从一项调查实验获得的数据中,将受访者随机分配到以下四个组之一: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 尽管三个治疗组在施加的刺激方面确实略有不同,但我关心的主要区别是对照组和治疗组之间。所以我定义了一个虚拟变量Control: > summary(df$Control) TRUE FALSE 59 191 在调查中,受访者(除其他外)被要求选择他们偏好的两件事中的哪一项: > summary(df$Prefer) A B NA's 152 93 5 然后,在接受治疗组确定的刺激(如果不在对照组中则没有刺激)后,要求受访者在相同的两件事之间进行选择: > summary(df$Choice) A B 149 101 我想知道三个治疗组之一的存在是否对受访者在最后一个问题中做出的选择有影响。我的假设是,接受治疗的受访者比接受治疗的可能性A更大B。 鉴于我正在使用分类数据,因此我决定使用logit回归(如果您认为这是不正确的,请随时鸣叫)。由于受访者是随机分配的,我的印象是我不一定需要控制其他变量(例如,人口统计学),因此我将那些变量留给了这个问题。我的第一个模型如下: > x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit")) > summary(x0) Call: glm(formula …


3
AIC和BIC号码解释
我正在寻找有关如何解释AIC(赤池信息标准)和BIC(贝叶斯信息标准)估计值的示例。 BIC之间的负差可以解释为一种模型相对于另一种模型的后验几率吗?我该如何说呢?例如,BIC = -2可能暗示较好模型相对于其他模型的几率约为?Ë2= 7.4Ë2=7.4e^2= 7.4 任何新手都会受到这个新手的赞赏。

3
多元回归中的“其他所有条件”是什么意思?
当我们这样做多元回归,说我们正在寻找在平均变化在一个变化的变量变量,保存了在其他变量不变,什么值,我们持有的其他变量不变?他们的意思是?零?有什么价值吗?ÿyyXxx 我倾向于认为它具有任何价值。只是在寻求澄清。如果有人有证明,那也将是一件好事。


3
解释部分依赖图的y轴
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 5年前。 我已经阅读了有关局部依赖图的其他主题,其中大多数都是关于如何使用不同的程序包实际绘制它们,而不是如何准确地解释它们,所以: 我一直在阅读并创建大量的部分依赖图。我知道他们用我模型中所有其他变量(χc)的平均影响来衡量变量χs对函数ƒS(χS)的边际影响。较高的y值表示它们对准确预测我的课程有更大的影响。但是,我对这种定性解释不满意。 我的模型(随机森林)正在预测两个谨慎的类。“是的树”和“没有树”。TRI是一个变量,已被证明是一个很好的变量。 我开始认为Y值显示出正确分类的可能性。示例:y(0.2)表明TRI值>〜30时,有20%的机会正确识别True Positive分类。 相反地 y(-0.2)显示TRI值<〜15具有20%的机会正确识别真阴性分类。 文献中做出的一般解释听起来像是“大于TRI 30的值开始对模型中的分类产生积极影响”,仅此而已。对于可能潜在地谈论您的数据太多的情节来说,这听起来很模糊和毫无意义。 另外,我的所有图的y轴范围都在-1到1之间。我还看到了其他的-10至10等图。这是您要预测多少个类的函数吗? 我想知道是否有人可以解决这个问题。也许告诉我如何解释这些情节或一些可以帮助我的文献。也许我对此读得太远了? 我已经非常详尽地阅读了统计学习的要素:数据挖掘,推理和预测,这是一个很好的起点,但仅此而已。

2
如何使用family = Gamma解释GLM中的参数
该问题是从Stack Overflow 迁移而来的,因为可以通过交叉验证来回答。 迁移 5年前。 我对带有伽玛分布因变量的GLM的参数解释有疑问。这是R通过日志链接返回给我的GLM的结果: Call: glm(formula = income ~ height + age + educat + married + sex + language + highschool, family = Gamma(link = log), data = fakesoep) Deviance Residuals: Min 1Q Median 3Q Max -1.47399 -0.31490 -0.05961 0.18374 1.94176 Coefficients: Estimate Std. Error t value …

2
LDA超参数的自然解释
有人可以解释LDA超参数的自然解释是什么吗?ALPHA和BETA是分别用于(按文档)主题和(按主题)单词分布的Dirichlet分布的参数。但是,有人可以解释一下选择这些超参数中的较大值与较小值的含义吗?这是否意味着对文档中的主题稀疏性和词语的主题互斥性有任何先入之见? 这个问题与潜在的Dirichlet分配有关,但是下面紧随其后的BGReene的评论涉及线性判别分析,该分析也令人困惑,也简称为LDA。

3
当交互作用不显着时,如何解释主要作用?
我在R中运行了广义线性混合模型,并包括了两个预测变量之间的相互作用。交互作用并不显着,但主要影响(两个预测因素)均如此。现在,许多教科书示例告诉我,如果交互作用显着,则主要作用无法解释。但是,如果您的互动不重要怎么办? 我是否可以得出结论,这两个预测因素会对响应产生影响?还是在不进行交互的情况下运行新模型更好?我不想这样做,因为那样我就必须控制多个测试。

5
实验设计中有什么障碍?
关于实验设计中的块概念,我有两个问题:(1)块和因子之间有什么区别?(2)我试图阅读一些书,但有一些不清楚的地方:作者似乎总是认为“阻碍因素”与其他因素之间没有相互作用,这是对的,如果是,为什么?

4
边缘情况下精度和召回率的正确值是多少?
精度定义为: p = true positives / (true positives + false positives) 对不对,作为true positives和false positives做法0,精度接近1? 召回相同的问题: r = true positives / (true positives + false negatives) 我目前正在实施统计测试,需要计算这些值,有时分母为0,我想知道在这种情况下应返回哪个值。 PS:请原谅,不恰当的标签,我想用recall,precision和limit,但我不能创造新的标签呢。
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
当我在回归中包含平方变量时会发生什么?
我从我的OLS回归开始: 其中D是虚拟变量,估计值与p值低的零不同。然后,我进行了Ramsey RESET测试,发现我对该方程有一些误称,因此我将平方x包括在内: ÿ = β 0 + β 1 X 1 + β 2 X 2 1 + β 3 d + εy=β0+β1x1+β2D+εy=β0+β1x1+β2D+ε y = \beta _0 + \beta_1x_1+\beta_2 D + \varepsilon y=β0+β1x1+β2x21+β3D+εy=β0+β1x1+β2x12+β3D+ε y = \beta _0 + \beta_1x_1+\beta_2x_1^2+\beta_3 D + \varepsilon 平方项解释了什么?(Y非线性增加?) 通过这样做,我的D估计值不再从零变化,而具有较高的p值。我如何解释方程式中的平方项(通常)? 编辑:改善问题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.