Questions tagged «interpretation»

通常指从统计分析结果中得出实质性结论。

1
解释R中的逻辑回归输出
我正在使用进行R中的多元逻辑回归glm。预测变量是连续的和分类的。该模型摘要的摘录显示以下内容: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.451e+00 2.439e+00 1.005 0.3150 Age 5.747e-02 3.466e-02 1.658 0.0973 . BMI -7.750e-02 7.090e-02 -1.093 0.2743 ... --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 置信区间: 2.5 % 97.5 % (Intercept) 0.10969506 1.863217e+03 Age 0.99565783 …

1
线性回归中作为独立变量求和的解释比例
我熟悉分类变量的概念以及相应的伪变量编码,这些编码使我们能够将一个级别作为基线来避免共线性。我还熟悉如何从此类模型解释参数估计值:相对于基线类别,对于给定拟合类别的预测变量,结果的预测变化。 我不确定的是如何解释一组独立的变量,这些变量之和等于一个。如果我们将所有比例都拟合到模型中,我们将再次具有共线性,因此,我们大概必须将一类作为基线。我还假设我将使用III型SS对该变量的重要性进行整体测试。但是,我们如何解释模型中相对于基线的那些水平的参数估计呢? 一个示例:在邮政编码级别,自变量是变质岩,火成岩和沉积岩的比例。如您所知,这是三种主要的岩石类型,所有岩石都被分类为其中一种。这样,所有这三个部分的比例之和为1。结果是各个邮政编码中的平均ra水平。 例如,如果要拟合变质和火成岩比例作为模型中的预测因子,而以沉积物为基线,则通过对两个拟合水平的整体III型SS F-测试可以表明岩石类型总体上是否重要结果的预测因子(平均ra水平)。然后,我可以查看各个p值(基于t分布)以确定一种或两种岩石类型是否与基线显着不同。 但是,当涉及到参数估计时,我的大脑一直想将它们纯粹解释为组(摇滚类型)之间结果的预期变化,而且我不知道如何将它们按比例拟合这一事实纳入其中。 如果的变质估计值为例如0.43,则说明的不是简单的解释,即当岩石变质而沉积时,预测的平均the水平增加了0.43个单位。但是,这种解释也不只是简单地解释了变质岩类型比例的某种单位增加(例如0.1),因为这并没有反映出它也相对于基线(沉积物)以及变化的事实。变质的比例从本质上改变了火成岩模型中其他岩石水平拟合的比例。ββ\beta 有没有人提供提供这种模型的解释的资源,或者如果没有,您可以在这里提供一个简短的示例吗?

1
y轴在随机森林偏倚图中的意义
我正在使用RandomForestR包,并对如何在其偏相关图中解释Y轴的值感到困惑。帮助文档指出,该图是“变量对类概率的边际影响的图形描述”。但是,我仍然对y轴的确切含义感到困惑。 特别是,负值是什么意思? 对准确预测班级产生负面影响是什么意思? 这些图中最重要的特征是最大值,趋势形状等吗? 您可以将局部图与其他变量的局部图进行比较吗? 这些图如何与Maxent(一种分布建模软件)中创建的响应曲线进行比较?

1
如何在MCMC中解释自相关图
通过阅读John K. Kruschke 的《做贝叶斯数据分析》一书,我也熟悉贝叶斯统计数据,该书也被称为“小狗书”。在第9章中,通过以下简单示例介绍了层次模型: 和伯努利观察是3枚硬币,每次10个翻转。一个显示9个头,另一个显示5个头,另一个显示1个头。yjiθjμκ∼Bernoulli(θj)∼Beta(μκ,(1−μ)κ)∼Beta(Aμ,Bμ)∼Gamma(Sκ,Rκ)yji∼Bernoulli(θj)θj∼Beta(μκ,(1−μ)κ)μ∼Beta(Aμ,Bμ)κ∼Gamma(Sκ,Rκ)\begin{align} y_{ji} &\sim {\rm Bernoulli}(\theta_j) \\ \theta_j &\sim {\rm Beta}(\mu\kappa, (1-\mu)\kappa) \\ \mu &\sim {\rm Beta}(A_\mu, B_\mu) \\ \kappa &\sim {\rm Gamma}(S_\kappa, R_\kappa) \end{align} 我已经使用pymc来推断超参数。 with pm.Model() as model: # define the mu = pm.Beta('mu', 2, 2) kappa = pm.Gamma('kappa', 1, 0.1) # define the prior …

3
如何解释修整百分比与修整平均值的关系图?
对于作业问题的一部分,我被要求通过删除最小和最大的观测值来计算数据集的修整平均值,并解释结果。修整后的平均值低于未修整的平均值。 我的解释是,这是因为基础分布正偏,所以左尾比右尾更密。由于这种偏斜,删除高基准数据会比平均低基准数据向下拖累平均值下降更多,因为从非正式的角度来说,还有更多的低数据在“等待取代”。(这合理吗?) 然后,我开始怀疑修整百分比如何对其产生影响,因此我针对各种计算了修整后的平均值。我得到了一个有趣的抛物线形状: x¯tr(k)x¯tr⁡(k)\bar x_{\operatorname{tr}(k)}k=1/n,2/n,…,(n2−1)/nk=1/n,2/n,…,(n2−1)/nk = 1/n, 2/n, \dotsc, (\frac{n}{2}-1)/n 我不太确定该如何解释。从直觉上看,似乎曲线图的斜率应该(与中位数的数据点内的分布部分的负偏度成正比)。(这个假设确实可以验证我的数据,但是我只有,所以我不太有把握。)kkkn=11n=11n = 11 这种类型的图是否有名称,还是常用的?我们可以从该图中收集哪些信息?有标准解释吗? 作为参考,数据为:4、5、5、6、11、17、18、23、33、35、80。

2
方差-协方差矩阵解释
假设我们有一个线性模型,Model1并vcov(Model1)给出以下矩阵: (Intercept) latitude sea.distance altitude (Intercept) 28.898100 -23.6439000 -34.1523000 0.50790600 latitude -23.643900 19.7032500 28.4602500 -0.42471450 sea.distance -34.152300 28.4602500 42.4714500 -0.62612550 altitude 0.507906 -0.4247145 -0.6261255 0.00928242 对于此示例,此矩阵实际显示什么?我们可以为模型及其独立变量安全地做出哪些假设?

2
大众比萨统计
《纽约时报》网站上的简短条目提供了美国比萨消费的事实和数据。我对如何使用统计数据(或滥用统计数据)向普通受众提供信息有偶然的兴趣,并且根据提供的统计数据出现了两个问题: 如果今天八分之一的美国人会吃披萨,这是否意味着美国人平均每八天吃一次披萨?这里有一个假设,就是每个美国人都吃披萨,事实并非如此。但是,这就提出了一个问题,即如何对多少美国人吃披萨做出正确的假设。 据报道,一个孩子的热量摄入中有25%是比萨。我将一个孩子定义为9岁的孩子,他的身体比较活跃,因此需要每天摄入2000卡路里的热量。如果我们相信Google估计的披萨片中的卡路里数量为285,那么这是否意味着一个孩子平均每周食用12片披萨?(2000 * 7 * 0.25 / 285) 我怀疑我对统计数据的解释是错误的;在我看来,今天有八分之一的美国人正在吃披萨,而现在每天也吃大约1.7片以达到25%的卡路里摄入量,这似乎并不是一个孩子的一部分。

3
二项式Fisher信息与成反比的直观原因
它使二项式的方差与成正比,这使我感到困惑/不高兴。等效地,Fisher信息与成正比。这是什么原因呢?为什么在将Fisher信息最小化?也就是说,为什么在推理最困难?1p (1 − p )p(1−p)p(1-p) p=0.5p=0.51个p (1 − p )1p(1−p)\frac{1}{p(1-p)}p = 0.5p=0.5p=0.5p = 0.5p=0.5p=0.5 内容: 我正在使用样本量计算器,并且的公式(所需的样本量)是的增加因子,这是推导中方差估计的结果。p (1 − p )ñNNp (1 − p )p(1−p)p(1-p)


1
LASSO回归系数的解释
我目前正在为具有约300个变量和800个观察值的数据集构建二进制结果的预测模型。我已经在该站点上阅读了很多有关逐步回归相关问题以及为什么不使用它的知识。 我一直在阅读LASSO回归及其功能选择功能,并已成功使用“插入符号”包和“ glmnet”实现了它。 我能够提取与优化模型的系数lambda,并alpha从“插入符号”; 但是,我不熟悉如何解释系数。 LASSO系数的解释方法是否与逻辑回归相同? 在逻辑回归中使用从LASSO中选择的特征是否合适? 编辑 系数的解释(如LASSO回归的指数系数一样)是系数保持1个单位变化时的对数赔率,同时保持所有其他系数不变。 https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpreting-odds-ratios-in-logistic-regression/

2
R中k均值聚类的解释结果
我正在使用kmeansR 的指令在Anderson的虹膜数据集上执行k-means算法。我对我得到的一些参数有疑问。结果是: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 在这种情况下,“集群意味着”代表什么?它是集群中所有对象的距离的平均值吗? 在最后一部分中,我还有: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) 那个88.4%的值,可能是它的解释?


1
如何解释已记录的结果变量的负线性回归系数?
我有一个线性回归模型,其中记录了因变量,而自变量是线性的。关键自变量的斜率系数为负: .。不确定如何解释。− .0564−.0564-.0564 我是否使用绝对值然后将其变为负值,如下所示: (exp(0.0564 )- 1 )⋅ 100 = 5.80(exp⁡(0.0564)−1)⋅100=5.80(\exp(0.0564)-1) \cdot 100 = 5.80 要么 我是否要像这样插入负系数: (exp(- 0.0564 )- 1 )⋅ 100 = - 5.48(exp⁡(−0.0564)−1)⋅100=−5.48(\exp(-0.0564)-1) \cdot 100 = -5.48 换句话说,我是使用绝对数字然后将其变为负数还是插入负系数?我如何用X的单位增加与Y的__%减少相关的方式表达我的发现?如您所见,这两个公式产生两个不同的答案。

2
QQ剧情解读
考虑以下代码和输出: par(mfrow=c(3,2)) # generate random data from weibull distribution x = rweibull(20, 8, 2) # Quantile-Quantile Plot for different distributions qqPlot(x, "log-normal") qqPlot(x, "normal") qqPlot(x, "exponential", DB = TRUE) qqPlot(x, "cauchy") qqPlot(x, "weibull") qqPlot(x, "logistic") 看来,对数正态的QQ图与weibull的QQ图几乎相同。我们如何区分它们?此外,如果这些点在两条外部黑色线所定义的区域内,是否表示它们遵循指定的分布?

1
我可以为该样本假设(对数)正态吗?
这是我的样品的QQ图(注意对数Y轴);:n=1000n=1000n = 1000 正如whuber所指出的,这表明基础分布是左偏斜的(右尾较短)。 使用R中的shapiro.test(对数转换后的数据),我得到的检验统计和的p值,这意味着我们正式拒绝了零假设在95%置信水平下的。5.172 ⋅ 10 - 13W=0.9718W=0.9718W = 0.97185.172⋅10−135.172⋅10−135.172\cdot10^{-13}H0:the sample is normal distributedH0:the sample is normal distributedH_0 : \text{the sample is normal distributed} 我的问题是:在实践中,假设(对数)正态性是否足够用于进一步分析?特别是,我想使用Cox和Land的近似方法计算相似样本均值的置信区间(在论文中进行描述:Zou,GY,cindy Yan Huo和Taleban,J.(2009)。对数正态平均值及其与环境应用的差异(环境计量学20,172–180): ci <- function (x) { y <- log(x) n <- length(y) s2 <- var(y) m <- mean(y) + s2 / 2 z …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.