Questions tagged «interpretation»

通常指从统计分析结果中得出实质性结论。

11
如何理解自由度?
在Wikipedia中,对统计自由度有三种解释: 在统计中,自由度数是统计的最终计算中可以自由变化的值的数目。 统计参数的估计可以基于不同数量的信息或数据。进入参数估计的独立信息的数量称为自由度(df)。通常,参数估计的自由度等于进入估计的独立分数的数量减去在参数本身的估计中用作中间步骤的参数的数量(在样本方差中为一,因为样本均值是唯一的中间步骤)。 在数学上,自由度是随机向量的域的维数,或本质上是“自由”分量的数量:在完全确定向量之前,需要知道多少个分量。 粗体字是我不太了解的内容。如果可能,一些数学公式将有助于阐明这一概念。 这三种解释是否也彼此一致?

16
统计测试中p值和t值的含义是什么?
在修完统计学课程,然后试图帮助同学后,我注意到一个启发很多总部敲门鼓的科目正在解释统计学假设检验的结果。看来学生很容易学习如何执行给定测试所需的计算,但是却迷上了解释结果的过程。许多计算机化工具以“ p值”或“ t值”报告测试结果。 您如何向大学生学习统计学第一门课程解释以下几点: “ p值”相对于要检验的假设是什么意思?在某些情况下应该寻找高p值或低p值吗? p值和t值之间是什么关系?

2
R的lm()输出的解释
R中的帮助页面假定我知道这些数字的含义,但我不知道。我试图真正直观地理解这里的每个数字。我将只发布输出并对我发现的内容发表评论。可能(会)有错误,因为我只写我想像的东西。我主要想知道系数中的t值是什么意思,以及为什么它们会显示残留标准误差。 Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 这是残差的5点汇总(它们的平均值始终为0,对吧?)。可以使用这些数字(我在这里猜)来快速查看是否有任何较大的异常值。如果残差远离正态分布(它们应该是正态分布),您也已经在这里看到了。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.30843 0.06210 53.278 < 2e-16 *** iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ …

2
去除统计学上显着的截距项会增加线性模型中的
在具有单个解释变量的简单线性模型中, αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i 我发现删除截距项可以大大提高拟合度(值从0.3变为0.9)。但是,截距项似乎具有统计意义。R2R2R^2 带拦截: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** …

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
基于t-SNE的输出进行聚类
我有一个应用程序,在寻找嘈杂的数据集之前,可以方便地将一个嘈杂的数据集聚类。我首先研究了PCA,但是要达到90%的可变性需要大约30个组件,因此仅在几台PC上进行群集将丢弃很多信息。 然后,我尝试了t-SNE(第一次),这给了我一个二维的奇怪形状,非常适合通过k均值聚类。而且,在数据上运行随机森林并以集群分配作为结果表明,就问题原始情况而言,就组成原始数据的变量而言,集群具有相当合理的解释。 但是,如果我要报告这些集群,该如何描述它们?主成分上的K均值聚类揭示了根据组成数据集中方差X%的派生变量彼此相邻的个体。关于t-SNE集群可以做出什么等效的表述? 可能会产生以下效果: t-SNE揭示了潜在的高维流形中的近似连续性,因此在高维空间的低维表示上的聚类最大化了连续个体不会在同一聚类中的“可能性” 有人能提出比这更好的宣传吗?

9
这张图表显示恐怖袭击的可能性在统计上有用吗?
我看到这张图片传了很多。 我有种直觉,认为以这种方式提供的信息是不完整的,甚至是错误的,但是我对统计数据并不足够了解。这让我想到了这本xkcd漫画,即使有了可靠的历史数据,某些情况也可以改变事情的预测方式。 所提供的这张图表对准确显示难民的威胁水平有用吗?是否有必要的统计背景或多或少地使此图表有用? 注意:请尝试使用外行人的术语:)

1
如何解释泊松回归中的系数?
我如何解释泊松回归中的主要影响(虚拟编码因子的系数)? 假设以下示例: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- rpois(84, 5) …

5
如何解释逆协方差或精度矩阵?
我想知道是否有人可以指出一些参考文献,这些参考文献讨论逆协方差矩阵(也称为浓度矩阵或精度矩阵)的元素的解释。 我可以访问Cox和Wermuth的Multivariate Dependencies,但是我正在寻找的是对逆矩阵中每个元素的解释。维基百科指出:“精度矩阵的元素具有偏相关和偏方差的解释”,这使我进入了此页面。有没有使用线性回归的解释吗?IE,是协方差还是几何?

9
改写“每80人中有1人死于车祸”是错误的说法吗?
陈述一(S1):“ 80人中有1人死于车祸。” 陈述二(S2):“ 80人中有1人死于车祸。” 现在,我个人认为这两个语句之间没有太大区别。在写作时,我认为它们可以与普通读者互换。但是,现在我已经受到两个人的挑战,并且正在寻找其他视角。 我对S2的默认解释是:“从人口中随机抽出的80个人中,我们希望其中的一人是由于车祸而死的”-我确实认为这条合格的声明等同于S1。 我的问题如下: Q1)我的默认解释确实等同于陈述一吗? Q2)这是我的默认解释是不寻常还是鲁ck? Q3)如果您确实认为S1和S2不同,以至于要在第二个表示第一个是误导/不正确的时候声明第二个,您是否可以提供与S2完全相同的标准版本? 让我们撇开一个明显的疑问,即S1并非专门针对人的死亡,并假设它是在上下文中理解的。让我们也搁置对权利要求本身准确性的任何讨论:它只是为了说明。 据我所知,到目前为止,我所听到的分歧似乎都围绕着对第一条和第二条陈述的不同解释的默认设置。 对于第一个,我的挑战者似乎将其解释为1/80 * num_deaths =由交通事故造成的死亡人数,但由于某种原因,默认情况下,对第二个解释的含义与“如果有80人中,其中有1人会死于车祸”(显然这不是同等的要求)。我认为,考虑到他们对S1的解释,他们对S2的默认设置是将其读为(1/80 * num_dead_people =死于车祸的人数==死于车祸的人数)。我不确定为什么在解释上存在差异(S2的默认设置是一个更强的假设),或者他们是否具有我实际上缺乏的先天统计意义。

2
移动平均过程的真实例子
您能否举一些真实的时间序列示例,其移动平均过程为阶,即 是否有先验的理由成为好的模型?至少对我来说,自回归过程似乎很容易直观地理解,而MA过程乍一看似乎并不自然。请注意,我对这里的理论结果(例如沃尔德定理或可逆性)不感兴趣。qqqÿŤ= ∑我= 1qθ一世εt − i+ εŤ, 其中 εŤ〜ñ(0 , σ2)yt=∑i=1qθiεt−i+εt, where εt∼N(0,σ2) y_t = \sum_{i=1}^q \theta_i \varepsilon_{t-i} + \varepsilon_t, \text{ where } \varepsilon_t \sim \mathcal{N}(0, \sigma^2) 作为我要寻找的示例,假设您的每日股票收益为。然后,平均每周股票收益将具有MA(4)结构作为纯统计伪像。[RŤ〜IID (0 ,σ2)rt∼IID(0,σ2)r_t \sim \text{IID}(0, \sigma^2)

5
解释QQplot-是否有经验法则来确定非正常性?
我在这里阅读了足够的关于QQplots的主题,以了解QQplot比其他正常性测试更有用。但是,我对解释QQplots缺乏经验。我用谷歌搜索了很多;我发现了许多非正常QQ曲线图,但是没有清晰的规则来解释它们,除了看起来与已知分布和“肠感”的比较。 我想知道您是否有(或您知道)任何经验法则可以帮助您确定非正常性。 当我看到以下两个图形时,出现了这个问题: 我了解非正常性的决定取决于数据以及我要如何处理它们。但是,我的问题是:通常,观察到的偏离直线的时间何时构成足以使正态性近似变得不合理的证据? 就其价值而言,Shapiro-Wilk检验未能拒绝两种情况下的非正态性假设。

3
对数转换的预测变量和/或响应的解释
我想知道是否仅对因变量(无论是因变量还是自变量)还是仅对自变量进行了对数转换,在解释上是否有所不同。 考虑以下情况 log(DV) = Intercept + B1*IV + Error 我可以将IV解释为百分比增长,但是当我拥有 log(DV) = Intercept + B1*log(IV) + Error 或当我有 DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
Logistic回归系数的意义是什么?
我目前正在阅读一篇有关2000年和2004年大选的投票地点和投票偏好的论文。其中有一个显示逻辑回归系数的图表。从几年前的课程和一点阅读开始我了解逻辑回归是描述多个自变量与二进制响应变量之间关系的一种方式。鉴于下表,我感到困惑的是,因为南方的对数回归系数为.903,这是否意味着90.3%的南方人投票支持共和党?由于度量的后勤性质,这种直接相关不存在。取而代之的是,我假设您只能说,以.903表示的南方对共和党的投票比对山地/平原的投票多,而回归值为.506。考虑到后者的情况,在这种逻辑回归系数的情况下,我怎么知道什么是重要的,什么不是,以及是否可以推断出一定比例的共和党选票。 附带说明,如果有任何不正确的陈述,请编辑我的帖子

3
如何解释方差分析中的F值和p值?
我是统计学新手,目前正在与ANOVA合作。我在R中使用A进行ANOVA测试 aov(dependendVar ~ IndependendVar) 除其他外,我得到一个F值和一个p值。 我的原假设()是所有组均值相等。H0H0H_0 关于如何计算F有很多可用信息,但是我不知道如何读取F统计信息以及F和p是如何连接的。 因此,我的问题是: 如何确定拒绝的临界F值?H0H0H_0 每个F是否都有对应的p值,所以它们的含义基本相同吗?(例如,如果,则拒绝)高0p &lt; 0.05p&lt;0.05p<0.05H0H0H_0

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.