Questions tagged «interpretation»

通常指从统计分析结果中得出实质性结论。

2
了解此PCA冰淇淋销售量与温度的关系图
我正在获取温度与冰淇淋销售的虚拟数据,并使用K均值(n个群集= 2)将其分类以区分2类(完全虚拟)。 现在,我正在对此数据进行主成分分析,我的目标是了解我所看到的。我知道PCA的目的是减少尺寸(显然不是在这种情况下)并显示元素的变化。但是,您如何阅读下面的PCA图,即在PCA图中您可以讲述温度与冰淇淋的故事?第一(X)和第二(Y)PC是什么意思?

2
哪个科学领域研究人们如何解释定量总结和可视化?
有大量的知名资源提供有关数据可视化的建议。(例如,Tufte,Stephen Few等人,Nathan Yau。)但是,对于诸如此类的问题,答案可能会转向哪个领域: 饼图批评在实践中是否有意义?人们在解释线性标尺长度方面比在弧长方面要好得多吗? 假设我构建了一组基础变量的指数摘要,并向一般观众解释美国在2010年的价值为100,在2015年的价值为110。大多数人将如何解释这些数字?在介绍此指标时,我是否应该考虑自然的认知习惯,以便更好地解释或防止误解? 换句话说,定量信息的呈现者可以在哪些科学领域中寻找经验上可靠且经过测试的原理,这些原理可以帮助整理当今可用的大量可视化和设计建议? 目的不是要找到关于如何最佳地可视化数据或解决新颖的数据可视化问题的建议,想法或当前共识,而是要在哪里寻找人们如何解释定量和/或视觉信息的科学。 (对于引用该领域的期刊,会议和学者的额外感谢。)

5
用图形方式表示大量成对数据点的一种好方法是什么?
在我的领域中,绘制配对数据的常用方法是将一系列倾斜的细线段重叠起来,并用两组的中值和中值CI进行覆盖: 但是,由于数据点的数量变得非常大(在我的情况下,我的数量大约为10000对),这种图变得更加难以阅读: 降低alpha值会有所帮助,但这仍然不是很好。在寻找解决方案时,我遇到了本文,并决定尝试实现“平行线图”。同样,它对于少量数据点也非常有效: ññN 我想我可以分别显示两组的分布,例如使用箱形图或小提琴,并在顶部绘制一条带有误差线的线以显示两个中位数/ CI,但是我真的不喜欢这个想法,因为它无法传达数据的配对性质。 我也不太热衷于2D散点图的概念:我希望使用更紧凑的表示形式,理想情况下是将两组值沿同一轴绘制的表示形式。为了完整起见,以下是二维散点图的数据: 有谁知道一种更好的方法来表示具有很大样本量的配对数据?您能否将我链接到一些示例? 编辑 对不起,我显然在解释我要寻找的东西方面做得不够好。是的,二维散点图确实有效,并且可以通过多种方式进行改进以更好地传达点的密度-我可以根据核密度估计对点进行颜色编码,也可以制作二维直方图,我可以在点等上方绘制轮廓,等等。 但是,对于我要传达的信息,我认为这太过分了。我实际上并不关心显示点本身的2D密度-我需要做的就是以尽可能简单明了的方式显示“条”的值通常大于“点”的值。 ,并且不会丢失数据的基本配对性质。理想情况下,我想沿同一轴而不是正交轴绘制两组的配对值,因为这样可以更直观地进行比较。 也许没有比散点图更好的选择了,但是我想知道是否有其他可行的选择。

2
主成分分析输出的结论
我试图了解按以下方式进行的主成分分析的输出: > head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa > res = prcomp(iris[1:4], scale=T) > …
9 r  pca  interpretation 

4
帮助解释一个交互图?
当两个独立变量之间存在交互时,我很难解释交互图。 下图来自此站点: 此处,和是自变量,是因变量。一个AA乙BBd VDVDV 问:有互动的主要作用,但没有主效应一个AA乙BB 我可以看到,如果B在,则的值越高,的值越高,否则,无论的值如何,都是恒定。因此,存在之间的相互作用和和的主效应(因为较高导致更高,保持以恒定)。一个AAd VDVDV乙1个B1B_1d VDVDV一个AA一个AABBBAAAAAADVDVDVBBBB1B1B_1 另外,我可以看到不同层次的会导致不同程度的,拿着常数。因此,存在B的主要作用。但是,事实显然并非如此。因此,这必须表示我错误地解释了交互图。我究竟做错了什么?BBBDVDVDVAAA 我也错误地解释了情节6-8。我用来解释它们的逻辑与我上面使用的逻辑相同,所以如果我知道我在上面犯的错误,我应该能够正确解释其余的逻辑。否则,我将更新此问题。

1
Logistic回归模型变量的p值的含义
因此,我正在R中使用逻辑回归模型。尽管我还不熟悉统计学,但我现在似乎对回归模型有了一些了解,但仍然有些困扰我: 查看链接的图片,您会看到我创建的示例模型的摘要R打印。该模型正在尝试预测是否将重新找到数据集中的电子邮件(二进制变量isRefound),并且数据集中包含与密切相关的两个变量isRefound,即- next24和next7days-均为二进制,并告知是否将在下一个单击邮件。从日志中的当前点开始的24小时/接下来的7天。 高p值应表明,此变量对模型预测的影响是相当随机的,不是吗?基于这一点,我不明白为什么当这两个变量被排除在计算公式之外时,模型预测的精度为什么会下降到10%以下。如果这些变量的重要性不高,为什么将它们从模型中删除会产生如此大的影响? 最好的问候和预先的感谢,Rickyfox 编辑: 首先,我仅删除了next24,这会产生很小的影响,因为它的系数很小。正如预期的那样,变化不大-不会为此上传图片。 移除next7day会对模型产生重大影响:AIC提升200k,精度降低至16%,召回率降低至73%

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
如何解释降维/多维缩放的结果?
为了更好地理解数据的结构,我同时执行了SVD分解和6维数据矩阵的多维缩放。 不幸的是,所有奇异值都具有相同的阶数,这意味着数据的维数确实为6。但是,我希望能够解释奇异矢量的值。例如,第一个似乎在每个维度上都差不多相等(即(1,1,1,1,1,1)),第二个也有有趣的结构(类似(1,-1,1,-1,-1,1))。 我如何解释这些向量?您能指出一些有关该主题的文献吗?

2
我该如何解释布劳奇-帕根检验的结果?
在其中,R我可以使用程序包的ncvTest功能对异方差进行Breusch-Pagan测试car。Breusch-Pagan检验是卡方检验的一种。 我如何解释这些结果: > require(car) > set.seed(100) > x1 = runif(100, -1, 1) > x2 = runif(100, -1, 1) > ncvTest(lm(x1 ~ x2)) Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 0.2343406 Df = 1 p = 0.6283239 > y1 = cumsum(runif(100, -1, 1)) > y2 = runif(100, -1, …
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.