Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

2
您将如何可视化细分渠道?(您可以使用Python做到吗?)
我在Moz上看到了这篇帖子,其中介绍了细分的营销渠道: 这种事情在我的工作中将具有很大的价值。我不知道如何可视化原始数据以显示像这样的分段漏斗。这个想法是销售线索来自不同的来源(我们将其用于细分数据),并在转化为交易时经历了多个阶段。从每个阶段到另一个阶段都有下降。每个切片的宽度由每个切片中引线的绝对数量确定。[ 编辑:注意,当涉及每个切片右侧指定的数字时,此处用作参考的图像会产生误导。切片的宽度和数量之间似乎没有任何关系。该图像仅应作为分段漏斗设计的参考]。 无论如何,任何想法如何形象化?如果可能的话,我很想用Python做到这一点。 如果有人需要一些虚拟数据,这是一个Google文档。 期待您的见解。谢谢!


2
在Dirichlet分布中将单纯形表示为三角形曲面的含义?
我正在读一本介绍Dirchilet分布的书,然后提供有关它的图。但是我真的不能理解那些数字。我将图附加在底部。我不理解的是三角形的含义。 通常,当要绘制一个包含2个变量的函数时,可以使用var1和va2的值,然后绘制这两个变量的函数值的值...这可以在3D维度中显示。但是这里有3个维度,而函数值有一个其他值,因此可以在4D空间中进行可视化。我不明白这些数字! 希望有人可以澄清一下! 编辑:这是我从图2.14a中无法理解的内容。因此,我们从K = 3 dirichlet中提取了一个样本theta(基本上是一个向量),即:theta = [theta1,theta2,theta3]。三角形绘图[theta1,theta2,theta3]。从原点到每个theta_i的距离是theta_i的值。然后为每个theta_i放置一个顶点,并将所有三个顶点连接起来,并制成一个三角形。我知道,如果将[theta1,theta2,theta3]插入dir(theta | a),我将得到一个数,即向量theta的联合概率。我也理解连续随机变量的概率是对面积的度量。但是这里我们有3个维度,因此联合概率将是粉红色平面及其下方(即金字塔)的空间量的度量。现在我不明白三角形在这里的作用。

1
小提琴情节解读
我正在使用小提琴图来比较不同组的分布,但是我发现的大多数在线资源都与如何制作图和结果的非常基本的解释有关(中位数变化,数据是否聚类)。 我正在寻找可以参考的详细示例,以正确解释小提琴图。

4
该图表是否有名称-饼形图和mekko图之间的交叉点
下面是否有这种图表的名称(来自新西兰商业,创新和就业部,我曾为之工作,但未参与创建此地块)?它由面积与变量成比例的矩形组成,类似于饼形图,镶嵌图和mekko图之间的交叉。它也许最接近mekko图,但其复杂之处在于我们不是在使用列,而是在使用更复杂的拼图。 由于每个区域的矩形之间都有白色边框,因此原始图像看起来要好一些。 令人惊讶的是,尽管可以通过更好地使用映射到有意义的颜色来改善统计图形,但实际上它对我来说还算不错。“纽约时报”使用了一个强大的互动版本显示美国2011年预算。 一个有趣的挑战是考虑一种自动算法来绘制一个并使它看起来也合理。需要允许矩形在可接受的范围内具有不同的纵横比。

2
什么是适应性copula?
我的基本问题是:什么是适应性copula? 我有一个来自演示文稿的幻灯片(不幸的是,我不能问幻灯片的作者),关于适应性copulae的问题,我没有明白,这意味着什么。这有什么用? 这是幻灯片: 然后幻灯片继续进行更改点测试。我想知道这是关于什么的,为什么我需要与copulae有关? 幻灯片以自适应估计的参数图结尾: 这似乎表明,我的估计落后了。任何其他解释,评论都将很棒!

1
可视化来自多个潜在类模型的结果
我正在使用潜在类分析来基于一组二进制变量对观察样本进行聚类。我正在使用R和软件包poLCA。在LCA中,您必须指定要查找的群集数。实际上,人们通常运行几个模型,每个模型指定不同数量的类,然后使用各种标准来确定哪个是对数据的“最佳”解释。 我经常发现查看各种模型非常有用,以试图了解分类为(i + 1)的模型如何分布在分类为(i)的模型中的观察结果。至少,有时您会发现存在非常健壮的集群,而与模型中的类数无关。 我希望有一种方法来绘制这些关系的图表,以便更轻松地在论文中以及与非统计方向的同事交流这些复杂的结果。我想使用某种简单的网络图形包在R中很容易做到这一点,但我根本不知道如何做。 谁能给我指出正确的方向。下面是重现示例数据集的代码。每个向量xi在具有i个可能类别的模型中代表100个观测值的分类。我想画出观察(行)如何跨列在类之间移动。 x1 <- sample(1:1, 100, replace=T) x2 <- sample(1:2, 100, replace=T) x3 <- sample(1:3, 100, replace=T) x4 <- sample(1:4, 100, replace=T) x5 <- sample(1:5, 100, replace=T) results <- cbind (x1, x2, x3, x4, x5) 我想有一种方法可以生成图,其中节点是分类,并且边缘反映(按权重或颜色)(从权重或颜色可能)从一个模型转移到另一个模型的观察值的百分比。例如 更新:igraph软件包取得了一些进展。从上面的代码开始... poLCA结果循环使用相同的数字来描述类成员身份,因此您需要做一些重新编码。 N<-ncol(results) n<-0 for(i in 2:N) { results[,i]<- (results[,i])+((i-1)+n) …

2
对于黑盒非线性模型,我如何可视化不同输入对预测的重要性?
我正在构建一个交互式预测工具(使用python),以帮助组织中进行预测。迄今为止,预报过程很大程度上是由人为驱动的,预报员将其自然神经网络中的数据同化并利用他们学到的内脏感觉进行预报。通过长期的预测验证和预测建模研究,我发现了您可能期望的结果;不同的预测器表现出不同的偏差,某些预测器的作用似乎被夸大了,而其他重要预测器的作用似乎被忽略了,总的来说,与相对简单的经验模型相比,预测性能中等。 预测将继续是手动的,但我正在尝试构建一个有用的工具,以为预测者更好地量化预测者的相对影响。我还希望工具向用户强调一些重要的影响,例如季节性影响,这些影响经常被忽略。我期望一些“经验丰富”的预测人员(其中许多人对统计数据缺乏正式知识)会对建模过程产生一定程度的抵制和怀疑,因此,沟通至少同样重要,而模型性能本身在预测准确性方面取得可衡量的提高。 我正在开发的模型具有很强的自回归成分,有时会因事件而显着地对其进行修改,这些事件在某些预测变量中显示为测量值,在非事件时间内,这些值接近于零。这符合预报员使用的心理模型。关键部分是能够证明对于任何给定的预测而言,哪些“事件”度量值在使预测偏离自回归值时最有影响力。我以这种方式对过程进行成像;预报员认为他们的最佳猜测值是正确的,模型提出了一个不同的猜测值,预报员问为什么。该模型的回答是:“请参见此处,此预测变量的值将增加夏季的预测值。如果是冬季,它将以其他方式移动。我知道还有其他度量, 现在,假设模型是简单的线性回归。可以想象通过将值乘以模型系数并显示为简单的条形图来显示基于事件的预测变量的相对“效果”。来自不同预测变量的所有条形加起来与AR值的总偏差,这简洁明了地显示了在这种情况下具有很大影响力的那些。 问题在于,被预测的过程在预测变量中显示出高度的非线性,或者至少,对于使用黑盒非线性机器学习算法(随机森林和GBM),我的成功要比用于GLM的更多。此数据集。理想情况下,我希望能够在不改变用户体验的情况下无缝更改“在幕后”工作的模型,因此我需要一种通用的方式来以简单的方式展示不同测量的重要性,而无需使用某些特定于算法的方法。我当前的方法是通过将除一个预测变量以外的所有值都设置为零来准线性化效果,记录预测的偏差,然后对所有预测变量重复,在上述条形图中显示结果。在存在强非线性的情况下,这可能无法很好地工作。

2
了解箱线图的晶须
我对箱线图的晶须的解释有疑问。我已阅读以下内容:“在矩形的顶部和底部,“晶须”显示的范围是0.25分位数和0.75分位数之间的距离的1.5倍”,但并不完全理解“距离”的含义。 不可能表示概率质量,因为在0.25和0.75分位数之间,我们显然总是具有相同百分比的数据。那是什么主意?

5
代表实验数据
我和我的顾问就数据可视化争论不休。他声称,当代表实验结果时,值应仅用“ 标记 ” 绘制,如下面的图像所示。虽然曲线只能代表“ 模型 ” 另一方面,我相信在许多情况下,为了提高可读性,曲线是不必要的,如下面的第二幅图所示: 我是错还是我的教授?如果是后者,我该如何向他解释。

4
如何按时间序列绘制20年的每日数据
我有以下数据集:https : //dl.dropbox.com/u/22681355/ORACLE.csv, 并想按“日期”在“打开”中绘制每日变化,所以我做了以下工作: oracle <- read.csv(file="http://dl.dropbox.com/u/22681355/ORACLE.csv", header=TRUE) plot(oracle$Date, oracle$Open, type="l") 我得到以下信息: 现在这显然不是有史以来最好的图,所以我想知道在绘制这样的详细数据时使用什么正确的方法?

1
如何比较观察到的事件与预期的事件?
假设我有一个频率为4个可能的事件的样本: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 并且我具有发生事件的预期概率: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 利用我四个事件的观测频率之和(18),我可以计算事件的预期频率,对吗? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
如何从mcmc.list生成类似于plot.bugs和plot.jags生成的图?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 R似乎能够从R2WinBUGS :: bugs和R2jags:jags函数生成的bugs和jags对象中输出漂亮的摘要图。 但是,我正在使用该rjags软件包。当我尝试rjags::coda.samples使用R2WinBUGS::plot.mcmc.list结果绘制函数结果时,是每个参数的诊断图(参数密度,链时间序列,自相关)。 下面是我想制作的绘图类型,来自安德鲁· 盖尔曼( Andrew Gelman)的教程“ R中运行WinBuugs和OpenBugs”。这些是使用制作的plot.pugs。 问题是plot.bugs将一个bugs对象作为参数,而plot.mcmc.list将的输出作为参数coda.samples。 这是一个示例(来自coda.samples): library(rjags) data(LINE) LINE$recompile() LINE.out <- coda.samples(LINE, c("alpha","beta","sigma"), n.iter=1000) plot(LINE.out) 我需要的是 一种生成相似的,信息丰富的一页摘要图的方法,类似于 plot.bugs 将转换LINE.out为bug对象的函数,或者

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

7
寻找2D人工数据以演示聚类算法的属性
我正在寻找遵循不同分布和形式的二维数据点(每个数据点是两个值(x,y)的向量)的数据集。生成此类数据的代码也将有所帮助。我想使用它们来绘制/可视化某些聚类算法的性能。这里有些例子: 星状云数据 四个集群,一个容易分离 螺旋形(无簇) 戒指 两片几乎分开的云 两个平行的簇形成螺旋 ...等等

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.