Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

1
条件密度图的解释
我想知道如何正确解释条件密度图。我在下面用R创建的下面插入了两个cdplot。 例如,当变量1为150时大约80%的结果等于1 的概率吗? 暗灰色区域是Result等于1 的条件概率,对吧? 从cdplot文档中: 在给定y的水平(由y的边际分布加权)的情况下,cdplot计算x的条件密度。密度是在y级别上累积得出的。 这种积累如何影响这些图的解释?

3
为通过网站的旅程构建路径概率树
我目前正在网站上进行分析,这要求我创建一个决策树图,以显示人们到达网站时可能采取的路线。我正在处理一个data.frame从首页开始显示所有客户到站点的路径的。例如,客户可以采用以下路径: Homepage - pg 1 Kitchen Items page - pg 2 Pots and Pans page - pg 3 因此该客户将进行3页的旅程。我想在R中尝试做的是结合所有客户路径,从而按照站点上的某个路径为客户分配概率。例如,如果我检查所有路径,我会发现34%的到达首页的人进入了“厨房用品页面”。R有这个设施吗? 我已经通过rpart和partykit软件包查找了不同的方法,但是它们似乎没有任何帮助。 任何朝着正确方向前进的方向都非常感谢!

3
如何交互查看大时间序列数据?
我经常处理合理数量的时间序列数据,将50-200百万的倍数与相关的时间戳关联起来,并希望对其进行动态可视化。 是否有现有软件可以有效地做到这一点?库和数据格式如何?缩放缓存是图书馆关注大型时间序列的一个示例。在“缩放缓存”中,数据以几种分辨率汇总,以便更轻松地查看不同分辨率的数据。 编辑:另外,如果还有其他地方我应该问这个问题或寻求答案,请告诉我。

2
“ Stata”或“ R”中回归不连续设计中的图形
Lee和Lemieux(p。31,2009)建议研究人员在进行回归不连续性设计分析(RDD)时呈现图表。他们建议执行以下步骤: “ ...对于某个带宽,以及分别对于截止值左侧和右侧的一定数量的仓和 ,想法是构造仓(, ],其中 +,其中 “ķ 0 ķ 1 b ķ b ķ + 1 ķ = 1 ,。。。,ķ = ķ 0 ķ 1 b ķ = Ç - (ķ 0 - ķ + 1 )⋅ ħ 。Hhhķ0K0K_0ķ1个K1K_1bķbkb_kbk + 1bk+1b_{k+1}ķ = 1 ,。。。,K= K0k=1,...,K=K0k = 1, . . . …

3
与连续预测器相比,您如何形象地显示二进制结果?
我需要可视化一些数据,不确定如何做到最好。我有一些基础项目,频率分别为和结果 。现在,我需要绘制我的方法“发现”(即1结果)低频项的效果如何。最初,我的频率x轴和ay轴为0-1,具有点状图,但它看起来太可怕了(特别是在比较两种方法的数据时)。也就是说,每个项都有一个结果(0/1),并按其频率排序。F = { f 1,⋯ ,f n }Q = { q1个,⋯ ,qñ}问={q1个,⋯,qñ}Q = \{ q_1, \cdots, q_n \}F= { f1个,⋯ ,fñ}F={F1个,⋯,Fñ}F = \{f_1, \cdots, f_n \}Ø ∈ { 0 ,1 }ñØ∈{0,1个}ñO \in \{0,1\}^nq∈ Qq∈问q \in Q 这是单个方法结果的示例: 我的下一个想法是将数据划分为多个区间,并在区间上计算局部灵敏度,但是该想法的问题是频率分布不一定均匀。那么我该如何最好地选择时间间隔? 有谁知道一种更好/更有用的方式来可视化此类数据,以描绘发现稀有(即,非常低频率)的物品的有效性? 编辑:更具体地讲,我正在展示某种方法来重建特定种群的生物序列的能力。为了使用模拟数据进行验证,我需要展示重建变异体的能力,而无论其丰度(频率)如何。因此,在这种情况下,我将可视化丢失和找到的物品,并按其频率排序。此图将不包括不在重构变体。问问Q

2
评估一阶马尔可夫链的聚类
我将数千个一阶马尔可夫链的数据集聚为大约10个聚类。 有什么推荐的方法可以评估这些集群,并找出集群中的项目共享以及它们与其他集群有何不同?因此,我可以这样说:“集群A中的进程一旦到达状态,往往会保持在状态Y,而其他集群中的进程则不是如此。” 这些马尔可夫链的过渡矩阵太大,以至于无法“看得见”。如果可以的话,它们相对稀疏。 我的想法是将所有过渡矩阵汇总为一个簇,对其求和并将其绘制为图片中的强度(从0到255的比例)。还有什么我应该尝试的“专业”吗?

3
乍一看数据集
请原谅我的无知,但是... 我不断遇到自己设法找到的大量新数据的情况。这些数据通常看起来像这样: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) 通常乍一看,我真的无法分辨这里是否有任何趋势。各个列之间的相关性可能不是很重要,但是如果我不必为每种可能的列/类别组合手动创建图,我将感到非常高兴。 是否有工具可以接受数据表以及信息,哪些列应被视为数字,日期和类别,然后进行绘制: 每两个数值列之间的相关性 每两个数值列之间的相关性,每个类别具有单独的趋势线 每个数字列作为时间序列, 每个数字列都是一个时间序列,按类别分开, 等等 最后,这将生成大量图,其中大多数图仅显示噪声。理想情况下,该工具可以通过相关性对图进行评分,最后显示从得分最高的图开始的幻灯片显示。这将是非常不完美的,但乍一看对数据集很有用。 所以?是否有每个人都使用的工具,而我对此却一无所知,还是我们需要制作此工具?


5
可视化2个字母的组合
关于SO的此问题的答案返回了一组大约125个一到两个字母的名称:https : //stackoverflow.com/questions/6979630/what-1-2-letter-object-names-conflict-with-existing -r-对象 [1] "Ad" "am" "ar" "as" "bc" "bd" "bp" "br" "BR" "bs" "by" "c" "C" [14] "cc" "cd" "ch" "ci" "CJ" "ck" "Cl" "cm" "cn" "cq" "cs" "Cs" "cv" [27] "d" "D" "dc" "dd" "de" "df" "dg" "dn" "do" "ds" "dt" "e" "E" [40] "el" "ES" "F" …

8
图形百科全书
我必须构建一个有关流量测量,预测等的多用户Web应用程序。在这一点上,我知道我将使用条形图和饼图。 不幸的是,这些图表类型在表达我收集和计算的所有数据方面并不丰富。 我正在寻找图形图表的集合。如果我必须买书或其他任何东西,也可以。我需要找到一些带有说明的图形样本来启发我。 您知道这样的资源吗?您对我有什么建议吗?

3
如何显示缺少条目的相关矩阵?
我想在到目前为止收集的文章中获得相关性的图形表示,以方便地探索变量之间的关系。我曾经画过一个(混乱的)图,但是现在数据太多了。 基本上,我有一张桌子,上面有: [0]:变量1的名称 [1]:变量2的名称 [2]:相关值 “总体”矩阵不完整(例如,我具有V1 * V2,V2 * V3,但没有V1 * V3的相关性)。 有没有办法以图形方式表示这一点?

2
R中的复数回归图
我需要绘制复杂的图形以进行可视数据分析。我有2个变量和大量案例(> 1000)。例如(如果使分散度减少为“正常”,则为100): x <- rnorm(100,mean=95,sd=50) y <- rnorm(100,mean=35,sd=20) d <- data.frame(x=x,y=y) 1)我需要以点大小绘制原始数据,对应于巧合的相对频率,因此plot(x,y)这不是一种选择-我需要点大小。要做到这一点应该怎么做? 2)在同一图上,我需要绘制95%的置信区间椭圆和代表相关性变化的线(不知道如何正确命名)-像这样: library(corrgram) corrgram(d, order=TRUE, lower.panel=panel.ellipse, upper.panel=panel.pts) 但两个图都在一个图上。 3)最后,我需要在此基础上绘制一个生成的linar回归模型: r<-lm(y~x, data=d) abline(r,col=2,lwd=2) 但错误范围...类似于QQ绘图: 但是如果可能的话,会出现拟合错误。 所以问题是: 如何在一张图表上实现所有这些?

1
绘制分段回归线
除了lines用于单独绘制每个段或使用之外,是否有办法绘制像这样的分段模型的回归线geom_smooth(aes(group=Ind), method="lm", fill=FALSE)? m.sqft <- mean(sqft) model <- lm(price~sqft+I((sqft-m.sqft)*Ind)) # sqft, price: continuous variables, Ind: if sqft>mean(sqft) then 1 else 0 plot(sqft,price) abline(reg = model) Warning message: In abline(reg = model) : only using the first two of 3regression coefficients 谢谢。

4
如何在图中寻找谷底?
我正在研究一些基因组覆盖率数据,这些数据基本上是一长串整数(几百万个值),每个整数都表示覆盖基因组中此位置的程度(或“深度”)。 我想在此数据中寻找“山谷”,即比周围环境明显“低”的区域。 请注意,我要寻找的山谷的大小可能在50个碱基到数千个碱基之间。 您会建议使用哪种范例来找到那些山谷? 更新 数据的一些图形示例: 更新2 定义什么是山谷当然是我一直在努力的问题之一。这些对我来说是显而易见的: 但是还有一些更复杂的情况。通常,我考虑3个标准:1.相对于全局平均值,窗口中的(平均?最大?)覆盖率。2.窗口中相对于其周围的覆盖范围。3.窗口有多大:如果我看到很短的覆盖范围很有趣,如果我看到很长的覆盖范围很有趣,如果我看到很短的覆盖很短的范围也不是很有趣。 ,但如果我看到很长一段时间的覆盖率偏低-是的,所以这是sapn长度和覆盖率的结合。时间越长,我就越会覆盖,但仍然认为它是一个山谷。 谢谢, 戴夫


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.