Questions tagged «data-visualization»

构建有意义且有用的数据图形表示。(如果您的问题只是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题。)

8
R中的图形数据概述(摘要)功能
我敢肯定我以前在R包中遇到过这样的函数,但是经过广泛的谷歌搜索之后,我似乎找不到任何地方。我正在考虑的功能为给它的变量生成了图形摘要,并生成了带有一些图形(直方图,也许还有盒子和晶须图)的输出,还有一些文本给出了平均值,SD等详细信息。 我很确定此函数未包含在基本R中,但是我似乎找不到我使用的软件包。 有谁知道这样的功能,如果知道,它在哪个包中?


3
PCA是否适用于布尔(二进制)数据类型?
我想降低高阶系统的维数,并捕获最好在2维或1维场上的大多数协方差。我了解这可以通过主成分分析来完成,并且我在许多情况下都使用了PCA。但是,我从未将其与布尔数据类型一起使用,并且我想知道使用此集合进行PCA是否有意义。因此,例如,假设我有定性或描述性指标,并且如果该指标对该维度有效,那么我将分配“ 1”,否则将分配“ 0”(二进制数据)。因此,例如,假设您要比较《白雪公主》中的七个小矮人。我们有: Doc,Dopey,Bashful,Grumpy,Sneezy,Sleepy和Happy,您想根据自己的特质来安排它们,方法如下: ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜d Ø Çd ø p ë ÿ乙一个小号ħ ˚Fü 升ģ ř ü 米p ÿ小号ñ Ë É žÿ小号升Ë È p ÿH一个p p ÿ大号一个ç 吨ö 小号Ë 我 Ñ 吨ø 升é ř 一个Ñ 吨1个01个1个01个1个一^ h ø Ñ ø - [R [R ö 升升 0001个1个01个甲吨ħ 升é 吨我Ç1个01个1个1个00w ^Ë 一升吨ħ ÿ1个01个1个000⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟(Lactose IntolerantA …

5
如何可视化/理解神经网络在做什么?
神经网络由于其复杂的结构而经常被视为“黑匣子”。这不是理想的,因为直观了解模型在内部的工作方式通常是有益的。可视化受过训练的神经网络如何工作的方法有哪些?或者,我们如何提取容易消化的网络描述(例如,该隐藏节点主要用于这些输入)? 我主要对两层前馈网络感兴趣,但也想听听针对更深层网络的解决方案。输入数据本质上可以是可视的或非可视的。

2
t-SNE何时会引起误解?
引用其中一位作者的话: t分布随机邻居嵌入(t-SNE)是一项降维技术(获奖),特别适合于高维数据集的可视化。 听起来不错,但这是作者的话题。 作者的另一句话(关于上述比赛): 您从这场比赛中收获了什么? 在开始对数据进行预测之前,请始终先对数据进行可视化处理!通常,可视化(例如我制作的可视化)可以洞悉数据分布,从而可以帮助您确定尝试哪种类型的预测模型。 信息必须1 被丢失-这是一个降维技术毕竟。但是,由于这是可视化时使用的一种很好的技术,因此丢失的信息的价值不及突出显示的信息(通过缩小为2或3维,使其可见/可理解)。 所以我的问题是: tSNE什么时候是适合该工作的工具? 什么样的数据集导致它不起作用, 它看起来可以回答什么样的问题,但实际上却不能回答? 在上面的第二个引用中,建议始终可视化您的数据集,是否应该始终使用tSNE进行可视化? 我希望可以反过来最好地回答这个问题,即回答:什么时候tSNE是适合该工作的工具? 提醒我不要依赖tSNE告诉我将如何轻松地对数据进行分类(分为几类-一个判别模型)令人误解的例子是,对于下面的两个图像,生成模型2更糟第一个/左边的可视化数据的准确性为53.6%,第二个/右边的可视化数据的准确性为67.2%。 1 我对此可能是错的,我可能会坐下来,稍后再尝试一个证明/计数器示例 2 请注意,生成模型与判别模型并不相同,但这是我给出的示例。

3
支持Tufte样式的可视化效果的实验证据?
问:是否有实验证据支持图夫特式的,极简的,可说数据的可视化效果,而不是像Nigel Holmes这样的图表式可视化效果? 我问如何在此处向R图添加垃圾邮件,响应者向我投掷了很多蛇。因此,当然,肯定有一些实验证据,我不知道这是支持他们的反图表垃圾立场的证据-比“图夫特这么说”还要多。对? 如果存在这样的证据,它将与我们在人类,他们的记忆记忆和模式识别方面的许多心理学研究相矛盾。因此,我一定会很高兴读到它。 一点趣闻:在一次会议上,我问爱德华·塔夫特,他如何看待实验证据,发现垃圾动画和视频可以改善人们的理解和记忆力[见《大脑规则》中引用的研究]。他的回答是:“别相信他们。” 科学方法就这么多! PS当然,我在这里有点刺人。我拥有Tufte的所有书籍,并认为他的作品令人难以置信。我只是认为他的支持者推陈出新。 注意:这是我在StackOverflow上提出的问题的重新发布。主持人关闭了它,因为它不是特定于编程的。CrossValidated可能是更好的住所。 更新:我的原始问题的评论部分有一些有用的链接,即钱伯斯,克利夫兰和斯坦福大学的datavis小组的工作。 更新:这个问题涉及相似的主题。

4
如何解释轮廓图的均值?
我正在尝试使用轮廓图来确定数据集中的聚类数量。给定数据集Train,我使用以下matlab代码 Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` 下面将得到的曲线图,给出与x轴作为簇的簇号和Y轴平均轮廓值。 我如何解释该图?我该如何确定群集的数量?

3
手动计算逻辑回归95%置信区间与在R中使用confint()函数之间为什么会有区别?
亲爱的大家-我注意到我无法解释的怪事,可以吗?总之:在logistic回归模型中计算置信区间的手动方法和R函数confint()得出不同的结果。 我一直在研究Hosmer&Lemeshow的Applied Logistic回归(第二版)。在第3章中,有一个计算比值比和95%置信区间的示例。使用R,我可以轻松地重现模型: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
有Poisson分布式数据的箱线图变体吗?
我想知道是否有适合于Poisson分布式数据(或其他分布)的boxplot变量? 对于高斯分布,晶须位于L = Q1-1.5 IQR和U = Q3 + 1.5 IQR的情况下,箱线图的属性是低异常值(L下方的点)与高异常值(U上方的点)一样多)。 但是,如果数据是泊松分布,则由于正偏度而不再成立,我们得到Pr(X <L)<Pr(X> U)。是否有其他方法放置晶须,使其“适合”泊松分布?


2
可视化数据后执行统计测试-数据挖掘?
我将通过一个示例提出这个问题。 假设我有一个数据集,例如波士顿住房价格数据集,其中有连续的和分类的变量。在这里,我们有一个“质量”变量(从1到10)和销售价格。通过(任意)创建质量截止值,我可以将数据分为“低”,“中”和“高”质量房屋。然后,使用这些分组,我可以绘制销售价格的直方图。像这样: 在此,“低”是,和“高”是> 7上的“质量”的分数。现在,我们可以得出三个组中每个组的销售价格分布。显然,中型和高质量房屋的位置中心不同。现在,完成所有这些操作后,我认为“嗯。位置中心似乎有所不同!为什么不对均值进行t检验?”。然后,我得到一个p值,它似乎正确地拒绝了均值没有差异的零假设。≤ 3≤3\leq 3> 7>7>7 现在,假设在绘制数据之前,我没有想到要检验此假设。 这是在挖泥吗? 如果我想:“我敢打赌,优质房子的价格会更高,因为我以前是住在这所房子里的人。我要对数据进行绘图。啊哈!看起来不一样!时间还在吗?”进行t检验!” 自然地,如果收集数据集是为了一开始就检验这个假设,那不是数据挖掘。但是通常必须处理提供给我们的数据集,并被告知“寻找模式”。考虑到这个模糊的任务,某人如何避免数据挖掘?创建测试数据的保留集?可视化是否“算作”窥探机会来测试数据提出的假设?

5
线图的颜色和线宽建议
通常,已经有很多关于地图,多边形和阴影区域的色盲友好颜色选择的文章(例如,参见http://colorbrewer2.org)。我无法找到有关线颜色和线图变化线宽的建议。目标是: 容易区分线,即使它们缠绕在一起 带有色盲最常见形式的个人容易区分线条 (不太重要)行是易于打印的(请参见上面的Color Brewer) 在黑色和灰度线的背景下,我发现具有细的黑色线和较粗的灰度线非常有效。我会特别推荐一些建议,包括各种颜色,灰度等级和线条粗细。我不喜欢各种线型(实线/虚线/虚线),但可以不接受这种观点。 最好在一张图表上建议多达10条曲线。更好的做法是像Color Brewer一样:允许m行的建议不成为n行m的n行建议的子集,并且将m从1更改为10。 请注意:我也希望仅针对问题的线条着色部分的指南。 一些从业者在每几厘米的线上添加符号,以更好地区分不同的类别。我不太赞成需要多个功能(例如,颜色+符号类型)来区分类别,并且有时希望保留符号来表示不同的信息。 在没有其他指导的情况下,我建议对colorbrewer2.org中的线使用推荐用于多边形的相同颜色,对于使用较浅/较暗的颜色绘制的线,将线宽乘以2.5。我正在创建一个R函数来进行设置。除了颜色酿造商的颜色,我认为我将使前两种颜色分别是纯黑色(稀薄)和灰度(浓密),尽管有人可能会争辩说它们应该是稀疏的纯黑色和稀薄的蓝色。 R函数可以在http://biostat.mc.vanderbilt.edu/wiki/pub/Main/RConfiguration/Rprofile中找到。定义功能后,colBrew您可以通过键入以下内容查看设置的工作方式 showcolBrew(number of line types) # add grayscale=TRUE to use only grayscale 函数latticeSet还给出了设置lattice图形参数到新的设置。欢迎对算法进行改进。 探索:R dichromat包:http://cran.r-project.org/web/packages/dichromat/



8
用于可视化多维数据的开源工具?
除了gnuplot和ggobi之外,人们还使用哪些开源工具来可视化多维数据? Gnuplot或多或少是一个基本的绘图程序包。 Ggobi可以做很多漂亮的事情,例如: 沿维度或离散集合之间的数据动画 动画线性组合,改变系数 计算主要成分和其他转换 可视化和旋转3维数据集群 用颜色代表不同的尺寸 还有哪些其他有用的方法基于开源,因此可以自由重用或自定义? 请在答案中简要说明软件包的功能。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.