Questions tagged «visualization»

构建有意义且有用的数据图形表示。(如果您的问题仅是关于如何使特定软件产生特定效果的问题,那么这里可能就没有主题了。)

3
数据可视化以进行模式分析(与语言无关,但首选R)
我想从磁盘映像中绘制字节,以便了解其中的模式。这主要是一项学术任务,因为我几乎可以确定这种模式是由磁盘测试程序创建的,但是无论如何我都希望对其进行反向工程。 我已经知道该模式是对齐的,具有256个字符的周期性。 我可以设想出两种可视化此信息的方式:通过时间查看的16x16平面(3个维度),其中每个像素的颜色是字符的ASCII码,或者每个周期256个像素行(2个维度)。 这是模式的快照(可以看到多个),通过xxd(32x16)可以看到: 无论哪种方式,我都试图找到一种可视化此信息的方法。对于任何人来说,进行信号分析可能都不难,但是我似乎找不到使用开源软件的方法。 我想避免使用Matlab或Mathematica,并且我更喜欢R中的答案,因为我最近一直在学习它,但是无论如何,任何语言都是可以接受的。 更新,2014-07-25:鉴于以下Emre的答案,这是该模式的样子,鉴于该模式的前30MB,以512而不是256对齐(此对齐看起来更好): 任何进一步的想法都欢迎!
11 r  visualization 

3
最佳科学计算语言[关闭]
已关闭。这个问题需要更加集中。它当前不接受答案。 想改善这个问题吗?更新问题,使其仅通过编辑此帖子来关注一个问题。 5年前关闭。 似乎大多数语言都具有一定数量的科学计算库。 Python有 Scipy Rust 有 SciRust C++有几个包括ViennaCL和Armadillo Java具有Java Numerics和Colt其他几个 且不说像语言R和Julia明确的科学计算而设计。 有这么多种选择,您如何选择适合任务的最佳语言?另外,哪种语言的性能最高?Python并且R似乎在该领域具有最大的吸引力,但从逻辑上讲,编译语言似乎是一个更好的选择。会有什么表现胜过Fortran?此外编译语言往往有GPU加速,而解释性语言如R并Python没有。选择一种语言时应该考虑什么?哪些语言可以在效用和性能之间取得最佳平衡?还有我错过的具有重要科学计算资源的语言吗?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
可视化经常一起购买的物品
我在CSV文件中插入了以下结构的数据集: Banana Water Rice Rice Water Bread Banana Juice 每行表示一起购买的物品的集合。例如,第一行表示的项目Banana,Water和Rice购在一起。 我想创建如下所示的可视化文件: 这基本上是一个网格图,但是我需要一些工具(可能是Python或R),该工具可以读取输入结构并生成类似于上述的图表作为输出。

2
ggvis与ggplot2 + Shiny; 选择哪种进行交互式可视化?
CrossValidated中还有一个类似的问题,我已经阅读了答案。我的问题有点不同。我不想仅可视化我的数据,并且实际上我想可视化的内容都不容易用这两个软件包可视化。 我的绘图上有两组点(坐标)。我想添加边缘并使它类似于图形。如果我有个点,则根据问题的性质,我需要向图中添加边。X ,ÿX,ÿx,y(n / 2 )2ññn(n / 2 )2(ñ/2)2(n/2)^2 然后,我想在绘图中添加一些交互式功能。例如,通过单击一个点(顶点),未连接到此单击的顶点的所有其他顶点必须消失以具有更清晰和集中的图。 我试图找到一个适合我的项目的网络可视化程序包,但似乎它们所有人都使用有关边或节点连接的数据,并基于某些特定的布局算法提供了一个网络。我的数据不一样。我有节点的坐标,我想在它们之间建立一些边缘。在我的数据中,节点具有自己的固定位置,并且不得四处移动。 最后,我将包缩小到ggvis和ggplot2。ggvis除了具有故意设计来生成交互式图外,它还是新的和新鲜的。但是我发现它ggplot2+Shiny也可以产生交互式图。(这是正确的吗?)此外,我发现ggplot2的功能比ggvis:更多样化,更成熟:例如ggplot2具有缩放功能,而ggvis没有缩放功能。更重要的是,随着ggvis发展和变化,我不想花太多时间在一年左右的技术上过时或出现故障的工作上。我认为如果我基于进行编码,就是这种情况ggvis。 现在,您可以评估一下我的选择(ggplot2+shiny),并就可能做我想做的事情向我提出建议吗? 因为我不知道所提到的任何软件包,所以我已经开始ggplot2从Wickham的书中学习,我喜欢它!但是我害怕花几周的时间才能发现,即使是在借助的协助下,这个惊人的方案也无法完成我想做的事情Shiny。 PS:我想将最终代码放在github上,以便可能的用户下载并运行它。因此,我不需要制作Web应用程序,也不需要任何网站或将交互式地图在线。我只需要有一个可以在Rstudio内部运行的交互式绘图。



4
在功能重要性的上下文中解释决策树
我试图了解如何完全理解使用sklearn构建的决策树分类模型的决策过程。我要看的2个主要方面是树的graphviz表示形式和功能重要性列表。我不了解的是如何在树的上下文中确定功能的重要性。例如,这是我的功能重要性列表: 功能排名:1. FeatureA(0.300237) FeatureB(0.166800) FeatureC(0.092472) 精选(0.075009) FeatureE(0.068310) FeatureF(0.067118) FeatureG(0.066510) FeatureH(0.043502) FeatureI(0.040281) FeatureJ(0.039006) FeatureK(0.032618) FeatureL(0.008136) FeatureM(0.000000) 但是,当我查看树的顶部时,它看起来像这样: 实际上,某些排名为“最重要”的要素要到树下很远时才会出现,而树的顶部是FeatureJ,这是排名最低的要素之一。我天真的假设是,最重要的功能将排在树的顶部附近,以产生最大的影响。如果那是不正确的,那么什么使功能“重要”?

3
如何使大型混淆矩阵更易于阅读?
我最近发布了369个类的数据集(link)。我对它们进行了一些实验,以了解分类任务的难度。通常,如果有混淆矩阵来查看所犯错误的类型,我会喜欢它。但是,一个矩阵并不实用。369 × 369369×369369 \times 369 有没有办法提供有关大型混淆矩阵的重要信息?例如,通常有很多0并不是那么有趣。是否可以对类进行排序,以使大多数非零条目都位于对角线附近,以便允许显示作为完整混淆矩阵一部分的多个矩阵? 这是一个大混淆矩阵的例子。 野外的例子 EMNIST的图6 看起来不错: 很容易看到很多情况。但是,这些只有班级。如果使用,而不是只有一列的整个页面,这可能可能是3倍之多,但也仍然只有3 ⋅ 26 = 78类。甚至没有接近369类HASY或1000种ImageNet。2626263 ⋅ 26 = 783⋅26=783 \cdot 26 = 78 也可以看看 我对CS.stackexchange的类似问题
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.