我需要有关渲染具有178,000个节点和500,000条边的无向图的建议。我已经尝试过Neato,Tulip和Cytoscape。Neato甚至都不遥不可及,Tulip和Cytoscape声称他们可以应付,但似乎不行。(郁金香什么也不做,Cytoscape声称正在工作,然后停下来。)
我只是想要一个节点格式合理的矢量格式文件(ps或pdf)。
我需要有关渲染具有178,000个节点和500,000条边的无向图的建议。我已经尝试过Neato,Tulip和Cytoscape。Neato甚至都不遥不可及,Tulip和Cytoscape声称他们可以应付,但似乎不行。(郁金香什么也不做,Cytoscape声称正在工作,然后停下来。)
我只是想要一个节点格式合理的矢量格式文件(ps或pdf)。
Answers:
Graphviz本身提供了用于呈现大型图形的解决方案。
也就是说,Graphviz包括sfdp
fdp的多尺度版本(在graphviz中也类似于neato),用于布局大型无向图,这对于在我的项目中绘制大型图(70k节点,500k边)非常有用。
您可以在graphviz网站本身上找到此软件的文档,网址为http://www.graphviz.org/。
更多信息,可在下面找到描述基本技术和示例的论文:http: //yifanhu.net/PUB/graph_draw_small.pdf
使用python中的graph-tool库取得了很好的效果。下图有1,490个节点和19,090个边-在笔记本电脑上渲染大约需要5分钟。
图表数据来自亚当和概览中描述的政治博客网“的政治博客和2004年的美国大选” PDF链接在这里。如果放大,则可以看到每个节点的博客URL。
这是我用来绘制的代码(博客http://ryancompton.net/2014/10/22/stochastic-block-model-based-edge-bundles-in-graph-tool/):
import graph_tool.all as gt
import math
g = gt.collection.data["polblogs"] # http://www2.scedu.unibo.it/roversi/SocioNet/AdamicGlanceBlogWWW.pdf
print(g.num_vertices(), g.num_edges())
#reduce to only connected nodes
g = gt.GraphView(g,vfilt=lambda v: (v.out_degree() > 0) and (v.in_degree() > 0) )
g.purge_vertices()
print(g.num_vertices(), g.num_edges())
#use 1->Republican, 2->Democrat
red_blue_map = {1:(1,0,0,1),0:(0,0,1,1)}
plot_color = g.new_vertex_property('vector<double>')
g.vertex_properties['plot_color'] = plot_color
for v in g.vertices():
plot_color[v] = red_blue_map[g.vertex_properties['value'][v]]
#edge colors
alpha=0.15
edge_color = g.new_edge_property('vector<double>')
g.edge_properties['edge_color']=edge_color
for e in g.edges():
if plot_color[e.source()] != plot_color[e.target()]:
if plot_color[e.source()] == (0,0,1,1):
#orange on dem -> rep
edge_color[e] = (255.0/255.0, 102/255.0, 0/255.0, alpha)
else:
edge_color[e] = (102.0/255.0, 51/255.0, 153/255.0, alpha)
#red on rep-rep edges
elif plot_color[e.source()] == (1,0,0,1):
edge_color[e] = (1,0,0, alpha)
#blue on dem-dem edges
else:
edge_color[e] = (0,0,1, alpha)
state = gt.minimize_nested_blockmodel_dl(g, deg_corr=True)
bstack = state.get_bstack()
t = gt.get_hierarchy_tree(bstack)[0]
tpos = pos = gt.radial_tree_layout(t, t.vertex(t.num_vertices() - 1), weighted=True)
cts = gt.get_hierarchy_control_points(g, t, tpos)
pos = g.own_property(tpos)
b = bstack[0].vp["b"]
#labels
text_rot = g.new_vertex_property('double')
g.vertex_properties['text_rot'] = text_rot
for v in g.vertices():
if pos[v][0] >0:
text_rot[v] = math.atan(pos[v][1]/pos[v][0])
else:
text_rot[v] = math.pi + math.atan(pos[v][1]/pos[v][0])
gt.graph_draw(g, pos=pos, vertex_fill_color=g.vertex_properties['plot_color'],
vertex_color=g.vertex_properties['plot_color'],
edge_control_points=cts,
vertex_size=10,
vertex_text=g.vertex_properties['label'],
vertex_text_rotation=g.vertex_properties['text_rot'],
vertex_text_position=1,
vertex_font_size=9,
edge_color=g.edge_properties['edge_color'],
vertex_anchor=0,
bg_color=[0,0,0,1],
output_size=[4024,4024],
output='polblogs_blockmodel.png')
Mathematica很有可能会处理它,但我必须承认我的第一个反应是遵循这样的评论,即“拿一张纸并将其涂成黑色”。有没有办法降低图表的密度?
一个可能的问题是您似乎在寻找布局,而不仅仅是渲染。我对各种工具所实现的布局的Big O特性一无所知,但凭直觉我会猜测,布置这么多数据可能需要很长时间。
BioFabric(www.BioFabric.org)是另一种可视化大图的工具。尽管初始布局可能需要一些时间,但它应该能够处理所描述的网络(178,000个节点和500,000个边缘)。此处显示的网络(来自Stanford大型网络数据集)是Stanford Web网络,该网络具有281,903个节点和2,312,497个边缘:
BioFabric的可伸缩性是因为它不是将节点表示为点而是表示为水平线。然后将边缘显示为垂直线。有关其工作原理的一些直观信息,请参见超快速生物织物演示,它是一个使用D3进行动画处理的小型网络。
主要应用程序是用Java编写的。目前,它只能导出PNG图片,而不能导出PDF。RBioFabric有一个PDF导出选项,尽管这是一个非常简单的实现,尚不能处理真正的大型网络。
全面披露:BioFabric是我编写的工具。
我希望边缘群集(http://www.visualcomplexity.com/vc/project_details.cfm?id=679&index=679&domain=)会有所帮助。此技术将相关的边线捆绑在一起,从而降低了图形的视觉复杂性。但是,您可能必须自己实现算法。
查看基于Java / Jython的GUESS:http://graphexploration.cond.org/
大型图布局(LGL)项目通过类似的问题为我提供了很多帮助。它处理布局,并具有一个小型Java应用程序以2D方式绘制生成的布局。开箱即用,没有矢量输出,因此您必须自己绘制图形(考虑到LGL生成的节点坐标)
我认为您无法远程接近以平面布局可视化它。
一段时间以来,我对双曲线图很感兴趣,本文对此进行了描述。试用SourceForge的软件。
另一个想法是仅使用TreeMap绘制节点的图形,如Panopticode所示。
首先,我想第二次提出阿里肯斯的建议,尝试sfdp。它是Neato的大型版本。
正如OJW建议的那样,您也可以在R2中绘制节点。您的边缘实际上提供了他所谓的“自然排序”。特别是,您可以绘制归一化图拉普拉斯算子的第二和第三特征向量的分量。这是矩阵L
中大约谱聚类这个维基百科页面。您应该能够在不了解其背后的线性代数的情况下写下该矩阵。然后,将问题简化为近似计算大型稀疏矩阵的前几个特征向量。传统上,这是通过迭代方法完成的,并在标准线性代数包中实现。此方法应按比例放大到非常大的图形。