登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
大图数据上顶点驱动的并行最小生成树算法
  • 摘要

    最小生成树(minimum spanning tree,MST)是图论中最为经典算法之一.基于MST结构的聚类、分类和最短路径查询等复杂图算法,在效率和结果质量方面均有显著提高.然而,随着互联网的迅猛发展,图数据规模也变得越来越大,包含千万甚至上亿个顶点的大图数据越发常见.因此,如何在大图数据上实现查询处理和数据挖掘算法已成为亟待解决的问题之一.除此之外,由于大图数据的动态性特征,如何动态地维护算法结果也势必成为最受关注的问题之一.针对目前集中式的最小生成树算法无法解决海量和动态图数据的问题,首先提出了分区Prim(partition Prim,PP)算法,基于此提出了顶点驱动的并行MST算法——PB(PP Bor(u)vka)算法,并论证了PB算法的正确性.另外,基于MapReduce和BSP框架实现了PB算法.针对只删除动态图特征,提出了MST维护算法,以实现高效的增量计算.对提出的计算和维护算法进行了代价分析和比较.最后,使用真实和模拟数据集,验证了PB算法和维护算法的有效性、高效性和可扩展性.

  • 作者

    谷峪  杨佳学  鲍玉斌  于戈  Gu Yu  Yang Jiaxue  Bao Yubin  Yu Ge 

  • 作者单位

    东北大学信息科学与工程学院 沈阳 110819

  • 刊期

    2014年12期 ISTIC EI PKU

  • 关键词

    大图数据  顶点驱动  最小生成树  并行算法  维护算法  large graphs  vertex-driven  minimum spanning tree (MST)  parallel algorithm  maintenance algorithm 

参考文献
  • [1] 孟小峰,慈祥. 大数据管理:概念、技术与挑战. 计算机研究与发展, 2013,1
  • [2] . http://snap.stanford.edu/
  • [3] Dean J;Ghemawat S. MapReduce:A flexible data processing tool. Communications of the ACM, 2010,01
  • [4] Seo S;Yoon E J;Kim J. Hama:An efficient matrix computation with the mapreduce framework. Piscataway,NJ:IEEE, 2010
  • [5] Shvachko K;Kuang Hairong;Radia S. The Hadoop distributed file system. Piscataway,NJ:IEEE, 2010
  • [6] Cormen T H;Leiserson C E;Rivest R L. Introduction to Algorithms. Cambridge:The MIT Press, 2001
  • [7] Wang Xiaochun;Wang Xiali;Wilkes D M. A divide-and-conquer approach for minimum spanning tree-based clustering. IEEE Transactions on Knowledge and Data Engineering, 2009,07
  • [8] Haxhimusa Y;Kropatsch W G;Pizlo Z. Approximative graph pyramid solution of the E-TSP. IMAGE AND VISION COMPUTING, 2009,07
  • [9] Pettie S;Ramachandran V. A shortest path algorithm for real-weighted undirected graphs. SIAM Journal on Computing, 2005,06
  • [10] Chang Jin;Luo Jun;Huang J Z. Minimum spanning tree based classification model for massive data with mapreduce implementation. Piscataway,NJ:IEEE, 2010
  • [11] Nobari S;Cao T T;Karras P. Scalable parallel minimum spanning forest computation. ACM SIGPLAN NOTICES, 2012,08
  • [12] Dean J;Sanjay G. MapReduce:Simplified data processing on large clusters. Communications of the ACM, 2008,01
  • [13] Leslie G;Valiant. A bridging model for parallel computation. Communications of the ACM, 1990,08
  • [14] Malewicz G;Austern M H;Bik A J C. Pregeel:A system for large-scale graph processing. New York:ACM, 2010
  • [15] Shao Bin;Wang Haixun;Li Yatao. Trinity:A distributed graph engine on a memory cloud. New York:ACM, 2013
查看更多︾
相似文献 查看更多>>
54.87.61.215