登录 | 注册 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
基于Spark的大规模单图频繁子图算法
  • 摘要

    随着互联网的快速发展,校园一卡通得到了广泛的普及,进而服务器上的数据也在迅速增加.单机算法已无法支撑支持度较低的频繁子图挖掘和子图增长模式的挖掘.海量的单图频繁子图的数据挖掘已无法在单机上实现,现有的Hadoop分布式框架也并不适合迭代式算法运行.因此论文提出一种基于Spark的大规模单图频繁子图挖掘FSMBUS算法.通过次优树构建并行计算的候选子图,在给定最小支持度时挖掘出所有的频繁子图,实验结果表明,单图上最新的算法比FSMBUS的效率慢一个数量级,FSMBUS算法可支持更低的支持度阈值以及更大的图数据挖掘,比Hadoop移植版的效率快2~4倍,分析我校一卡通数据可帮助院校管理、领导决策提出可参照的依据.

  • 作者

    蒋来好  朱志祥  赵子晨  JIANG Laihao  ZHU Zhixiang  ZHAO Zichen 

  • 作者单位

    西安邮电大学计算机学院 西安 710061/陕西省信息化工程研究院 西安 710061

  • 刊期

    2019年10期 ISTIC

  • 关键词

    校园卡  Spark  频繁子图  分布式计算  大规模单图  campus card  Spark  frequent subgraphs  distribute computing  large-scale chart 

相似文献 查看更多>>
3.233.220.21