登录 | 注册 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
面向流数据的DPFP-Stream算法的设计与实现
  • 摘要

    从海量数据中发现频繁模式一直是数据挖掘研究的热点,在零售市场数据分析、网络监控、网络使用挖掘和股票市场的预测等领域中也有着广泛的应用.尽管在过去的十年里,很多学者提出了许多基于静态数据集的频繁模式挖掘算法,而由于流数据持续、无限、有序而高速产生的特性,在流数据中隐藏的数据知识很可能随着时间的推移而产生变化,因而基于流数据的频繁模式挖掘应不同于以往基于静态数据集的频繁模式挖掘算法.为了更好地分析在线流数据,基于不同的时间粒度从流数据中抽取频繁模式并且监控频繁模式的变化,基于高效的FP-tree结构,借助倾斜时间窗口和MapReduce的思想,提出了针对数据流的频繁模式挖掘算法DPFP-stream.并将该算法在Storm平台上实现,算法数据源采用Kafka,并将中间结果存入内存数据库Redis中.通过大量的实验表明,该算法从高速的数据流中发现频繁模式的效率很高且性能稳定.在海量数据实时计算中,采用该算法,不仅能应对高速的数据流,而且能监控不同时间粒度的频繁模式的变化过程.

  • 作者

    孙杜靖  李玲娟  马可  SUN Du-jing  LI Ling-juan  MA Ke 

  • 作者单位

    南京邮电大学 计算机学院,江苏 南京,210003

  • 刊期

    2017年7期 ISTIC

  • 关键词

    DPFP-stream  MapReduce  Storm  Redis  DPFP-stream  MapReduce  Storm  Redis 

相似文献 查看更多>>
18.232.188.251