登录 | 注册 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
基于序列前缀技术的XML频繁路径挖掘算法
  • 摘要

    XML文档是半结构化数据,对其进行频繁路径挖掘可以分为两步:XML文档序列化和序列挖掘阶段.现有的序列化方式将XML文档表示为Xpath路径集合,其中有大量的节点冗余;序列挖掘阶段采用的类Apriori算法需要多次扫描数据库并产生大量的候选集,采用的PrefixSpan算法会产生大量的投影数据库,占用较大的内存.针对以往XML频繁路径挖掘算法存在的不足,本文提出一种高效的挖掘算法——基于序列前缀技术的XML频繁路径挖掘算法(PXFP,Prefix-based XML Frequent Path Mining Algorithm).PXFP算法以广度优先方式遍历XML文档树并将每个节点表示为"节点:父节点"的形式,这种序列化的方式减少了节点冗余.在序列挖掘阶段借鉴PrefixSpan算法中前缀的概念,但不产生投影数据库,仅得到直接后缀(即前缀的子节点),通过记录频繁子路径的位置信息逐渐扩大频繁模式的长度,位置信息的引入减少了对数据库的扫描.实验结果表明,PXFP算法取得了比PrefixSpan算法更高的时间和空间效率.

  • 作者

    张洁  毛国君  ZHANG Jie  MAO Guo-Jun 

  • 作者单位

    中央财经大学 信息学院,北京,100081

  • 刊期

    2018年1期 ISTIC

  • 关键词

    XML频繁路径挖掘  序列化  位置信息  前缀  XML frequent path mining  serialization  location information  prefix 

相似文献 查看更多>>
18.232.188.251