登录 | 注册 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
一种基于TextRank的文本二次聚类算法
  • 摘要

    针对传统文本聚类技术中存在的聚类精度一般或者运算时间复杂度过高等问题,文中首先介绍了两种较为常用的文本聚类技术:基于划分的K-means和基于主题模型的LDA。在分析各自缺陷的基础上,提出一种基于TextRank的文本二次聚类算法。该算法借鉴主题模型的思想,在传统的聚类过程中引入词聚类,并在关键词提取阶段融合词语的位置与跨度特征,减少了由局部关键词作为全局关键词带来的误差。实验结果表明,改进后的算法在聚类效果上要优于传统的VSM聚类和基于主题模型的LDA算法。

  • 作者

    潘晓英  胡开开  朱静  PAN Xiao-ying  HU Kai-kai  ZHU Jing 

  • 作者单位

    西安邮电大学 计算机学院,陕西 西安,710121

  • 刊期

    2016年8期 ISTIC

  • 关键词

    文本聚类  TextRank  提取  向量空间模型  LDA  text clustering  TextRank  keyword extraction  VSM  LDA 

相似文献 查看更多>>
3.94.202.172