登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
一种基于频繁词集表示的新文本聚类方法
  • 摘要

    传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based document clustering method,FIC).该方法从文档集中运用FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,根据文本间相似度建立文本网络,运用社区划分的算法对网络进行划分,从而达到文本聚类的目的.FIC算法不仅能降低文本表示的维度,还可以构建文本集中文本间的关联关系,使文本与文本间不再是独立的两两关系.实验中运用2个英文语料库Reuters-21578,20NewsGroup和1个中文语料库——搜狗新闻数据集来测试算法精度.实验表明:较传统的利用文本空间向量模型的聚类方法,该方法能够有效地降低文本表示的维度,并且,相比于常见的基于频繁词集的聚类方法能获得更好的聚类效果.

  • 作者

    张雪松  贾彩燕  Zhang Xuesong  Jia Caiyan 

  • 作者单位

    交通数据分析与数据挖掘北京市重点实验室(北京交通大学) 北京 100044/北京交通大学计算机与信息技术学院 北京 100044

  • 刊期

    2018年1期 ISTIC EI PKU

  • 关键词

    文本聚类  频繁词集  复杂网络  社区划分  文本表示模型  document clustering  frequent itemsets  complex network  community division  text representation model 

相似文献 查看更多>>
54.82.99.169