登录 | 注册 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
概率潜在语义分析的KNN文本分类算法
  • 摘要

    传统的KNN文本算法在计算文本之间的相似度时,只是做简单的概念匹配,没有考虑到训练集与测试集文本中词项携带的语义信息,因此在利用KNN分类器进行文本分类过程中有可能导致语义丢失,分类结果不准确.针对这种情况,提出了一种基于概率潜在主题模型的KNN文本分类算法.该算法预先使用概率主题模型对训练集文本进行文本-主题、主题-词项建模,将文本携带的语义信息映射到主题上的低维空间,把文本相似度用文本-主题、主题-词项的概率分布表示,对低维文本的语义信息利用KNN算法进行文本分类.实验结果表明,在训练较大的训练数据集和待分类数据集上,所提算法能够利用KNN分类器进行文本的语义分类,且能提高KNN分类的准确率和召回率以及F1值.

  • 作者

    戚后林  顾磊  QI Hou-lin  GU Lei 

  • 作者单位

    南京邮电大学 计算机学院,江苏 南京,210003

  • 刊期

    2017年7期 ISTIC

  • 关键词

    文本分类  KNN算法  文本表示模型  语义分类  概率潜在主题模型  text classification  KNN  text presentation model  semantic classification  probability latent semantic analysis 

3.231.220.139