登录 | 注册 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
基于LDA主题模型的短文本分类方法
  • 摘要

    针对短文本的特征稀疏性和上下文依赖性两个问题,提出—种基于隐含狄列克雷分配模型的短文本分类方法.利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重.采用K近邻方法对自动抓取的网易页面标题数据进行分类,实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右.

  • 作者

    张志飞  苗夺谦  高灿  ZHANG Zhifei  MIAO Duoqian  GAO Can 

  • 作者单位

    同济大学计算机科学与技术系,上海,201804/同济大学嵌入式系统与服务计算教育部重点实验室,上海,201804

  • 刊期

    2013年6期 ISTIC PKU

  • 关键词

    短文本  分类  K近邻  相似度  隐含狄列克雷分配 

参考文献
  • [1] 郑斐然,苗夺谦,张志飞,高灿. 一种中文微博新闻话题检测的方法. 计算机科学, 2012,1
  • [2] 贺涛,曹先彬,谭辉. 基于免疫的中文网络短文本聚类算法. 自动化学报, 2009,7
  • [3] David M. Blei;Andrew Y. Ng;Michael I. Jordan. Latent Dirichlet Allocation. Journal of machine learning research, 2003,4/5
  • [4] Thomas L. Griffiths;Mark Steyvers. Finding scientific topics. Proceedings of the National Academy of Sciences of the United States of America, 2004,Suppl.1
  • [5] 翟延冬,王康平,张东娜,黄岚,周春光. 一种基于WordNet的短文本语义相似性算法. 电子学报, 2012,3
  • [6] BANERJEE S;RAMANATHAN K;GUPTA A. Clustering short texts using Wikipedia. New York:ACM, 2007
  • [7] QUAN X J;LIU G;LU Z. Short text similarity based on probabilistic topics. Knowledge and Information Systems:An International Journal, 2010,03
  • [8] PARK E K;RA D Y;JANG M G. Techniques for improving Web retrieval effectiveness. Information Processing and Management, 2005,05
  • [9] CHEN M;JIN X;SHEN D. Short text classification improved by learning multi-granularity topics. Menlo Park:AAAI Press, 2011
  • [10] PHAN X H;NGUYEN M L;HORIGUCHI S. Learning to classify short and sparse text & Web with hidden topics from large-scale data collections. New York:ACM, 2008
  • [11] WANG L;JIA Y;HAN W H. Instant message clustering based on extended vector space model. Beilin:Springer-Verlag, 2007
  • [12] SAHAMI M;HEILMAN T D. A Web-based kernel function for measuring the similarity of short text snippets. New York:ACM, 2006
  • [13] YIH W;MEEK C. Improving similarity measures for short segments of text. Menlo Park:AAAI Press, 2007
  • [14] SALTON G;YANG C S. On the specification of term values in automatic indexing. Journal of Documentation, 1973,04
  • [15] LIU W Y;HAO T Y;CHEN W. A Web-based platform for user-interactive question-answering. World Wide Web Journal, 2009,02
  • [16] SALTON G;WONG A;YANG C S. A vector space model for automatic indexing. Communications of the ACM, 1975,11
查看更多︾
相似文献 查看更多>>
3.214.224.224