登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
使用最大熵模型进行中文文本分类
  • 摘要

    随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Bayes,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.

  • 作者

    李荣陆  王建会  陈晓云  陶晓鹏  胡运发  Li Ronglu  Wang Jianhui  Chen Xiaoyun  Tao Xiaopeng  Hu Yunfa 

  • 作者单位

    复旦大学计算机与信息技术系,上海,200433

  • 刊期

    2005年1期 ISTIC EI PKU

  • 关键词

    文本分类  最大熵模型  特征  N-Gram 

参考文献
  • [1] 李荣陆,胡运发. 基于密度的kNN文本分类器训练样本裁剪方法. 计算机研究与发展, 2004,4
  • [2] 周水庚. 中文文本数据库若干关键技术研究. 复旦大学, 2000
  • [3] E Wiener. A neural network approach to topic spotting. The 4th Annual Symp. on Document Analysis and Information Retrieval,Las Vegas, NV, 1995
  • [4] R.E.Schapire;Y.Singer. Improved boosting algorithms using confidence-rated predications. New York:ACM Press, 1998
  • [5] T.Joachims. Text categorization with support vector machines:Learning with many relevant features. New York:Springer, 1998
  • [6] Y Yang. An evaluation of statistical approaches to text categorization. Information Retrieval, 1999,01
  • [7] R Adwait. Maximum entropy models for natural language ambiguity resolution: [Ph. D. dissertation]. Pennsylvania:University of Pennsylvania, 1998
  • [8] R.Adwait. A maximum entropy model for part-of-speech tagging. Philadelphia,USA, 1996
  • [9] D.D.Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. New York:Springer, 1998
  • [10] Adam L Berger;Stephen A Della Pietra;Vincent J Della Pietra. A maximum entropy approach to natural language processing. COMPUTATIONAL LINGUISTICS, 1996,01
  • [11] N Kamal;L.John;M.Andrew. Using maximum entropy for text classification. The IJCAI-99 Workshop on Information Filtering. Stockholm,Sweden, 1999
  • [12] M Sven;N·Hermann;Z·Jrg. Smoothing methods in maximum entropy language modeling. IEEE Int'l Conf. On Acoustics,Speech and Signal Processing. Phoenix, AR, 1999
  • [13] Y.Yang;X.Lin. A re-examination of text categorization methods. New York:ACM Press, 1999
  • [14] Y Yang;C. G. Chute. An example-based mapping method for text categorization and retrieval. ACM Transactions on Information Systems, 1994,03
  • [15] R Adwait. A simple introduction to maximum entropy models for natural language processing. Institute for Research in Cognitive Science, University of Pennsylvania. Tech. Rep, 1997
  • [16] S Eyheramendy;D. Lewis;D. Madigan. On the naive Bayes model for text categorization. The 9th Int'l Workshop on Artificial Intelligence and Statistics, Key West. Florida, 2003
  • [17] C Hsu;C. Lin. A comparison on methods for multi-class support vector machines. IEEE Transactions on Neural Networks, 2003
查看更多︾
相似文献 查看更多>>
54.82.99.169