登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
信息检索中的带权邻近度度量研究
  • 摘要

    信息检索需要解决的主要问题是为信息索取者提供相关、准确甚至完整的信息.大量的传统检索模型基于词袋假设进行建模,不考虑查询词之间的相互联系.词项邻近度信息在现有的研究中常被用于提升经典信息检索模型的检索效果,但大部分工作没有考虑查询中各个词重要性的差异.在现代信息检索的查询请求中,查询词之间不仅不完全相互独立,而且分别具有不同的重要程度.因此,在计算邻近度信息时对查询词的重要性进行区分,将有助于提高检索效果.带权邻近度BM25模型(WP-BM25)使用待检索数据集的背景信息对查询词的重要性进行区分,并将带权邻近度度量方法整合到BM25模型中.在TREC评测的3个标准数据集FR88-89,WT2G和WT10G上的一系列对比实验表明,该模型具有较好的鲁棒性,且能够使检索效果得到显著提升.

  • 作者

    薛源海  俞晓明  刘悦  关峰  程学旗  Xue Yuanhai  Yu Xiaoming  Liu Yue  Guan Feng  Cheng Xueqi 

  • 作者单位

    中国科学院网络数据科学与技术重点实验室 北京 100190;中国科学院计算技术研究所 北京 100190;中国科学院大学 北京100190/中国科学院网络数据科学与技术重点实验室 北京 100190;中国科学院计算技术研究所 北京 100190

  • 刊期

    2014年10期 ISTIC EI PKU

  • 关键词

    带权邻近度  度量方法  BM25  查询词重要性  信息检索  weighted proximity  measure method  BM25  term significance  information retrieval 

参考文献
  • [1] 程学旗,吕建明,周昭涛. 基于对等网络的全文信息检索. 计算机研究与发展, 2004,12
  • [2] 李亚楠,王斌,李锦涛. 搜索引擎查询推荐技术综述. 中文信息学报, 2010,6
  • [3] Manning C D;Raghavan P;Schütze H. Introduction to Information Retrieval. Cambridge:Cambridge University Press, 2008
  • [4] Ponte J M;Croft W B. A language modeling approach to information retrieval. New York:ACM, 1998
  • [5] Fagan J. Automatic phrase indexing for document retrieval. New York:ACM, 1987
  • [6] Croft W B;Turtle H R;Lewis D D. The use of phrases and structured queries in information retrieval. New York:ACM, 1991
  • [7] GaoJ;NieJ Y;WuG. Dependence language model for information retrieval. New York:ACM, 2004
  • [8] Metzler D;Croft W B. A Markov random field model for term dependencies. New York:ACM, 2005
  • [9] Tao T;Zhai C X. An exploration of proximity measures in information retrieval. New York:ACM, 2007
  • [10] Zhao J;Yun Y. A proximity language model for information retrieval. New York:ACM, 2009
  • [11] Lü Y;Zhai C X. Positional language models for information retrieval. New York:ACM, 2009
  • [12] Zhao J;Huang J X;He B. CRTER:Using cross terms to enhance probabilistic information retrieval. New York:ACM, 2011
  • [13] Porter M F. An algorithm for suffix stripping. Program:Electronic Library and Information Systems, 1980,03
  • [14] Salton G;Wong A;Yang C S. A vector space model for automatic indexing. Communications of the ACM, 1975,11
  • [15] Robertson S E;Jones K S. Relevance weighting of search terms. Journal of the American Society for Information Science, 1976,03
  • [16] Robertson S;Zaragoza H. The Probabilistic Relevance Framework. Hanover,MA:Now Publishers Inc, 2009
查看更多︾
相似文献 查看更多>>
34.239.160.113