登录 | 注册 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
基于语义的聚焦爬虫算法研究
  • 摘要

    针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型.引入语义信息的相似度计算模型(SVSM),用SVSM计算文档和主题模型的相似度.从本体中获取该主题词项的上位词,构建主题上位词的主题模型,爬虫依据现有网络中的主题重新获取主题相关信息,提出语义聚焦爬虫(ESVSM),通过不同主题下多个爬虫进行实验对比,发现所提出的基于主题建模和上位词替换的ESVSM算法在收获率、相关网页数量和网页平均相关度中均优于其他算法,平均抓取精度达到85%.

  • 作者

    孙红光  藏润强  姬传德  杨凤芹  冯国忠  SUN Hong-guang  ZANG Run-qiang  JI Chuan-de  YANG Feng-qin  FENG Guo-zhong 

  • 作者单位

    东北师范大学信息科学与技术学院,吉林 长春 130117;智能信息处理吉林省重点实验室,吉林 长春 130117/东北师范大学信息科学与技术学院,吉林 长春,130117/吉林大学计算机科学与技术学院,吉林 长春,130012

  • 刊期

    2018年2期 ISTIC PKU

  • 关键词

    聚焦爬虫  LDA  主题模型  向量空间模型(VSM)  语义相似度 

相似文献 查看更多>>
3.235.66.217