登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
基于Python的豆瓣读书网站用户信息采集
  • 摘要

    21世纪是大数据时代.随着互联网的发展与普及,人们在互联网上会留下大量的"个人信息足迹".网络数据量呈指数级增长,与此同时人们获取想要的信息的难度也大幅度提高.搜索引擎的出现和发展提高了用户检索信息的效率.网络爬虫是搜索引擎相关技术的重要组成部分,爬虫技术的发展助推信息资源获取更加高效便捷.基于Python技术对目标网站——豆瓣网用户读书喜好信息(包括用户想读、在读、读过、评论等)进行采集与存储,为后期的个性化推荐方法研究提供数据支持.在数据采集过程中涉及URL去重、模拟登录、翻页等技术处理.

  • 作者

    李鑫欣  关菁华  LI Xin-xin  GUAN Jing-hua 

  • 作者单位

    大连外国语大学软件学院,辽宁大连,116044

  • 刊期

    2019年8期

  • 关键词

    Python  网络爬虫  数据采集  模拟登录  URL去重 

相似文献 查看更多>>
34.204.171.108