登录 | 注册 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
不同词性标记集在典籍实体抽取上的差异性探究
  • 摘要

    [目的]在数字人文这一背景下,为更加深入和精准地从古代典籍中挖掘相应的知识,通过实验对比分析,探究不同词性标记集在典籍实体抽取上的差异性.[方法]基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料,以南京师范大学先秦词性标记集为主、以北京大学、中国科学院计算技术研究所和教育部词性标记集为辅,共形成三种不同大小的新标记集,通过条件随机场以及添加特征模板比较这三种词性标记集合在同一语料上进行实体抽取结果的差异性.[结果]在先秦典籍《左传》和《国语》上对不同大小的三种词性标记集开展对比实验,三种模型各自进行实体抽取的F值分别达到82.53%、83.42%和84.07%.[局限]特征选取有待进一步改善,训练结果还有提升空间.[结论]本文研究结果有助于先秦古文献命名实体的抽取,所构建的词性标记集合适用于古汉语词性标注工作.

  • 作者

    袁悦  王东波  黄水清  李斌  Yuan Yue  Wang Dongbo  Huang Shuiqing  Li Bin 

  • 作者单位

    南京农业大学信息科学技术学院 南京210095/南京农业大学信息科学技术学院 南京210095;南京农业大学领域知识关联研究中心 南京210095/南京师范大学文学院 南京210097

  • 刊期

    2019年3期 PKU CSSCI

  • 关键词

    数字人文  古文信息处理  词性标注  命名实体抽取 

相似文献 查看更多>>
3.94.202.172