登录 | 注册 | 充值 | 退出 | 公司首页 | 繁体中文 | 满意度调查
综合馆
基于分布内存的层次短语机器翻译并行化算法
  • 摘要

    近年来,为了提高统计机器翻译系统的准确性,普遍应用海量语料训练出大规模语言模型和翻译模型.而模型规模的不断增大,给统计机器翻译带来了突出的计算性能问题,使得现有的单机串行化翻译处理难以在较快的时间内完成计算,该问题在处理联机翻译时更为突出.为了克服单机机器翻译算法在这方面的局限性,提高大规模统计机器翻译处理的计算性能,面向一个实际的联机翻译系统,提出了一个分布式和并行化翻译解码算法框架,对整个大规模语言模型和翻译模型同时采用分布式存储和并行化查询机制,在此基础上进一步研究实现完整的翻译解码并行化算法.研究实现了一个基于分布式内存数据库的层次短语并行化机器翻译解码器,该解码器使用分布式内存数据库存储和查询大数据量的翻译模型表和语言模型表,克服了传统的机器翻译系统所面临的内存容量和并发度方面的限制.为了进一步提高并行解码速度,还研究实现了另外3项优化技术:1)将翻译模型表的同步规则和Trie树结构的语言模型表转化为基于内存数据库的“键-值”结构的Hash索引表的方法;2)对Cube-Pruning算法进行了修改使其适用于批量查询;3)采用并优化了批量查询方式减少语言和翻译模型查询时的网络传输开销.所提出的解码算法实现了基于大规模语料统计机器翻译时的快速解码,并具备优异的系统可扩展性.实验结果表明:与单机解码器相比,单句翻译速度可提高2.7倍,批量翻译作业的总体解码性能可提高至少11.7倍,实现了显著的计算性能提升.

  • 作者

    赵博  黄书剑  戴新宇  袁春风  黄宜华  Zhao Bo  Huang Shujian  Dai Xinyu  Yuan Chunfeng  Huang Yihua 

  • 作者单位

    计算机软件新技术国家重点实验室(南京大学) 南京210023/江苏省软件新技术与产业化协同创新中心 南京210023

  • 刊期

    2014年12期 ISTIC EI PKU

  • 关键词

    统计机器翻译  层次短语  语言模型  翻译模型  并行化解码  分布内存  statistical machine translation  hierarchical phrase  language model  translation model  parallel decoding  distributed memory 

参考文献
  • [1] 奚宁,赵迎功,汤光超,李中华,刘友强,戴新宇,陈家骏. 南京大学第七届机器翻译研讨会评测技术报告. 第七届全国机器翻译研讨会论文集, 2011
  • [2] 刘群. 机器翻译研究新进展. 当代语言学, 2009,2
  • [3] Och F J;Ney H. Discriminative training and maximum entropy models for statistical machine translation. Stroudsburg,PA:ACL, 2002
  • [4] Li Zhifei;Khudanpur S. A scalable decoder for parsing-based machine translation with equivalent language model state maintenance. Stroudsburg,PA:ACL, 2008
  • [5] Zhang Ying;Hildebrand A S;Vogel S. Distributed language modeling for n-best list re-ranking. Stroudsburg,PA:ACL, 2006
  • [6] Venugopal A;Zollmann A;Stephan V. An efficient two-pass approach to synchronous-CFG driven statistical MT. Stroudsburg,PA:ACL, 2007
  • [7] Chiang D. Hierarchical phrase-based translation. COMPUTATIONAL LINGUISTICS, 2007,02
  • [8] Brants T;Popat A C;Xu Peng. Large language models in machine translation. Stroudsburg,PA:ACL, 2007
  • [9] Huang L;Chiang D. Forest rescoring:Faster decoding with integrated language models. Stroudsburg,PA:ACL, 2007
  • [10] Lin J;Dyer C. Data-Intensive Text Processing with MapReduce. San Francisco,CA:Morgan and Claypool Publishers, 2010
  • [11] Pauls A;Klein D. Faster and smaller n-gram language models. Stroudsburg,PA:ACL, 2011
  • [12] Talbot D;Osborne M. Smoothed Bloom filter language models:Tera-scale LMs on the cheap. Stroudsburg,PA:ACL, 2007
查看更多︾
相似文献 查看更多>>
34.229.76.193