500亿参数，支持103种语言：谷歌推出「全球文字翻译」模型

发布时间：2019-10-17 09:34:19 所属栏目：经验来源：机器之心编译

导读：由于缺乏平行数据，小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型，在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。他们在 250 亿个的句子对上进行训练，参数量超过 500 亿。在过去

有研究显示，到 21 世纪末，全球至少有 7000 种目前正在使用的语言将会不复存在。多语言机器翻译系统可以拯救这些语言吗？谷歌认为，M4 是通向另外 1000 种语言翻译的基石。从这类多语言模型开始，即使没有平行语料，我们也可以轻松地将机器翻译扩展到新的语言、领域和下游任务中去。在通用机器翻译的方向上，很多有希望的解决方案似乎是跨领域的，多语言 NMT 正在成为多任务学习、元学习、深层网络训练等机器学习技术的理想测试平台。