500亿参数,支持103种语言:谷歌推出「全球文字翻译」模型
发布时间:2019-10-17 09:34:19 所属栏目:经验 来源:机器之心编译
导读:由于缺乏平行数据,小语种的翻译一直是一大难题。来自谷歌的研究者提出了一种能够翻译 103 种语言的大规模多语言神经机器翻译模型,在数据丰富和匮乏的语种翻译中都实现了显著的性能提升。他们在 250 亿个的句子对上进行训练,参数量超过 500 亿。 在过去
尽管扩展深度是提高模型能力的一种方法,探索能够利用问题多任务特性的架构也是一种非常可行的补充方法。研究者通过用稀疏门控专家混合层(sparsely-gated mixture of experts)替代原始的前馈层修改 transformer 的架构,显著提高了模型能力,使得我们可以成功地训练和传递 500 亿参数,从而进一步提高了翻译质量。 与 103 个双语翻译基准相比,谷歌的新方法在单个多语言模型上提高了容量(参数量),进而提高了翻译质量。 让 M4 模型实用化 对于每个语言的领域或迁移任务来说,训练大型模型,花费大量算力非常不经济。谷歌提出的方法通过使用容量可调层使新模型适应特定的语言或领域,无需更改原始模型,使得这些模型变得更加实用。 展望 (编辑:衡阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |