微信翻译在WMT2022中获得三项第一名,相关能力已应用于业务场景-量子比特,

近日,WMT2022国际机器翻译大赛排名停止提交结果,发布排名。其中,微信翻译团队在对话翻译和生物医学领域翻译的激烈竞争中脱颖而出,荣获对话翻译大赛英德和独英翻译冠军、生物医学领域翻译大赛中英翻译冠军三项冠军。

挑战新课程,微信翻译在丰富的技术基础上赢得三个第一名

WMT(Workshop on Machine Translation)由国际计算语言学协会(ACL)举办,是世界学术界公认的国际顶级机器翻译大赛之一。自2006年成立至今,WMT已成功举办17届,每年吸引全球企业、科研机构、高校组成的顶尖团队参与竞争。微软、Facebook、DeepMind、百度、阿里巴巴、华为、字节跳动、日本信息通信研究机构(NICT、清华大学、上海交通大学等。

在上届WMT2020和WMT2021中,微信翻译团队相继挑战新闻课程中的中英翻译、英中翻译、日英翻译、英日翻译、英德翻译任务,相继夺冠。今年,微信翻译团队探索了两人(多人)对话场景和垂直领域场景的翻译技巧,参加了新课程,即对话翻译和生物医学领域的翻译,获得了三项冠军。其中,在对话翻译课程(联合学校企业合作团队#8211;北京交通大学)中获得英德翻译和独英翻译冠军,在生物医学领域翻译课程中获得中英翻译冠军。

据介绍,WMT2022对话翻译课程旨在融合自然语言对话和机器翻译两项任务,让不同母语的两人以上进行无障碍对话交流,最终模式考虑到两人的对话内容、风格需要更顺利、准确地保障信息交流。包括华为、腾讯、著名AI翻译平台Unbabel、印度电子商务公司(IIPP-Flipkart)、海外研究机构Naver Labs、爱丁堡大学在内的众多顶尖团队都在该课程上展开了竞争。

生物医学领域翻译课程旨在评价生物医学领域翻译系统文档的翻译效果。这种垂直跨领域翻译比微信翻译以往处理的歌词翻译、字幕翻译等日常场景更复杂、训练数据少、术语翻译多等难点需要训练专业领域的数据。该课程还包括由“华为”、“腾讯”、“NVIDIA”、巴塞罗那超级计算中心、“剑桥大学”等全球企业、科研机构和大学组成的顶级团队。

在此次WMT2022对话翻译与生物医学领域翻译任务的竞争中,面对众多强有力的竞争对手,微信翻译团队采用了性能与多样性都很出色的Mix-AN Transformers架构,在训练数据增强、训练优化、模型整合方面也探索和验证了多项技术最终实现了出色的翻译效果,荣获桂冠。

具体而言,在数据增强方面,微信翻译团队通过正向翻译、迭代翻译、知识蒸馏生产出高质量的假数据,在源端中加入不同粒度的人工噪声,采用动态Top-p采样提高假数据的多样性。同时,在训练优化中加入目标侧的抗噪训练、Speaker-aware模型训练、基于Prompt的会话历史建模、基于梯度调度的多任务训练等多种训练方式,提高翻译效率和精度。在模型集成方面,微信翻译团队根据WMT2020和WMT2021的竞争经验,利用Self-BLUE测量模型间的多样性,有效地改进了集成搜索算法的效率,并对任务特定的评价指标进行了适配。

对应的技术是为1000万用户提供服务的技术性哺乳动物对策业务

一直以来,微信翻译团队秉承“业务问题驱动技术探索-gt、前沿热血竞技-gt、技术积累反哺乳业务”的迭代优化思路,基于行业前沿神经网络机器翻译技术构建微信翻译引擎,进行持续迭代,引入前沿机器翻译算法不断创新模型结构和算法,提高翻译能力。时至今日,微信翻译已成为日均翻译近百亿字的高质量多语言机器翻译引擎,支持30+语言间双向翻译,翻译效果达到行业一流。

目前,微信翻译已经覆盖了文本、图片、网页、语音、文档等主流翻译场景,成功适应了丰富多样的业务,微信聊天、朋友圈、微信图片(包括扫描)、微信网页、输入框边写边翻译、企业微信、企业微信、QQ短信、企业短信,腾讯文档、微信阅读、QQ音乐、微信、阅读群、微信等20多个商业场景。最近,图像翻译和截图翻译能力也被Mac版和Windows版微信上线,服务1000万用户。

未来,微信翻译团队也将从实际业务场景出发,持续深耕翻译技术,坚持通过腾讯的产品生态实现用户跨语言信息的高效转换,创造价值,为1000万用户提供更优质的智能服务。

返回列表
上一篇:
下一篇:

文章评论