第七届语言与智能论坛2022语言与智能技术竞赛获奖

9月18日,第七届语言与智力峰会由中国中文信息学会CIPS和中国计算机学会CCF联合主办。在论坛上,2022年语言与智能技术大赛组委会为获奖团队颁奖,获奖团队对其技术方案进行了详细报告。

语言和智能技术竞赛由中国中文信息学会和中国计算机学会共同主办,由百度、(中国中文信息学会、评测工作委员会和(0.006)自然语言处理委员会组织。自2018年启动以来,该竞赛已成为世界上最权威和最受欢迎的中文NLP竞赛之一,这得益于其针对真实世界应用程序和源自真实世界应用的数据集的任务设计。2022年的比赛在“千言万语”数据集开源项目的合作下进一步升级,该项目设置了四项任务,即段落检索、知识对话、情感解读和视频语义理解,涵盖跨模式、知识驱动和可信学习等前沿话题,具有很高的学术和工业价值。

任务的全面升级引起了学术界和业界的广泛关注。据统计,共有约2500支队伍报名参赛,其中包括全球262所大学和208家企业,并提交了7000多份有效成绩。其中,大学玩家约占52%,来自清华大学、北京大学、复旦大学、(1中国人民大学)、(0.004)、伊利诺伊理工大学、(0036)等国内外知名大学;企业参与者约占34%,分别来自中国移动、联通、平安保险、华为、(0037)、(026)、(0055)、(0313)、(0412)、(099)等知名企业,涵盖金融、互联网、传媒、通信、工程机械、能源、生物等行业

经过激烈角逐,来自中国科学技术大学、香港中文大学、(1阿里巴巴)、腾讯和商汤科技等高校和企业的共16支队伍获奖。

段落检索比赛获胜团队

知识对话大赛获奖团队

情绪可以解释获胜的团队

视频语义理解比赛的获胜团队

获胜团队在比赛方案中都使用了预训练语言模型,也提出了很多创新的想法和方案,并在效果上取得了显著的提升。与比赛的官方基线成绩相比,段落检索任务提高了15.40%,知识对话任务提高了142.86%,情感可解释性任务提高了77.12%,视频语义理解任务提高了50%。各团队的技术解决方案有力地推动了相关任务的技术探索。在论坛的评估报告部分,四项任务的冠军团队分享了他们的比赛计划。

在段落检索任务中,来自中国科学技术大学的“杨氏团队”提出了一种基于弱监督数据预训练的开放式问答段落检索方法,可以有效提高检索精度。在知识对话比赛中,来自腾讯的“穿上T恤,溜走”团队设计了一个基于实时知识搜索API的知识对话系统。实验表明,该方案可以显著提高对话的整体连贯性和吸引力。在情感可解释任务中,阿里巴巴的“Ali_农民工团队”提出了一种基于通用信息提取UIE统一框架的情感可解释分析方法。根据情感可解释任务的特点,该方法采用了少量镜头、文本聚类等方法来提高模型的合理性和逼真度。在视频语义理解中,来自香港科技大学商汤科技“Thomson NLP(LaVi团队”针对类别标签预测任务和语义标注任务,分别设计了相应的解决方案,并提出了基于多模态学习的视频语义理解模型,并通过数据、数据加权和多模型集成来加强,以进一步提高性能计划,最终脱颖而出。

自然语言处理部首席架构师刘璟在总结比赛时表示, “四项任务中的每一项的获胜解决方案都比基线水平有了显著提高。所有获胜团队都在预训练模型的基础上进行了一系列创新,如采用提示技术、任务导向的预训练等,这有效地促进了技术的进步。目前,知识融合的应用仍然存在许多挑战n、 未来需要信任学习、跨模式技术和更多突破。”

值得一提的是,本次比赛的数据集均来自千字中文开源数据集项目。千字是一个中文用于自然语言处理的开源数据共建项目,由中国计算机学会、中国中文信息学会和百度联合发起。目前,来自近20个组织的数据集作者参与了共建。已经注册了近60中文个NLP开源数据集,涵盖15个任务方向,如文本生成、情感分析和阅读理解。

千字网站

2022年语言与智力竞赛发布了来自搜索引擎DuReader_retrieval的第一个大规模中文段落检索数据集、第一个服务信息增强会话数据集DuSinc、第一个细粒度中文情感可解释评估数据集DuExplain和视频语义理解数据集DuVideoTag。比赛结束后,开发者可以继续在千言数据集官网下载和使用上述数据集,并参与相应的榜单评估,从而不断提高技术水平,实现创新发展。

语言是人类信息传递最重要的媒介。近年来,自然语言处理领域受到了工业界、学术界和研究界的持续关注。比赛将继续为现实世界的应用提供数据集和具有挑战性的任务,引领学术研究走向现实世界应用,提高语言理解和人机交互智能,并促进语言和智能领域技术的发展和应用。

返回列表
上一篇:
下一篇:

文章评论