2021SLTCSRC-标贝科技2800小时增发儿童ASR商业数据服务-量子比特

由西北工业大学、清华大学、厦门大学和标贝科技共同主办,中国计算机学会语音对话和听觉专业小组支持的IEEESLT2021研讨会的旗舰活动--儿童语音识别挑战(CSRC)的最终排名结果正式论文日前发表。CSRC比赛持续近3个月,经过激烈竞争,赛道第一名和第三名分别以上海交通大学、大连奇辉计算机网络有限公司、网易有道信息技术(北京)有限公司获得,赛道第二名和第三名分别以小米、东芝、同花顺公司获得。荣誉的桂冠,实至名归。

本次竞赛的数据,由共同主办单位之一的标贝科技支持全程,近400小时的高质量成人朗读数据和儿童朗读、会话等参与数据,分别由目标库从5000小时的成人中文朗读语音数据库、1800小时的儿童语音对话数据库取得充分满足竞赛需求,匹配语音识别模型训练。

实际上,比赛数据是本次SLTCSRC的一大亮点,提高了比赛的关注度和参与度。孩子的语音数据是制造商的关注点。原因该数据被广泛应用于智能教学、早教产品、智能音箱等多种语音对话场景。但儿童语言由于声线、吐字等原因,语音和语言的特性与成年人不同,存在天然的技术辨别难度。此外,如果在训练中没有大量覆盖带标签的儿童语音,儿童ASR的准确性明显低于成年人。因此,高质量儿童ASR数据的重要性不言而喻。

从本次比赛报名情况看,2021SLTCSRC将从世界不同地区吸引近60家高校,科研机构和厂商报名,覆盖中国大陆和香港、美国、新加坡、爱尔尼亚等地区,其中国内厂商参赛队伍有爱奇艺、小米、网易、华为、很快就有不少在金融等行业家喻户晓的厂商。另一方面,国内的大学和科研机构聚集了清华、浙大、上海交大、中科院自动化研究所等。此次CSRC大赛得到了以上机构和厂商的积极参与,但仍有部分团队未能如期报名,希望有机会再次参与,应用数据进行研究。

另外,本次比赛数据的价值也体现在本次的SLTCSRC论文中。迄今为止,基于标贝科技提供的儿童语音识别数据,SLT公式、小米、CUHK等机构发表了学术论文。论文的发表不仅代表了目前行业内极高的学术水平,而且为商家提供专业参考指南。

此次SLTCSRC竞赛的结果和论文已经发表,但业界的数据需求并没有停止。为了更好地推动儿童语音产品的开发,标贝科技针对此次未能参与和对儿童ASR数据有更多需求的合作伙伴,提供以下两套特定价格的数据产品

1,CSRC数据

成人朗读数据340小时有效时间

孩子朗读数据的28小时有效时间

儿童对话数据29小时有效时间

2,标贝科技儿童语音识别数据集

儿童中文语音数据库的有效时间为1800小时

儿童英文语音数据库的有效时间为500小时

儿童中英文语音数据库的有效时间为500小时

返回列表
上一篇:
下一篇:

文章评论