突出重围科大讯飞获国家科学技术进步奖一等奖
6月24日,2023年度国家科学技术奖在京揭晓,科大讯飞作为首一完成单位的《多语种智能语音关键技术及产业化》项目获得国家科学技术进步奖一等奖。这是深度学习引发全球人工智能浪潮以来,过去十年人工智能领域首个国家科学技术进步奖一等奖。这也是科大讯飞继2002年和2011年分别获得国家科学技术进步奖二等奖之后,首次获得国家科学技术进步奖一等奖。 项目关键技术实现四大突破 多语种智能语音技术对于支撑人机交互、人类语言互通及等需求具有重大战略意义,具有十分广阔的产业前景,是当前国际科技竞争核心焦点之一。 项目攻克多个技术难题,提出四个方面的技术创新:复杂语音信号解耦建模关键技术突破,多语种共享建模关键技术突破,语音语义联合建模关键技术突破,国产异构硬件平台训练及推理加速关键技术突破。 为解决语音识别研究中最具挑战的是远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题,科大讯飞提出了多通道语音信号时空分离建模方法和度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的属性特征解耦,使得复杂场景下语音识别准确率得到重大突破。 为应对多语种技术卡脖子问题,必须解决小语种智能语音系统构建所面临的知识匮乏、训练数据稀缺等难题。科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模——通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练——最终,显著提升了小语种语音系统性能。 为解决复杂应用场景下语音交互、语音翻译面临着深层次语义理解困难、专业性不足等问题,科大讯飞提出语音语义互增强的鲁棒口语理解技术,有效提升语音交互、语音翻译等复杂场景的语义理解准确率;提出多源知识增强的可信文本生成技术,提升专有词汇及领域知识引用的准确率。 为解决使用国产芯片开展智能语音算法模型训练和推理面临的性能低、适配难等问题,科大讯飞提出的硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平;通过多硬件联合的量化计算模拟,达到模型单次训练后可在不同硬件平台上一键部署,解决了智能语音技术硬件平台的“卡脖子”问题。 值得一提的是,此次获奖项目是科大讯飞联合清华大学、中国科大、华为、中国移动等“实力派”国家队共同完成,称得上是一件中国科技的“亮剑”之作。 “顶天立地”构建产业生态 科大讯飞坚持“技术顶天、应用立地”的战略,围绕多语种智能语音技术构建了自主可控的产业生态。 语音是万物互联时代人机交互的关键入口,项目开创引领我国语音产业,支撑智能制造产业升级和出海。智能手机方面,项目支持各主流手机厂商累计激活设备超10亿台;智能汽车方面,车载智能化产品累计前装超 5300万套,2023年中国汽车出海十强企业中,有8家企业都在和科大讯飞合作;智能软硬件方面,有力支撑讯飞翻译机、讯飞智能录音笔、讯飞听见等智能软硬件产品不断创新,其中,讯飞翻译机目前能支持85个语种的翻译,覆盖全球200多个国家和地区;在会议、办公等场景,讯飞听见系列产品服务遍及全球50多个国家和地区,支持了超过40万场会议,触及超过4亿观众;面向更多用户,讯飞输入法月活跃用户超1.4亿人,日语音交互次数超10亿次。 项目还助力民族团结,促进全球语言互通和“一带一路”建设。其中,“多语种语音云”平台,月服务超过5.46亿人次;智能翻译服务,每年提供服务51.5亿次,语音同传服务全球50余个国家超4亿观众;多语种技术有效服务北京冬奥会和冬残奥会、中国国际进口博览会、博鳌论坛等国家重大活动。 项目还构建了自主可控的多语种智能语音技术及全球产业生态,2017年开始承建的智能语音国家新一代人工智能开放创新平台,已聚集平台开发者数700.7万,终端设备数40.5亿;构建全球多语种技术生态,目前平台聚集海外开发者数超过40万。 让科技更有温度,项目持续助力公益,关爱弱势群体和特殊人群。“听见AI的声音”公益行动,为听力障碍人士提供免费的实时语音转文字服务、捐赠免费时长,截至2024年6月,累计捐赠时长超一亿分钟;“三声有幸”项目,累计服务1368万人,助力公益团队创建无障碍应用超3万个。 未来:智能语音+认知大模型,用人工智能建设美好世界 据了解,因2021年、2022年国家科学技术奖暂停的缘故,2023年度国家科学技术奖积累了大量的优秀成果,无论是提名环节拿指标、初评环节过网评,还是答辩环节,竞争都异常激烈,堪称是国奖史上“最难”的一年。 十年磨一剑,科大讯飞创业25年来第三次获得国家科技进步奖,对于科大讯飞而言,是一个总结,也是新开始。 通用人工智能时代,科大讯飞多语种智能语音关键技术中的创新和大模型技术相互补充、相互促进。 语音属性解耦、语音信号时空分离等技术突破,可以将语音信号经过编码后输入到大语言模型,显著提升语音大模型的效果。2024年1月30日,科大讯飞就基于上述技术融合路线发布了星火语音大模型,显著超过了OpenAI的Whisper v3的语音大模型能力,Whisper v3的24个主要语种的平均识别率为82%,而星火语音大模型达到了90%。4月26日,科大讯飞又首发多情感超拟人合成和一句话声音复刻能力,使机器具备更加丰富的超拟人情绪感知和表达。 大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果,同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力,也能进一步大幅提升智能语音技术的使用场景和应用价值,支撑实现语音同传、自动客服、辅学答疑、家庭医生、虚拟员工、陪伴机器人、服务机器人等等未来智能产品创新,带来巨大产业机会,加速通用人工智能时代的到来。 6月27日,讯飞星火V4.0也将正式发布,底座能力全面对标GPT-4 Turbo,语音大模型也将迎来全新升级。