莘羽专业数码电器网
首页 > 行业动态 > 语音大模型MaskGCT开源赋能短剧游戏数字人新品

语音大模型MaskGCT开源赋能短剧游戏数字人新品

【ITBEAR】趣丸科技与香港中文大学(深圳)联手打造的语音大模型MaskGCT,近日宣布在Amphion系统中开源,供全球用户使用。该模型凭借其独特的技术,在声音克隆、跨语种合成及语音控制等领域展现出显著优势。

MaskGCT采用掩码生成模型与语音表征解耦编码技术,实现了秒级超逼真的声音克隆,仅需3秒音频样本即可复刻各种音色,包括人类、动漫等,同时完整保留语调、风格和情感。该模型还支持更精细可控的语音生成,可灵活调整语音的长度、语速和情绪。

MaskGCT的训练基于香港中文大学(深圳)与趣丸科技等机构联合推出的10万小时数据集Emilia,这是全球最大且最为多样的高质量多语种语音数据集之一,涵盖了中英日韩法德6种语言。

在官方实验中,MaskGCT在语音质量、相似度和可理解性方面均表现出色,优于当前大部分TTS模型。其两阶段模型设计,使得在推理过程中,模型能以并行方式生成指定长度的标记,大幅提高效率。

目前,MaskGCT已在多个领域展现出广泛应用前景,如短剧出海、数字人、智能助手等。趣丸科技基于MaskGCT开发了多语种速译智能视听平台“趣丸千音”,旨在降低翻译成本,缩短制作周期,助力国产内容出海。

《2024年短剧出海》显示,海外市场规模远超国内市场,短剧出海正成为新蓝海。趣丸千音有望帮助国产短剧以更低成本、更快捷的方式走向世界,提升中国文化内容的出海效率。

标签:

上一篇 目录 下一章

猜你喜欢

数码电器行业动态 中国摄影艺术展...
一、中国摄影艺术展览网:镜头下的中华美丽传说 在这个由无数画面构成的巨大画卷中,每一幅都是对中国之美的独特见证。中国摄影艺术展览网,不仅仅是一个展示空间,...
数码电器行业动态 摄影器材价格大...
镜头选择 在购买镜头时,价格通常会根据镜头的类型、焦距和特性而有所不同。对于初学者来说,一个基本的标准焦距(如50mm或85mm)便宜且易于操作,适合日常...
数码电器行业动态 艺术照与写真的...
艺术照与写真的区别探究 什么是艺术照? 艺术照,作为一种特殊的摄影作品,它不仅仅是一张照片,更是一种艺术表现形式。它通过巧妙的构图、色彩运用和光影处理等技...
数码电器行业动态 夜空下的梦想宇...
在这个信息爆炸的时代,社交媒体平台成为了我们分享生活、展现个性的重要窗口。微博作为中国最大的中文社交网络服务之一,其用户群体涵盖了各种各样的兴趣爱好者,其...

强力推荐