科大讯飞乐享A.I.技术沙龙成都站成功举办，探秘AI虚拟人多模态交互落地

2021-12-25 14:54:37 来源：

（原标题：科大讯飞乐享A。I。技术沙龙成都站成功举办，探秘AI虚拟人多模态交互落地）

　　近几年，随着图像处理、语音合成、语音识别、语义理解、多语种等多项人工智能技术不断发展，AI虚拟人开始在各行各业落地应用，各大公司争相布局。这背后，其实是AI虚拟人多模态交互技术正在成为大趋势。

　　多模态融合视觉、听觉、文本等多种模态信息，能够打破单模态输入输出限制，从而更贴近人类真实使用习惯。对于AI交互产品来说，只有综合利用多模态信息才能更准确地理解人类行为。但现阶段受限于语义鸿沟、异构鸿沟、数据缺失等原因，多模态研究还有一定难度，如何将多模态技术应用于实际产品仍然困扰着许多开发者。

　　本次讯飞开放平台乐享A。I。技术沙龙成都专场，致力于为开发者们提供破解多模态技术落地难题的思路参考。活动现场吸引了众多开发者参与，来自科大讯飞的多位分享嘉宾与成都的开发者伙伴齐聚一堂，围绕“A。I。虚拟人多模态创新交互”主题，展开了面对面的深入探讨与实操模拟。

　　沙龙开场，讯飞开放平台总经理张斌发表了开场致辞。他表示，成都是一个拥有巨大潜力和机会的城市，因此它对于很多企业来说有非常大的魅力。电子信息产业是成都的支柱产业，今年2月份成都刚刚成为第二批国家人工智能应用先导区，这体现了成都在人工智能行业中的重要地位。在讯飞开放平台上超过210万开发者中，来自成都的开发者数量也居于各大城市前列。因此科大讯飞希望通过本场沙龙活动与成都的开发者们建立更好的联系，一起共建人工智能生态。

　　语音合成领域发展趋势深度洞察

　　如今，智能语音已经成为新交互模态必不可少的技术之一，其中，语音合成能力让产品走向“开口说话”的阶段。在未来越来越多的个性化场景下，语音合成可能会往哪些方向发展？讯飞AI研究院副院长江源在语音合成领域从事了十多年的研究，他以“未来个性场景下语音合成发展趋势”为主题，与现场开发者分享了他对于语音合成领域技术发展趋势的深度洞察。

　　江源指出，未来面对越来越丰富的个性化场景，语音合成技术的发展方向将主要由三个诉求牵引，分别是音色、情感和多语种。

　　首先，大家都想要拥有一个独一无二的声音来代表自己、代表品牌形象，因此如何便捷高效地定制个性化音色是非常大的诉求。在这方面，科大讯飞已经能够提供非常成熟的解决方案和产品，做到品牌个性化、应用个性化和用户个性化，这背后主要依靠的是讯飞自研的基于听感量化的混合数据多层级建模方案。

　　其次是自如的情感表达，传统的语音合成只要求做到信息播报，让听众听清就可以，现在随着技术的进步，机器合成的声音已经可以比较好地贴近真人的声音，大家对于声音和效果的要求也更多了，比如希望机器合成的声音更好听、更悦耳、更符合当前的使用场景，这就要求机器能够更好地表达交互之间情感的细微变化。情感也是未来人机交互中很重要的特性，关系到人工智能是否可以跨越鸿沟实现真正的智能。目前科大讯飞正在围绕可控情感语音合成技术和可控文本情感预测技术做一些研究和探索。

　　最后是方言语种的多元需求，这主要是为了帮助我们更好地保护地域性的语言和文化，以及更好地走向全球化。

　　讯飞A。I。虚拟人方案及应用解读

　　目前，AI主播、AI偶像等等AI虚拟人场景已经成为各大公司重点布局的方向，这一场景背后从视频图像到智能语音技术缺一不可。讯飞的AI虚拟人方案有哪些技术创新点？讯飞怎么解决AI虚拟人在内容和交互上的问题？讯飞有声平台业务部总经理郜静文在以“A。I。虚拟人内容生产和多模态交互”为主题的分享中，详细介绍了讯飞A。I。虚拟人的方案及应用。

　　科大讯飞自成立以来就一直在从事A。I。虚拟人相关技术的研究，语音合成、语音识别、语义理解、图像理解等技术都为A。I。虚拟人多模态技术奠定了基础。郜静文在演讲中分享了A。I。虚拟人应用的发展历程，20世纪80年代，研究人员开始尝试将虚拟人物引入到现实世界中，虚拟数字人步入萌芽阶段；21世纪初，传统手绘逐渐被CG、动作捕捉等技术取代，虚拟数字人步入探索阶段；近五年，得益于深度学习算法的突破，虚拟数字人制作过程有效简化，开始步入初级阶段；互联网、终端屏等技术的飞速发展和海量音视频内容产出的需求，又进一步推动了A。I。虚拟人技术的发展，现如今，虚拟数字人正朝着智能化、便捷化、精细化、多样化成长。

　　讯飞A。I。虚拟人技术架构的最底层是基础数据，包括业务知识和形象库、声音库；往上一层是包括图像识别、语义理解、3D人脸识别、语音驱动口唇、语音合成、语音识别、人脸视频合成、肢体动作合成等在内的核心技术；再往上是基于核心技术打造出的2D线D真人等虚拟形象。基于这些技术最后呈现给开发者的主要是三大类业务产品：播报系统，实现了文字到音频以及文字到虚拟形象的输出，也结合了相关的视频处理文件的多轨能力，能够支持输入文字以后自动输出需要的视频，目前这套系统已经有一百多个媒体和企业在使用；多模态交互系统，可以应用在金融行业的视频客服或视频面试中；软硬件一体的A。I。虚拟人一体化解决方案，可以放在展厅、大堂做一些交互和客服的工作，减少开发者和企业的开发成本。

　　郜静文在现场发布了科大讯飞A。I。虚拟人生态平台，希望能有更多技术合作伙伴共同参与到虚拟人的研发和平台建设中来。她表示，讯飞将在这个平台中提供更多技术服务、SaaS服务和行业解决方案，与合作伙伴共建A。I。虚拟人生态圈。同时，讯飞对外开放2项定制能力，分别是A。I。音库自训练平台和A。I。虚拟人服务调用，支持公有云调用、私有化部署。讯飞希望能与合作伙伴共同丰富虚拟人内容和服务，共创共赢。

　　讯飞开放平台产品矩阵

　　讯飞近几年一直重点发力平台+赛道的战略，而平台属性对于生态建设来说必不可少，讯飞开放平台也承载着讯飞在AI生态建设的野心。讯飞开放平台产品运营总监汪舰为现场开发者介绍了讯飞开放平台目前可以提供哪些技术产品和解决方案，以及讯飞通过什么样的思路来优化这些产品。

　　讯飞开放平台成立于2010年，是基于科大讯飞国际领先的人工智能研究成果建设的AI技术与生态服务平台，面向用户提供语音识别、语音合成、语义理解、文字识别、人脸识别等AI技术授权。截至目前，讯飞开放平台已经拥有330万生态合作伙伴，对外开放了433项AI能力及解决方案，全球使用讯飞开放平台技术能力的终端设备累计已经超过31亿。

　　汪舰表示，一项技术在实验室诞生要走过的路，远远小于这项技术从实验室走出来进入大家的生活场景要走的路。语音识别技术是讯飞的强项，但同样也会收到很多客户和使用者反馈的各种问题，为了解决这些问题，讯飞研发团队做了非常多努力。解决语音识别问题的核心是提高识别率，第一步是做好声学前端处理，通过声源定位、噪声抑制、回声消除等技术，从硬件上解决识别中的噪声问题；第二步可以通过算法层面的声学模型定制和语言模型定制来提高识别率；第三步可以借助多模态技术，让机器一边听一边看，通过捕捉主要说话人来提高识别率。

　　对于讯飞开放平台的基本理念，汪舰也进行了解读，他指出，开放平台的源头是数据，在很多场景下，数据来自各个行业的开发者和数据拥有者；拿到数据之后首先会进行数据标注，然后放到讯飞提供的机器学习引擎中去训练，最终输出一个引擎模型，讯飞会提供引擎部署服务，可以将这个引擎放到讯飞的开发平台上做云端的调用或本地化部署。

　　除了精彩的大咖分享环节之外，沙龙最后还安排了Workshop实操接入环节，现场由讯飞有声平台研发工程师吕磊手把手现场教学，带领开发者体验讯飞AI虚拟人接入实践，基于讯飞开放平台能力，不同行业的开发者都能快速开发出可以满足特定场景需求的A。I。虚拟人。

　　虽然成都专场活动已经落下帷幕，但讯飞开放平台乐享A。I。技术沙龙系列活动才只是刚刚开始。接下来，讯飞开放平台乐享A。I。技术沙龙系列活动将继续向全国各大重点城市出发，围绕AI热点能力分享、行业应用探究和Workshop技术实践等丰富形式，与各地开发者展开实地面对面交流，为大家提供最新的人工智能理念、产品技术、解决方案和实践经验。

　　下一站，乐享A。I。技术沙龙将会走进哪个城市呢？让我们拭目以待！