您的位置:首页 >市场行情 >

会撒娇有情感,小米声学语音技术重磅升级!

2022-08-07 04:57:22 来源:

  

(原标题:会撒娇有情感,小米声学语音技术重磅升级!)

  近日,小米发布了小爱音箱Art,这款音箱采用全新的金属机身,机身扬声器开孔被设计成0。7mm厚度的金属饰板,可谓功能与质感兼具。小米小爱音箱Art通过一颗2。5英寸的全频扬声器,让声音的细节呈现得更加自然。

  作为小米推出的第9款智能音箱,小米小爱音箱Art在技术上也全面升级,搭载第三代小爱同学,并支持情感化语音交互、全屋播放及就近唤醒。通过这款音箱得以看出,小米的声学语音技术已经实现全面自研,并在自研部分领域持续领先。

  情感化语音交互:通过迭代声学模型,支持情感TTS

  对于智能设备而言,实现情感化语音交互是一项挑战。情感本身就是主观的、多样的感受,一种情感可以有多种呈现形式,更适合人与人的面对面对话。情感化语音交互对技术要求较高,要技术方、数据方、质检方等多方对情感浓度、情感诠释方式等标准达成共识,将较主观的情感音素统一化、标准化。

  随着人工智能技术的发展,在实现人机对话的基础上,各大厂商都在情感化语音交互的领域探索。为了让机器加入情感元素,小米AI实验室在情感数据量有限的前提下,通过不同声学模型、不同声码器组合最终上线自然、拟人效果的情感TTS,成为业内首家情感化TTS大规模落地的企业。

  通过小米AI实验室的不断深耕,此次小米小爱同学Art全面支持情感化语音交互,基于有限但类型不同的情感音频数据(如开心、关心、害羞、惊讶等),通过不同技术训练并迭代声学模型,最终支持情感TTS合成并实现小爱同学音 感化、拟人化。

  未来,小米语音将升级此技术——支持情感TTS实时合成。从下图中可以看出,在大数据集的预训练模型基础上,利用目标说话人的中性情感数据对网络进行微调,得到目标说话人的中性情感模型;在此基础上用带情感的小批量数据对模型进一步微调,最终得到不同情感的模型,最终实现情感合成。

  

src=https://nimg.ws.126.net/?url=http%3A%2F%2Fcrawl.ws.126.net%2Ffc9d5d49489f686d99bdd99adbf07f34.jpg&thumbnail=660x2147483647&quality=80&type=jpg

  在国内语音助手行业中,小米首次实现情感化TTS的大规模落地,未来将打造情感更加丰富的小爱同学,为用户提供多元化的语音交互体验,为IoT设备增加更丰富更立体更逼真的语音交互体验。

  语音支持全屋播放:立体声组合同步播放相同音频

  小米小爱音箱Art,是首款可以实现语音支持全屋播放的设备。用户直接对小爱同学说全屋播放XX,无需提前在App端进行手动设置,即可实现一句话语音交互,为用户提供了更便捷的使用方式。

  要实现这一功能,音箱需要具备AIoT放音的技术。小米AIoT放音的自研技术在攻克无线网络抖动、晶振时钟漂移以及弱网下数据不可达等一系列技术难题后,将不同音箱播放声音的同步优化到微秒级别,同时还实现了在不同型号的音箱之间的数据同步,提供更细腻的音质和宽广的声像。

  

src=https://nimg.ws.126.net/?url=http%3A%2F%2Fcrawl.ws.126.net%2F58fce3eb5810ef855615bbe1c5f0b23a.jpg&thumbnail=660x2147483647&quality=80&type=jpg

  由这张图可见,立体声支持APP创建组网,才能进行语音指令和APP操作播放,全屋播放同时支持语音指令和APP创建组网。

  立体声功能同时支持语音指令和app操作播放,云端音频流下发至音箱A,音箱A将立体声分离为左右声道,音箱A自己播放左声道音频并将右声道音频流下发给音箱B,由B音箱播放右声道,精准的同步技术保证音箱A和B同时播放立体声的左右声道音频。全屋播放功能支持语音指令和app创建组网,音频流下发至音箱C,音箱C将音频流混合为单声道信号并下发给组内其他的音箱设备同时播放,不区分声道,可支持多个设备。

  就近唤醒全面升级:实现跨设备关闭闹钟

  早在2018年,小米音箱系列就上线了就近唤醒功能。值得一提的是,此次小米小爱音箱Art就近唤醒全新升级,可支持跨设备关闭闹钟。远处的音箱闹钟响了,唤醒近处的音箱可以直接关闭远处的闹钟。此功能在业内首次上线,小米小爱音箱Art也是首款支持该功能的产品。

  说到就近唤醒,小米早在2018年就上线这一功能,截止2020年4月28日,分布式就近唤醒已为多设备用户累计避免约6。82亿次设备同时唤醒,准确率达到98%。近期首发上线了端云多维度结合的就近唤醒综合决策策略,深入加强多设备状态信息联动,智能判决空间信息,进一步提升了家庭复杂网络环境的兼容性,同时做到了多设备响应的唯一执行,大幅提升用户体验。

  

src=https://nimg.ws.126.net/?url=http%3A%2F%2Fcrawl.ws.126.net%2Fe5396e907a2b18d68f35317ba78ca06b.jpg&thumbnail=660x2147483647&quality=80&type=jpg

  未来,小米将专注于家居复杂场景应用、智能声学感知和多传感融合。在复杂的家庭结构环境中,保证算法的可用性,让每个设备主动感知所处的不同环境,根据环境完成算法自适应,将数据结果取长补短,相互融合,实现多维度智能感知。

  两麦阵列唤醒:两麦盲源分离降噪前端,双级唤醒策略支撑

  小米小爱音箱Art同步支持两麦阵列唤醒技术。在麦克风阵列方面,小米采用两麦盲源分离降噪前端,通过盲源分离、降噪、回声消除等技术,在多声源的嘈杂环境、音箱自身播放音乐时,都能结合语音增强技术,消除噪音的强干扰,获得干净、准确的人声音频。

  

src=https://nimg.ws.126.net/?url=http%3A%2F%2Fcrawl.ws.126.net%2F598e389f01919097e3974500ce125088.jpg&thumbnail=660x2147483647&quality=80&type=jpg

  在唤醒方面,为了兼顾低功耗与高性能,自研语音唤醒算法采用双级唤醒策略。低功耗待机唤醒词检测模型,利用子采样与共享隐含层等技术,减少模型资源消耗的同时保证召回率在一个较高的水平。高性能误唤醒检测模型,采用粗粒度建模单元,结合局部信息与长时上下文信息,高效抑制误唤醒。通过从海量数据中自动挖掘高区分度训练样本,再经过数据扩充技术,提高唤醒模型在低信噪比与小音量场景下的鲁棒性。

  小米AI实验室语音产品负责人陈君宇表示,小米IoT平台连接的智能硬件数已达到2。5亿台,音箱出货量已经达到2200万台,在这么大的用户体量下,如何让基础体验持续提升,且提升产品在AI体验上的创新性,对自研AI团队来说是非常重要的使命。

  小米一直致力于研发先进的AI技术,并将技术落地到产品及业务,为用户带来更好的产品体验,让全球每一个人都能享受科技带来的美好生活。

相关阅读
热门新闻
蚂蚁庄园今日答案:在哪个星球上能看到太阳“西升东落”?

蚂蚁庄园今日答案:在哪个星球上能看到太阳“西升东落”?

  11月5日蚂蚁庄园今日答案更新。。在哪个星球上能看到太阳西升东落?这个问题答对即可获得一份180g小鸡宝宝饲料作为奖励。下面,让我们一起

2022-11-05 10:37
iphone14plus屏幕亮度怎么设置息屏显示开关在哪

iphone14plus屏幕亮度怎么设置息屏显示开关在哪

  iphone14plus搭载iOS16系统,我们可以开启常亮的息屏显示功能,这样就可以直接在手机屏幕上看到各种消息。那么iphone14plus息屏显示开关在

2022-11-04 12:39
中国空间站“T”字基本构型组装完成

中国空间站“T”字基本构型组装完成

  据中国载人航天工程办公室消息,北京时间2022年11月3日9时32分,空间站梦天实验舱顺利完成转位。转位期间,梦天实验舱先完成相关状态设置

2022-11-04 11:56
电信研究院余晓晖:通信业正在重复IT发展规律

电信研究院余晓晖:通信业正在重复IT发展规律

网易科技讯 10月22日消息,在2008中国国际通信展举行的ICT中国高层论坛上,信息产业部电信研究院 副总工程师余晓辉总结了国内电信业正在经历

2022-11-04 09:11
淘宝双十一拍照锦鲤怎么玩拍照锦鲤开奖时间玩法攻略

淘宝双十一拍照锦鲤怎么玩拍照锦鲤开奖时间玩法攻略

  11月3-11日,淘宝拍照推出的锦鲤活动,每天有9万人中奖,预计共有双十一将诞生100万拍照锦鲤哦,还不赶快参与起来。那么双十一拍照锦鲤玩

2022-11-03 17:21
微信电脑版3.8.0更新内容新增3项十分实用的功能

微信电脑版3.8.0更新内容新增3项十分实用的功能

  根据腾讯2022年第二季度财报,截止今年6月30日,微信及WeChat合并月活跃账户数12。991亿。截稿前应该已经破13亿了。  作为社交、工作、

2022-11-03 16:40