IBM语音识别:仿生蝙蝠耳能用声纳精准“聆听”
2022-09-27 20:41:26 来源:
蝙蝠使用生物声呐,为夜晚在丛林中飞行导航。他们的超声波脉冲,可以比人造声呐装置更精确地对声音进行定位。为复制、驾驭这种能力,IBM学院奖获得者Rolf Müller教授协同他在弗吉尼亚理工学院(Virginia Tech)的团队,设计了一种人造蝙蝠耳。
Rolf Müller的研究引起了IBM的注意。IBM专家韩金萍(音译)的神经计算团队,和IBM Watson语音专家崔晓东(音译)和他的同事, 看到了Müller教授人造“动态外耳”(dynamic peripheral,蝙蝠可转动的外耳使它们的生物声呐更加准确)的潜力 ,并希望借此提高人类语音理解的能力。他们把Müller的博士生Anupam Gupta纳入团队,一同他们探索人造蝙蝠仿生耳在语音处理的应用。
他们发现,这些仿生耳不仅是很有效的声呐装置,对语音识别同样能起到作用。
模仿菊头蝠的人造耳
研究团队根据蝙蝠改变耳朵形状的能力,仿制了一个动态接收系统。它能提高自动语音识别系统(ASR)的精确度,还能更准确地对谈话者定位。韩金萍将在他们的论文《受菊头蝠启发的接收动力学把动态特点加入语音信号》,及本周美国声学协会第172届会议上展示了这一发现。
这些动态系统有潜力发展成让使用者“像蝙蝠那样聆听”的语音接收设备。这会改进现有的助听器和指向性传声器。并可应用于任何需要对声音来源进行定位、理解的场景。
设想你身处一个忙碌、吵闹的集市。听清楚你旁边的人在说什么都可能是一项挑战。有了这项技术,同伴的声音就能被一个可变形的助听器识别,然后翻译成你能听懂的话。它还可以过滤掉闹市的杂音,和其他人嗡嗡的说话声。
仿生蝙蝠耳的生物声呐算法
蝙蝠的超声波具有10 – 200 kHz的频率,而人耳只能识别20 Hz – 20 kHz的声音。因此对我们来说它声调太高,大多数是听不到的。为了驾驭蝙蝠的生物声呐频率和精度,Gupta加入韩金萍团队编写能够把语音讯号转化为超声波脉冲的代码——然后再把超声波转化为我们能够听到的正常语言。
这首先需要建立一个数据库。为了尽可能地简化,韩金萍团队使用了卡内基梅隆大学开源数据库中,11个美式英语朗读者的英语字母和数字的发音。
举例子,以字母“A” 或者数字“1”形式出现的数据,被麦克风接收,然后转化为超声波信号。超声波扬声器播放该信号。随后,具有“动态外耳”的人造蝙蝠耳接收信号。最后,软件把超声波信号转化为原始数据——字母“A” 或者数字“1”。
现实(闹市)中的人造耳朵
虽然只包含字母和数字的声音信号数据库有较大限制,但通过分析它,韩金萍团队表示人造耳用“动态、方向性的的时间频率模型”丰富了语音信号。下一步,研究人员把人造耳处理后的声音与原始语音进行对比,来衡量人造耳的精度。因此,他们把原始语音数据和经人造耳处理的声音数据,放入分类器( classifier )中进行识别。67% 的语音信号能被成功识别出来。而在没有动态外耳的对照组中,只有35% 的声音数据被识别。
有了更多的可用分析数据后,研究员们将着手用行业基准来对该系统进行测试,并开发仿生学习算法。再或者,将来他们可能会开发一个“聆听” app,把智能手机麦克风变成接入物联网的指向性麦克风,来帮助使用者选择现实中他想要听到的声音。IBM研究人员认为,实现它并不是太遥远。
AI新时代-产业新动能,【点击报名】参加2016中国人工智能产业大会,抢占通往未来的年票!(如无法点击请打开网址4BYwdQ)
IBM语音识别:仿生蝙蝠耳能用声纳精准“聆听”
蝙蝠使用生物声呐,为夜晚在丛林中飞行导航。他们的超声波脉冲,可以比人造声呐装置更精确地对声音进行定位。为复制、驾驭这种能力,IB
2022-09-27 20:41
美国研发软体章鱼机器人未来会用在哪里?
(原标题:章鱼机器人:开启软体机器人新时代) 本报记者 刘霞 美国科学家携手研制出了一款外表酷似章鱼的章鱼机器人(Octobot
2022-09-27 19:42
外媒评选2016十佳3D打印项目身体器官也能再生?
3D打印技术可以说已经变得越来越成熟,越来越多的行业开始使用3D打印技术,那么在即将过去的2016年里,又有哪些通过3D打印技术打造出来的
2022-09-27 19:13
:大白鲨如何吃飞鸟(2006-12-0409:44:23)
大白鲨是鲨鱼家族中最凶猛的成员之一,很少有猎物能在它的厉齿下逃生,为了捕食,它一生中通常要更换上万颗牙齿。由于大白鲨难以接
2022-09-27 14:28
手握西甲独家版权,爱奇艺体育踏上“出圈”之路
(原标题:爱奇艺体育:出圈进行时) 图片来源:视觉中国 记者 陈丁睿 编辑 石一瑛 2019年8月中旬过后,2019-20赛季西
2022-09-27 06:32