百科狗-知识改变命运!
--

求最强大脑小度大战孙亦廷声纹识别技术解析

桃子11个月前 (12-18)阅读数 4#综合百科
文章标签特征语音

本次最强大脑人机挑战的项目是听声识人,背后的技术背景是声纹识别技术。实际上声纹识别是一种行为识别技术,是通过测试、采集声音的波形和变化,与登记过的声音模板进行匹配。该项技术最早由40年代末的贝尔实验室开发,主要用于军事情报领域。随着技术发展,逐步在法医鉴定、法庭证据等领域得到广泛使用。

声纹识别的理论基础

每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有效的区分。

这种特征主要由两个因素决定,第一个是声腔的尺寸,具体包括咽喉、鼻腔和口腔等,这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。就像指纹一样,每个人的声音也就有独特的特征。第二个因素是发声器官被操纵的方式,发声器官之间相互作用就会产生清晰的语音。人在学习说话的过程中,通过模拟周围不同人的说话方式,就会逐渐形成自己的声纹特征。

求最强大脑小度大战孙亦廷声纹识别技术解析

理论上来说,声纹就像指纹一样,很少会有两个人具有相同的声纹特征。

小度声纹识别技术解析

最强大脑中,小度机器人拥有的声纹识别技术,实际上属于动态声音实时检测技术,同时还包括VAD、降噪、去混响等(VAD的目的是检测是不是人的声音,降噪和去混响是排除环境干扰)。

考虑到挑战场景是从合唱团中找到特点的人声,难点在于如何对语音信号中说话人相关的信息提取和表示,以及如何去区分类似人声的细微差异。一般而言对一段语音说话人相关特征的提取主要是按照如图所示的流程进行:

对于收集到的语音,首先会进行有效语音检测(VAD),将收集到的语音中非有效部分的语音进行切除,然后进行声学特征提取。由于语音信号是一种短时非平稳不定长的信号,因此一般提取特征都是采取加窗得到以帧为单位的特征。目前采用的声学特征普遍为经典的梅尔频率倒谱系数MFCC、感知现行预测系数PLP,以及目前火热的基于深度学习的特征deep feature。在得到声学特征之后,就是说话人信息的进一步提取。这里采用的建模方法主要采用ivector算法以及带残差处理的深度卷积神经网络算法。通过建模后,我们就能够对语音进行更深层次的特征表示,使得说话人相关的信息进一步被呈现。最后得到的模型,就能够将特征提取阶段得到的特征进一步转化为能够表征说话人特性的样本。

这样,我们就能够将特定说话人的语音彻底转换为能够表征该说话人特性的模型。(在实际的比赛过程中,21个合唱队员在进行唱歌时,我们通过分别将这21个队员的唱歌声音送入到该模型中,最后得到21个能够表征这些队员信息的模型)。

识别匹配阶段就相对容易理解了,在采集到测试语音之后,进行相应的特征提取操作,然后通过与模版库里面的所有模板样本进行相似距离计算,然后选择距离最近的一个作为最后的判决结果。(在实际比赛过程中,这就相当于三次测试,每次测试,我们将线人的暗号语音送入到模型中,提取特征,然后再分别与21个模型进行打分比较,得分最高者即是机器认为的最有可能的线人)。整个过程如下图所示:

本次声纹识别的难度

可能大家最感兴趣的是,最强人工智能的小度和我们的小选手小宝3题只对了1题。这里我简单说下影响大家发挥的因素,如下:

1、噪音问题

2、多人唱歌

3、声音记忆遗忘

4、特征迁移

排名第一的是噪音问题,包括现场噪音和音乐噪音,这个比上场人脸识别的影响更大(上期存在着光线的影响),音乐本身也会影响机器和选手的判断;第二是多人唱歌,众所周知,声纹的识别主要靠频谱特征,而多人会出现频谱混叠的现象,使得特征分离和识别难度较大;第三,主要是对人类选手的影响,一般的人记忆时间的序列会比空间的要难,尤其是在记忆三串声音序列后,容易出现混淆,这也是为什么doctorWei一再希望小宝多听几遍的原因;最后说下特征迁移,挑战中是通过记忆说话,到辨识唱歌。而往往人们说话和唱歌声纹是不同的,这就存在一个特征迁移的问题,对应到我们的两位选手需要一定的归纳推理能力。

以上4个因素使得最终结果不是那么完美,但是也正是这些不完美才会让我们在技术上不断进步,不断超越过去的自己。

为什么吃小度,个人更喜欢小度,因为小度普及性更广,操作系统更完善,用起来也更方便。

小度智能音箱拥有毫不妥协的硬件,同时搭载了百度对话式人工智能操作系统DuerOS的能力,拥有超过1000万小时的海量有声内容,400多项生活常用技能,为用户提供更简单、更好用、更聪明、“张口即得”的智能生活体验。

小爱音箱mini是小米公司研发的智能音箱,可以播放音乐、电台点播,还能提供相声、小说、脱口秀、教育学习、儿童有声读物等众多内容。只需通过与mini版的语音交互就可操控家里的所有物联网设备。

鹏仔微信 15129739599 鹏仔QQ344225443 鹏仔前端 pjxi.com 共享博客 sharedbk.com

免责声明:我们致力于保护作者版权,注重分享,当前被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱:344225443@qq.com)

图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)