声纹识别是一个经常与语音识别相混淆的术语,它无法识别语音本身的内容,但可以分析确定说话者是谁。语音识别则是对口语及其含义的识别和分析。区分这两个不同的术语是很有必要的,因为两者目的完全不同。
语音识别很好理解,可以解释为软件听见语音、处理语音以及进行转写的能力。2017年8月,微软宣布已组建一套人工智能语音识别系统,该系统可以听取人与人之间的对话并进行转写,而且错误率仅有5.1%,与专业的人类转写专家相当。本质上,该软件可以收听两个人之间的对话并追踪他们所说的一切。
语音识别通过添加声纹识别而得到了进一步发展。2017年,亚马逊的Alexa和Google's Home掌握了分辨人们声音的技能。从本质上讲,这些程序能够为每个人分配一个唯一的“声纹”。他们的缺点在于,仅有一个用户讲话时,他们才能分辨出用户的声音,并且难以在嘈杂的环境中识别声音。当前,人工智能能够利用一种称为“深度聚类”的技术,这种技术被定义为一种机器学习类型,它使得软件可以同时收听多个声音并有效地识别出不同的说话者。这种深层聚类的方法赋予了人工智能区分多重声音的能力,即使多人同时长时间说话也能如此。(www.daowen.com)
谷歌在2018年初展示了一个语音和声纹识别合体使用的实例。谷歌提到其人工智能软件能够使用视听语音分离模型来准确识别语音。该软件能通过监视人们说话时的面部特征来识别声音。先对软件进行单个语音和面部实例训练,软件随后就能将聚会场景中的其他声音隔离,从而可以有效地专注于某个人并只听那个人的讲话。
务必要认识到能够同时利用声纹和语音识别的人工智能的重要性。软件现在可以有效地收听多人语音(如人群中进行的对话),通过声音分离语声并转写。这样人工智能可以有效跟踪多人完整对话,即使机器关闭也可运行,并收集未被检测到的个人数据。在不久的将来,你的数据可能不是通过你自己的手机或设备收集的,而是由使用此类技术的朋友的设备收集的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。