您现在的位置是:主页 > 行业新闻 >
AI 看唇语,在嘈杂场景的语音识别准确率高达75%
人们通过聆听和观察说话者的嘴唇动作来感知言语。那么,AI 也可以吗?
事实上,研究表明视觉线索在语言学习中起着关键的作用。相比之下,人工智能语言识别系统主要是建立在音频上。而且需要大量数据来训练,通常需要数万小时的记录。
为了研究视觉效果,尤其是嘴部动作的镜头,是否可以提高语音识别系统的性能。Meta 的研究人员开发了 Audio-Visual Hidden Unit BERT (AV-HuBERT),这是一个通过观看学习和听人们说话来理解语言的框架。Meta 声称 AV-HuBERT 比使用相同数量转录量的最佳视听语音识别系统准确率高 75%。此外,该公司表示,AV-HuBERT 使用十分之一的标记数据优于以前最好的视听语言识别系统,这使得它可能对音视频数据很少的语言具有潜在的用途。Meta AI 研究科学家 Abdelrahman Mohamed 表示:“在未来,像 AV-HuBERT 这样的 AI 框架可用于提高语音识别技术在嘈杂的日常条件下的性能,例如,在聚会上或在熙熙攘攘的街头中进行的互动。智能手机中的助手、增强现实眼镜和配备摄像头的智能扬声器,例如 Alexa Echo Show 也可以在这项技术中受益。”目前,Meta 已将相关代码开源到 GitHub。AV-HuBERT
Meta 并不是第一个将人工智能应用于读唇语问题的公司。2016年,牛津大学的研究人员创建了一个系统,该系统在某些测试中的准确率几乎是经验丰富的唇读者的两倍,并且可以实时地处理视频。2017年,Alphabet 旗下的 DeepMind 在数千小时的电视节目中训练了一个系统,在测试集上可以正确翻译约 50%的单词而没有错误,远高于人类专家的 12.4%。但是牛津大学和 DeepMind 的模型,与许多后续的唇读模型一样,在它们可以识别的词汇范围内受到限制。这些模型还需要与转录本配对的数据集才能进行训练,而且它们无法处理视频中任何扬声器的音频。有点独特的是, AV-HuBERT 利用了无监督或自我监督的学习。通过监督学习,像 DeepMind 这样的算法在标记的示例数据上进行训练,直到它们可以检测到示例和特定输出之间的潜在关系。例如,系统可能会被训练在显示柯基的图片时写出单词「dog」。然而,AV-HuBERT 自学对未标记的数据进行分类,处理数据以从其固有结构中学习。AV-HuBERT 也是多模态的,因为它通过一系列的音频和唇部动作提示来学习感知语言。通过结合说话过程中嘴唇和牙齿的运动等线索以及听觉信息,AV-HuBERT 可以捕捉这两种数据类型之间的细微关联。最初的 AV-HuBERT 模型在 30 小时的 TED Talk 视频上进行了训练,大大少于之前最先进模型的 31,000 小时的训练时间。但是,尽管在较少的数据上进行了训练,AV-HuBERT 的单词错误率 (WER)(衡量语音识别性能的指标)在可以看到但听不到说话者的情况下略好于旧模型的 33.6%,前者为 32.5%。(WER 的计算方法是将错误识别的单词数除以总单词数;32.5% 转化为大约每 30 个单词出现一个错误。)在 433 小时的 TED 演讲训练进一步将 AV-HuBERT 的 WER 降低到 28.6%。一旦 AV-HuBERT 很好地了解了数据之间的结构和相关性,研究人员就能够在未标记的数据上进一步训练它。上传到 YouTube 的 2,442 小时名人英语视频,这不仅使 WER 下降到 26.9%,而且 Meta 表示,它表明只需要少量标记数据来训练特定应用程序(例如,当多人同时说话时)或不同语言的框架。事实上,Meta 声称当背景中播放响亮的音乐或噪音时,AV-HuBERT 在识别一个人的语音方面比纯音频模型好约 50%,当语音和背景噪音同样响亮时,AV-HuBERT 的 WER 为 3.2%,而之前的最佳多模式模型为 25.5%。
潜在的缺点
在许多方面来看,AV-HuBERT 象征着 Meta 在用于复杂任务的无监督、多模式技术方面不断增长的投资。Meta 表示 AV-HuBERT 可以为开发“低资源”语言的对话模型开辟可能性。该公司建议,AV-HuBERT 还可用于为有语言障碍的人创建语音识别系统,以及检测深度伪造和为虚拟现实化身生成逼真的嘴唇运动。在各方面数据上,新方法的变现着实很精彩,但也有学者有一些担忧。其中,华盛顿大学的人工智能伦理学专家Os Keye就提到,对于因患有唐氏综合征、中风等疾病而导致面部瘫痪的人群,依赖读唇的语音识别还有意义吗?在微软和卡内基梅隆大学的一篇论文中,提出了人工智能公平性研究路线图,指出类似于 AV-HuBERT 的面部分析系统的某些方面可能不适用于患有唐氏综合症、软骨发育不全(损害骨骼生长)和“导致特征性面部差异的其他条件”等。Mohamed 强调 AV-HuBERT 只关注唇部区域来捕捉唇部运动,而不是整个面部。他补充说,与大多数 AI 模型类似,AV-HuBERT 的性能将“与训练数据中不同人群的代表性样本数量成正比”。“为了评估我们的方法,我们使用了公开可用的 LRS3 数据集,该数据集由牛津大学研究人员于 2018 年公开提供的 TED Talk 视频组成。由于该数据集不代表残疾说话者,因此我们没有预期性能下降的特定百分比,”Mohamed 说。Meta 表示,它将“继续在背景噪声和说话者重叠很常见的日常场景中进行基准测试和开发改进视听语音识别模型的方法。”
THE END
来源 | AI科技大本营
上一篇:一套弱电智能化施工组织设计
随机图文
-
三种方法告诉你项目超过255个摄像机怎么设置IP?
我们做弱电的,与ip地址接触最多,无论是弱电的哪方面,都需要跟ip地址打交道,通常我们也会经常听到公网、内网?那什么是公网ip地址呢?什么是私网ip地址呢?为什么我们常见到的ip地址以192.168开头呢? 还有就是一个网段只能容纳254个摄像机,但是我现在项目比较大,都有300多个摄像机了,该咋分配IP地址呢? 我们今天统统来了解一下。 首先关于内、外网 -
海康+大华联手:电瓶车禁入电梯如何检测报警?
不少朋友多次问到关于电瓶车禁入电梯如何解决?随着现在小区的改造,禁止电动车入电梯已经在很多小区实行了,无论是新小区,还是老小区,都在加装电瓶车入电梯报警。越来越多的弱电项目经理接触到相关的项目, 本期我们来总结下海康与大华针对电瓶车禁入电梯智能检测方案。 一、海康电瓶车禁入电梯方案 一、为什么要禁入电瓶车上楼 电瓶车 -
弱电工程施工配管常见质量问题及解决方法
弱电工程中配管是非常重要的工作,也是对于施工队伍要求比较高的,尤其明配管,通常需要很高的施工工艺,那么在配管中,我们碰到一些质量问题,如何解决呢? 通病1:非镀锌钢管管内壁不刷防锈漆。 危害:管内壁易锈蚀。 解决方法:可用浇注法补刷防锈漆。 通病2:非镀锌钢管管外壁一律刷防锈漆。 -
干货:如何在不同的地方显示同样的视频画面
如何在不同的地方显示同样的视频画面? 01 正文 可能不少朋友都遇到过这样多屏幕同时显示的需求,比如饭店的包厢、小区或公寓等场景,需要在不同的区域安装显示器输出相同的监控画面。 根据需求的不同,本期我们一起来了解这方面的解决方案。 一、三块屏及以下场景 方案一:利用NVR同源输出 适用于2个显
站点信息
- 文章统计: 1437 篇文章
- 微信公众号:扫描二维码,关注我们