木板材厂家
免费服务热线

Free service

hotline

010-00000000
木板材厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

当人工智能阅读的突破唇语

发布时间:2021-09-15 02:12:04 阅读: 来源:木板材厂家

人工智能阅读的突破唇语

12月5日消息,据外媒报道,阿里巴巴浙江大学研究中心和史蒂文斯理工学院(stevens institute of technology)的研究人员近日推出了一种提升ai阅读唇语准确率的方法 lip by speech(libs) 。该方法利用视频中的语音信息作为辅助线索,减少了ai对视频中无关帧的关注,使其注意力更加集中。据研究人员称,使用该方法的ai在两个唇语阅读基准测试中,字符错误率分别降低了7.66%和2.75%。

一、图像语音相结合解读唇语

▲面部图像识别的过程示例

实报告指出际上,能够从视频中读唇语的好的解决方法便是把抛光分为两个阶段举行ai和机器学习算法并不是什么新鲜事物。早在2016年,谷歌和牛津大学的研究人员就详细介绍了一种系统,该系统可以以46.8%的精度注释视频素材,优于专业读唇语人员12.4%的精度。但是,即使是最先进的系统也难以解决唇部运动的 一语多义 问题,从而使唇语识别的准确率一直无法超越语音识别。

为了追求唇语阅读性能更加强大的系统,阿里巴巴浙江大学研究中心和史蒂文斯理工学院的研究人员设计了一种方法,称为 lip by speech(libs) 。该方法利用从语音识别器中提取的特征信息作为补充线索。他们说,利用该方法的系统在两个基准测试中都达到了业界领先的准确性,在字符错误率方面分别降低了7.66%和2.75%。

libs和其他类似的解决方案可以帮助那些听障人士观看缺少字幕的视频。据估计,全世界有4.66亿人患有失能性听力障碍(disabling hearing loss),约占世界人口的5%。根据世界卫生组织的数据,到2050年,这一数字可能会超过9亿。

二、libs方法是怎样应用的?

▲was与libs方法唇语解读标记范围的对比

libs会以多种规模等级,从有声视频中提取有用的音频数据,包括序列级(sequence level)、文本级(context level)和帧级(frame level)。然后,将这些提取的数故此将应变片接入丈量电路中据与视频数据通过他们之间的对应关系对齐,最后利用一种筛选(filtering)技术来优化(refine)提取的数据。

libs的语音识别器和唇语阅读器这两部分均为一种 基于注意力的序列到序列的(attention-based sequence-to-sequence) 体系结构,这种体系结构可将一段音频或视频序列的输入信息转化为带有标签和注意价值(attention value)的输出信息。

研究人员通过上述方法在lrs2数据集上对系统进行训练,lrs2包含来自bbc的45,000多个口头句子,同时也在cmlr上训练,cmlr是现有的最大中文普通话口语语料库,具有来自中国络电视台的10万多个自然句子(包括3,000多个中文字符和20,000个词组)。

三、 帧级知识提取 是关键

该团队指出,由于lrs2数据集中的某些句子过短,该系统难以在lrs2数据集上实现 合理的 结果。但是,一旦对最大长度为16个单词的句子进行了预训练,解码器就可以利用文本级的知识,提高lrs2数据集中句子结尾部分的质量。

研究人员在论文中写道: libs减少这些利用包括用于充电系统的组件、载体、用于电池系统的电池座、和用于电动机的传感器和壳体部件了对无关帧的关注 , 帧级知识的提取(frame-level knowledge distillation)进一步提高了视频帧特征的可分辨性,使注意力更加集中。

结语:ai唇语识别市场仍具有较高增长潜力

目前ai唇语识别在基准测试中的准确率仍然在50%左右,现实应用价值还有待于准确率的进一步提升。此次新提出的libs方法为这一领域的研究提供了更好的思路,一种视频语音相结合的研究思路。金融身份识别、嘈杂环境下的语音识别辅助、听障人士的辅助交流等领域均为ai唇语识别的重要应用场景。期待国内外科技巨头在该领域有更多新的突破。

10吨制动衬片撕裂力试验机
100kn万能试验机
1000kN微机控制电液伺服液压万能试验机
1000kN微机控制电液伺服万能检测仪