厉害了！看嘴型竟然就能识别发音

2023年5月25日下午5:48 • 人工智能 • 阅读 68

你可以通过嘴唇的形状来判断人们在说什么，这就是嘴唇识别。

[En]

You can tell what people are saying by the shape of the mouth, which is lip recognition.

唇语识别并非最近才出现的技术，早在2003年，Intel就开发了唇语识别软件AVSR。2016 年，Google DeepMind的唇语识别技术就已经可以支持17500个词，新闻测试集识别准确率达到了50%以上。

唇语识别就是让AI”光看嘴型就知道你在说什么”

嘴唇识别技术的原理是利用机器视觉技术从图像中识别人脸，判断说话的人，并提取此人口型的连续变化特征。

[En]

The principle of lip recognition technology is to use machine vision technology to recognize the face from the image, judge the person who is speaking, and extract the continuous mouth shape change features of this person.

然后，将不断变化的口型特征输入到嘴唇识别模型中，识别出对应的发音。最后，根据识别的发音计算最可能的自然语言句子。

[En]

Then, the continuously changing mouth shape features are input into the lip recognition model to identify the corresponding pronunciation. Finally, the most likely natural language sentence is calculated according to the identified pronunciation.

去年，国内知名AI企业搜狗与清华天工研究院合作，在语音和唇语的多模态识别方面取得了重大成果，相关论文《基于模态注意力的端到端音视觉语音识别》已经发表在去年的学术会议ICASSP上。

文章指出，单纯依靠语音的识别方法存在一个缺陷，即在噪声环境中不能保持较高的识别精度。

[En]

The paper mentions that the recognition method which relies solely on speech has a defect, that is, it can not maintain a high recognition accuracy in a noisy environment.

视觉识别方法不受周围声音的影响，当人们听不清对方说话时，人们自然会盯着说话人的嘴巴，听力障碍者通过嘴唇进行交流。

[En]

The visual recognition method is not affected by the ambient sound, when people can not hear each other clearly, people will naturally stare at the mouth of the speaker, and people with hearing impairment communicate through lips.

搜狗研究人员想到，如果让AI也能把这两种方法结合起来，即所谓的”多模态”识别，就能提高语音识别的准确率。

在非特定人开放口语测试集上，搜狗唇语识别系统已经达到60%以上的准确率，超过Google发布的英文唇语系统50%以上的准确率。在垂直场景如车载、智能家居等场景下，搜狗唇语识别系统甚至已经达到90%的准确率。

搜狗在第四届世界互联网大会上推出的嘴唇识别系统

[En]

Lip recognition system presented by Sogou at the 4th World Internet Congress

作为人机交互的一种形式，未来的唇语识别技术可以辅助语音交互和图像识别，可以广泛应用于日常生活、安防、公益等领域。

[En]

As one of the forms of human-computer interaction, lip recognition technology in the future can assist voice interaction and image recognition, and can be widely used in daily life, security, public welfare and other fields.

搜狗相关负责人在2017年互联网大会上明确提出，希望唇语识别技术能够帮助听障人士”翻译”正常人语言，通过唇读技术把语音转换成文字，帮助他们更好地了解世界。

在车辆场景中，当环境噪声过大时，会干扰语音指令，唇语识别技术可以避免干扰，保证人车交互的准确性和稳定性。

[En]

In the vehicle scene, when the ambient noise is too large, it will interfere with the voice instructions, and the lip recognition technology can avoid the interference and ensure the accuracy and stability of human-vehicle interaction.

在安防领域，由于大多数监控只有摄像头而没有麦克风，这给案件分析带来了很多问题，唇形识别技术可以帮助公安人员获取重要的语音信息，为公共安全提供有效支撑。

[En]

In the field of security, because most surveillance only have cameras but no microphones, which brings a lot of problems to case analysis, lip recognition technology can help public security personnel to obtain important speech information and provide effective support for public safety.

可以预期，随着嘴唇识别技术的加入，公安人员可以通过该平台锁定视频中犯罪嫌疑人的语言记录，这将大大有助于犯罪侦查的发展。

[En]

It can be expected that with the addition of lip recognition technology, public security personnel can lock the language records of criminal suspects in the video through the platform, which will greatly contribute to the development of crime investigation.

在道路、会议室、火车站等嘈杂场景中，唇语识别有助于避免音频噪声对用户获取语音内容的影响，确保视频或语音交流顺畅。

[En]

In noisy scenes such as roads, conference rooms and railway stations, lip recognition can help avoid the impact of audio noise on users’ access to speech content and ensure smooth video or voice communication.

虽然嘴唇识别已经得到了广泛的应用，但它的发展仍然很困难。

[En]

Although lip recognition is widely used, it is still difficult to develop.

由于嘴唇识别是一种基于机器视觉和自然语言处理的技术，所以它比语音识别困难得多。

[En]

Because lip recognition is a technology based on machine vision and natural language processing, it is much more difficult than speech recognition.

一般来说，唇语识别系统使用复杂的端到端深度神经网络技术来对语言唇语序列进行建模，并使用数千小时的真实唇语数据对其进行训练。

[En]

In general, lip recognition systems use complex end-to-end depth neural network technology to model language lip sequences and train them with thousands of hours of real lip data.

数据堂深耕于AI数据领域近十年，一直致力于为全球人工智能企业提供专业的数据服务，行业内高标准的《156小时唇形同步多模态视频数据》和《1,998人唇语视频数据》广受重视和好评，能够助力唇语识别技术落地更多应用场景。

156小时唇形同步多模态视频数据

这是一套由250人参与录制语音以及相匹配的唇语视频。工作人员使用多设备同步录制，录制内容包括普通话的短指令和口语句子，通过脉冲信号进行精准对齐，句准确率不低于95%。数据可用于唇语识别、语音图像领域的多模态学习算法研究。

1,998人唇语视频数据

数据由1998人参与录制，数据集中包含41,866段视频，总时长为86小时56分钟1.52秒。数据多样性涵盖多种场景、多个年龄段、多个时间段。

在每段视频中，收集者阅读8位阿拉伯数字。标签器标注视频的拍摄时间和阅读内容，准确率不低于95%。该数据可用于嘴唇识别任务场景。

[En]

In each video, the collector reads 8 digits of Arabic numerals. The tagger marks the shooting time and reading content of the video with an accuracy of no less than 95%. This data can be used for lip recognition task scenarios.

业内人士预计，鉴于嘴唇识别技术在公共安全、身份识别、残疾人教育、军事等领域的竞争力，它可能会打开万亿级大数据市场。

[En]

Industry insiders predict that lip recognition technology may open up the trillion-level big data market in view of its competitiveness in public safety, identification, disability education, military and other fields.

但鉴于语言环境的复杂性，唇语识别要投入实战还需要一段时间，大数据、视觉分析、人工智能技术等领域的融合研究还有待进一步加强。

[En]

However, in view of the complexity of the language environment, it will take some time for lip recognition to be put into actual combat, and the fusion research in the fields of big data, visual analysis and artificial intelligence technology needs to be further strengthened.

Original: https://blog.csdn.net/weixin_44532659/article/details/119674318
Author: 数据堂官方账号
Title: 厉害了！看嘴型竟然就能识别发音

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515316/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python使用pd.to_numeric()方法将数据转为数字类型int或float

pandas.to_numeric(arg, errors=’raise’, downcast=None) [source] 将参数转换为数字类型。默认返…

人工智能 2023年6月19日
0089
【PyTorch深度学习项目实战100例】—— 基于LeNet5实现交通标志分类任务 | 第50例

; 前言大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集…

人工智能 2023年7月23日
0073
K-means聚类的实现以及案例讲解

目录 1 k-means聚类步骤 2. 案例联系 3. K-means的api初步使用 3.1 api 介绍 4. 案列 4.1 流程分析 4.2 代码实现 4.3 完整代码 …

人工智能 2023年5月31日
00104
数据分析入门（kaggle实战—泰坦尼克）

载入数据任务一：导入numpy和pandas import numpy as np import pandas as pd 任务二：载入数据 (1) 使用相对路径载入数据(2) …

人工智能 2023年7月18日
0061
CLIP模型的使用和训练-利用CLIP实现zero-shot的分类任务

CLIP模型文章目录 CLIP模型 * @[toc] 1 论文介绍 – 1.1 训练阶段 1.2 测试阶段 1.3 优缺点 1.4 官方给定的实验结果 2 利用CLI…

人工智能 2023年7月3日
00122
EMNLP2020 | 近期必读Multilingual精选论文

**AMiner平台**由清华大学计算机系研发，拥有我国完全自主知识产权。平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱，提供学者评价、专家发现、智能指派、学术地图…

人工智能 2023年6月1日
0072
修改conda环境名称

进行conda操作时，可能要创建新的环境，但名称与现有环境有冲突，安装的包有一定差别，或是前期环境命名比较随便。此时要对现有环境进行重命名，有两种方法可以采用。 1.创建新的环境并…

人工智能 2023年7月6日
0074
全网最详细，手把手教你树莓派安装opencv模块

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月18日
0060
机器学习——图像分类

1 图像分类的概念 1.1 什么是图像分类？图像分类，根据图像信息中所反映出来的不同特征，把不同类别的目标区分开来的图像处理方法 1.2 图像分类的难度 ●任何拍摄情况的改变都…

人工智能 2023年6月12日
00108
基于深度模型Out of Distribution(OOD)基础技术路线研究

在工业检测领域，将训练好的模型部署到实际场景时，常会碰到一个问题：如果输入的图片是一个新的类别，模型之前根本没见过，那么，无论模型的预测结果是什么，都必会是错误的。这种情况下，有两…

人工智能 2023年6月15日
0078
数据分析——pandas玩转数据分析

pandas第一讲——利用pandas创建excel文件 import pandas as pd 导入pandas包 df=pd.DataFrame() 定义一个变量变量类型是d…

人工智能 2023年7月6日
0075
[深度学习]C++调用Python-YOLO模型进行目标检测

文章目录：前言 C++调用Python的步骤修改YOLOv5源码 C++读取Python返回值前言目前深度学习算法大多数是基于Python实现，但一些项目的框架是…

人工智能 2023年7月19日
0087
echarts做企业关系图谱_知识图谱火了，但有嘛用？非它不可？

[说点废话] 今年以来知识图谱逐渐烧起来。这种现象这些年见怪不怪。比如，之前的”BI”、”H5″、更不要说”大数据&#8…

人工智能 2023年6月1日
0084
SimplE：SimplE Embedding for Link Prediction in Knowledge Graphs+代码

文章目录 1 介绍 * 1.1 知识图谱 1.2 知识图谱补全方法 1.3知识图谱补全（Knowledge Graph Completion，KGC） 1.4 关系分类 2 模型 …

人工智能 2023年6月1日
0076
基于移动边缘计算机对智慧商超的解决方案

随着国家城市化进程的加快，中小型超市/便利店成为了城市住宅小区、商业园区的基础配套设施，全国目前数量在500万家以上。超市人流量较大、人员复杂，管理起来较为困难，易发生盗窃、抢劫、…

人工智能 2023年6月4日
0058
【SPSS】重复测量设计方差分析-单因素

首先，重复测量设计方差分析需满足三个条件：正态、方差齐、满足球形度。单因素重复测量单因素重复没有组间干预措施的影响，只有主体内（时间）的影响。 1.数据介绍 8份血样，分别检测…

人工智能 2023年7月15日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

厉害了！看嘴型竟然就能识别发音

大家都在看