不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行…

金磊 发自 凹非寺 量子位 | 公众号 QbitAI

这,或许是现在跟Siri交流 最潮的方式了——

只需要 动动嘴皮子,就能让它under你的control。

不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

没错,就是 不需要出任何声音的那种。

这就是来自康奈尔华人团队的最新研究成果 SpeeChin,无声语音识别。

像这样:

不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

但在SpeeChin的加持下,现在的Siri、Alexa等就已经可以识别,而且还支持普通话和英文!

是有种”此时无声胜似有声”的感觉了。

不说话,怎么控制语音助手?

康奈尔团队研发的SpeeChin,其实是一条神奇的 项链

不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

有了这条项链,你就可以打开无声语音控制的大门。

[En]

With this necklace, you can open the door to silent voice control.

例如对着电脑默念一句 “Next”,音乐就会自动切换成下一首歌:

不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

也许你会说一个词太简单了,别担心,现在让它变得更难:

[En]

Maybe you’ll say one word is too simple, don’t worry, make it harder now:

“Switch to Taylor Swift.”

不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

可见,SpeeChin即便是面对一句完整的话术,也可以做到精准识别。

而这条”无声识别”项链的关键,就在于安装在项链下方的 红外摄像机

它可以捕捉到角色颈部和面部皮肤的变形图像,从而分析和识别从“嘴巴”传达的命令。

[En]

It can capture the deformed images of the skin of the character’s neck and face, so as to analyze and identify the commands conveyed from the “mouth”.

而且这条项链不仅能无声识别英文,连 中文 (普通话)也能够hold住。

在最初的实验中,有20人参与到了测试中,其中10人讲英文,另外10人说普通话。

研究人员要求受试者发出数十种中英文指令,包括数字、互动指令、语音辅助指令、标点符号指令和导航指令。

[En]

The researchers asked subjects to issue dozens of instructions in English and Chinese, including numbers, interactive instructions, voice-assisted instructions, punctuation instructions and navigation instructions.

最后的实验结果,”无声识别”的准确率分别达到了 90.5%91.6%

不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

来自康奈尔大学的华人团队

这项研究来自康奈尔大学,一作是Ruidong Zhang。

不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

其中,Cheng Zhang是这项研究的通讯作者。

不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

他是康奈尔大学信息科学系的助理教授。他的研究重点是如何获取有关人体及其周围环境的信息,以应对各种应用程序中的现实世界挑战,如互动、健康感知和活动识别。

[En]

He is an assistant professor in the Department of Information Science at Cornell University. His research focuses on how to access information about the human body and its surroundings to address real-world challenges in a variety of applications, such as interaction, health perception and activity identification.

研究的一作Ruidong Zhang,他是Cheng Zhang教授的一名博士生,本科毕业于清华大学。

不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

他的研究兴趣在于人机交互和普适计算(ubiquitous computing),特别是建立新型的可穿戴设备,用来促进互动体验并加深我们对人类行为的理解。

至于为什么他们要做SpeeChin这项工作,据Ruidong Zhang解释:

主要是考虑到在某些特定场合中,人们可能不适合发出声音;还考虑到一些不能说话的人群。

最后,来揭晓一下开头GIF的答案:

不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行...

你猜对了吗?

参考链接:

[1]https://techxplore.com/news/2022-02-smart-necklace-silent-english-mandarin.html
[2]https://www.youtube.com/watch?v=pDf86dSPYYI
[3]https://infosci.cornell.edu/content/zhang-0
[4]https://infosci.cornell.edu/content/zhang-1

Original: https://blog.csdn.net/QbitAI/article/details/122974413
Author: QbitAl
Title: 不出声也能命令Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行…

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/498471/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球