用树莓派做一个语音机器人

2023年5月25日上午8:07 • 人工智能 • 阅读 82

早就想写一篇语音机器人的文章，凑巧这两天受委托做个树莓派语音机器人，又复习一下流程熟悉了过程才准备写一篇文章，这是基于图灵机器人和百度api的语音助手。

硬件准备

首先，我们需要为覆盆子馅饼安装麦克风和扬声器。当然，我们可以不使用扬声器直接使用耳机，然后对其进行调试。

[En]

First of all, we need to install microphones and speakers for the raspberry pie. Of course, we can use headphones directly without speakers, and then debug them.

输入：

lsusb

或者

arecord -l

识别成功之后进行录音

arecord -D "plughw:1,0" -f dat -c 1 -r 16000 -d 5 test.wav

如果发现录音杂音很大的话可以尝试使用alsamixer进行调音

包的准备

我们通常需要下载的包如下

[En]

The packages we usually need to download are as follows

pip3 install baidu-aip
pip3 install requests

准备机器人

请注意，在我们都开始之前，我们必须加入。

[En]

Note that we must join before we all begin.

录音

录制通常非常简单，只需使用以下代码即可

[En]

Recording is usually very simple, just use the following code

import os
os.system('sudo arecord -D "plughw:1,0" -f S16_LE -r 16000 -d 4 ' + path)

但是我可以在第一次使用的时候使用它，但之后它就会出现。

[En]

But I can use it for the first time when I use it, but then it will appear.

arecord main：828的错误
这个错误我找了许多方法都没有解决于是我就换了个录音方法，比较麻烦，看个人需求，这里需要下载一个pyaudio包

pip3 install pyaudio

sudo apt-get install portaudio19-dev
pip3 install pyaudio

def SoundRecording(path):
    import pyaudio
    import wave
    import os
    import sys
    CHUNK = 512
    FORMAT = pyaudio.paInt16
    CHANNELS = 1
    RATE = 16000
    RECORD_SECONDS = 5
    WAVE_OUTPUT_FILENAME = path
    p = pyaudio.PyAudio()
    stream = p.open(format=FORMAT,
                    channels=CHANNELS,
                    rate=RATE,
                    input=True,
                    frames_per_buffer=CHUNK)
    print("recording...")
    frames = []
    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
        data = stream.read(CHUNK)
        frames.append(data)
    print("done")
    stream.stop_stream()
    stream.close()
    p.terminate()
    wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))
    wf.close()

语音转文字

这个就比较简单了，我们直接调用百度api就可以，我们先去百度AI的控制台申请个应用找到ID,AK,SK,然后获取access_token

APP_ID = '22894511'
API_KEY = 'En7e3iR8dHO1F7Hx3Fy7M0vd'
SECRET_KEY = 'c1591BrrbodXP5zQuBcQSNim8xcL6ZiE'
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

host = f'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=6KLdtAifYT46PtyzULAGpIzu&client_secret=tCEEz7LC4XfD2RA4ojgdOUvBBd7i3T4Y'
access_token = requests.get(host).json()["access_token"]
def SpeechRecognition(path):
        with open(path, 'rb') as fp:
            voices = fp.read()
        try:

            result = client.asr(voices, 'wav', 16000, {'dev_pid': 1537, })

            result_text = result["result"][0]
            print("you said: " + result_text)
            return result_text
        except KeyError:
            print("KeyError")

图灵机器人回复

这里我们只需要将转成的文本内容发送给图灵机器人就可以了，这时我们也需要申请一个图灵机器人账号才可以，又图灵的AK


turing_api_key = "自己的AK"
api_url = "http://openapi.tuling123.com/openapi/api/v2"
headers = {'Content-Type': 'application/json;charset=UTF-8'}

def TuLing(text_words=""):
    req = {
        "reqType": 0,
        "perception": {
            "inputText": {
                "text": text_words
            },
            "selfInfo": {
                "location": {
                    "city": "天津",
                    "province": "天津",
                    "street": "天津科技大学"
                }
            }
        },
        "userInfo": {
            "apiKey": turing_api_key,
            "userId": "Leosaf"
        }
    }

    req["perception"]["inputText"]["text"] = text_words
    response = requests.request("post", api_url, json=req, headers=headers)
    response_dict = json.loads(response.text)

    result = response_dict["results"][0]["values"]["text"]
    print("AI Robot said: " + result)

    return result

文字转语音

返回值是文本，我们肯定会希望将其转换为语音，所以它会很有趣。

[En]

The returned value is text, and we will certainly want it to be converted into voice, so it will be fun.

host = f'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=6KLdtAifYT46PtyzULAGpIzu&client_secret=tCEEz7LC4XfD2RA4ojgdOUvBBd7i3T4Y'
access_token = requests.get(host).json()["access_token"]
def SpeechSynthesis(text_words=""):
    result = client.synthesis(text_words, 'zh', 1, {'per': 4, 'vol': 10, 'pit': 9, 'spd': 5})
    if not isinstance(result, dict):
        with open('app.mp3', 'wb') as f:
            f.write(result)
    os.system('mpg321 app.mp3')

完整代码

这里的代码我是用的pyaudio，不需要可以自行修改


import json
import os
import requests
from aip import AipSpeech

BaiDu_APP_ID = "22894511"
API_KEY = "En7e3iR8dHO1F7Hx3Fy7M0vd"
SECRET_KEY = "c1591BrrbodXP5zQuBcQSNim8xcL6ZiE"
client = AipSpeech(BaiDu_APP_ID, API_KEY, SECRET_KEY)

turing_api_key = '67d5386150e248fea4af3db80f4ca1ae'
api_url = 'http://openapi.tuling123.com/openapi/api/v2'
headers = {'Content-Type': 'application/json;charset=UTF-8'}

host = f'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=6KLdtAifYT46PtyzULAGpIzu&client_secret=tCEEz7LC4XfD2RA4ojgdOUvBBd7i3T4Y'
access_token = requests.get(host).json()["access_token"]
running = True
resultText, path = "", "output.wav"

def SoundRecording(path):
    import pyaudio
    import wave
    import os
    import sys
    CHUNK = 512
    FORMAT = pyaudio.paInt16
    CHANNELS = 1
    RATE = 16000
    RECORD_SECONDS = 5
    WAVE_OUTPUT_FILENAME = path
    p = pyaudio.PyAudio()
    stream = p.open(format=FORMAT,
                    channels=CHANNELS,
                    rate=RATE,
                    input=True,
                    frames_per_buffer=CHUNK)
    print("recording...")
    frames = []
    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
        data = stream.read(CHUNK)
        frames.append(data)
    print("done")
    stream.stop_stream()
    stream.close()
    p.terminate()
    wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))
    wf.close()

def SpeechRecognition(path):
        with open(path, 'rb') as fp:
            voices = fp.read()
        try:

            result = client.asr(voices, 'wav', 16000, {'dev_pid': 1537, })

            result_text = result["result"][0]
            print("you said: " + result_text)
            return result_text
        except KeyError:
            print("KeyError")

def TuLing(text_words=""):
    req = {
        "reqType": 0,
        "perception": {
            "inputText": {
                "text": text_words
            },
            "selfInfo": {
                "location": {
                    "city": "天津",
                    "province": "天津",
                    "street": "天津科技大学"
                }
            }
        },
        "userInfo": {
            "apiKey": turing_api_key,
            "userId": "Leosaf"
        }
    }

    req["perception"]["inputText"]["text"] = text_words
    response = requests.request("post", api_url, json=req, headers=headers)
    response_dict = json.loads(response.text)

    result = response_dict["results"][0]["values"]["text"]
    print("AI Robot said: " + result)

    return result

def SpeechSynthesis(text_words=""):
    result = client.synthesis(text_words, 'zh', 1, {'per': 4, 'vol': 10, 'pit': 9, 'spd': 5})
    if not isinstance(result, dict):
        with open('app.mp3', 'wb') as f:
            f.write(result)
    os.system('mpg321 app.mp3')

if __name__ == '__main__':
    while running:
        SoundRecording(path)
        resultText = SpeechRecognition(path)
        response = TuLing(resultText)
        if '退出' in response or '再见' in response or '拜拜' in response:
            running = False
        SpeechSynthesis(response)

Original: https://blog.csdn.net/qq_51718832/article/details/116229618
Author: Leosaf
Title: 用树莓派做一个语音机器人

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/513034/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

GeoPandas安装保姆级教程

目录一、简介二、geopandas库安装 2.1 相关依赖包下载 2.2 依赖包安装 2.3 geoplot库安装 2.4 geopandas库测试一、简介 geopanda…

人工智能 2023年7月4日
00136
首次开源一行代码中英文语音识别、合成、翻译核心功能

导读要说生活里最常见的 AI 应用场景，语音合成与识别当属大家最为耳熟能详的场景之一了。平凡到平常的播报地图导航，微信语音转文字、手机语音输入，以及智能小音箱，都离不开语音技术…

人工智能 2023年5月23日
0081
关联规则 FP-Growth小结

关联规则主要是为了解决经典的{啤酒}+{尿布}的组合问题，主要用于推荐商品组合以及为备货采购等提供依据支持度(A->B): A和B同时出现在整个数据集中的次数/数据集的总数，…

人工智能 2023年7月17日
0046
深入浅出 — 数据分析

目录 1、为什么要数据分析？ 2、什么场景下用数据分析？ 3、数据分析的方法 1、为什么要数据分析？数据分析能够相对完整地揭示用户行为的内在规律。基于此帮助企业实现多维交叉分析，…

人工智能 2023年7月18日
0061
Python + OpenCV一步一步地实现图像拼接（原理与代码）

图像拼接可以理解为三大步：按顺序读取多幅图像，并保证图像按照从左到右的顺序。发现这些图像像素之间的相关性（涉及到单应性）。将这些图像拼接成为一张全景图像。首先，需要了解如…

人工智能 2023年7月5日
0077
python字符串格式化

一般只要记住%s和%d就好了，这两个占位符的使用频率最高符号描述%C 格式化字符及其ASCII码%s 格式化字符串%d 格式化整数%u 格式化无符号整型%o 格式化无符号八进制数…

人工智能 2023年7月4日
0083
【Python量化】VaR在险价值的计算

此文章首发于微信公众号：Python for Finance 链接：https://mp.weixin.qq.com/s/uaDEnSzoalTaRmZ9GNvR0A 假设有一投资…

人工智能 2023年7月27日
0059
一个优质软件测试工程师简历的范文（答应我一定要收藏起来）

很多刚转行软件测试的小伙伴是不是不知道怎么写好一份优质的软件测试工程师的简历。今天呢，就给大家分享一下一个优质软件测试工程师简历的范文。记得收藏起来哦。下面的案例：2-3年的软件…

人工智能 2023年5月31日
0080
仿射密码-fanfie–affine

⭐仿射密码仿射密码是一种专情密码，一对一替换 ~~ 加密函数是 e(x) = ax + b (mod m) 其中a和m 互质，m是字母的数目。解码函数是 d(x) = a^-…

人工智能 2023年6月6日
0092
张量有哪些常见的表示方式

张量的常见表示方式在数学和计算机科学中，张量是一种广义的向量和矩阵的扩展，可以表示和处理多维数据。张量在机器学习和深度学习等领域中扮演着重要的角色。张量可以通过多种方式进行表示，…

人工智能 2024年1月1日
0055
Java 高并发编程实战，异步注解 @Async 自定义线程池

一、@Async 注解 @Async 的作用就是异步处理任务。在方法上添加 @Async，表示此方法是异步方法；在类上添加 @Async，表示类中的所有方法都是异步方法；使用…

人工智能 2023年6月30日
0069
【计算机视觉】基于Python—OpenCV的手势识别详解（一）

文章目录更新日记前言前期准备识别手部模型识别视频输入方法手势识别方法完整代码结语更新日记更新日记：2022.04.18：应各位网友需求，已mp库更新后的手部识别…

人工智能 2023年7月25日
0064
End-to-End Object Detection with Transformers，DETR论文学习

End-to-End Object Detection with Transformers，DETR论文学习 1. 引言 2. 本论文发表前的目标检测策略(非端到端的目标检测策略)…

人工智能 2023年7月11日
0068
【SLAM】LIO-SAM解析——数据预处理imageProjection(2)

知识点：如何用IMU的角加速度对lidar帧去旋转畸变，如何用里程计的平移数据对lidar帧去平移畸变，如何用IMU和里程计初始时刻的位姿给这一帧找到位姿。这部分内容对应imag…

人工智能 2023年6月10日
0070
鸢尾花分类——后续（读取csv文件，并对数据进行处理数据）

这篇文章是在前篇文章的基础上进行的更改的，补充了简单的数据处理部分完成缺失值处理完成数据编码与标准化完成数据集的划分（可尝试多种划分方法）完成建立鸢尾花分类模型（可尝试使用…

人工智能 2023年7月1日
0099
Pytorch实现多分类问题样例解释通俗易懂新手必看

初学者学习Pytorch系列第一篇 Pytorch初学简单的线性模型代码实操第二篇 Pytorch实现逻辑斯蒂回归模型代码实操第三篇 Pytorch实现多特征输入的分类模型 …

人工智能 2023年7月3日
0063

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

用树莓派做一个语音机器人

目录

硬件准备

包的准备

录音

语音转文字

图灵机器人回复

文字转语音

大家都在看