借助于python构建语音交互的智能机器人(自动发消息、发邮件、播放音乐、人机对话、网页检索功能，含完整代码)

2023年5月25日上午5:55 • 人工智能 • 阅读 106

Author：qyan.li
Date：2022.6.7
Topic：借助于python构建语音交互的智能机器人

一、写在前面：

~~~~~~~~经过几天的努力，基于 python构建语音交互的智能机器人终于完成，今天这篇文章会完善阐述一下系统的总体架构，将前面的四篇文章串联起来，形成一个完善的系统。完整的项目代码已经上传至 github，链接会在最后给出，需要的同学可自行下载参考。

~~~~~~~~前序四篇功能实现的博文链接如下，可自行参考：

二、系统简介：

~~~~~~~~智能系统的主要功能实现在前面四篇博文中已成功完成，系统的总体框架图如下：

借助于python构建语音交互的智能机器人(自动发消息、发邮件、播放音乐、人机对话、网页检索功能，含完整代码)

~~~~~~~~上述的所有功能(除智能聊天功能外)，其他所有的功能均在前四篇博文中分篇进行阐述，由于智能聊天功能较为简单，且核心为调用现有方法，因此不做详细展示。

~~~~~~~~在完整的代码中，智能机器人的各个功能实现已经实现完美的封装(使用 class类，函数)，因此，调用起来也比较简单，故系统综合的阶段需要考虑如何将各部分功能实现的代码串联起来，实现完整使系统的构建。

~~~~~~~~首先，由于是借助于 语音实现系统交互，因此必须存在 音频录制和 音频识别的模块。音频录音的代码较为简单，网络资源也比较丰富，下面提供自己音频录制的代码，仅供参考。


CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 16000
RECORD_SECONDS = 10

def save_wave_file(pa, filepath, data):
    wf = wave.open(filepath, 'wb')
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(pa.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b"".join(data))
    wf.close()

def write_audio(filepath,isstart):
    '''
    :param filepath:文件存储路径（'test.wav'）
    :param isstart: 录音启动开关（0：关闭 1：开启）
    '''
    if isstart == 1:
        pa = pyaudio.PyAudio()
        stream = pa.open(format=FORMAT,
                         channels=CHANNELS,
                         rate=RATE,
                         input=True,
                         frames_per_buffer=CHUNK)

        frames = []
        for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
            data = stream.read(CHUNK)
            frames.append(data)

        stream.stop_stream()
        stream.close()
        pa.terminate()

        save_wave_file(pa, filepath, frames)
    elif isstart == 0:
        exit()

小Tips：
上述代码实现录制 10s的音频，并将音频另存为 wav文件，录制的时间可在代码中 RECORD_SECONDS变量处进行修改

~~~~~~~~ OK，音频录制的功能实现，如果想利用语音实现智能交互，就必须让智能系统能够理解用户意图，可以借助于文字实现意图理解和判断，因此还必须另写语音转文字的模块。实验中借助于百度云的语音识别接口，其他公司同样提供类似接口(阿里云语音接口调用，参照另一篇博文：(6条消息) 简单记录阿里云语音识别API调用方法_隔壁李学长的博客-CSDN博客)，下面提供百度云语音接口调用的代码示例：


def GetAudioContent(fileName):
    '''
    :param fileName:录音文件路径
    :return: sign-是否获得结果，result_out-返回录音内容
    '''

    with open(fileName,'rb') as f:
        content = f.read()

    sign = 1
    client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
    result = client.asr(content, 'wav', 16000, {'dev_pid': 1537, })
    print(result)
    if 'result' not in result.keys():
        sign = 0
        result_out = None
    elif result['result'] == ['']:
        sign = 0
        result_out = None
    else:
        result_out = "".join(result['result'])
    return [sign, result_out]

~~~~~~~~另外，语音交互不仅仅希望用户使用语音进行控制，更希望智能系统返回的文字结果可以借助于语音的方式进行输出，所以接下来的任务就是构建语音输出模块。

~~~~~~~~当然，文字合成语音可以借助于公司现有的 API接口，同样可以借助于 pyttsx3模块，该模块可以将字符串以语音的形式朗读出来，代码示例：


def speech_read(content):
    '''
    :param content:待播报的字符串
    :return: None
    '''

    engine = pyttsx3.init()
    engine.say(content)

    engine.runAndWait()

~~~~~~~~ OK，语音交互的模块已完成，但是要实现智能的交互，还有比较重要的模块：语义理解。语义理解首先必须明确用户询问的问题属于哪个类别，以决定后续程序进入哪个 function或者 class进行执行，这部分是借助于 模糊匹配进行实现：


def FuzzComparsion(text,shift = 0):
    '''
    :param text:待匹配的文本
    :param shift:取值1或0-待匹配的模板不同
    :return: 相似程度列表
    '''
    similarityLst = []
    stencilTextLst1 = ['给李其炎发消息，邮件告诉他我明天有事找他','今天的天气状况怎么样','播放一首炸雷','帮我查一下现在的俄乌局势']
    stencilTextLst2 = ['QQ', '微信', '邮件']
    if shift == 0:
        stencilTextLst = stencilTextLst1
    if shift == 1:
        stencilTextLst = stencilTextLst2
    for item in stencilTextLst:
        similarity = fuzz.ratio(item,text)
        similarityLst.append(similarity)
    return similarityLst

小 Tips：
代码中构建四个模板，借助于 模糊匹配技术，判断用户输入与各个模板的匹配程度，以决定用户询问问题的类别，以进入不同的模块执行不同的命令。

~~~~~~~~用户询问问题类别已经确定，而后的任务是提取语句中的主体对象，如问句 给文件传输助手发微信告诉他我想它啦！我们需要提取出语句中发送对象 文件传输助手，发送方式 微信，发送内容 我想她啦！，只有具有上述内容之后，我们才能执行后续的操作，邮件的发送也是类似的处理方法。处理的方法我目前还未想到较好的解决办法，只能根据关键词进行识别，比较死板，局限性也比较大。

def MsgDivision(content,key):
    '''模板：给***发消息告诉他***
    :param content:待处理的文本
    :return: friendName发送对象和Msg发送内容
    '''
    if key == 'w':
        friendName = content.split('发微信')[0].strip('给')
    if key == 'z':
        friendName = content.split('发QQ')[0].strip('给')
    Msg = content.split('告诉他')[-1]
    return friendName,Msg

~~~~~~~~最后，构建代码主逻辑之前，提一下智能聊天的功能实现，本质上就是调用网络上的接口，借助于别人已经实现完成的模块，调用的方式：


def robot(text = " "):
    '''
    :param text: 问询的文本
    :return: 机器人返回的内容
    '''
    url = 'http://api.qingyunke.com/api.php?key=free&appid=0&msg='+str(text)
    response = requests.get(url)
    responseText = response.text.split('"')[-2]
    return responseText

~~~~~~~~ OK，代码中涉及 语音交互的部分，语句处理的部分基本完成，接下来的任务就比较纯粹，写一个主函数完成代码主体逻辑的构建，该部分写的不太完善，读者可自行修改。

def Mainloop(text):
    '''
    :param text:待问询的文本
    :return: None或者返回的内容
    '''
    similarityLst = FuzzComparsion(text)
    print(similarityLst)
    if max(similarityLst) < 30:

        response = robot(text)
        print(response)
    else:
        max_index = similarityLst.index(max(similarityLst))
        if max_index == 0:

            similarityLst = FuzzComparsion(text,1)
            index = similarityLst.index(max(similarityLst))
            if index == 0:

                friendName , Msg = MsgDivision(text,'z')
                AutoMessage(Msg,friendName,'z')
            if index == 1:

                friendName, Msg = MsgDivision(text,'w')
                AutoMessage(Msg, friendName, 'w')
            if index == 2:

                friendName,subject,Mailcontent = MailMsgDivision(text)
                AutoSendEmail(friendName,subject,Mailcontent)
                pass
        if max_index == 1:

            content , _ = TextDealing(text)
            cityName = content.split(' ')[0]
            P = Pinyin()
            cityName_pinyin = P.get_pinyin(cityName,'')
            Weather = GetWeatherInfo(cityName_pinyin)
            print(Weather)
        if max_index == 2:

            MusicName = text.strip('播放')
            AutoPlayMusic(MusicName)
        if max_index == 3:

            _ , SearchContent = TextDealing(text)
            SearchInternet(SearchContent)

三、总结反思：

~~~~~~~~系统总体上实现的功能较多，能力不够，数量来凑，其中涉及的知识和技术也比较多，作为一个学习和借鉴的参考还是不错的。

~~~~~~~~项目具有的问题和可以改进的地方：

句子处理：语义理解、内容实体提取，特别是在语音识别准确率不高、噪声影响大的情况下。

[En]

sentence processing: semantic understanding, content entity extraction, especially when the accuracy of speech recognition is not high and the influence of noise is large.*
主循环的编辑，主循环的部分自己没有进行深度的编码和润色，就是简单的调用各个函数，可以以此为抓手改进 Mainloop的编码逻辑。

四、完整代码：

许诺大家五篇博文的完整代码：

Github链接：booue/Intelligent-Robot-Using-Python (github.com)

Original: https://blog.csdn.net/DALEONE/article/details/125197279
Author: 隔壁李学长
Title: 借助于python构建语音交互的智能机器人(自动发消息、发邮件、播放音乐、人机对话、网页检索功能，含完整代码)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512556/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

从零实现深度学习框架——手写前馈网络实现电影评论分类

; 引言本着”凡我不能创造的，我就不能理解”的思想，本系列文章会基于纯Python以及NumPy从零创建自己的深度学习框架，该框架类似PyTorch能实现…

人工智能 2023年7月3日
0075
西储大学(CWRU)轴承数据集故障诊断(一)：数据读取，数据集划分

CWRU轴承数据集故障诊断博客编写背景 * 数据集读取训练与测试完整数据读取代码博客编写背景本次博客是对深度学在机械设备的故障诊断(模式识别)领域的入门级的基础教程，主要…

人工智能 2023年7月4日
00108
记录仪预警数据一键升级工具_小鹏Xmart OS 1.6.1升级推送新增开门预警+智能除味…

11月15日开始，小鹏汽车将陆续向G3用户分批推送Xmart OS 1.6.1版本OTA升级软件。升级完成后的小鹏G3全系将新增DOW车门开启预警功能、智能除味功能，并且优化了多项…

人工智能 2023年5月27日
0095
潘伟明：人工智能对人类的特殊价值

随着人类对人工&#…

人工智能 2023年7月17日
0060
vite相关

一、安装依赖： 1、npm init -y2、npm install vite -D3、npm install sass -D 二、在根目录新建index.html文件三、修改p…

人工智能 2023年6月29日
0073
图像缩放（Image resize）

在OpenCV中提供函数 cv2.resize()实现对图像的缩放，该函数的具体形式如下： dst = cv2.resize( src, dsize[, fx[, fy[, int…

人工智能 2023年7月18日
0081
Unity打包WebGL平台如何区别移动端和电脑端

Unity打包WebGL平台如何区别移动端和电脑端完整解决方案前情提要最近有一个项目，其中有一个功能来控制角色移动，电脑端是使用WASD（键盘）控制，手机移动端呢使用虚拟摇杆…

人工智能 2023年7月29日
0065
程序员核心——详解调试（2）

所爱隔山海，山海皆可平，所念皆星河，星河不可及。上课！接着上节课讲的调试（1），本节课进一步讲解调试(2). 文章目录 1.调试实例讲解（2）校招笔试题 2.如何写出好的（易…

人工智能 2023年7月29日
0057
浅尝docker–基础篇

docker下载 docker 官网地址：https://docs.docker.comdocker下载分为两部分： docker desktop 可视化工具 docker Eng…

人工智能 2023年6月28日
0094
dlib各个版本的下载以及安装教程和使用

dlib 库是一个用来人脸关键点检测的 python 库。dlib是一个包含机器学习算法的C++开源工具包。dlib可以帮助您创建很多复杂的机器学习方面的软件来帮助解决实际问题。 …

人工智能 2023年6月25日
0080
谈一谈AI对人工的取代

文章目录 * – AI绘画现在达到了什么水平？易用性怎么样？ – 缘起：2015年用文字画画 – 2021年 Dalle 与开源社区的程序员…

人工智能 2023年6月24日
00104
SHAP的介绍和应用（附代码）

; SHAP Tutorial 本文主要介绍： SHAP的原理 SHAP的应用方式 SHAP的介绍 SHAP的目标就是通过计算每个样本中每一个特征对prediction的贡献, 来…

人工智能 2023年6月19日
0065
NLP模型笔记2022-26：neo4j+py2neo知识图谱构建【中国各城市名与城市经纬度】(代码已开源)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月10日
0066
遥感影像语义分割难点对应解决思路

目录一、像素级精度问题 1. 结合多尺度特征 1.1 空洞卷积 1.2 转置卷积和跳跃连接 1.3 将边缘图集成到分割 2. 基于数据融合的策略 2.1 结合几何和光谱信息来提高…

人工智能 2023年7月27日
0069
pandas 数据处理groupby apply针对的是所有列

近期碰到一个需求，需要对数据分组然后分组后的数据还要进行处理首先创建一个简单的dataframe df=pd.DataFrame({ ‘a’:[1,3,3,3,4],’b’: O…

人工智能 2023年7月7日
0078
R语言实战应用精讲50篇（三十三）-R-circlize包应用案例详解（附R语言代码）

富集分析结果可视化加载R包 library(tidyverse) library(stringr) library(circlize) library(ComplexHeatma…

人工智能 2023年7月18日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

借助于python构建语音交互的智能机器人(自动发消息、发邮件、播放音乐、人机对话、网页检索功能，含完整代码)

一、写在前面：

二、系统简介：

三、总结反思：

四、完整代码：

大家都在看