Python silk 库支持微信语音

2023年5月25日下午7:01 • 人工智能 • 阅读 102

GitHub 项目地址

python silk codec binding 支持微信语音编解码

pilk

python silk codec binding 支持微信语音编解码

pilk: python + silk

安装

pip install pilk

介绍与说明

SILK 是一种语音编码格式，由 Skype
公司研发，网上可找到的最新版本是 2012 发布的。

SILK 原始代码已上传到 v0.0.1 release , 包含规范文档

Tencent 系语音支持来自 silk-v3-decoder

v0.0.1 release
中也包含 silk-v3-decoder 重编译的 x64-win 版本

SILK 编码格式和 Tencent 系语音的关系：

此处 Tencent 系语音，仅以微信语音为例

标准 SILK 文件以 b'#!SILK_V3' 开始，以 b'\xFF\xFF' 结束，中间为语音数据
微信语音文件在标准 SILK 文件的开头插入了 b'\x02'，去除了结尾的 b'\xFF\xFF'，中间不变

已下统称为语音文件

语音数据

语音数据分为很多个独立 frame，每个 frame 开头两字节存储剩余 frame 数据的大小，每个 frame 默认存储 20ms 的音频数据

据此可写出获取 语音文件 持续时间(duration) 的函数（此函数 pilk 中已包含）

def get_duration(silk_path: str, frame_ms: int = 20) -> int:
    """获取 silk 文件持续时间，单位：ms"""
    with open(silk_path, 'rb') as silk:
        tencent = False
        if silk.read(1) == b'\x02':
            tencent = True
        silk.seek(0)
        if tencent:
            silk.seek(10)
        else:
            silk.seek(9)
        i = 0
        while True:
            size = silk.read(2)
            if len(size) != 2:
                break
            size = size[0] + size[1] << 8
            if not tencent and size == 0xffff:
                break
            i += 1
            silk.seek(silk.tell() + size)
        return i * frame_ms

根据 SILK 格式规范， frame_ms 可为 20, 40, 60, 80, 100

快速入门

详情请在 IDE 中查看 API 文档注释

在使用 pilk 之前，你还需清楚 音频文件 mp3, aac, m4a, flac, wav, ... 与 语音文件 之间的转换是借助 PCM raw
data 完成的

具体转换关系：音频文件 ⇔ PCM ⇔ 语音文件

音(视)频文件 ➜ PCM

借助 ffmpeg，你当然需要先有 ffmpeg

ffmpeg -y -i  -vn -ar  -ac 1 -f s16le

-y: 可加可不加，表示
-i: 没啥好说的，固定的，后接
-vn: 表示不处理视频数据，建议添加，虽然不加也不会处理视频数据（视频数据不存在转PCM的说法），但可能会打印警告
-ar: 设置采样率，可选的值是 [8000, 12000, 16000, 24000, 32000, 44100, 48000], 这里你可以直接理解为声音质量
-ac: 设置声道数，在这里必须为 1，这是由 SILK 决定的
-f: 表示强制转换为指定的格式，一般来说必须为 s16le, 表示 16-bit short integer Little-Endian data
example1: ffmpeg -y -i mv.mp4 -vn -ar 44100 -ac 1 -f s16le mv.pcm
example2: ffmpeg -y -i music.mp3 -ar 44100 -ac 1 -f s16le music.pcm
PCM ➜ 音频文件

ffmpeg -y -f s16le -i  -ar  -ac

-f: 这里必须为 s16le, 同样也是由 SILK 决定的
-ar: 同上
-ac: 含义同上，值随意
<音频输出文件>: 扩展名要准确，没有指定格式时， ffmpeg 会根据给定的输出文件扩展名来判断需要输出的格式
example3: ffmpeg -y -f s16le -i test.pcm test.mp3

ffmpeg 也可以使用 python ffmpeg binding 替换，推荐 PyAV 大家自行研究，这里不再啰嗦。

讲完了音频文件 ⇔ PCM，接下来就是用 pilk 进行 PCM ⇔ 语音文件互转

silk 编码

import pilk

duration = pilk.encode("test.pcm", "test.silk", pcm_rate=44100, tencent=True)

print("语音时间为:", duration)

silk 解码

import pilk

duration = pilk.decode("test.silk", "test.pcm")

print("语音时间为:", duration)

使用 Python 转任意媒体文件到 SILK

import os,pilk
from pydub import AudioSegment

def convert_to_silk(media_path: str) -> str:
    """将输入的媒体文件转出为 silk, 并返回silk路径"""
    media = AudioSegment.from_file(media_path)
    pcm_path = os.path.basename(media_path)
    pcm_path = os.path.splitext(pcm_path)[0]
    silk_path = pcm_path + '.silk'
    pcm_path += '.pcm'
    media.export(pcm_path, 's16le', parameters=['-ar', str(media.frame_rate), '-ac', '1']).close()
    pilk.encode(pcm_path, silk_path, pcm_rate=media.frame_rate, tencent=True)
    return silk_path

Original: https://blog.csdn.net/lemisky/article/details/122310841
Author: 乐米sky
Title: Python silk 库支持微信语音

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515574/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python之学生信息管理系统

目录一、基础界面实现 1、主函数 2、保持循环，获取用户需求二、函数实现模块功能 1、添加学生信息 2、删除学生信息 3、修改学生信息 4、查找全部学生信息 5、退出系统三、…

人工智能 2023年7月5日
0088
【目标检测-YOLO】YOLOv5-5.0v-损失函数（第四篇）

YOLO Input Backbone Neck Head 置信度Loss 坐标回归Loss 分类Loss v1 448448 GoogleNet FC2 MSE v2 32x D…

人工智能 2023年6月17日
0066
【图像配准】图像配准基础知识：入门知识、点云基础、图像配准的概念、基础和分类

图像配准基础入门知识、背景点云点云是在同一空间参考系下表达目标空间分布和目标表面特性的海量点集合，在获取物体表面每个采样点的空间坐标后，得到的是点的集合，称之为”…

人工智能 2023年6月30日
00154
手把手教你如何自己设计实现一个深度学习框架（附代码实现）

人工智能 2023年5月26日
0067
WSDM 2022 推荐系统论文阅读（下）

本篇是WSDM 2022中推荐系统论文阅读的完结篇！声明：本论文阅读笔记主要是对论文摘要的概括，评论仅代表个人的阅读观点，欢迎大家在评论区讨论！公司/学校：汉阳大学（韩国）摘…

人工智能 2023年6月10日
0069
来也科技收购Mindsay背后：新旧势力交锋智能自动化备受关注

来也科技收购Mindsay背后：新旧势力交锋智能自动化备受关注来也科技收购Mindsay背后：历程一波三折，意义非同寻常来也科技收购Mindsay，国产RPA正式进军国际市场 …

人工智能 2023年6月4日
00102
Jupyter Notebook 基本操作快捷键

一、Jupyter Notebook 常用快捷键当前 cell 侧边为蓝色时，表示此时为命令模式，按 Enter切换为编辑模式当前 cell 侧边为绿色时，表示此时为编辑模…

人工智能 2023年7月5日
0074
《originpro8》怎么拟合曲线

originprooriginpro8是美国Origin Lab公司开发的图形可视化和数据分析软件，软件主打数据分析和绘图，数据分析主要包括统计、信号处理、图像处理、峰值分析和曲线…

人工智能 2023年6月11日
00126
2022-2028全球与中国语音遥控器市场现状及未来发展趋势

2021年全球语音遥控器市场销售额达到了亿美元，预计2028年将达到亿美元，年复合增长率（CAGR）为 %（2022-2028）。地区层面来看，中国市场在过去几年变化较快，20…

人工智能 2023年5月25日
0057
FPN网络详解

1 特征金字塔特征金字塔(Feature Pyramid Networks， FPN)的基本思想是通过构造一系列不同尺度的图像或特征图进行模型训练和测试，目的是提升检测算法对…

人工智能 2023年7月30日
0051
深度学习（四）分类

课程链接之前我们已经介绍了线性回归问题，分类问题是不适用线性回归方法的。理想情况下的分类问题的解决模型是一个布尔函数，损失函数是分类错误的次数，这样的损失函数显然是不能用最优化方法…

人工智能 2023年7月2日
0063
树莓派视觉小车 — 人脸追踪（人脸识别、PID控制舵机运动）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月18日
0075
pytorch学习笔记-num_workers的设置

示例: from torch.utils.data import DataLoader train_loader = DataLoader(dataset=train_data, …

人工智能 2023年7月5日
0067
dbnet代码运行要点

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月14日
0050
【python-数据分析-numpy】文件操作&读取csv文件&NAN NF

【python-数据分析-numpy】文件操作&读取csv文件&NAN NF 文件操作 * 存储读取 numpy独有的存储方式：save & load 可…

人工智能 2023年7月15日
00118
基于docker的tensorflow2 bert 新闻分类模型部署

整体思路：1）使用tensorflow2加载预训练bert模型，进行训练，然后将模型部署载tfseving中。2）使用flask部署模型推理，模型推理时会requrest请求 1）…

人工智能 2023年5月25日
0067

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python silk 库 支持微信语音

安装