【API解析】微软edge浏览器大声朗读功能（read aloud）调用步骤

2023年5月25日上午6:17 • 人工智能 • 阅读 78

1. 来源

github:MsEdgeTTS,edge-TTS-record
吾爱破解：微软语音助手免费版，支持多种功能，全网首发

2. 准备工作

功能来源：edge浏览器
抓包工具：fiddler
模拟请求：postman

3. 主要分析步骤

第一步：确定edge浏览器read aloud功能用js如何调用，fiddler上没有捕捉到

const voices = speechSynthesis.getVoices()
function speakbyvoice(text, voice) {
    var utter = new SpeechSynthesisUtterance(text)
    for (let v of voices) {
        if (v.name.includes(voice)) {
            utter.voice = v
            break
        }
    }
    speechSynthesis.speak(utter)
    return utter
}
speakbyvoice("hello world", "Xiaoxiao")

第二步：试着对edge-TTS-record抓包，抓到了一个 http请求和 websocket连接。对照MsEdgeTTS的代码可知：


{
    uri: "https://speech.platform.bing.com/consumer/speech/synthesize/readaloud/voices/list",
    query: {
        trustedclienttoken: "6A5AA1D4EAFF4E9FB37E23D68491D6F4"
    }
    method: "GET"
}

{
    uri: "https://speech.platform.bing.com/consumer/speech/synthesize/readaloud/voices/list",
    query: {
        trustedclienttoken: "6A5AA1D4EAFF4E9FB37E23D68491D6F4"
    },
    sendmessage: {
        audioformat: 
X-Timestamp:Mon Jul 11 2022 17:50:42 GMT+0800 (中国标准时间)
Content-Type:application/json; charset=utf-8
Path:speech.config

{"context":{"synthesis":{"audio":{"metadataoptions":{"sentenceBoundaryEnabled":"false","wordBoundaryEnabled":"true"},"outputFormat":"webm-24khz-16bit-mono-opus"}}}},
        ssml: 
X-RequestId:7e956ecf481439a86eb1beec26b4db5a
Content-Type:application/ssml+xml
X-Timestamp:Mon Jul 11 2022 17:50:42 GMT+0800 (中国标准时间)Z
Path:ssml

 hello world
    }
}

4. 编写代码

websocket库：WebSocketSharp。最新版安装失败的可以降版本安装，此文发布的时候最新预览版是 1.0.3-rc11

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text.RegularExpressions;
using WebSocketSharp;

namespace ConsoleTest
{
    internal class Program
    {
        static string ConvertToAudioFormatWebSocketString(string outputformat)
        {
            return "Content-Type:application/json; charset=utf-8\r\nPath:speech.config\r\n\r\n{\"context\":{\"synthesis\":{\"audio\":{\"metadataoptions\":{\"sentenceBoundaryEnabled\":\"false\",\"wordBoundaryEnabled\":\"false\"},\"outputFormat\":\"" + outputformat + "\"}}}}";
        }
        static string ConvertToSsmlText(string lang, string voice, string text)
        {
            return $"{text}";
        }
        static string ConvertToSsmlWebSocketString(string requestId, string lang, string voice, string msg)
        {
            return $"X-RequestId:{requestId}\r\nContent-Type:application/ssml+xml\r\nPath:ssml\r\n\r\n{ConvertToSsmlText(lang, voice, msg)}";
        }

        static void Main(string[] args)
        {
            var url = "wss://speech.platform.bing.com/consumer/speech/synthesize/readaloud/edge/v1?trustedclienttoken=6A5AA1D4EAFF4E9FB37E23D68491D6F4";
            var Language = "en-US";
            var Voice = "Microsoft Server Speech Text to Speech Voice (zh-CN, XiaoxiaoNeural)";
            var audioOutputFormat = "webm-24khz-16bit-mono-opus";
            var binary_delim = "Path:audio\r\n";

            var msg = "Hello world";
            var sendRequestId = Guid.NewGuid().ToString().Replace("-", "");
            var dataBuffers = new Dictionary<string, List<byte>>();

            var webSocket = new WebSocket(url);
            webSocket.SslConfiguration.ServerCertificateValidationCallback = (sender, certificate, chain, sslPolicyErrors) => true;
            webSocket.OnOpen += (sender, e) => Console.WriteLine("[Log] WebSocket Open");
            webSocket.OnClose += (sender, e) => Console.WriteLine("[Log] WebSocket Close");
            webSocket.OnError += (sender, e) => Console.WriteLine("[Error] error message: " + e.Message);
            webSocket.OnMessage += (sender, e) =>
            {
                if (e.IsText)
                {
                    var data = e.Data;
                    var requestId = Regex.Match(data, @"X-RequestId:(?.*?)\r\n").Groups["requestId"].Value;
                    if (data.Contains("Path:turn.start"))
                    {

                    }
                    else if (data.Contains("Path:turn.end"))
                    {

                        webSocket.Close();
                    }
                    else if (data.Contains("Path:response"))
                    {

                    }
                    else
                    {
                        Console.WriteLine("unknow message: " + data);
                    }
                }
                else if (e.IsBinary)
                {
                    var data = e.RawData;
                    var requestId = Regex.Match(e.Data, @"X-RequestId:(?.*?)\r\n").Groups["requestId"].Value;
                    if (!dataBuffers.ContainsKey(requestId))
                        dataBuffers[requestId] = new List<byte>();
                    if (data[0] == 0x00 && data[1] == 0x67 && data[2] == 0x58)
                    {

                    }
                    else
                    {
                        var index = e.Data.IndexOf(binary_delim) + binary_delim.Length;
                        dataBuffers[requestId].AddRange(data.Skip(index));
                    }
                }
            };

            webSocket.Connect();
            var audioconfig = ConvertToAudioFormatWebSocketString(audioOutputFormat);
            webSocket.Send(audioconfig);
            webSocket.Send(ConvertToSsmlWebSocketString(sendRequestId, Language, Voice, msg));

            while (webSocket.IsAlive) { }
            Console.WriteLine("接收到的音频字节长度：" + dataBuffers[sendRequestId].Count);
            Console.ReadKey(true);
        }
    }
}

5. 结语

模拟websocket请求成功，缺陷是postman模拟结果显示音频 outputformat参数只能是 webm-24khz-16bit-mono-opus，也就是说还需要再用ffmpeg之类的库转换格式。暂时也没找到比较好用的库，先记录到这

Original: https://blog.csdn.net/qq_41755979/article/details/125725807
Author: 永梦若曦
Title: 【API解析】微软edge浏览器大声朗读功能（read aloud）调用步骤

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512627/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ORB_SLAM2+kinect稠密建图实战项目总结

学完ORB_SLAM2源码后，想用一个小项目巩固所学知识。思虑良久～决定在ORB_SLAM2源码的基础上添加稠密建图的线程，并用kinect2相机实现自己卧室的三维重建。话不多说…

人工智能 2023年6月2日
00107
从零开始完成YOLOv5目标识别（七）一种完成目标计数的简单方法

往期文章：从零开始完成YOLOv5目标识别（六）用接续训练完成大规模数据集训练（以FLIR为例）从零开始完成YOLOv5目标识别（五）一种扩充数据集的方式从零开始…

人工智能 2023年7月21日
0087
机器学习实战——4.5 使用Python进行文本分类

目录 1. 准备数据：从文本中构建词向量 1.1 词表到向量的转换函数 2. 训练算法：从词向量计算概率 3. 测试算法：根据现实情况修改分类器 3.1 朴素贝叶斯分类函数 4. …

人工智能 2023年7月1日
0096
吴恩达 – 机器学习课程笔记（持续更新）

一、机器学习 1.1 机器学习定义计算机程序从经验E中学习，解决某一任务T，进行某一性能P，通过P测定在T上的表现因经验E而提高eg：跳棋程序E：程序自身下的上万盘棋局T：下…

人工智能 2023年6月18日
00114
如何通过.exe文件控制一台电脑

CVE-2022-21999漏洞如何实现发送一个.exe文件偷偷控制他人的电脑？这个想法很刑的，所以我只是说明我的实现方式，具体操作建议仅用于hvv等专业领域，请勿以身试法。首…

人工智能 2023年7月29日
0074
Yolov5学习笔记(2)——部署在jetson nano上

本教程系列将从模型训练开始，从0开始带领你部署Yolov5模型到jetson nano上这是本系列的第二部分。 [En] This is the second part of t…

人工智能 2023年5月23日
0089
数据分析：数据处理篇1

数据的写入与读取数据的写入 * .csv文件写入 .xlsx文件写入数据的读取 * .csv文件读取 .xlsx文件读取数据的使用 * 随机获取信息数据去重在做数据分析的…

人工智能 2023年7月9日
0094
基于opencv用卡尔曼滤波做落点预测

From sztu 自动化专业的小菜鸡。本篇将介绍计算机视觉的落点预测，基于python的opencv。实战阶段，运用卡尔曼滤波的相关知识去做落点预测。 1.卡尔曼滤波卡尔曼…

人工智能 2023年7月20日
0053
语音模块：pyttsx变声项目

一、说明二、安装三、基本用法四、结论程序员们好，我们将在本教程中看到如何使用 Python 中的 pyttsx3 将语音转换为文本。也可以将人的语音实现变音、变速等处理。 …

人工智能 2023年5月25日
0080
Coordinate Attention和BiFPN

文章目录 * – + 1 坐标注意力机制(Coordinate Attention) + * 原理： * 结构： * 代码： * 优缺点： + 2 加权双向特征金字塔(…

人工智能 2023年6月25日
0057
时序数据预测-Arima模型篇

ARIMA模型详解基本概念 ARIMA(p, d, q)预测模型 ARIMA差分整合移动平均自回归模型，用于时间序列数据分析与预测，相比ARMA模型在AR和MA之间多了差分步骤，…

人工智能 2023年7月15日
0075
几个聚类算法

文章目录一、什么是聚类二、聚类算法 * 2.1聚类数据集 2.2亲和力传播 2.3聚合聚类 2.4K均值 2.5Mini-Batch K均值 2.6光谱聚类为大家提供免费的G…

人工智能 2023年6月3日
0083
python sdk是什么意思_SDK 和 API 的区别是什么？

我觉得上面的好评答案不是很好，至少我看了之后感觉有点迷糊，这和我遇到的实际情况不太符合。 [En] I think the high praise answer above is …

人工智能 2023年5月27日
0078
Python机器学习14——聚类分析

本系列所有的代码和数据都可以从陈强老师的个人主页上下载：Python数据程序参考书目：陈强.机器学习及Python应用. 北京：高等教育出版社, 2021. 本系列基本不讲数学原…

人工智能 2023年5月31日
00105
史上最小白之《Word2vec》详解

Word2vec 谷歌2013年提出来的NLP工具，它的特点就是可以将单词转化为向量表示，这样就可以通过向量与向量之间的距离来度量它们之间的相似度，从而发现他们之间存在的潜在关…

人工智能 2023年5月27日
0096
【Java应用程序开发】【期末复习题】【2022秋】【答案近期更新完成】

文章目录零、考试说明一、单选题（175-2-2题，1’）二、多选题（16题，2’）三、判断题（20题，1’）四、简答题（18题，5&#…

人工智能 2023年7月31日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【API解析】微软edge浏览器大声朗读功能（read aloud）调用步骤

1. 来源

2. 准备工作

3. 主要分析步骤

4. 编写代码

5. 结语

大家都在看