网易云信的音频共享技术 | 体验共享专题

2023年5月25日上午7:39 • 人工智能 • 阅读 76

导读：随着现代社会生活方式变化，社交娱乐的方式也在逐渐改变。传统面对面的社交娱乐活动正在逐步变革，越来越多的交互行为逐渐转移到网络上。RTC 技术的进步也推动了网络娱乐形式的变化，单方向信息传递方式如电影、听歌、看视频为主的娱乐方式占比在下降，互动性更强的方式如互动直播、语音通话、在线 KTV 歌等却在逐步崛起。

音频处理的必要性

作为人类最重要的交流方式之一，声音的处理是非常重要的。一方面，由于人类对声音极其敏感，声音的传播受到人体生理结构的影响。因为视觉受到光线和方向的限制，它不是一个可以一直依赖的信息来源。在许多情况下，听觉已经成为人类感知环境信息的最重要渠道。另一方面，声音与画面分开存在的传播模式也具有独立应用的场景。

[En]

As one of the most important ways of human communication, the processing of sound is very important. On the one hand, because human beings are extremely sensitive to sound, the transmission of sound is affected by the physiological structure of the human body. Because vision is limited by light and orientation, it is not a source of information that can be relied on all the time. In many cases, hearing has become the most important channel for human beings to perceive environmental information. On the other hand, the communication mode in which the sound exists separately from the picture also has the scene of independent application.

RTC 互动交流功能作为极其重要的功能，对音频通话的处理提出了以下要求：

超低延时。实时互动零距离
超高的通话质量。回声、噪声等影响听感的因素需妥善处理，使通话过程无干扰

社交娱乐的特点对音频处理提出了新的要求。例如，用户希望获得高质量的音乐、良好的临场感、有趣的音效、高质量的音频内容分享等。因此，这就要求我们从不同的方面对音频进行优化，以达到最佳的效果。我们今天分享的是音频分享。

[En]

The characteristics of social entertainment put forward new requirements for audio processing. For example, users want to get * high-quality music, good presence, interesting audio effects, high-quality audio content sharing and so on. Therefore, this requires us to optimize audio from different aspects in order to achieve the best effect. What we share today is audio sharing.*

音频共享的概念

音频共享一般是指将设备中的音频与其他参与者共享，让双方都能听到相同的声音，比如一起听音乐。

[En]

Audio sharing generally refers to sharing the audio sound in the device with other participants, so that both parties can hear the same sound, such as listening to music together.

用户在电话中听到的是相同的声音，这对用户在某些情况下提高临场感很重要。有一种直接的方式可以让对方的用户听到来自麦克风通道的本地语音，但在许多情况下，效果并不是很好。采集和回放环节的失真，以及对人声麦克风通道的具体处理，可能会破坏高质量的音频效果。

[En]

Users on the phone hear the same voice, which is important for users to improve their sense of presence in some cases. There is a direct way to * let the user on the other side hear the local voice from the microphone channel * , but in many cases this effect is not very good. The distortion of the acquisition and playback link and the specific processing of the microphone channel for human voice may destroy the effect of high-quality audio.

提供一个 绕过前端处理环节并且灵活方便应对各种场景的音频共享功能就变成了现实需求。

网易云信音频共享的实现方案

为了满足用户在多场景下的音频分享需求，易云新推出了灵活的音频分享方案。

[En]

In order to meet the needs of users for audio sharing in multiple scenarios, * Yiyunxin has implemented a flexible audio sharing scheme. *

这里提供了各种共享音源。您可以使用源文件，包括网络音频源。

[En]

A variety of shared sound sources are provided here. You can use * source files * , including * network audio sources * .

通过内置解码器解码后混音，可以兼容常见的 Mp3，AAC 等多种格式数据文件，这是最简单常见的一种方式。

当用户喜欢第三方软件播放的声音时，你会怎么做？我们提供基于系统界面的播放数据采集和处理，让用户不必为无法获取数据源而苦恼，让音频分享的来源更加多样化。

[En]

What do you do when users like the sounds played by third-party software? We * provide the capture and processing of playback data based on the system interface * , so that users do not have to suffer from being unable to obtain data sources, and make the sources of audio sharing more diversified.

这里的架构和常见的 RTC 架构似乎有些许不同之处，不光增加了一个 回声消除模块，参考信号的来源似乎也有变化。这就是这个架构特殊的地方，下面一个回声消除模块用于基本通话 ，由于共享的声音同时要被自己和对方听到，麦克风采集到的声音里也可能会包含这部分信号，需要消除的部分不仅要包括对端的声音，还要包括本端播放的声音。

在这里，使用实际的广播信号作为参考输入，以确保本地的人类语音输入更干净。另一种额外的回声消除用于消除另一端的人声。当使用第三方播放声音作为共享源时，我们得到的信号包含了播放的所有内容。这种处理可以消除共享源中的点对点声音，从而在共享过程中仍然可以保证高质量的音频通话。

[En]

Here, the actual broadcast signal is used as the reference input to ensure that the local human voice input is cleaner. Another additional echo cancellation is used to eliminate the human voice at the opposite end. * when using a third-party playback sound as a sharing source, the signal we get contains all the content of the playback. This processing can eliminate the peer-to-peer sound in the shared source, so that high-quality audio calls can still be guaranteed during the sharing process. *

音频共享的应用场景

上述音频共享方案是一个统一架构，可以用于 游戏开黑、音频分享、线上 KTV 等场景。涵盖了娱乐办公的多个场景。

有了这个基本的处理框架，可以通过灵活地设置内部流程和适当的外部逻辑来实现各种功能。如下图所示：

[En]

With this basic processing framework, various functions can be achieved by flexibly setting up internal processes and * with appropriate external logic. * the following figure is an example:

通过将上述第三方音频内容替换为游戏、音乐播放器或浏览器，即可实现游戏拼团、一起听歌、开会等音频分享场景。

[En]

By replacing the above third-party audio content with games, music players or browsers, you can achieve audio sharing scenes such as games ganging up, listening to songs together, meetings and so on.

如果觉得这个例子有些简单，那么以下是一个在线 KTV 合唱实现的例子。

左侧是主唱端，提供伴奏音乐，在本地的人声加入后，通过 RTC 音频流传给副唱。

右侧的演唱者的声音会通过 RTC 流传给主唱，以供两人合唱同步，同时将副唱的人声和主唱侧传过来的包含主唱人声的歌曲混合，形成完整的合唱，推送给直播观众。

以上是一个在线 KTV 的场景实现。当然，在线 KTV 场景的实现涉及多个方面，遇到的问题远远不止音频共享这部分。 歌词的传递、各端的同步、音频端到端的延时等问题都是需要克服的障碍，解决好这些问题才能提供更好的体验

总结

网易云信的 SDK 产品提供完整的音频共享解决方案，支持双声道全频道，可以覆盖包括游戏开黑、一起听歌，在线 KTV 等一系列场景。如有兴趣可以登录网易云信官网下载 Demo 进行体验。

Original: https://blog.csdn.net/netease_im/article/details/120865979
Author: 网易云信
Title: 网易云信的音频共享技术 | 体验共享专题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/512928/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python 索引设置为列_python – python-如何将列设置为DataFrame中的索引

下面是我当前的pandas数据帧：Balance before Salary Salary Month Jun-18 27.20 15300.0 Jul-18 88.20 1530…

人工智能 2023年7月7日
0063
DS-SLAM: A Semantic Visual SLAM towards Dynamic Environments 论文笔记

DS-SLAM: A Semantic Visual SLAM towards Dynamic Environments 论文笔记源码：https://github.com/iv…

人工智能 2023年6月10日
0091
Python手撸机器学习系列（十六）：循环神经网络RNN的实现

目录循环神经网络RNN * 1.公式推导 2.代码实现循环神经网络RNN 1.公式推导对于该循环神经网络，以中间的RNN单元为例，推导前向传播：对于Layer-1： z h…

人工智能 2023年6月15日
0081
[图解]cv2.HoughLines() 和 cv2.HoughLinesP()原理和代码

理论如上图,左边a,b固定可以确定一条直线,线是() 组成的集合. 下面从xy空间变化到ab空间,此时给定一个绿点()可以确定一条绿色的线,给定一个蓝点 ()可以确定一条蓝色的线…

人工智能 2023年5月28日
0098
感知机介绍及MATLAB实现

文章目录前言 1 感知机简介 2 感知机结构 3 感知机学习过程 * 3.1 数据传播过程 3.2 参数更新过程 4 代码实现 * 4.1 准备数据 4.2 感知机训练学习 4….

人工智能 2023年7月13日
0056
KG-BERT for Knowledge Graph Completion 笔记

Abstract 1、采用预训练的语言模型BERT来补全知识图谱 2、将知识图谱中的三元组视为文本序列，并提出新框架KG-BERT 3、方法：用三元组的实体描述和关系描述作为输入，…

人工智能 2023年5月28日
0066
〖Python 数据库开发实战 – MongoDB篇②〗- Mac环境下的MongoDB数据库安装

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月3日
0063
猿创征文｜Python-sklearn机器学习之旅：我的第一个机器学习实战项目

[二、 _征文_内容1、本次 _征文_活动以”仁爱久和·敬业求精”为主题，要求结合工作实际，充分表达我院的精神风貌,表达作为”久和”…

人工智能 2023年7月18日
0057
计算机视觉教程2-8：你知道图像背景虚化效果的原理吗？(附代码)

目录 0 写在前面 1 小孔成像 2 光学成像 3 虚化效果 4 代码实战 0 写在前面相信用过相机的同学都知道虚化特效，这是一种使焦点聚集在拍摄主题上，让背景变得朦胧的效果，…

人工智能 2023年7月27日
0070
【知识图谱论文】通过强化学习进行时间链接预测

文献题目：TEMPORAL LINK PREDICTION VIA REINFORCEMENT LEARNING文献时间：2021 带有时间戳的大量事件数据的可用性引起了对动态知识…

人工智能 2023年6月1日
0093
opencv图像处理—背景建模

Part I 基础篇 OpenCV 开发基础. 1 第 1 章初识 OpenCV.. 3 1.1 OpenCV 初识 4 1.1.1 OpenCV 简介.. 4 1.1.2 Ope…

人工智能 2023年7月19日
0066
Numpy报错：ImportError: numpy.core.multiarray failed to import

导入自定义的 python 模块时，出现以下报错： ImportError: numpy.core.multiarray failed to import from .cv2 im…

人工智能 2023年5月23日
00116
JPG如何直接转PDF？分享几个简单小技巧

工作中我们经常需要处理各种形式的文件，有时候领导会直接拍摄一张图片，让你将内容输出转换为PDF格式，如果我们一个一个手打的话，难免会比较浪费时间，其实我们可以直接将其转换为PDF格…

人工智能 2023年6月28日
00100
python读写文件详解，将数据写入一个文件或读一个文件写入另一个文件中。

目录实践一：读取文件并打印，read() 实践二：读取文件的一行并打印，readline() 实践三：读取文件的所有行存入到一个列表中并打印，readlines() 实践四：向文…

人工智能 2023年7月29日
00254
ubuntu22.04从零开始搭建深度学习环境

ubuntu22.04从零开始搭建深度学习环境 * – 一. 安装ubuntu22.04系统 – 二. 安装Nvidia显卡驱动 – 三. 安装…

人工智能 2023年6月16日
00142
【Python刷题篇】——Python入门 04 列表（下）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月6日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

网易云信的音频共享技术 | 体验共享专题

大家都在看