04|主观与客观评价音频质量

目录

引言:

一. 音频主观评价方法

MUSHRA

介绍

特点:

应用MUSHRA例子:

常用的主观评价指标:

二. 音频客观评价方法

有参考评价:

PESQ与POLQA

PESQ的算法步骤:

note:

ViSQOL :https://arxiv.org/pdf/2004.09584.pdf

无参考评价:

适用场景:

比较著名的无参考客观评价方法:

三. 小结:

引言:

音频的评估方法主要有两种:

[En]

There are two main evaluation methods of audio:

  1. 主观评价

即组织足够数量的人去听测试的音频,并对样本进行评分,最后根据评分对音频质量进行评估。

[En]

That is to organize a sufficient number of people to listen to the tested audio and score the samples, and finally evaluate the audio quality according to the score.

优点:

主观测试是音频评价的金标准,最符合人们的实际听觉。

[En]

Subjective testing is the golden criterion of audio evaluation, which is most in line with people’s actual sense of hearing.

缺点

主观评估既费时又费力,不一定是最经济的选择。

[En]

Subjective evaluation is time-consuming and laborious, and is not necessarily the most economical option.

  1. 客观测试

通过给定数学公式计算音频质量评价指标,比如SNR、频谱差异等。 结合计算结果拟合一个主观分数。

一. 音频主观评价方法

ITU(国际电信联盟),联合国下属一个专门机构,负责电信、通话等相关标准等制定。 比较有公信力的组织包括 ITU-R (无线电通信组) 和ITU-T (远程通信标准化组织)。 这两个组织为了统一国际音频质量评价指标,制定了一系列的主、客观评价方法。

MUSHRA

介绍

(Multi-Stimulus Test with Hidden Reference and Anchor,多激励隐藏参考基准测试方法)属于 ITU-R BS.1534 中的推荐测试方法。 它最早被用于流媒体与通信的相关编码的主观评价,现在也被广泛应用于心理声学相关研究中的音质主观评价。

MUSHRA 的分数是 0 到 100 分,按照从高到低的听感描述,如表 1 所示:

04|主观与客观评价音频质量

为了确保测试的有效性,我们需要注意以下四点:

[En]

In order to ensure the effectiveness of the test, we need to pay attention to the following four points:

  1. 参考的标准音频和被测试音频间隔测试,连续重复 4 次; (防止误判)
  2. 音频源采用 15~20s; (防止测试者产生听音疲劳)
  3. 一次完整的测试时间不应超过 15~20min;(防止测试者产生听音疲劳)
  4. 测试成员:专家成员最少 10 人,非专家 20 人。(使得标准不过于严苛更能符合大众的听音习惯)

特点:

其测试的特点主要是 在测试语料中混入无损音源作为参考(上限),全损音源作为锚点(下限),通过双盲听测试,对待测音源和隐藏参考音源与锚点进行主观评分。

MUSHRA 方法的测试面比较广,可以用于编 / 解码器,语音合成,甚至是耳机测评。

应用MUSHRA例子:

REF是无损音频,采样位深8bit记位8bit_lal_REF, Anchor35是锚点,其他为不同语音合成算法。

04|主观与客观评价音频质量

常用的主观评价指标:

  1. MUSHRA方法
  2. ITU-T P.800《语音质量的主观评价方法》,也就是我们常说的 MOS(Mean Option Scores,平均意见分)
  3. ITU-T P.830《电话和宽带数字语音编码器的主观评价方法》
  4. ITU-T P.805《对话质量的主观评价》
  5. ITU-R 主观评价标准中的 ITU-R BS.1116 《音频系统中小损伤主观评价方法》
  6. ITU-R BS.1285 《音频系统中小损伤主观评价的预选方法》

ITU官网: 国际电联:致力于连通世界

主观评价的缺点:测试员太少、测试员不规范等都会带来测试错误。

[En]

Subjective evaluation shortcomings: too few testers, non-standard testers and so on will bring test errors.

二. 音频客观评价方法

客观评价包括参考评价和非参考评价。

[En]

Objective evaluation includes reference evaluation and non-reference evaluation.

有参考评价:

除了给定的测试音频之外,您还需要提供参考音频作为基准。通过计算测试音频和参考音频之间的差值来拟合音频的主观分数。

[En]

In addition to the given test audio, you also need to give the reference audio as a benchmark. The subjective score of the audio is fitted by calculating the difference between the test audio and the reference audio.

PESQ与POLQA

在 2001 年,ITU-T P.862 标准定义了有参考客观评价算法PESQ(Perceptual Evaluation of Speech Quality,语音质量感知评价),该算法主要用来评估 窄带(8kHz 采样率)及宽带(16kHz 采样率)下的编、解码损伤。该算法在过去的二十年中,被广泛的应用于通信质量的评定。 已开源。

2011 年,P.863 标准定义了一套更全面、更准确的有参考客观评价POLQA。相比 PESQ,POLQA 可评估的带宽更广,对噪声信号和延时的鲁棒性更好,其语音质量评分也更接近于主观的评分。 需要购买百万元的专门设备和授权才能使用。

PESQ的算法步骤:

04|主观与客观评价音频质量

时间对齐:目的消除系统延迟的影响。

听觉变换:将音频信号转化为频谱信号。

差异处理:逐帧处理

取时间平均得到PESQ分数。如对齐错误可再次对齐。

PESQ 的分数范围在 0~4.5 分,一般音质比较好的编/解码器,比如 64kbps 比特率的 OPUS 编解码器,可以达到 4.5 分,而分数越低则代表音质越差。比如 OPUS 的码率降到 6kbps 那 PESQ 可能就只有不到 3 的分数。

note:

PESQ 最多只能评价 16kHz 采样率的音频。 如果要评价一个采样率比较高的音频信号,比如 音乐信号,POLQA 会比较合适。POLQA 最高可以支持 48kHz 采样率的全带音频的客观质量评价。 但购买一套 POLQA 设备的价格都是百万级的,为了方便使用,你还可以考虑一下使用例如 ViSQOL 等开源算法,也可以支持 48kHz 的音频采样率。

无参考评价:

不需要参考音频,评分是基于音频的频谱能量分布和连续性。

[En]

There is no need to refer to the audio, and the score is based on the spectrum energy distribution and continuity of the audio.

适用场景:

例如,当制作互联网电话时,只接收经过编码/解码并通过网络传输的音频信号,并且没有远程输入信号。暂时只能使用无参考音质评估方法。

[En]

For example, when making an Internet phone, only the audio signal that has been encoded / decoded and transmitted over the network is received, and * there is no remote input signal. * No reference audio quality evaluation method can only be used at this time.

不需要参考信号,仅通过分析输入信号本身或参数即可获得质量分数。

[En]

No reference signal is needed, and a quality score can be obtained only through the analysis of the input signal itself or parameters.

比较著名的无参考客观评价方法:

  1. IT U-T P.563

2004 年提出,主要是面向窄带语音的质量评估

  1. ANIQUE+

2006 年提出,也是面向窄带语音,其评分准确度据作者称超过了 PESQ,不过 PESQ 的测量不能反应网络的延时、丢包等,并不能完美适用于如今基于互联网传输的实时互动场景。

  1. E-model

于 2003 年提出,不同于上述两种方法,这是一个基于 VoIP 链路参数的损伤定量标准,不会直接基于信号域进行分析。

  1. ITU-T P.1201

ITU-T P.1201 系列于 2012 年提出,对于音频部分,该标准也不对音频信号直接进行分析,而是基于网络状态和信号状态对通信质量进行评分。

三. 小结:

04|主观与客观评价音频质量

客观测试目前只能测量音频的损伤程度,比如我们平时在选择编解码器时不知道选择什么类型、多少码率,这时不妨跑一下 PESQ 或者 VisQol 看一下分数。

然而,对于一些主观测试类型,如音乐感、耳机效果等,我们仍然需要依靠主观测试。主观测试可以通过众包等方式进行分发。

[En]

However, for some subjective test types, such as music sense, headphone effect and so on, we still need to rely on subjective test. Subjective tests can be distributed by crowdsourcing and other ways.

针对这种分发式的主观测试,最近的 ITU-T P.808 也有详细的测试流程和方法。

Original: https://blog.csdn.net/qq_36533552/article/details/125487419
Author: 咕噜咕噜day
Title: 04|主观与客观评价音频质量

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/514989/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球