语音数据标注规范

一、 基本原则

a) 听取原始音频文件中的内容,切片、校对原始转译文本,将错误文字改写正确,生成标注文本及相关标签数据;

b) 听到什么就写什么,不加字,不少字;例如”wo xi huan yang guang de ren ha ha ha ha ha”,则标成”我喜欢阳光的人哈哈哈哈哈”, 而”wo xi huan yang guang ren”,则标成”我喜欢阳光人”;

c) 保证逻辑性,语音内容有逻辑性,所以文本也有逻辑;例如”ni sa zi bu kai qiang”,如果听得懂四川话,可以写成”你啥子不开腔”,但如果写成”你啥子不开枪”那么明显错误,因为不可能在这里的语音中出现”开枪”的词汇注:无论因为语音机器切割或者读音不准造成句意有明显歧义或不符合逻辑,则可以考虑无效。

二、 常见规范

a) 有效性标注

i. 无效性分类:

ii. 如果一句音频均为静音、噪音、方言、多人重叠说话等,标为无效;

iii. 如果一句音频声音极小,几乎听不到,标为无效;

iv. 如果一句音频只有一个字,或是同一个字重复出现,标为无效,例如”嗯”、”啊”、”好好好”、”拜拜”;

v. 如果一句音频大于等于3个字听不清或听不懂,标为无效;

vi. 如果一句音频中出现少量上述无效音频片段,在不影响语义的前提下,整句音频依然有效,标注文本中加入相应标签,如对”少量”不好界定,优先标为无效;

b) 音频切片

i. 根据说话人和语义切分,保证⼀段⾳频只包含一个说话人和⼀个语义⽚段,但同一个说话人的同一句话可以切分为连续的两段甚至多段音频,尽量切为10-15个字左右,时长不超过10秒,每句话结束需要使⽤符号,如句号、问号、感叹号;

ii. 首尾各保留一定长度静音段,0.1-0.5秒,不允许切到人声;

iii. 当⽂本过⻓时,切分片段不超过40个字,如果太⻓,逗号也可以作为结束符,但句尾不可以标注逗号;

c) 文本标注

i. 数字,统一用汉字标注(1/2/3/4/5/6/7/8/9对应一或者幺/二或者两/三/四/五/六/七/八/九),注意多音字,例如1标为一或者幺;2标为二或者两;区分数值读法和数量读法,例如如 298标为 ⼆百九⼗⼋或者⼆九⼋,4279.35元标注为四千两百七⼗九点三五元;

ii. 英文单词,区分拼读和整读,例如APP表示音频是逐字母拼读A-P-P,使用大写字母,字母之间加空格;app则表示整读,使用小写字母,字母之间不加空格;单词与单词之间、单词与字母之间需加空格,单词与中文之间、字母与中文之间不加空格;

iii. 标点符号,只采用”,”、”。”、”?”、”!”,即逗号、句号、问号和感叹号,参考原始转译文本,一律全角;

iv. 语气词,除”诶”外,统一使用”啊”、”嗯”、”呃”、”唉”、”哦”、”呵”、”唔” 等带有口字旁语气词;

v. 说话人发音不标准或误读,按所听到的发音来标注,即使出现语法错误,例如”我走了”误读成”我了走”,标为”我了走”,”四十”发音不准读成”事十”,则标为”事十”;

vi. 系统音,例如”工号9527为您服务”,直接切片并丢弃;

d) 听不清、听不懂类标注

i. [UNK]:听不懂或听不清,如语速过快、方言或带口音的普通话;

ii. [OVE]:多人混合或重叠音;

三、 标签信息

a) 说话人角色,客服或用户;

b) 说话人性别,男或女;

c) 起止时间;

d) 是否有口音;

e) 是否有方言;

f) 是否有噪音;

g) 对每条录音,标注标注者的 ID ,使得 可以区分不同的标注者。

Original: https://blog.csdn.net/u011590738/article/details/125484704
Author: MachineCYL
Title: 语音数据标注规范

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/498461/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球