什么是数据标注?

什么是数据标注
这是IT互联网公司的一个职位。数据标注器使用自动化工具从互联网上抓取和收集数据,包括文本、图片、语音等。然后整理并注释捕获的数据。相当于网络上的”专职编辑”。这个岗位任务简单,没有技术含量。工资基本不高,大部分都在三四千,五千以上的很少。而且这些IT公司大多是私企,待遇不会太高。
训练集和测试集都是标注数据。
在标记数据之前,我们必须清理数据,以获得符合我们要求的数据。清理数据包括删除无效数据,整理成正规格式等等。具体数据要求可与算法人员确认。
举例说明
在聊天软件中,我们通常有一个语音转文本的功能。可能大部分人都知道这个功能是通过智能算法实现的,但是很少有人想知道为什么算法能够识别这些声音,它们是如何变得如此智能的。
其实智能算法就跟人脑一样。它需要学习。学习后可以对具体数据进行处理和反馈。
就像语音识别一样,模型算法一开始不能直接识别语音内容,而是手工转录语音内容,将算法无法理解的语音内容转化为易于识别的文本内容,然后算法模型对转录后的文本内容进行识别,并与相应的音频进行逻辑关联。
可能有人会问,不同的语速和音色模型算法怎么区分?这就是模型算法在学习时需要海量数据的原因。这些数据必须涵盖共同语言场景、语速、音色等。只有全面的数据才能训练出优秀的模型算法。为了便于理解,语音注释的过程如下所示。
常见的数据注释类型
1.分类标注:分类标注是我们常用的标注。一般从已建立的标签中选择与数据对应的标签,这是一个封闭集。如下图,一张图片可以有很多类别/标签:成人、女性、黄种人、长发等。对于单词,可以标记主语、谓语、宾语、名词动词等。
适用:文本、图像、语音和视频
应用:人脸年龄识别,情感识别,性别识别
2.帧标记:机器视觉中的帧标记,简单易懂,就是选择要检测的对象。比如人脸识别,首先要确定人脸的位置。
适用:图像
应用:人脸识别,物体识别
3.面积标注:面积标注比盒子标注更准确。边缘可以是柔性的。比如自动驾驶中的道路识别。
应用:自动驾驶
4.点标记:在一些对特征有详细要求的应用中,通常需要点标记。人脸识别,骨骼识别等。
应用:人脸识别,骨骼识别
5.其他注解:除了以上常见的注解类型,还有很多个性化的注解。根据不同的需求需要不同的标注。如自动摘要,需要标注文章要点,此时的标注严格来说不属于以上任何一项。(或者你也可以归类为分类,但是没有给要点贴标签的客观标准。如果是贴标签,苹果估计大部分人都有类似的贴标签结果。

什么是数据标注?

Original: https://blog.csdn.net/ZHTC8/article/details/116714238
Author: ZHTC8
Title: 什么是数据标注?

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548654/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球