清华大学姚班毕业生发布了KEAR,从数据层面解析NLP的重大突破

作为人工智能领域的基础,自然语言处理(NLP)一直是该领域最热门技术之一。近段时间,清华姚班毕业生发布了KEAR,首次常识问答超越了人类,AI不再只会”死学习”,以后再也不能说AI不懂常识了。

清华大学姚班毕业生发布了KEAR,从数据层面解析NLP的重大突破

什么是NLP?

NLP是自然语音处理的简称,它是计算机科学领域与人工智能领域中的一个重要方向,是机器语言和人类语言直接沟通的桥梁,用来实现人机交流的目的,自然语言处理很多时候都是一门综合性的学问,是一门融入了语言学、数学、计算机科学于一体的科学 。

NLP是利用人类交流中所使用的自然语言与机器来进行交流探索,它的基本任务就是词频统计、具体本体词典、上下文语义分析等方式对待处理预料并对此进行分词,最终形成以最小的词性为单位,并且饱含语义的词项单元。

NLP的两大核心任务是:自然语言的理解(NLU/NLI)和自然语言的生成(NLG)。自然语言的理解就是希望机器可以和人一样,有可以理解他人语言的理解力;自然语言的生成就是将非语言格式的数据转换成人类的语言格式,以达到人机交流的目的。

现阶段,无论是实现自然语言理解,还是实现自然语言生成,都是非常困难的。从现有的理论和技术现状来看,通用的、高质量的自然语言处理系统,依然是我们未来努力的目标,但是针对特定的应用,具有一定的自然语言处理能力的实用系统已经出现,有些应用也已经实现了商品化,甚至开始产业化。典型的例子有:多语种数据库和专家系统的自然语言接口、全文信息检索系统、各种机器翻译系统、自动文摘系统等等。

NLP的应用场景

自然语言处理主要应用于文本检索、文本分析/情感分析、信息抽取、序列标注、文本摘要、问答系统、对话系统、知识图谱、文本聚类等领域。

在日常生活中已实现了多种场景的应用,比如谷歌的百度所代表的搜索引擎,就是 NLP 下的经典应用,搜狗就是融入了 NLP 中的语言模型才能实现现如今很好的体验;”今日头条”的推荐系统,深度融合 了NLP 的命名实体识别、句法分析等技术,才实现了对人的精准推荐;天眼查则是成功运用了知识图谱的,诸如此类,还有很多。

序列标注

序列标注是一个比较简单的NLP任务,也可成为最基本的任务,序列标注的涵盖范围是非常广的,可以解决一系列对字符进行分类的问题,如分词、词性标注、命名实体识别、关系抽取等等。

序列标注可分原始标注和联合标注,原始标注就是每个元素中都需要被标注的一个标签,联合标注就是所有的分段都被标注为同样的标签,命名实体识别是信息提取问题中的一个子任务,需要将元素进行定位和分类,如人名、地点、时间、组织名、质量等。

什么是BIO标注?

解决联合标注问题的最简单的方法,就是将其转化为原始标注问题,最标准的做法就是使用BIO标注。

BIO标注是将每个元素标注为”B-X”、”I-X”或者”O”。其中,”B-X”表示这个元素所在的片段属于X类型并且此元素在此片段的开头,”I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,”O”表示不属于任何类型。

常用的序列标注还有BIOES标注,BIOES近似于BIO的改进,是将多元实体X标注为B-X,I-X,E-X的格式,B-表示实体的起始位置,I-表示实体的中间或结尾;一元实体则标记为S-X;O-X表示X不属于实体。

清华大学姚班毕业生发布了KEAR,从数据层面解析NLP的重大突破

景联文科技为NLP发展提供数据支持

随着科技的不断发展,深度学习也将推动了自然语言处理任务的进步,同时自然语言处理任务也为深度学习提供了广阔的应用前景,使得人们在算法研究上投入了更多。人工智能的进步促进自然语言处理的发展,也使得自然语言处理面临挑战,比如更优的算法、语言的深度分析、多学科的交叉等,深度学习为自然语言处理带来了重大技术突破。随着NLP模型变得越来越大,需要更多的数据来训练它们。

景联文作为AI基础数据服务商,为客户提供全链条AI数据服务,从数据采集、清洗、标注、到驻场的全流程、一站式AI数据服务,协助人工智能企业解决整个人工智能链条中数据标注环节的相对应问题。

并于2020年上线了自有标注平台,保证数据的安全合规性,涵盖了绝大多数主流标注工具,支持NLP标注业务,包括OCR转写、文本信息抽取、NLU语句泛化等标注,现有数据库拥有相关成品数据集100T。

成功案例

去年,景联文科技和某头部手机厂商合作了21国NLU数据采集标注项目,该项目采集21国语言且必须全母语国家采集,总采集量为420万条,要求重复率小于3%。标注标注规则是普通NLU项目的两倍,在此基础上准确率要达到99%,而且客户要求的工期只有45天。景联文科技的采标团队利用提前搭建的全球方言、小语种采集渠道和稳定的供应链团队,轻松实现多国NLU数据的快速采集,采集标注同步进行,经过全量质检和抽检两次数据质检后分批提交数据,针对已提交数据反馈的问题及时和客户电话确认,加班对团队进行培训,调整采集规范返修数据。最终该项目在期限内足额完成交付,一次合格率达到 98.9%!最终交付数据完美达到客户要求。

数据采集标注需求联系我们~

market@jinglianwen.com

Original: https://blog.csdn.net/weixin_55551028/article/details/122690349
Author: 景联文科技
Title: 清华大学姚班毕业生发布了KEAR,从数据层面解析NLP的重大突破

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531934/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球