清华大学姚班毕业生发布了KEAR，从数据层面解析NLP的重大突破

2023年5月28日下午1:59 • 大数据 • 阅读 95

作为人工智能领域的基础，自然语言处理(NLP)一直是该领域最热门技术之一。近段时间，清华姚班毕业生发布了KEAR，首次常识问答超越了人类，AI不再只会”死学习”，以后再也不能说AI不懂常识了。

什么是NLP？

NLP是自然语音处理的简称，它是计算机科学领域与人工智能领域中的一个重要方向，是机器语言和人类语言直接沟通的桥梁，用来实现人机交流的目的，自然语言处理很多时候都是一门综合性的学问，是一门融入了语言学、数学、计算机科学于一体的科学。

NLP是利用人类交流中所使用的自然语言与机器来进行交流探索，它的基本任务就是词频统计、具体本体词典、上下文语义分析等方式对待处理预料并对此进行分词，最终形成以最小的词性为单位，并且饱含语义的词项单元。

NLP的两大核心任务是：自然语言的理解（NLU/NLI）和自然语言的生成（NLG）。自然语言的理解就是希望机器可以和人一样，有可以理解他人语言的理解力；自然语言的生成就是将非语言格式的数据转换成人类的语言格式，以达到人机交流的目的。

现阶段，无论是实现自然语言理解，还是实现自然语言生成，都是非常困难的。从现有的理论和技术现状来看，通用的、高质量的自然语言处理系统，依然是我们未来努力的目标，但是针对特定的应用，具有一定的自然语言处理能力的实用系统已经出现，有些应用也已经实现了商品化，甚至开始产业化。典型的例子有：多语种数据库和专家系统的自然语言接口、全文信息检索系统、各种机器翻译系统、自动文摘系统等等。

NLP的应用场景

自然语言处理主要应用于文本检索、文本分析/情感分析、信息抽取、序列标注、文本摘要、问答系统、对话系统、知识图谱、文本聚类等领域。

在日常生活中已实现了多种场景的应用，比如谷歌的百度所代表的搜索引擎，就是 NLP 下的经典应用，搜狗就是融入了 NLP 中的语言模型才能实现现如今很好的体验；”今日头条”的推荐系统，深度融合了NLP 的命名实体识别、句法分析等技术，才实现了对人的精准推荐；天眼查则是成功运用了知识图谱的，诸如此类，还有很多。

序列标注

序列标注是一个比较简单的NLP任务，也可成为最基本的任务，序列标注的涵盖范围是非常广的，可以解决一系列对字符进行分类的问题，如分词、词性标注、命名实体识别、关系抽取等等。

序列标注可分原始标注和联合标注，原始标注就是每个元素中都需要被标注的一个标签，联合标注就是所有的分段都被标注为同样的标签，命名实体识别是信息提取问题中的一个子任务，需要将元素进行定位和分类，如人名、地点、时间、组织名、质量等。

什么是BIO标注？

解决联合标注问题的最简单的方法，就是将其转化为原始标注问题，最标准的做法就是使用BIO标注。

BIO标注是将每个元素标注为”B-X”、”I-X”或者”O”。其中，”B-X”表示这个元素所在的片段属于X类型并且此元素在此片段的开头，”I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，”O”表示不属于任何类型。

常用的序列标注还有BIOES标注，BIOES近似于BIO的改进，是将多元实体X标注为B-X,I-X,E-X的格式，B-表示实体的起始位置，I-表示实体的中间或结尾；一元实体则标记为S-X；O-X表示X不属于实体。

景联文科技为NLP发展提供数据支持

随着科技的不断发展，深度学习也将推动了自然语言处理任务的进步，同时自然语言处理任务也为深度学习提供了广阔的应用前景，使得人们在算法研究上投入了更多。人工智能的进步促进自然语言处理的发展，也使得自然语言处理面临挑战，比如更优的算法、语言的深度分析、多学科的交叉等，深度学习为自然语言处理带来了重大技术突破。随着NLP模型变得越来越大，需要更多的数据来训练它们。

景联文作为AI基础数据服务商，为客户提供全链条AI数据服务，从数据采集、清洗、标注、到驻场的全流程、一站式AI数据服务，协助人工智能企业解决整个人工智能链条中数据标注环节的相对应问题。

并于2020年上线了自有标注平台，保证数据的安全合规性，涵盖了绝大多数主流标注工具，支持NLP标注业务，包括OCR转写、文本信息抽取、NLU语句泛化等标注，现有数据库拥有相关成品数据集100T。

成功案例

去年，景联文科技和某头部手机厂商合作了21国NLU数据采集标注项目，该项目采集21国语言且必须全母语国家采集，总采集量为420万条，要求重复率小于3%。标注标注规则是普通NLU项目的两倍，在此基础上准确率要达到99%，而且客户要求的工期只有45天。景联文科技的采标团队利用提前搭建的全球方言、小语种采集渠道和稳定的供应链团队，轻松实现多国NLU数据的快速采集，采集标注同步进行，经过全量质检和抽检两次数据质检后分批提交数据，针对已提交数据反馈的问题及时和客户电话确认，加班对团队进行培训，调整采集规范返修数据。最终该项目在期限内足额完成交付，一次合格率达到 98.9%！最终交付数据完美达到客户要求。

数据采集标注需求联系我们~

market@jinglianwen.com

Original: https://blog.csdn.net/weixin_55551028/article/details/122690349
Author: 景联文科技
Title: 清华大学姚班毕业生发布了KEAR，从数据层面解析NLP的重大突破

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531934/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

通俗易懂：窗口函数 | 全是案例

相信很多人都比较熟悉 SQL 聚合函数的语法，比如 count(), sum(), max()等， [TencentCloudSDKException] code:FailedOp…

大数据 2023年6月3日
0086
macOS Monterey 12.6 (21G115) Boot ISO 原版可引导镜像

本站下载的 macOS Monterey 软件包，既可以拖拽到 Applications（应用程序）下直接安装，也可以制作启动 U 盘安装，或者在虚拟机中启动安装。请访问原文链接…

大数据 2023年6月3日
00135
redis缓存雪崩、击穿、穿透

大数据 2023年11月15日
0063
Kafka流处理内幕详解

1.概述流处理是一种用来处理无穷数据集的数据处理引擎。通常无穷数据集具有以下几个特点：无穷数据：持续产生的数据，它们通常会被称为流数据。例如：银行信用卡交易订单、股票交易就、游…

大数据 2023年5月28日
0071
leetcode的Hot100系列–3. 无重复字符的最长子串–滑动窗口

可以先想下这两个问题：1、怎样使用滑动窗口？2、如何快速的解决字符查重问题？滑动窗口可以想象一下有两个指针，一个叫begin，一个叫now 这两个指针就指定了当前正在比较无重复…

大数据 2023年6月3日
0078
Ubuntu20.04设置静态IP

前言 Web系统每次断电重启后IP就会发生改变，之前访问链接也会失效，很无耐，但是设置静态IP后就不一样了，每次重启服务器IP都不会改变。本文讲解Linux服务器 Ubuntu2…

大数据 2023年5月27日
00108
Qt5.15 Android使用sqlite3数据库案例

问题描述：最近想着直接在Qt Android里面使用sqlite数据库，但因为Android手机权限问题，碰到了一个最大的问题就是无法连接数据库，操作数据库。使用qrc也不行。 …

大数据 2023年11月10日
0064
Docker从入门到精通（二）——安装Docker

通过上面文章，我们大概知道了什么是Docker，但那都是文字功夫，具体想要理解，还得实操，于是这篇文章带着大家来手动安装Docker。 1、官方教程 https://docs.do…

大数据 2023年5月29日
0084
从零开始在centos搭建博客（二）

本篇为备份篇。因为装的东西不多，所以需要备份的只有mysql和wordpress的文件夹。备份mysql mysql备份命令使用mysqldump命令，格式如下：这是格式 …

大数据 2023年5月27日
0063
Ubuntu 20.04搭建LAMP环境-20220711

一.安装Apache 1.运行以下命令，更新Ubuntu系统内的软件包 sudo apt update 2.运行以下命令，安装Apache sudo apt-get -y inst…

大数据 2023年5月27日
0075
contos7部署环境docker minio,mysql redis nps内网穿透等等

大数据 2023年11月16日
0054
慕课WEB编程技术(第一章.XAMPP的安装和配置)

Apache是一款（）。A.数据库管理系统B.后台编程语言C.Web服务器软件D.Web客户端软件正确答案：C 1 xampp包含的主要组件有（）。A.apache B.mysq…

大数据 2023年5月26日
00108
linux awk工具的使用

awk的由来 awk这个工具的名字是由三个发明者的首字母组合而成。 awk是一个文本处理工具。 awk的版本 AWK:最早AWK是在unix上实现的，属于贝尔实验室的 NAWK:即…

大数据 2023年5月27日
0071
【虚拟机】VMware-Ubuntu-安装与卸载

VMware-Ubuntu 下载Ubuntu镜像文件，下载地址：http://www.ubuntu.com，点击download 下一步，到如下页面，点击Ubuntu Deskto…

大数据 2023年5月27日
0079
使用 Docker 镜像构建 GO 语言环境

我当前使用的系统环境是 CentOS7 ，安装 Docker 使用的命令是 yum install docker*。至于其它系统，可以到百度查找其对应的安装方式。目前来说，直接访…

大数据 2023年5月29日
0089
数据库sqlite3的入门基础操作【python实现】

关于SQL的一些基本概念 1、创建一个数据库放在数据库中的数据总是包含在一个表中。一个数据库可以有1张或者多张表。数据类型说明Null空值，就像python中的noneInte…

大数据 2023年11月10日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

清华大学姚班毕业生发布了KEAR，从数据层面解析NLP的重大突破

大家都在看