带你了解NLP的词嵌入

摘要:今天带领大家学习自然语言处理中的词嵌入的内容。

本文分享自华为云社区《【MindSpore易点通】深度学习系列-词嵌入》,作者:Skytier。

1 特征表示

在自然语言处理中,有一个很关键的概念是词嵌入,这是语言表示的一种方式,可以让算法自动的理解一些同类别的词,比如苹果、橘子,比如袜子、手套。

one-hot向量

带你了解NLP的词嵌入

比如我们通常会说:”I want a glass of orange juice.”但如果算法并不知道apple和orange的类似性(这两个one-hot向量的内积是0),那么当其遇到”I want a glass of apple __”时,并不知道这里也应该填写 juice。

如果用特征化的表示来表示库里的每个词,学习它们的特征或者数值。

带你了解NLP的词嵌入带你了解NLP的词嵌入带你了解NLP的词嵌入

这样我们就可以选用t-SNE算法来对特征向量可视化,通过观察这种词嵌入的表示方法,最终同类别的单词会聚集在一块,词嵌入算法对于相近的概念,学到的特征也比较类似。

2 词嵌入的使用

参考案例——句中找人名:Jack Li is a teacher.

带你了解NLP的词嵌入

使用词嵌入作为输入训练好的模型,如果看到一个新的输入:”Jack Li is a farmer.”因为知道teacher和farmer很相近,那么算法很容易就知道Jack Li是一个人的名字。同时,如果遇到不太常见的单词,比如:Jack Li is a cultivator.(假设训练集里没有cultivator这个单词),但是词嵌入的算法通过考察大量的无标签文本,会发现farmer、teacher、cultivator相近,把它们都聚集在一块。这样一来即使只有一个很小的训练集,但是使用迁移学习,把从大量的无标签文本中学习到的知识迁移到一个任务中——比如少量标记的训练数据集的命名实体识别任务。

如何用词嵌入做迁移学习的步骤:

1.先从大量的文本集中学习词嵌入。

2.用这些词嵌入模型把它迁移到新的只有少量标注训练集的任务中,比如说用300维的词嵌入来表示单词,这样就可以用更低维度的特征向量代替原来的10000维的one-hot向量。

3.当在新的任务上训练模型时,只有少量的标记数据集,可以选择不进行微调,而是用新的数据调整词嵌入。

当你的任务的训练集相对较小时,词嵌入的作用最明显,所以它广泛用于NLP领域,但是其对于一些语言模型和机器翻译并不适用。

3 类比推理

词嵌入有一个非常强大的特性就是可以帮助实现类比推理。比如从性别这个特征上来说,如果man应该对应woman,那么算法可以推导出king对应queen。

带你了解NLP的词嵌入带你了解NLP的词嵌入带你了解NLP的词嵌入带你了解NLP的词嵌入

最常用的相似度函数是余弦相似度,假如在向量u和v之间定义相似度:

带你了解NLP的词嵌入

如果u和v非常相似,那么它们的内积将会很大,那么该式就是u和v的夹角Φ的余弦值,实际就是计算两向量夹角Φ角的余弦。夹角为0度时,余弦相似度就是1,当夹角是90度角时余弦相似度就是0,当夹角是180度时相似度等于-1,因此角度越小,两个向量越相似。

带你了解NLP的词嵌入

点击关注,第一时间了解华为云新鲜技术~

Original: https://www.cnblogs.com/huaweiyun/p/16880625.html
Author: 华为云开发者联盟
Title: 带你了解NLP的词嵌入

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/807080/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • Scrapy入门

    目录 前言 一、Scrapy是什么? 二、架构图 三、安装 四、使用scrapy 1.创建scrapy项目 2.新建一个爬虫程序 3.运行爬虫程序 前言 本教程适用于有python…

    Python 2023年10月3日
    054
  • 11、Pytest之@pytest.mark.parametrize使用详解

    以下内容纯属个人理解,如有不足,还请指正,转载请注明出处,喜欢请动动小指头点赞评论哦(▽)! @pytest.mark.parametrize使用 * – + * 前言…

    Python 2023年9月11日
    048
  • Pandas、Numpy 性能优化秘籍(全)

    pandas、numpy是Python数据科学中非常常用的库,numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。pandas是基于numpy的数据…

    Python 2023年8月27日
    038
  • 10个优秀的Python库,实用且有趣

    哈喽兄弟们,今天分享10个优秀的Python库,超级实用! 为什么这么多人选择学习python?首先,python是一门全场景编程语言,对于初学编程的人而言,选择一门全场景编程语言…

    Python 2023年10月30日
    054
  • Python随机产生的10个数字由10~100之间的整数,代码示例以下操作:

    python语言随机产生10个10~100之间的整数,实现以下操作:1.将十个数存入列表,输出列表原始值;2.将列表进行递增排序并输出;3.将列表反序(即按照递减排序)并输出;4….

    Python 2023年8月2日
    0104
  • sqlserver字符串转日期_关于日期特征,你想知道操作都在这儿

    来源:SAMshare 今日锦囊 特征锦囊:关于日期特征,你想知道操作都在这儿~ ? Index 字符串转日期 日期转字符串 13位的时间戳转 日期格式str 13位的时间戳转da…

    Python 2023年8月16日
    055
  • 用Python写一个新年倒计时

    ❤️‍🔥前言:春回大地,万象更新!春在招手,朋友们,我们一起互相祝愿吧!一年更比一年好。时光苒,岁月如梭。踏着新年欢快的钟声,我们又迎来了这个期待已久的日子过去的一年,我们有泪水也…

    Python 2023年9月5日
    044
  • 王者100星很厉害吗?来试试不一样的版本,王者拼图。我才是最强的。

    前文 灼灼岁序,恰似晨露。 2021年只余下短暂的尾巴。 初雪未至,而寒冬早已来临。 年底即将到来,可爱的你们,准备好了吗? 🍐压力不可谓不大,一年又过去了,准备👌迎接春节了嘛? …

    Python 2023年9月24日
    042
  • SQL分层查询

    数据中可能存在层次关系,本文章主要介绍查询这种关系的实例。会大量使用递归式 CTE。 Emps 表中 EName 员工和 MGR 上级之间的关系如下: 每个上级也同样是员工,主管和…

    Python 2023年10月17日
    028
  • Python 爬虫之 Scrapy(带例子)macOS 环境

    Python 爬虫之 Scrapy(带例子 macOS 环境) 1、概念 2、工作流程 * 2.1 基本爬虫流程 2.2 基本爬虫模块关系 2.3 Scrapy工作流程 3、Scr…

    Python 2023年10月2日
    040
  • IIS中间件渗透总结

    IIS中间件渗透总结 简介: IIS(inernet information services)互联网信息服务是 Microsoft 公司提供的可扩展 web 服务器,支持 HTT…

    Python 2023年8月4日
    066
  • 数据库原理及MySQL应用 | 多表查询

    在实际应用中,多表查询应用相对较多,根据多表之间的相关列,可以从多个表中检索出所需数据。 在实际应用中,单表查询应用范围相对较少,因为用户需要的数据往往存储在多个不同的表中,这时需…

    Python 2023年9月15日
    036
  • 利用Numpy计算行列式

    抵扣说明: 1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。 Original: https://blo…

    Python 2023年8月24日
    044
  • 用python做一个“船新”的贪吃蛇

    欢迎加入我们卧虎藏龙的python讨论qq群:729683466 ● 导 语 ● 很久以前 大概还是公众号刚起步的时候 我们做过一个贪吃蛇 由于当时的技术所限 贪吃蛇比较简陋 没有…

    Python 2023年9月25日
    041
  • 拼凑硬币问题

    原文地址: 问题描述 现有 n1 + n2 种面值的硬币,其中前 n1 种为普通币,可以取任意枚,后 n2 种为纪念币, 每种最多只能取一枚(可能有重复值),每种硬币有一个面值,问…

    Python 2023年10月16日
    031
  • 【python】Flask之路由

    一、关于路由 所谓路由,就是处理请求URL和函数之间关系的程序 根据例子看源码 from flask import Flask app = Flask(__name__) @app…

    Python 2023年8月3日
    050
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球