初学NLP的相关概念

2023年6月1日上午11:43 • 人工智能 • 阅读 96

机器学习：从大量的个样本

中，寻找可以较好预测未见过

所对应

的函数

。

实例：在我们日常生活的学习中，大量的

就是历年真题，

是题目，而

是对应的正确答案。高考时将会遇到的

往往是我们没见过的题目，希望可以通过做题训练出来的解题方法

来求解出正确的

。

如果可以见到所有的情况，那么只需要记住所有的所对应的就可以完美预测。但正如高考无法见到所有类型的题一样，我们无法见到所有的情况。这意味着，

机器学习需要从有限的例子中寻找到合理的

。

高考有两个方向提高分数（机器学习从俩个方面提高预测能力）：

方向一：训练更多的数据：题海战术。
方向二：加入先验知识：尽可能排除不必要的可能性

训练神经网络：训练神经网络就是要学习每个连接线的权重。

Word embedding（以下介绍几种算法）：

现有机器学习方法往往无法直接处理文本数据，因此需要找到合适的方法，将文本数据转换为数值型数据，由此引出了Word Embedding的概念。

Word Embedding是NLP语言模型中对单词处理的一种方式，这种技术会把单词或者短语映射到一个n维的数值化向量，核心就是一种映射关系，主要分为两种方式：

one hot encoding：

对语料库中的每个单词都用一个n维的one hot向量表示，其中n为语料库中不同单词的个数。这种方法的原理是把语料库中的不同单词排成一列，对于单词A，它在语料库中的位置为k，则它的向量表示为第k位为1，其余为0的n维向量。比如：

优点：方法简单易行

缺点：存在语料库太长导致单词向量十分冗长的缺点，同时不同的单词之间没有明显的联系。

word2vec：（word2vec是一个工具，背后的模型是CBOW或者Skip-gram ）

可以理解为一种对单词one hot向量的一种降维处理，通过一种映射关系将一个n维的one hot向量转化为一个m维的空间实数向量（可以理解为原来坐标轴上的点被压缩嵌入到一个更加紧凑的空间内），由于onehot向量在矩阵乘法的特殊性，我们得到的表示映射关系的n*m的矩阵中的每k行，其实就表示语料库中的第k个单词。

采用这种空间压缩降维的处理方式对语料库中的词进行训练，主要有两种方式：

1.skip-gram神经网络训练模型：

一种隐层为1的全连接神经网络，且隐层没有激活函数，输出层采用softmax分类器输出概率。输入为一个单词，输出为每个单词是输入单词的上下文的概率，真实值为输入单词的上下文中的某个单词。

主要通过skip-window控制，它代表着我们从当前input word的一侧（左边或右边）选取词的数量。假如我们有一个句子”The dog barked at the mailman”，我们选取”dog”作为input word，那么我们最终获得窗口中的词（包括input word在内）就是[‘The’, ‘dog’，’barked’, ‘at’]。另一个参数叫num_skips，它代表着我们从整个窗口中选取多少个不同的词作为我们的output word，当skip_window=2，num_skips=2时，我们将会得到两组 (input word, output word) 形式的训练数据，即 (‘dog’, ‘barked’)，(‘dog’, ‘the’)。

2.CBOW：原理与skip-gram类似，但是输入为上下文信息，输出为信息中的中心词。

word2vec的优点：表示单词的向量维度缩减很大，有益于后续RNN训练的收敛性。如果某两个单词的上下文很相似，则计算出来的表示这两个单词的特征向量会很相似，在空间中表示相近的物理位置，所以可以用两个单词生成的向量的长度表示其含义的远近。除了词向量的大小之外，词向量的方向还表示一种含义，若某两个词向量的方向相同，则其表示的含义也相近。如下图所示：

GLoVe
Transformer Architecture
Bert

Word Embedding的应用：

现今流行的Word Embedding算法携带了语义信息且维度经过压缩便于运算，因此有了很多用武之地，例如：

计算相似度，比如man和woman的相似度比man和apple的相似度高；
在一组单词中找出与众不同的一个，例如在如下词汇列表中：[dog, cat, chicken, boy]，利用词向量可以识别出boy和其他三个词不是一类；
直接进行词的运算，例如经典的：woman+king-man =queen；
由于携带了语义信息，还可以计算一段文字出现的可能性，也就是说，这段文字是否通顺。

Original: https://blog.csdn.net/qq_44790051/article/details/124008345
Author: self-discipline
Title: 初学NLP的相关概念

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/556677/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于特征向量的主成分分析(PCA)原理解释

引子首先看一下如何对一维向量的进行分解，我们知道，一个 n n n 维向量 a a a 可以由 n n n 个正交向量线性 v i , i = 1 , 2 , . . . , n…

人工智能 2023年6月20日
0086
一文读懂PCL可视化，CloudView类、PCLVisualizer可视化类、PCLPlotter可视化方法

官网链接：Point Cloud Library (PCL): Module visualization参考博客：PCL可视化一、PCL可视化概述构建pcl_visualiza…

人工智能 2023年6月2日
00114
声音处理之-梅尔频率倒谱系数(MFCC)

声音处理之-梅尔频率倒谱系数(MFCC) 梅尔（Mel）频率分析在语音识别（SpeechRecognition）和话者识别（SpeakerRecognition）方面，最常用到的…

人工智能 2023年5月25日
0085
【PyTorch深度学习项目实战100例】—— 基于pytorch使用LSTM进行谣言检测 | 第8例

; 前言大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集…

人工智能 2023年7月28日
0077
Anaconda安装torch

这装环境真是一个麻烦事儿，每次都要花好多时间，记录一下。正文：我选择的是：Anaconda3-5.2.0-Windows-x86_64.exe Anaconda的版本无所谓没必…

人工智能 2023年7月21日
0058
用Python一晚上爬取P站几万张图片的详细教程

使用Python的requests加re库爬取P站图片并下载，作者下载了47129页爬取到2万多站图片。爬取使用时间20小时。总共可以爬几十万多页的，但是太多了，博主只爬取了4万页…

人工智能 2023年7月16日
0077
KNN算法——kd-tree、KNN莺尾花分类sklearn实现实例

KNN算法——kd-tree、KNN莺尾花分类sklearn实现实例 * – KNN算法——kd-tree、KNN莺尾花分类sklearn实现实例* 1、kd-tree…

人工智能 2023年7月1日
0066
Yolov5 模型的原理及环境配置

本文首先介绍了yolov5 是什么，有什么用，以及yolo 模型的原理。再讲解了yolov5 模型的下载，及环境配置的一些问题。目录一、Yolov5 是什么？二、Yolov …

人工智能 2023年6月23日
0088
基于Python的语音识别控制系统

基于Python的语音识别控制系统 2021.12.03：本人是一名大三学生，学习人工智能的时候老师发布了一个语音识别控制图形移动的任务，参考了许多内容，写了一个小的程序，写出来分…

人工智能 2023年5月23日
0075
Pandas的DataFrame数据类型

纵轴表示不同索引axis=0,横轴表示不同列axis=1 DataFrame类型创建 1.从二维ndarray对象创建 1 import pandas as pd 2 3 impo…

人工智能 2023年6月2日
00123
SpringBoot整合JPA+SQLite

文章目录背景介绍 SQLite安装以及生成db库创建SpringBoot项目 * POM文件所需要的依赖配置数据源配置JAP 测试效果 * 创建pojo类创建Reposi…

人工智能 2023年6月26日
00157
在 OpenCV python 中绘制 Aruco 标记

先决条件：你必须安装 Python 和 OpenCV Contrib 你必须安装 numpy 库你必须对 Python 语言及其基本库有基本的了解。如果你想实时识别 Aruc…

人工智能 2023年7月20日
0062
如何使用PyTorch进行目标检测任务

如何使用PyTorch进行目标检测任务在本文中，我们将详细介绍如何使用PyTorch进行目标检测任务。我们将依次介绍目标检测算法的原理、公式推导、计算步骤以及给出复杂的Pytho…

人工智能 2024年1月2日
0057
【PyTorch深度学习项目实战100例】—— 使用PyTorch实现验证码识别 | 第4例

文章目录前言一、生成验证码图片 * 1.1 随机生成验证码文本串 1.2 保存验证码图片及其标签二、卷积模型训练 * 2.1 自定义数据集 2.2 自定义网络 2.3 自定义…

人工智能 2023年6月16日
00107
半监督学习算法中的领域自适应是什么

什么是领域自适应？领域自适应(Domain Adaptation)是一种半监督学习(半监督学习是指由少量标记样本和大量无标记样本共同构成的弱监督学习方式)的技术，用于解决由不同领…

人工智能 2024年1月1日
0047
Python手撸机器学习系列（十五）：简单神经网络

目录神经网络 * 1.简单算法推导 2.简单代码实现 3.矩阵形式优化 4.矩阵形式代码实现神经网络 1.简单算法推导搭建一个将二维平面坐标点分开的简单神经网络，输入维度为2…

人工智能 2023年7月14日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

初学NLP的相关概念

大家都在看