【NLP学习】中文分词

2023年5月31日上午2:17 • 人工智能 • 阅读 76

word segmentation

1.概述
2.分词方法
*
(1)基于词典的机械分词法
–
(2)基于统计的分词法
–
- ①基于互信息的分词方法
- ②最大概率分词方法
3.分词粒度
4.中文分词工具
5.总结

1.概述

*&#x25C6; &#x4F55;&#x4E3A;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#xFF1F;*

 &#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x6307;&#x7684;&#x662F;&#x5C06;&#x4E00;&#x4E2A;&#x6C49;&#x5B57;&#x5E8F;&#x5217;&#x5207;&#x5206;&#x6210;&#x4E00;&#x4E2A;&#x4E2A;&#x5355;&#x72EC;&#x7684;&#x8BCD;&#x3002;
   &#x53E5;&#x5B50;1&#xFF1A;&#x5317;&#x4EAC;&#x4EBA;&#x5728;&#x7EBD;&#x7EA6;
   &#x5206;&#x8BCD;&#x7ED3;&#x679C;&#xFF1A;**&#x5317;&#x4EAC;&#x4EBA;**/**&#x5728;**/**&#x7EBD;&#x7EA6;**

*&#x25C6; &#x51FA;&#x73B0;&#x5206;&#x8BCD;&#x6B67;&#x4E49;&#x600E;&#x4E48;&#x529E;&#xFF1F;*
     &#x53E5;&#x5B50;2&#xFF1A;&#x5730;&#x9762;&#x79EF;&#x4E86;&#x539A;&#x539A;&#x7684;&#x96EA;
&#x5206;&#x8BCD;&#x7ED3;&#x679C;1&#xFF1A;**&#x5730;&#x9762;**/**&#x79EF;**/**&#x4E86;**/**&#x539A;&#x539A;&#x7684;**/**&#x96EA;**
&#x5206;&#x8BCD;&#x7ED3;&#x679C;2&#xFF1A;**&#x5730;**/**&#x9762;&#x79EF;**/**&#x4E86;**/**&#x539A;&#x539A;&#x7684;**/**&#x96EA;**

&#x7531;&#x4EBA;&#x6765;&#x5224;&#x65AD;&#xFF0C;&#x7ED3;&#x679C;1&#x662F;&#x5206;&#x8BCD;&#x6B63;&#x786E;&#x7684;&#xFF0C;&#x4F46;&#x662F;&#x5BF9;&#x4E8E;&#x8BA1;&#x7B97;&#x673A;&#x6765;&#x8BF4;&#xFF0C;&#x4E24;&#x8005;&#x90FD;&#x6709;&#x53EF;&#x80FD;&#xFF0C;&#x90A3;&#x8BE5;&#x5982;&#x4F55;&#x5206;&#x8BCD;&#xFF1F;

2.分词方法

(1)基于词典的机械分词法

基于词典匹配的机械分词方法，主要依据词典的信息，根据一定的规则将输入的字符串与词典中的词逐条匹配，匹配成功则进行相应的切分处理。

①正向最大匹配（FMM）

假设自动分词词典中最长的词所含字数为M，则将字符串前M个字作为待匹配字符串，在词典中进行查找，如果该M个字与词典中的某个词匹配成功，则将其切分出来；若未匹配成功，则将最后一个字从待匹配字符串中删除，再将待匹配字符串与词典进行匹配，以此类推，直到匹配成功为止。

  *举例*
输入句子：S1="计算语言学课程有意思"
定义：MaxLen=5；S2=""；J="/"；
词表：计算语言学，课程，意思，有意，思......；

原始句子：计算语言学课程有意思
第1次分词：**计算语言学**/课程有意思
第2次分词：**计算语言学**/**课程**/有意思
第3次分词：**计算语言学**/**课程**/**有意**/思
第4次分词：**计算语言学**/**课程**/**有意**/**思**

②逆向最大匹配（BMM）

从句子的右边取候选子串，匹配不成功时去掉候选子串最前面的一个字，其他规则与FMM相同。

*举例*
输入句子：S1="计算语言学课程有意思"
定义：MaxLen=5；S2=""；J="/"；
词表：计算语言学，课程，意思，有意，思......；

原始句子：计算语言学课程有意思
第1次分词：计算语言学课程有/**意思**
第2次分词：计算语言学课程/**有**/**意思**
第3次分词：计算语言学/**课程**/**有**/**意思**
第4次分词：**计算语言学**/**课程**/**有**/**意思**

③双向最大匹配

先根据标点对文档进行粗切分，把文档分解成若干个句子，然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分。如果两种分词方法得到的匹配结果相同，则认为分词正确，否则，按最小分词集处理。如果两种方法切分的次数一样时，则采用一些规则处理。

正向分词结果：计算语言学/课程/有意/*思*
逆向分词结果：**计算语言学**/**课程**/**有**/**意思**

(2)基于统计的分词法

统计分词以概率论为理论基础，将汉字上下文中汉字组合串的出现抽象成随机过程，随机过程的参数需要通过大规模语料库训练得到。

①基于互信息的分词方法

◆ 方法
根据字与字同时出现的概率大小来判断是否为一个词，几个相邻的字同时出现的次数越多，则其构成词的概率越大。
◆ 公式
对于字符串x和字符串y，计算其互信息值 M𝐼(𝑥,𝑦)，用互信值得大小判断x和y之间的结合程度。M𝐼(𝑥,𝑦)= log2⁡(𝑝(𝑥, 𝑦)/𝑝(𝑥,𝑦) )
如果M𝐼(𝑥,𝑦)>0，表示x和y会同时出现，MI值越大，共同出现程度越大；
如果M𝐼(𝑥,𝑦)=0，表示x和y是独立出现；
如果M𝐼(𝑥,𝑦)

Original: https://blog.csdn.net/weixin_47936614/article/details/123380857
Author: CS_木成河
Title: 【NLP学习】中文分词

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/547901/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Prompt-Learning

Prompt-Learning Prompt Learning(提示学习)是指对输入文本信息按照特定模板进行处理，把任务重构成一个更能充分利用预训练语言模型处理的形式。Prompt…

人工智能 2023年7月1日
0065
【机器学习】04. 神经网络模型 MLPClassifier分类算法与MLPRegressor回归算法（代码注释，思路推导）

目录 * – 资源下载* 1. MLPClassifier分类算法* – 1.a 读取数据并进行归一化 – 1.b MLPClassifier多…

人工智能 2023年6月15日
0071
torch的交叉熵损失函数(cross_entropy)计算(含python代码)

首先，torch的交叉熵损失函数调用方式为： torch.nn.functional.cross_entropy(input, target, weight=None, size_…

人工智能 2023年7月21日
0066
苹果电脑快捷键

苹果电脑快捷键原因：遇到mac电脑系统快捷键不熟练🍎总结了一些日常使用的mac系统的快捷键 ❤️【mac电脑截图】command+shift+3 全屏截图 Command + s…

人工智能 2023年6月26日
0081
PaddleNLP基于ERNIR3.0文本分类以CAIL2018-SMALL数据集罪名预测任务为例【多标签】

NLP专栏简介：数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等专栏详细介绍：NLP专栏简介：数据增强、智能标注…

人工智能 2023年7月1日
0083
机器学习基础篇（4）滤波器

目录 1.卷积 1.1.何为卷积 1.2.卷积步长 1.3卷积填充 padding 1.4卷积大小 1.6卷积的API 1.7卷积的意义 2.滤波 2.1.方盒滤波与均值滤波 2….

人工智能 2023年7月20日
0067
【canny边缘检测】canny边缘检测原理及代码详解

文章目录前言 canny边缘检测算法主要流程一、高斯模糊二、图像梯度计算三、非极大值抑制四、双阈值边界跟踪前言本文通过介绍canny边缘检测原理与代码解析，希望能让大…

人工智能 2023年6月17日
0046
Mask RCNN 网络详解

1.Mask RCNN介绍 Mask R-CNN论文地址：https://arxiv.org/abs/1703.06870,论文于2017年发表在 ICCV上，获得了2017年 I…

人工智能 2023年7月11日
0084
Python空间分析| 03 利用Python进行地理加权回归（GWR）

地理加权回归（GWR） GWR本质上是一种局部加权回归模型，GWR根据每个空间对象的周围信息，逐个对象建立起回归方程，即每个对象都有自己的回归方程，可用于归因或者对未来的预测。GW…

人工智能 2023年6月18日
0076
2022华数杯B题论文思路分析+完整代码（水下机器人组装计划）

文章目录一、题目二、问题分析三、模型假设四、符号说明五、问题一模型的建立与求解 * 5.1 问题一模型的建立 – 5.1.1 小组件组装大组件 5.1.2 小…

人工智能 2023年7月27日
0062
带你玩转 3D 检测和分割（二）：核心组件分析之坐标系和 Box

我们在前文玩转 MMDetection3D （一）中介绍了整个框架的大致流程，从这篇文章开始我们将会带来 MMDetection3D 中各种核心组件的解析，而在 3D 检测中最重…

人工智能 2023年6月2日
0065
智能车图像处理(一)阈值处理

博主使用的逐飞家的总钻风摄像头，这是一款灰度摄像头，配合逐飞的底层库，可以很快的上手。在我当时拿到总钻风的第一时间，就用逐飞的底层库，配合tft显示屏，显示简单的图像，虽然简单，当…

人工智能 2023年7月18日
0051
如何使用pandas的join来比对两个dataframe的重合度，交集

如何使用pandas的join来比对两个dataframe的重合度，交集如何理解pandas的join函数 import pandas as pd columns = [‘gen…

人工智能 2023年7月8日
0043
Python疫情数据获取与可视化展示

使用Python获取疫情数据，并使用pyecharts可视化，绘制国内、国际日增长人数地图，matplotlib绘制方寸图。同时代码是在notebook中完成，随笔记录所的所学，…

人工智能 2023年7月5日
0094
一日一技：Python + Excel——飞速处理数据分析与处理

Python 可以为 Excel 做些什么？如果你经历过工作簿意外崩溃、计算出错，并且需要执行枯燥的手动操作，那么肯定想知道这个问题的答案。这本书是为工作表软件用户准备的一本全面又…

人工智能 2023年7月15日
0064
憨批的语义分割重制版10——Tensorflow2 搭建自己的DeeplabV3+语义分割平台

憨批的语义分割重制版10——Tensorflow2 搭建自己的DeeplabV3+语义分割平台注意事项学习前言什么是DeeplabV3+模型代码下载 DeeplabV3+实…

人工智能 2023年5月25日
0072

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30