jieba源代码分析——四种分词模式（五）

2023年5月31日上午2:56 • 人工智能 • 阅读 81

2021SC@SDUSC
2021SC@SDUSC
在分析完tokenizer类中其他需要被分词使用的函数后，我们正式开始分析四种分词模式直接调用的cut函数的代码。
通常情况下，会直接默认精确模式，但是通过指定参数cut_all=True和use_paddle=True可以选择是否选择全模式或paddle模式。
2021SC@SDUSC
2021SC@SDUSC


    def cut(self, sentence, cut_all=False, HMM=True):
        '''
        The main function that segments an entire sentence that contains
        Chinese characters into seperated words.

        Parameter:
            - sentence: The str(unicode) to be segmented.

            - cut_all: Model type. True for full pattern, False for accurate pattern.

            - HMM: Whether to use the Hidden Markov Model.

        '''

        sentence = strdecode(sentence)

        if cut_all:
            re_han = re_han_cut_all
            re_skip = re_skip_cut_all
        else:
            re_han = re_han_default
            re_skip = re_skip_default

        if cut_all:
            cut_block = self.__cut_all
        elif HMM:
            cut_block = self.__cut_DAG
        else:
            cut_block = self.__cut_DAG_NO_HMM

        blocks = re_han.split(sentence)
        for blk in blocks:
            if not blk:
                continue
            if re_han.match(blk):
                for word in cut_block(blk):
                    yield word
            else:
                tmp = re_skip.split(blk)
                for x in tmp:
                    if re_skip.match(x):
                        yield x
                    elif not cut_all:
                        for xx in x:
                            yield xx
                    else:
                        yield x

根据代码逻辑，我们可以将具体的分词流程概括起来如下:
给定待分词的句子, 使用正则(re_han)获取匹配的中文字符(和英文字符)切分成的短语列表；
利用get_DAG(sentence)函数获得待切分句子的DAG，首先检测(check_initialized)进程是否已经加载词库，若未初始化词库则调用initialize函数进行初始化，initialize中判断有无已经缓存的前缀词典cache_file文件，若有相应的cache文件则直接使用 marshal.load 方法加载前缀词典，若无则通过gen_pfdict对指定的词库dict.txt进行计算生成前缀词典，到jieba进程的初始化工作完成后就调用get_DAG获得句子的DAG；
根据cut_block指定具体的方法(__cut_all,__cut_DAG,__cut_DAG_NO_HMM)对每个短语使用DAG进行分词，如cut_block=__cut_DAG时则使用DAG(查字典)和动态规划, 得到最大概率路径, 对DAG中那些没有在字典中查到的字, 组合成一个新的片段短语, 使用HMM模型进行分词, 也就是作者说的识别新词, 即识别字典外的新词；
使用python的yield 语法生成一个词语生成器, 逐词语返回。
如果使用搜索模式，则需要使用方法cut_for_search，与之相似，不同之处是其在精确模式的基础上，对长词（字数>2）再次切分，提高召回率，适用于搜索引擎分词。
以下附源代码可做对比学习用：

def cut_for_search(self, sentence, HMM=True):
"""
    Finer segmentation for search engines.

"""
    words = self.cut(sentence, HMM=HMM)
    for w in words:
        if len(w) > 2:
            for i in xrange(len(w) - 1):
                gram2 = w[i:i + 2]
                if self.FREQ.get(gram2):
                    yield gram2
        if len(w) > 3:
            for i in xrange(len(w) - 2):
                gram3 = w[i:i + 3]
                if self.FREQ.get(gram3):
                    yield gram3
        yield w

搜索引擎模式的分词方法在一些业务场景是需要的，但是它的进一步切分方法比较粗暴，这里可以修改代码做一些定制化的分词规则，比如切出4字词，切出重要的1字词，某些词不可切等定制化分词规则，以获取自己想要的分词结果。

Original: https://blog.csdn.net/qq_47229425/article/details/122182510
Author: 叮叮咚咚乐呵呵
Title: jieba源代码分析——四种分词模式（五）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548093/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【python打包】利用pyinstaller打包详细教程，一把过

每次写好一个python程序之后，相信大部分人都不是在自己的电脑独自享受吧？感觉每次都会语无伦次，所以就这样乱糟糟的吧。。。今天以一个我自己编译的小程序为例，做一个简单的叙述。…

人工智能 2023年6月24日
00102
使用yolov5-lite对屏幕进行目标检测

目录 1. 修改检测网络 1.1 删除int8量化，使用摄像头等用不到的内容 1. 2 修改用到的参数 1.3 设置鼠标移动 1.4 将mian函数改为预测函数 2. 实现屏幕检测…

人工智能 2023年7月9日
0091
Python截取图片区域并保存03

提供一张图片，如何截剪其中的某一部分的区域？我的思路是分两步：找到要裁剪区域的坐标根据图片坐标进行剪切，并保存 import cv2 from PIL import Imag…

人工智能 2023年5月28日
0082
pytorch:tensor与numpy转换&.cpu.numpy()和.numpy()&torch.from_numpyVStorch.Tensor

1.tensor to numpy 1.1代码 .numpy() import torch a0 = torch.ones(6) print(a0) 运行结果：tensor([1….

人工智能 2023年7月24日
0070
【NLP Tool — NLTK】NLTK进行英文情感分析、分词、分句、词性标注（附代码）

NLP Tool 系列文章 NLP–Jieba中文文本–关键词提取、自定义词典、分词、词性标注 NLP–NLTK英文文本–情感分析、…

人工智能 2023年5月27日
0079
目标检测学习笔记11——FPN学习与论文解读

文章目录一、引言二、结构对比三、实现细节四、实验结果一、引言论文链接：https://arxiv.org/abs/1612.03144 FPN：Feature Pyra…

人工智能 2023年7月12日
0058
pytorch主要模块

机器学习基本流程如下·：深度学习基本流程如下：基本参数设置 import os import numpy as np import torch import torch.nn …

人工智能 2023年7月24日
0070
Marko

问题描述问题：Marko想要计算一组数据的平均值。算法原理平均值，也被称为算术平均值或者平均数，是一组数据中所有数据之和除以数据的数量。算法原理如下： $$\text{平均数…

人工智能 2024年1月3日
0052
基于Ｄ－Ｓ证据理论的数据融合算法的研究

D-S 证据理论在信息融合技术领域中，信息融合算法是研巧的核也技术。目前的主流的信息融合方法大致可Ｗ分为两大类：概率统计类方法和人工智能方法。其中概率统计类方法主要流行的数学工…

人工智能 2023年6月16日
0084
长话短说：学习网络安全自学好还是报培训班？

无论你是大学生还是在职人员，想学网络安全时，都会面临两个选择，自学或者报班。报班通常太费钱，时间又不自由；自学又不知道如何下手，担心自己坚持不下来。怎么办？我们先分析一下自学和培…

人工智能 2023年6月30日
0087
TensorFlow中的循环神经网络是如何实现的

问题：TensorFlow中的循环神经网络（Recurrent Neural Network, RNN）是如何实现的？循环神经网络是一种专门用于处理序列数据的神经网络模型。它在计…

人工智能 2023年12月31日
0056
全新conda环境安装transformers全流程记录

由于需要安装huggingface的transformers库，但是在我windows的一个已经安装好pytorch和tensorflow的环境中安装，总是出现各种问题。因此在实验…

人工智能 2023年5月23日
00135
Linux系统中如何使用tslib库实现触摸功能

大家好，今天主要和大家聊一聊，如何使用tslib库来完成对应的功能。目录第一：tslib库基本简介第二：tslib安装目录下的文件夹介绍第三：在开发板上测试tslib库第…

人工智能 2023年6月29日
0077
Faster RCNN 超详细入门 01-准备篇-RCNN,SPPnet,Fast RCNN,RoI Pooling

文章目录 Faster RCNN学习目标研究背景 * 图像处理三大任务 RCNN SPP net （Spatial Pyramid Pooling） – 1.特征 2…

人工智能 2023年7月10日
0062
语音识别存在的问题_语音识别实际问题：（六）说话人自适应

6.1 什么是说话人自适应故事发生在2018年10月，一位印度学者来实验室访问，做了一场关于”如何检测假冒说话人”的报告。这位仁兄讲得神采飞扬，底下的学生…

人工智能 2023年5月25日
0099
Swim-Transform V2：用于目标检测，视觉大模型不再是难题（附源代码）

关注并星标从此不迷路计算机视觉研究院公众号ID｜ ComputerVisionGzq 学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/…

人工智能 2023年5月28日
00152

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

jieba源代码分析——四种分词模式（五）

大家都在看