jieba分词功能函数解析

2023年5月28日上午11:57 • 大数据 • 阅读 73

2021SC@SDUSC jieba分词的主要功能有如下几种：

jieba.cut：该方法接受三个输入参数：需要分词的字符串; cut_all 参数用来控制是否采用全模式；HMM参数用来控制是否适用HMM模型
”’
jieba分词主函数，返回generator
参数:
sentence: 待切分文本.
cut_all: 切分模式. True 全模式, False 精确模式.
HMM: 是否使用隐式马尔科夫.

”’
可以看出jieba.cut返回一个可迭代的generator，可以使用 for 循环来获得分词后得到的每一个词语(也可以用jieba.lcut直接返回分词list结果)。

cut_all=True, HMM=_对应于全模式，即所有在词典中出现的词都会被切分出来，实现函数为__cut_all；
cut_all=False, HMM=False对应于精确模式且不使用HMM；按Unigram语法模型找出联合概率最大的分词组合，实现函数为__cut_DAG；
cut_all=False, HMM=True对应于精确模式且使用HMM；在联合概率最大的分词组合的基础上，HMM识别未登录词，实现函数为__cut_DAG_NO_HMM。


    def cut(self, sentence, cut_all=False, HMM=True, use_paddle=False):
"""
        The main function that segments an entire sentence that contains
        Chinese characters into separated words.

        Parameter:
            - sentence: The str(unicode) to be segmented.

            - cut_all: Model type. True for full pattern, False for accurate pattern.

            - HMM: Whether to use the Hidden Markov Model.

"""
        is_paddle_installed = check_paddle_install['is_paddle_installed']
        sentence = strdecode(sentence)
        if use_paddle and is_paddle_installed:

            if sentence is None or len(sentence) == 0:
                return
            import jieba.lac_small.predict as predict
            results = predict.get_sent(sentence)
            for sent in results:
                if sent is None:
                    continue
                yield sent
            return
        re_han = re_han_default
        re_skip = re_skip_default
        if cut_all:
            cut_block = self.__cut_all
        elif HMM:
            cut_block = self.__cut_DAG
        else:
            cut_block = self.__cut_DAG_NO_HMM
        blocks = re_han.split(sentence)
        for blk in blocks:
            if not blk:
                continue
            if re_han.match(blk):
                for word in cut_block(blk):
                    yield word
            else:
                tmp = re_skip.split(blk)
                for x in tmp:
                    if re_skip.match(x):
                        yield x
                    elif not cut_all:
                        for xx in x:
                            yield xx
                    else:
                        yield x

jieba.cut_for_search：该方法接受两个参数：需要分词的字符串；是否使用HMM模型，该方法适用于搜索引擎构建倒排索引的分词，粒度比较细。
从下面的代码中，可以看出：对于长度大于2的词，依次循环滚动取出在前缀词典中的二元子词；对于长度大于3的词，依次循环滚动取出在前缀词典中的三元子词。


    def cut_for_search(self, sentence, HMM=True):
"""
        Finer segmentation for search engines.

"""
        words = self.cut(sentence, HMM=HMM)
        for w in words:
            if len(w) > 2:
                for i in xrange(len(w) - 1):
                    gram2 = w[i:i + 2]
                    if self.FREQ.get(gram2):
                        yield gram2
            if len(w) > 3:
                for i in xrange(len(w) - 2):
                    gram3 = w[i:i + 3]
                    if self.FREQ.get(gram3):
                        yield gram3
            yield w

Original: https://blog.csdn.net/Claire_Mk/article/details/121462812
Author: Claire_Mk
Title: jieba分词功能函数解析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531367/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

负载均衡之LVS的三种模式

模式一：D-NAT模式原理：此模式类似NAT网络中，所以此网络内主机发到互联网上的数据包的源目的IP都是NAT路由的IP，在NAT路由上做了IP替换。把客户端发来的数据的IP头…

大数据 2023年6月3日
0058
Linux快速入门(二)Linux基础操作

绝对路径和相对路径 Linux中绝对路径指从根目录开始，即 /目录。相对路径是指相对于当前路径开始，即 ./ 目录， ../表示上一级目录路径。 pwd pwd命令用于查看当前所在…

大数据 2023年5月26日
0075
从Hadoop框架来入门学习数据仓库概念

大数据 2023年11月14日
0030
Hive 搭建（将 MySQL 作为元数据库）

Hive 搭建 * – 一、安装 MySQL – + * 1.卸载当前系统自带的 MySQL * 2.获取 MySQL 下载源 * 3.安装 MySQL 源…

大数据 2023年11月12日
0064
docker安装

安装环境依赖包 yum install yum-utils device-mapper-persistent-data lvm2 其中 yum utils 提供了 yum-conf…

大数据 2023年5月29日
0055
用机器学习的思路训练单词的TFIDF值

之前用统计的方法（TFIDF理解和应用）做了一个计算单词 TFIDF的任务，这次用机器学习的思路。 1 思路 1.1 随机初始化随机初始化每个词的 TDIDF值，全部分别存到 w…

大数据 2023年5月28日
0091
linux命令_rpm

安装一个rpm包： rpm -ivh:{i 安装软件包 ,v 显示附加信息, h 安装时输出哈希标记(#”)} 如果遇到了错误： [root@localhost Hon…

大数据 2023年5月27日
0055
经典文献翻译：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

原文获取： https://arxiv.org/pdf/1810.04805.pdf&usg=ALkJrhhzxlCL6yTht2BRmH9atgvKFxHsxQ 目录 A…

大数据 2023年5月28日
0074
MQ限流应用

业务背景：系统中需要发送邮件给用户！实现是javamail发送问题：某天，发现有些用户并未收到邮件排查： 1，登录发件箱，发现如下图：大量邮件发送失败，大部分是发送频率过高导致邮…

大数据 2023年6月3日
0092
Spring 中使用 @Scheduled 创建定时任务

一、定时任务触发条件 1、在 Application 启动类上添加：@EnableScheduling 2、含定时方法的类上添加注解：@Component，该注解将定时任务类纳入 …

大数据 2023年6月3日
00116
二分查找

二分查找二分查找也称折半查找（Binary Search），它是一种效率较高的查找方法。但是，折半查找要求线性表必须采用顺序存储结构，而且表中元素按关键字有序排列。算法原理： …

大数据 2023年6月3日
0097
一篇文章搞定Redis Stream

大数据 2023年11月15日
0036
预训练模型简介和使用方法

自回归语言模型（Autoregressive LM）在ELMO／BERT出来之前，大家通常讲的语言模型其实是根据上文内容预测下一个可能跟随的单词，就是常说的自左向右的语言模型任务…

大数据 2023年5月28日
0078
NO.3 Linux-笔记

404. 抱歉，您访问的资源不存在。可能是URL不正确，或者对应的内容已经被删除，或者处于隐私状态。 [En] It may be that the URL is incorre…

大数据 2023年5月27日
0064
Flink常用API之转换算子的union算子

Flink常用API之转换算子的union算子原创 wx62be9d88ce2942022-07-01 17:43:46博主文章分类：大数据 ©著作权文章标签 flink sc…

大数据 2023年5月25日
00120
亿愿数据库文章中医中药知识宝库阅读器

软件名称：亿愿数据库文章中医中药知识宝库阅读器 Original: https://blog.csdn.net/dayf/article/details/123438845Auth…

大数据 2023年11月10日
0028

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

jieba分词功能函数解析

大家都在看