中文分词总结

2023年5月28日下午2:54 • 大数据 • 阅读 85

中文分词总结

分词类别

; 分词工具

jieba

Github:https://github.com/fxsjy/jieba


!pip install jieba -i https://pypi.douban.com/simple/

摘要：认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一，中文本身复杂性及语言规则的不确定性，使中文分词技术成为分词技术中的难点。全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等硏究，总结出当前中文分词面临的难点与研究热点.

import jieba

def jieba分词(filename,sugges_freq=None):
    with open(filename,mode='rb') as text:
        textlist = []
        if sugges_freq:
            jieba.suggest_freq(sugges_freq,True)
        for line in text.readlines():
            temp_text = jieba.cut(line,use_paddle=True,HMM=False)
            textlist.append(' '.join(temp_text))

        for sentence in textlist:
            print(sentence)
jieba分词('中文分词.txt')

jieba分词('中文分词.txt',sugges_freq=('信息','检索'))

jieba分词('中文分词.txt',sugges_freq='研究热点')

北京大学PKUse

! pip install pkuseg -i https://pypi.douban.com/simple/
import pkuseg

def &#x5317;&#x4EAC;&#x5927;&#x5B66;&#x5206;&#x8BCD;(filename,outputFile='out.txt'):
    #&#x4F7F;&#x7528;&#x7F51;&#x7EDC;&#x9886;&#x57DF;&#x6A21;&#x578B;&#xFF0C;&#x4E0D;&#x8FDB;&#x884C;&#x8BCD;&#x6027;&#x6807;&#x6CE8;

    pkuseg.test(filename,outputFile,model_name='web',postag=False)
&#x5317;&#x4EAC;&#x5927;&#x5B66;&#x5206;&#x8BCD;('&#x4E2D;&#x6587;&#x5206;&#x8BCD;.txt')

清华大学THULAC

! pip install thulac -i https://pypi.douban.com/simple/

import thulac

def &#x6E05;&#x534E;&#x5927;&#x5B66;&#x5206;&#x8BCD;(text):
    thu1 = thulac.thulac()  #&#x8FDB;&#x884C;&#x8BCD;&#x6027;&#x6807;&#x6CE8;
    text = thu1.cut(text) #&#x5BF9;input.txt&#x6587;&#x4EF6;&#x5185;&#x5BB9;&#x8FDB;&#x884C;&#x5206;&#x8BCD;&#xFF0C;&#x8F93;&#x51FA;&#x5230;output.txt
    print(text)

text = '&#x6458;&#x8981;&#xFF1A;&#x8BA4;&#x4E3A;&#x5206;&#x8BCD;&#x662F;&#x6587;&#x672C;&#x81EA;&#x52A8;&#x5206;&#x7C7B;&#x3001;&#x4FE1;&#x606F;&#x68C0;&#x7D22;&#x3001;&#x4FE1;&#x606F;&#x8FC7;&#x6EE4;&#x3001;&#x6587;&#x732E;&#x81EA;&#x52A8;&#x6807;&#x5F15;&#x3001;&#x6458;&#x8981;&#x81EA;&#x52A8;&#x751F;&#x6210;&#x7B49;&#x4E2D;&#x6587;&#x4FE1;&#x606F;&#x5904;&#x7406;&#x7684;&#x57FA;&#x7840;&#x4E0E;&#x5173;&#x952E;&#x6280;&#x672F;&#x4E4B;&#x4E00;&#xFF0C;&#x4E2D;&#x6587;&#x672C;&#x8EAB;&#x590D;&#x6742;&#x6027;&#x53CA;&#x8BED;&#x8A00;&#x89C4;&#x5219;&#x7684;&#x4E0D;&#x786E;&#x5B9A;&#x6027;&#xFF0C;&#x4F7F;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x6280;&#x672F;&#x6210;&#x4E3A;&#x5206;&#x8BCD;&#x6280;&#x672F;&#x4E2D;&#x7684;&#x96BE;&#x70B9;&#x3002;&#x5168;&#x9762;&#x5F52;&#x7EB3;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x7B97;&#x6CD5;&#x3001;&#x6B67;&#x4E49;&#x6D88;&#x9664;&#x3001;&#x672A;&#x767B;&#x5F55;&#x8BCD;&#x8BC6;&#x522B;&#x3001;&#x81EA;&#x52A8;&#x5206;&#x8BCD;&#x7CFB;&#x7EDF;&#x7B49;&#x784F;&#x7A76;&#xFF0C;&#x603B;&#x7ED3;&#x51FA;&#x5F53;&#x524D;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x9762;&#x4E34;&#x7684;&#x96BE;&#x70B9;&#x4E0E;&#x7814;&#x7A76;&#x70ED;&#x70B9;.'
&#x6E05;&#x534E;&#x5927;&#x5B66;&#x5206;&#x8BCD;(text)

HanLP

pip install hanlp -i https://pypi.douban.com/simple/
import hanlp
HanLP = hanlp.load(hanlp.pretrained.mtl.CLOSE_TOK_POS_NER_SRL_DEP_SDP_CON_ELECTRA_SMALL_ZH) # &#x4E16;&#x754C;&#x6700;&#x5927;&#x4E2D;&#x6587;&#x8BED;&#x6599;&#x5E93;
HanLP(['&#x6458;&#x8981;&#xFF1A;&#x8BA4;&#x4E3A;&#x5206;&#x8BCD;&#x662F;&#x6587;&#x672C;&#x81EA;&#x52A8;&#x5206;&#x7C7B;&#x3001;&#x4FE1;&#x606F;&#x68C0;&#x7D22;&#x3001;&#x4FE1;&#x606F;&#x8FC7;&#x6EE4;&#x3001;&#x6587;&#x732E;&#x81EA;&#x52A8;&#x6807;&#x5F15;&#x3001;&#x6458;&#x8981;&#x81EA;&#x52A8;&#x751F;&#x6210;&#x7B49;&#x4E2D;&#x6587;&#x4FE1;&#x606F;&#x5904;&#x7406;&#x7684;&#x57FA;&#x7840;&#x4E0E;&#x5173;&#x952E;&#x6280;&#x672F;&#x4E4B;&#x4E00;&#xFF0C;&#x4E2D;&#x6587;&#x672C;&#x8EAB;&#x590D;&#x6742;&#x6027;&#x53CA;&#x8BED;&#x8A00;&#x89C4;&#x5219;&#x7684;&#x4E0D;&#x786E;&#x5B9A;&#x6027;&#xFF0C;&#x4F7F;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x6280;&#x672F;&#x6210;&#x4E3A;&#x5206;&#x8BCD;&#x6280;&#x672F;&#x4E2D;&#x7684;&#x96BE;&#x70B9;&#x3002;&#x5168;&#x9762;&#x5F52;&#x7EB3;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x7B97;&#x6CD5;&#x3001;&#x6B67;&#x4E49;&#x6D88;&#x9664;&#x3001;&#x672A;&#x767B;&#x5F55;&#x8BCD;&#x8BC6;&#x522B;&#x3001;&#x81EA;&#x52A8;&#x5206;&#x8BCD;&#x7CFB;&#x7EDF;&#x7B49;&#x784F;&#x7A76;&#xFF0C;&#x603B;&#x7ED3;&#x51FA;&#x5F53;&#x524D;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x9762;&#x4E34;&#x7684;&#x96BE;&#x70B9;&#x4E0E;&#x7814;&#x7A76;&#x70ED;&#x70B9;.'])

FoolNLTK(Linux 环境下python3)

pip install foolnltk -i https://pypi.douban.com/simple/
#&#x5B98;&#x65B9;&#x793A;&#x4F8B;
import fool
fool.load_userdict(path)
text = ["&#x6211;&#x5728;&#x5317;&#x4EAC;&#x5929;&#x5B89;&#x95E8;&#x770B;&#x4F60;&#x96BE;&#x53D7;&#x9999;&#x83C7;", "&#x6211;&#x5728;&#x5317;&#x4EAC;&#x6652;&#x592A;&#x9633;&#x4F60;&#x5728;&#x975E;&#x6D32;&#x770B;&#x96EA;"]
print(fool.cut(text))
#[['&#x6211;', '&#x5728;', '&#x5317;&#x4EAC;', '&#x5929;&#x5B89;&#x95E8;', '&#x770B;', '&#x4F60;', '&#x96BE;&#x53D7;', '&#x9999;&#x83C7;'],
['&#x6211;', '&#x5728;', '&#x5317;&#x4EAC;', '&#x6652;&#x592A;&#x9633;', '&#x4F60;', '&#x5728;', '&#x975E;&#x6D32;', '&#x770B;', '&#x96EA;']]

哈工大LTP

pip install ltp -i https://pypi.douban.com/simple/

from ltp import LTP

ltp = LTP()  # &#x9ED8;&#x8BA4;&#x52A0;&#x8F7D; Small &#x6A21;&#x578B;
seg, hidden = ltp.seg(["&#x6458;&#x8981;&#xFF1A;&#x8BA4;&#x4E3A;&#x5206;&#x8BCD;&#x662F;&#x6587;&#x672C;&#x81EA;&#x52A8;&#x5206;&#x7C7B;&#x3001;&#x4FE1;&#x606F;&#x68C0;&#x7D22;&#x3001;&#x4FE1;&#x606F;&#x8FC7;&#x6EE4;&#x3001;&#x6587;&#x732E;&#x81EA;&#x52A8;&#x6807;&#x5F15;&#x3001;&#x6458;&#x8981;&#x81EA;&#x52A8;&#x751F;&#x6210;&#x7B49;&#x4E2D;&#x6587;&#x4FE1;&#x606F;&#x5904;&#x7406;&#x7684;&#x57FA;&#x7840;&#x4E0E;&#x5173;&#x952E;&#x6280;&#x672F;&#x4E4B;&#x4E00;&#xFF0C;&#x4E2D;&#x6587;&#x672C;&#x8EAB;&#x590D;&#x6742;&#x6027;&#x53CA;&#x8BED;&#x8A00;&#x89C4;&#x5219;&#x7684;&#x4E0D;&#x786E;&#x5B9A;&#x6027;&#xFF0C;&#x4F7F;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x6280;&#x672F;&#x6210;&#x4E3A;&#x5206;&#x8BCD;&#x6280;&#x672F;&#x4E2D;&#x7684;&#x96BE;&#x70B9;&#x3002;&#x5168;&#x9762;&#x5F52;&#x7EB3;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x7B97;&#x6CD5;&#x3001;&#x6B67;&#x4E49;&#x6D88;&#x9664;&#x3001;&#x672A;&#x767B;&#x5F55;&#x8BCD;&#x8BC6;&#x522B;&#x3001;&#x81EA;&#x52A8;&#x5206;&#x8BCD;&#x7CFB;&#x7EDF;&#x7B49;&#x784F;&#x7A76;&#xFF0C;&#x603B;&#x7ED3;&#x51FA;&#x5F53;&#x524D;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x9762;&#x4E34;&#x7684;&#x96BE;&#x70B9;&#x4E0E;&#x7814;&#x7A76;&#x70ED;&#x70B9;."])
pos = ltp.pos(hidden)
print('---------'*5+'&#x5206;&#x8BCD;&#x7ED3;&#x679C;'+'---------'*5,seg,'---------'*5+'&#x8BCD;&#x6027;'+'---------'*5,pos)

BaiduLac

pip install LAC -i https://pypi.douban.com/simple/

from LAC import LAC

&#x88C5;&#x8F7D;&#x5206;&#x8BCD;&#x6A21;&#x578B;
lac = LAC(mode='seg')

&#x5355;&#x4E2A;&#x6837;&#x672C;&#x8F93;&#x5165;&#xFF0C;&#x8F93;&#x5165;&#x4E3A;Unicode&#x7F16;&#x7801;&#x7684;&#x5B57;&#x7B26;&#x4E32;
text = u"&#x6458;&#x8981;&#xFF1A;&#x8BA4;&#x4E3A;&#x5206;&#x8BCD;&#x662F;&#x6587;&#x672C;&#x81EA;&#x52A8;&#x5206;&#x7C7B;&#x3001;&#x4FE1;&#x606F;&#x68C0;&#x7D22;&#x3001;&#x4FE1;&#x606F;&#x8FC7;&#x6EE4;&#x3001;&#x6587;&#x732E;&#x81EA;&#x52A8;&#x6807;&#x5F15;&#x3001;&#x6458;&#x8981;&#x81EA;&#x52A8;&#x751F;&#x6210;&#x7B49;&#x4E2D;&#x6587;&#x4FE1;&#x606F;&#x5904;&#x7406;&#x7684;&#x57FA;&#x7840;&#x4E0E;&#x5173;&#x952E;&#x6280;&#x672F;&#x4E4B;&#x4E00;&#xFF0C;&#x4E2D;&#x6587;&#x672C;&#x8EAB;&#x590D;&#x6742;&#x6027;&#x53CA;&#x8BED;&#x8A00;&#x89C4;&#x5219;&#x7684;&#x4E0D;&#x786E;&#x5B9A;&#x6027;&#xFF0C;&#x4F7F;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x6280;&#x672F;&#x6210;&#x4E3A;&#x5206;&#x8BCD;&#x6280;&#x672F;&#x4E2D;&#x7684;&#x96BE;&#x70B9;&#x3002;&#x5168;&#x9762;&#x5F52;&#x7EB3;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x7B97;&#x6CD5;&#x3001;&#x6B67;&#x4E49;&#x6D88;&#x9664;&#x3001;&#x672A;&#x767B;&#x5F55;&#x8BCD;&#x8BC6;&#x522B;&#x3001;&#x81EA;&#x52A8;&#x5206;&#x8BCD;&#x7CFB;&#x7EDF;&#x7B49;&#x784F;&#x7A76;&#xFF0C;&#x603B;&#x7ED3;&#x51FA;&#x5F53;&#x524D;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x9762;&#x4E34;&#x7684;&#x96BE;&#x70B9;&#x4E0E;&#x7814;&#x7A76;&#x70ED;&#x70B9;."
seg_result = lac.run(text)
print(seg_result)

&#x6279;&#x91CF;&#x6837;&#x672C;&#x8F93;&#x5165;, &#x8F93;&#x5165;&#x4E3A;&#x591A;&#x4E2A;&#x53E5;&#x5B50;&#x7EC4;&#x6210;&#x7684;list&#xFF0C;&#x5E73;&#x5747;&#x901F;&#x7387;&#x4F1A;&#x66F4;&#x5FEB;
texts = [u"&#x82B1;&#x751F;&#x5F88;&#x597D;&#x5403;&#x5462;", u"&#x4F60;&#x8981;&#x6765;&#x4E00;&#x7C92;&#x5417;&#xFF1F;"]
seg_result = lac.run(texts)
print(seg_result)

pynlpir（中科院分词工具）

需要到官网下载授权证书，分析需要下载 NLPIR.urer，到路径 D:\Anaconda\envs\chinese\Lib\site-packages\pynlpir\Data下替换同名文件夹。

!pip install pynlpir -i https://pypi.douban.com/simple/

print("_____________&#x4E2D;&#x79D1;&#x9662;nlpir___________")
import pynlpir  # &#x5F15;&#x5165;&#x4F9D;&#x8D56;&#x5305;
text = "&#x6458;&#x8981;&#xFF1A;&#x8BA4;&#x4E3A;&#x5206;&#x8BCD;&#x662F;&#x6587;&#x672C;&#x81EA;&#x52A8;&#x5206;&#x7C7B;&#x3001;&#x4FE1;&#x606F;&#x68C0;&#x7D22;&#x3001;&#x4FE1;&#x606F;&#x8FC7;&#x6EE4;&#x3001;&#x6587;&#x732E;&#x81EA;&#x52A8;&#x6807;&#x5F15;&#x3001;&#x6458;&#x8981;&#x81EA;&#x52A8;&#x751F;&#x6210;&#x7B49;&#x4E2D;&#x6587;&#x4FE1;&#x606F;&#x5904;&#x7406;&#x7684;&#x57FA;&#x7840;&#x4E0E;&#x5173;&#x952E;&#x6280;&#x672F;&#x4E4B;&#x4E00;&#xFF0C;&#x4E2D;&#x6587;&#x672C;&#x8EAB;&#x590D;&#x6742;&#x6027;&#x53CA;&#x8BED;&#x8A00;&#x89C4;&#x5219;&#x7684;&#x4E0D;&#x786E;&#x5B9A;&#x6027;&#xFF0C;&#x4F7F;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x6280;&#x672F;&#x6210;&#x4E3A;&#x5206;&#x8BCD;&#x6280;&#x672F;&#x4E2D;&#x7684;&#x96BE;&#x70B9;&#x3002;&#x5168;&#x9762;&#x5F52;&#x7EB3;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x7B97;&#x6CD5;&#x3001;&#x6B67;&#x4E49;&#x6D88;&#x9664;&#x3001;&#x672A;&#x767B;&#x5F55;&#x8BCD;&#x8BC6;&#x522B;&#x3001;&#x81EA;&#x52A8;&#x5206;&#x8BCD;&#x7CFB;&#x7EDF;&#x7B49;&#x784F;&#x7A76;&#xFF0C;&#x603B;&#x7ED3;&#x51FA;&#x5F53;&#x524D;&#x4E2D;&#x6587;&#x5206;&#x8BCD;&#x9762;&#x4E34;&#x7684;&#x96BE;&#x70B9;&#x4E0E;&#x7814;&#x7A76;&#x70ED;&#x70B9;."
pynlpir.open()  # &#x6253;&#x5F00;&#x5206;&#x8BCD;&#x5668;

result = pynlpir.segment(text, pos_tagging=False) # &#x4F7F;&#x7528;pos_tagging&#x6765;&#x5173;&#x95ED;&#x8BCD;&#x6027;&#x6807;&#x6CE8;
print(result)

#&#x4F7F;&#x7528;&#x7ED3;&#x675F;&#x540E;&#x91CA;&#x653E;&#x5185;&#x5B58;&#xFF1A;
pynlpir.close()

参考文献

1 中文分词工具比较_zlhcsm的博客-CSDN博客_中文分词工具[EB/OL]. [2021-10-18]. https://blog.csdn.net/zzzzlei123123123/article/details/104227223.

[2]pkuseg：一个多领域中文分词工具包 (English Version)[M]. LancoPKU, 2021.

3 中文分词理论知识_zlhcsm的博客-CSDN博客[EB/OL]. [2021-10-18]. https://blog.csdn.net/zzzzlei123123123/article/details/104235804.

[4]中文分词综述[EB/OL]. 知乎专栏, [2021-10-20]. https://zhuanlan.zhihu.com/p/67185497.

[5]中文分词原理及工具-云社区-华为云[EB/OL]. [2021-10-20]. https://bbs.huaweicloud.com/blogs/111974.

[6]奉国和, 郑伟. 国内中文自动分词技术研究综述[J]. 图书情报工作, 2011, 55(02): 41–45.

[7]张启宇, 朱玲, 张雅萍. 中文分词算法研究综述[J]. 情报探索, 2008(11): 53–56.

[8]JUNYI S. jieba[M]. 2021.

[9]THULAC：一个高效的中文词法分析工具包[M]. THUNLP, 2021.

[10]THULAC：一个高效的中文词法分析工具包[EB/OL]. [2021-10-20]. http://thulac.thunlp.org/message_v1_1.

[11]HanLP官网[EB/OL]. [2021-10-20]. https://www.hanlp.com/.

[12]HANKCS. HanLP: Han Language Processing[M]. 2021.

[13]WU.ZHENG. FoolNLTK[M]. 2021.

[14]LTP 4[M]. 哈工大社会计算与信息检索研究中心, 2021.

[15]Stanford CoreNLP[M]. Stanford NLP, 2021.

[16]baidu/lac[M]. Baidu, 2021.

[17]pynlp报错：pynlpir.LicenseError: Your license appears to have expired. Try running 《pynlpir update》解决办法。 – 温良Miner – 博客园[EB/OL]. [2021-10-20]. https://www.cnblogs.com/miners/p/10108964.html.

[18]NLPIR-team/NLPIR[M]. NLPIR-team, 2021.

Original: https://blog.csdn.net/qq_39875326/article/details/120941282
Author: 数据可视化分析
Title: 中文分词总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/532187/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【转载】震惊了！原来这才是kafka！

kafka是一个分布式消息队列。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息，消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作…

大数据 2023年5月28日
0094
SQLite数据库损坏及其修复探究

学习路线指引（点击解锁）知识定位人群定位进阶级本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。入门级手把手带你…

大数据 2023年11月10日
0032
Centos7 安装 MPICH

CentOS 7.9下安装mpich 下载源代码到当前目录 wget https://www.mpich.org/static/downloads/4.0.2/mpich-4.0….

大数据 2023年5月27日
0079
Spark快速上手(7)Scala使用 JUnit4 单元测试

备忘导入依赖 <dependency> <groupid>junit</groupid> <artifactid>junit&lt…

大数据 2023年6月3日
0066
网络编程(part10)–socket套接字编程之UDP套接字

鄙人学习笔记文章目录 UDP套接字编程服务端流程举个例子客户端流程举个例子 TCP套接字和UDP套接字编程区别 UDP套接…

大数据 2023年5月26日
0080
VMware三种网络模式详解

一、简介二、Bridged（桥接模式）三、NAT（地址转换模式）四、Host-Only（仅主机模式）一、简介 vmware为我们提供了三种网络工作模式，它们分别是：Brid…

大数据 2023年5月27日
0083
“偶遇” 爱可生与 MYSQL 大型应用

今天”偶遇” 爱可生的技术人员，经过了两个小时的交流，又重塑的我对大型系统中对MYSQL 的应用，这绝对不是广告，这绝对不是广告，这绝对不是广告，重要的还…

大数据 2023年5月26日
0077
springboot整合redis Json序列化配置与缓存注解使用

大数据 2023年11月16日
0042
Arch Linux配置gnome桌面

镜像下载、域名解析、时间同步请点击阿里云开源镜像站 Arch Linux安装完gnome桌面后，一般还需要配置好软件仓库环境(如AUR助手工具PARU)，并需要进行进一步个性化配置…

大数据 2023年5月27日
0095
Docker安装配置Redis最全教程

大数据 2023年11月15日
0039
Docker笔记二:Docker拷贝,提交,进入容器和阿里云加速

笔记一介绍了Docker的安装,以及镜像,容器的启动,删除,下载等,本章节记录一些操作笔记二之后的Docker内容都参考哔哩哔哩的up主:狂神说Java的Docker视频,在此贴…

大数据 2023年5月29日
00118
linux命令_ps

ps命令 ps命令来自于英文词组”process status”的缩写，其功能是用于显示当前系统的进程状态。使用ps命令可以查看到进程的所有信息，例如进程的…

大数据 2023年5月27日
0075
python中的二维列表

1. 使用输入值初始化列表 nums = [] rows = eval ( input ( “请输入&#x…

大数据 2023年6月3日
0084
详解JS中 call 方法的实现

摘要：本文将全面的，详细解析call方法的实现原理本文将全面的，详细解析call方法的实现原理，并手写出自己的call方法，相信看完本文的小伙伴都能从中有所收获。 call 方法…

大数据 2023年6月2日
0086
Django将数据库从sqlite3切换为mysql

要把Django正在使用的数据库从sqlite3切换为mysql，基本思路就是先把sqlite3数据库里的数据使用Django的方式导出来，然后将Django的settings文件…

大数据 2023年11月10日
0045
数仓工具—Hive源码之SQL解析的应用SQL优化(9)

; SQL解析的应用数据库作为核心的基础组件，是需要重点保护的对象。任何一个线上的不慎操作，都有可能给数据库带来严重的故障，从而给业务造成巨大的损失。为了避免这种损失，一般会在管…

大数据 2023年11月13日
0030

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

中文分词总结

分词类别

; 分词工具

jieba

北京大学PKUse

清华大学THULAC

HanLP

FoolNLTK(Linux 环境下python3)

哈工大LTP

BaiduLac

pynlpir（中科院分词工具）

参考文献

大家都在看