NLP词性分析，实体分析，句法树构造（依存句法树分析）

2023年5月28日下午2:08 • 大数据 • 阅读 130

NLTK

使用nltk库进行英文文本处理

英文文本分词处理（NLTK）

分词、取出标点符号

由于英语的句子基本上就是由标点符号、空格和词构成，那么只要根据空格和标点符号将词语分割成数组即可，所以相对来说简单很多。

使用nltk中的方法：

word_tokenize 分割单词

sent_tokenize 分割句子

注意： NLTK分词或者分句以后，都会自动形成列表的形式

词性标注

说明：列表中每个元组第二个元素显示为该词的词性，具体每个词性注释可运行代码” nltk.help.upenn_tagset()“或参看说明文档：NLTK词性标注说明

line是一句完整的话，实际上pos_tag是处理一个词序列，会根据句子来动态判断

import nltk
from nltk.corpus import stopwords

line = 'I love this world which was beloved by all the people here. I have lived here for 20 years'

#&#x5206;&#x8BCD;
words = nltk.word_tokenize(line)
print(words)

#&#x5206;&#x53E5;
sentences = nltk.sent_tokenize(line)
print(sentences)

#&#x53BB;&#x9664;&#x6807;&#x70B9;&#x7B26;&#x53F7;
interpunctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%']   #&#x5B9A;&#x4E49;&#x6807;&#x70B9;&#x7B26;&#x53F7;&#x5217;&#x8868;
cutwords = [word for word in words if word not in interpunctuations]   #&#x53BB;&#x9664;&#x6807;&#x70B9;&#x7B26;&#x53F7;
print(cutwords)

#&#x53BB;&#x9664;&#x505C;&#x7528;&#x8BCD;
stops = set(stopwords.words("english"))
cutwords_stop = [word for word in cutwords if word not in stops]
print(cutwords_stop)

#&#x8BCD;&#x6027;&#x6807;&#x6CE8;
pos_tag = nltk.pos_tag(cutwords_stop)
print(pos_tag)

#&#x547D;&#x540D;&#x5B9E;&#x4F53;&#x8BC6;&#x522B;
ners = nltk.ne_chunk(pos_tag)
print(ners)
#&#x8BCD;&#x5E72;&#x63D0;&#x53D6;
#&#x8BCD;&#x6027;&#x8FD8;&#x539F;

词性标注表：Penn Treebank P.O.S. Tags (upenn.edu) 宾夕法尼亚大学的词性标注表

import nltk
line = 'i love this world which was beloved by all the people here'
tokens = nltk.word_tokenize(line)
print(tokens)
pos_tag = nltk.pos_tag(tokens)
print(pos_tag)

CC  &#x5E76;&#x5217;&#x8FDE;&#x8BCD;          NNS &#x540D;&#x8BCD;&#x590D;&#x6570;        UH &#x611F;&#x53F9;&#x8BCD;
CD  &#x57FA;&#x6570;&#x8BCD;              NNP &#x4E13;&#x6709;&#x540D;&#x8BCD;        VB &#x52A8;&#x8BCD;&#x539F;&#x578B;
DT  &#x9650;&#x5B9A;&#x7B26;            NNP &#x4E13;&#x6709;&#x540D;&#x8BCD;&#x590D;&#x6570;    VBD &#x52A8;&#x8BCD;&#x8FC7;&#x53BB;&#x5F0F;
EX  &#x5B58;&#x5728;&#x8BCD;            PDT &#x524D;&#x7F6E;&#x9650;&#x5B9A;&#x8BCD;      VBG &#x52A8;&#x540D;&#x8BCD;&#x6216;&#x73B0;&#x5728;&#x5206;&#x8BCD;
FW  &#x5916;&#x6765;&#x8BCD;            POS &#x6240;&#x6709;&#x683C;&#x7ED3;&#x5C3E;      VBN &#x52A8;&#x8BCD;&#x8FC7;&#x53BB;&#x5206;&#x8BCD;
IN  &#x4ECB;&#x8BCD;&#x6216;&#x4ECE;&#x5C5E;&#x8FDE;&#x8BCD;     PRP &#x4EBA;&#x79F0;&#x4EE3;&#x8BCD;        VBP &#x975E;&#x7B2C;&#x4E09;&#x4EBA;&#x79F0;&#x5355;&#x6570;&#x7684;&#x73B0;&#x5728;&#x65F6;
JJ  &#x5F62;&#x5BB9;&#x8BCD;            PRP$ &#x6240;&#x6709;&#x683C;&#x4EE3;&#x8BCD;     VBZ &#x7B2C;&#x4E09;&#x4EBA;&#x79F0;&#x5355;&#x6570;&#x7684;&#x73B0;&#x5728;&#x65F6;
JJR &#x6BD4;&#x8F83;&#x7EA7;&#x7684;&#x5F62;&#x5BB9;&#x8BCD;     RB  &#x526F;&#x8BCD;            WDT &#x4EE5;wh&#x5F00;&#x5934;&#x7684;&#x9650;&#x5B9A;&#x8BCD;
JJS &#x6700;&#x9AD8;&#x7EA7;&#x7684;&#x5F62;&#x5BB9;&#x8BCD;     RBR &#x526F;&#x8BCD;&#x6BD4;&#x8F83;&#x7EA7;      WP &#x4EE5;wh&#x5F00;&#x5934;&#x7684;&#x4EE3;&#x8BCD;
LS  &#x5217;&#x8868;&#x9879;&#x6807;&#x8BB0;         RBS &#x526F;&#x8BCD;&#x6700;&#x9AD8;&#x7EA7;      WP$ &#x4EE5;wh&#x5F00;&#x5934;&#x7684;&#x6240;&#x6709;&#x683C;&#x4EE3;&#x8BCD;
MD  &#x60C5;&#x6001;&#x52A8;&#x8BCD;           RP  &#x5C0F;&#x54C1;&#x8BCD;          WRB &#x4EE5;wh&#x5F00;&#x5934;&#x7684;&#x526F;&#x8BCD;
NN  &#x540D;&#x8BCD;&#x5355;&#x6570;           SYM &#x7B26;&#x53F7;            TO  to

SpaCy

使用SpaCy库进行英文文本处理，不仅包含一些基本的文本处理操作、还包含一些预训练的模型以及词向量，这些基本处理操作可以对我们的数据进行一些预处理，作为神经网络的输入。

SpaCy具有快速的句法分析器，用于标签的卷积神经网络模型，解析和命名实体识别以及与深度学习整合。

#! pip install spacy
import spacy
#! python -m spacy download en_core_web_sm

text = "Life on Earth depends on water."
nlp = spacy.load('en_core_web_sm')

doc = nlp(text)

token = [token.text for token in doc]

#&#x6BCF;&#x4E2A;token&#x5BF9;&#x8C61;&#x6709;&#x7740;&#x975E;&#x5E38;&#x4E30;&#x5BCC;&#x7684;&#x5C5E;&#x6027;
for token in doc:
    print("{0}\t{1}\t{2}\t{3}\t{4}\t{5}\t{6}\t".format(
        token.text,     #&#x5355;&#x8BCD;
        token.idx,      #&#x5355;&#x8BCD;&#x8D77;&#x59CB;&#x7D22;&#x5F15;
        token.is_punct, #&#x662F;&#x5426;&#x4E3A;&#x6807;&#x70B9;
        token.lemma_,   #&#x5355;&#x8BCD;&#x8BCD;&#x5E72;
        token.is_space, #&#x662F;&#x5426;&#x4E3A;&#x7A7A;&#x683C;
        token.pos_,     #&#x8BCD;&#x6027;&#x6807;&#x6CE8;
        token.tag_
        ))

ADJ&#xFF1A;&#x5F62;&#x5BB9;&#x8BCD;&#xFF0C;&#x4F8B;&#x5982;&#x5927;&#xFF0C;&#x65E7;&#xFF0C;&#x7EFF;&#x8272;&#xFF0C;&#x96BE;&#x4EE5;&#x7406;&#x89E3;&#x7684;&#x7B2C;&#x4E00;
ADP&#xFF1A;&#x4F4D;&#x7F6E;&#xFF0C;&#x4F8B;&#x5982;&#x5728;&#xFF0C;&#x5230;&#xFF0C;&#x5728;
ADV&#xFF1A;&#x526F;&#x8BCD;&#xFF0C;&#x4F8B;&#x5982;&#x975E;&#x5E38;&#xFF0C;&#x660E;&#x5929;&#xFF0C;&#x4E0B;&#x6765;&#xFF0C;&#x5728;&#x90A3;&#x91CC;&#xFF0C;&#x90A3;&#x91CC;
AUX&#xFF1A;&#x8F85;&#x52A9;&#xFF0C;&#x4F8B;&#x5982;&#x662F;&#xFF0C;&#x5DF2;&#x7ECF;(&#x5B8C;&#x6210;)&#xFF0C;&#x5C06;&#x4F1A;(&#x8981;&#x505A;)&#xFF0C;&#x5E94;&#x8BE5;(&#x8981;&#x505A;)
CONJ&#xFF1A;&#x8FDE;&#x8BCD;&#xFF0C;&#x4F8B;&#x5982;&#x548C;&#xFF0C;&#x6216;&#xFF0C;&#x4F46;&#x662F;
CCONJ&#xFF1A;&#x534F;&#x8C03;&#x8FDE;&#x8BCD;&#xFF0C;&#x4F8B;&#x5982;&#x548C;&#xFF0C;&#x6216;&#xFF0C;&#x4F46;&#x662F;
DET&#xFF1A;&#x786E;&#x5B9A;&#x5668;&#xFF0C;&#x4F8B;&#x5982;&#x4E00;&#x4E2A;&#xFF0C;&#x4E00;&#x4E2A;
INTJ&#xFF1A;&#x611F;&#x53F9;&#x8BCD;&#xFF0C;&#x4F8B;&#x5982;psst&#xFF0C;ouch&#xFF0C;bravo&#xFF0C;&#x4F60;&#x597D;
NOUN&#xFF1A;&#x540D;&#x8BCD;&#xFF0C;&#x4F8B;&#x5982;&#x5973;&#x5B69;&#xFF0C;&#x732B;&#xFF0C;&#x6811;&#xFF0C;&#x7A7A;&#x6C14;&#xFF0C;&#x7F8E;&#x5973;
NUM&#xFF1A;&#x6570;&#x5B57;&#xFF0C;&#x4F8B;&#x5982;1&#xFF0C;2017&#xFF0C;&#x4E00;&#xFF0C;&#x4E03;&#x5341;&#x4E03;&#xFF0C;IV&#xFF0C;MMXIV
PART&#xFF1A;&#x7C92;&#x5B50;&#xFF0C;&#x4F8B;&#x5982;&#x4E0D;&#x662F;
PRON&#xFF1A;&#x4EE3;&#x8BCD;&#xFF0C;&#x4F8B;&#x5982;&#x6211;&#xFF0C;&#x4F60;&#xFF0C;&#x4ED6;&#xFF0C;&#x5979;&#xFF0C;&#x6211;&#x81EA;&#x5DF1;&#xFF0C;&#x81EA;&#x5DF1;&#xFF0C;&#x67D0;&#x4EBA;
PROPN&#xFF1A;&#x4E13;&#x6709;&#x540D;&#x8BCD;&#xFF0C;&#x4F8B;&#x5982;&#x739B;&#x4E3D;&#xFF0C;&#x7EA6;&#x7FF0;&#xFF0C;&#x4F26;&#x6566;&#xFF0C;&#x5317;&#x7EA6;&#xFF0C;HBO
PUNCT&#xFF1A;&#x6807;&#x70B9;&#x7B26;&#x53F7;&#xFF0C;&#x4F8B;&#x5982;&#x3002;&#xFF0C;(&#xFF0C;)&#xFF0C;&#xFF1F;
SCONJ&#xFF1A;&#x4ECE;&#x5C5E;&#x8FDE;&#x8BCD;&#xFF0C;&#x4F8B;&#x5982;&#x5982;&#x679C;&#xFF0C;&#x90A3;&#xFF0C;&#x90A3;
SYM&#xFF1A;&#x7B26;&#x53F7;&#xFF0C;&#x4F8B;&#x5982;$&#xFF0C;&#xFF05;&#xFF0C;&#xA7;&#xFF0C;&#xFF1F;&#xFF0C;+&#xFF0C;&#xFF1F;&#xFF0C;&#xD7;&#xFF0C;&#xF7;&#xFF0C;=&#xFF0C;:)&#xFF0C;??

VERB&#xFF1A;&#x52A8;&#x8BCD;&#xFF0C;&#x4F8B;&#x5982;&#x5954;&#x8DD1;&#xFF0C;&#x5954;&#x8DD1;&#xFF0C;&#x5954;&#x8DD1;&#xFF0C;&#x5403;&#xFF0C;&#x5403;&#xFF0C;&#x5403;
X&#xFF1A;&#x5176;&#x4ED6;&#xFF0C;&#x4F8B;&#x5982;sfpksdpsxmsa
SPACE&#xFF1A;&#x7A7A;&#x683C;&#xFF0C;&#x4F8B;&#x5982;

nsubj : nominal subject&#xFF0C;&#x540D;&#x8BCD;&#x4E3B;&#x8BED;
nsubjpass: passive nominal subject&#xFF0C;&#x88AB;&#x52A8;&#x7684;&#x540D;&#x8BCD;&#x4E3B;&#x8BED;

dobj : direct object&#x76F4;&#x63A5;&#x5BBE;&#x8BED;
pobj : object of a preposition&#xFF0C;&#x4ECB;&#x8BCD;&#x7684;&#x5BBE;&#x8BED;

Stanford CoreNLP 50来种依存关系（Stanford typed dependencies） – 简书 (jianshu.com)

依存句法树

英文依存句法树

依存句法树并不关注如何生成句子这种宏大的命题。依存句法树关注的是句子中词语之间的语法联系，并且将其约束为树形结构。

依存句法理论

依存语法理论认为词与词之间存在主从关系，这是一种二元不等价的关系。在句子中，如果一个词修饰另一个词，则称修饰词为 从属词（dependent），被修饰的词语称为 支配词（head），两者之间的语法关系称为 依存关系（dependency relation）。

箭头方向由支配词指向从属词（可视化时的习惯）。将一个句子中所有词语依存关系以有向边的形式表示出来，就会得到一棵树，称为 依存句法树（dependency parse tree）。例如句子”Wall Street Journal just published an interesting piece on crypto currencies”的依存句法树如图所示。

SpaCy解析依存关系

在Jupyter Notebook中使用spaCy可视化中英文依存句法分析结果 – 知乎 (zhihu.com)

SpaCy能够快速准确地解析句子的依存关系, SpaCy使用head和child来描述依存关系中的连接，识别每个token的依存关系：

token.text: token的文本
token.head: 当前token的Parent Token，从语法关系上来看，每一个Token都只有一个Head
token.dep_: 依存关系
token.children: 语法上的直接子节点
token.ancestors: 语法上的父节点
_pos: 词性
_tag: 词性

import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp("spaCy uses the terms head and child to describe the words")
for token in doc:
    print('{0}({1}) <-- {2} -- {3}({4})'.format(token.text, token.tag_, token.dep_, token.head.text, token.head.tag_)) #依存句法树打印输出 from spacy import displacy displacy.serve(doc, style="dep" )< code></-->

spaCy(NFP) <-- nsubj -- uses(vbz) <-- root the(dt) det terms(nns) dobj head(vbp) and(cc) cc child(nn) conj to(to) aux describe(vb) xcomp words(nns) describe(vb)< code></-->

先列举一些重要的关系标签：

root：中心词
nsubj：名词性主语
nsubjpass：被动名词性主语
csubj：名词性主语从句（谓语动词 –> 主语从句主要成分）
csubjpass：主语从句被动关系（谓语动词（被动）–> 主语从句主要成分）
dobj：直接宾语（动词 –> 直接宾语）
pobj：介词的宾语（介词 –> 宾语）
iobj：间接宾语（动词 –> 间接宾语）
prep：介词修饰（名词 –> 介词）
prepc：介词从句修饰
prob：介词宾语（介词 –> 宾语）
mark：标记语（从句的主要成分 –> 从句修饰的主体）eq：He says that you like to swim（like –> that）
aux：助动词（动词 –> 助动词）
auxpass：过去式助动词（动词 –> 过去式助动词）
xcomp：开放从句补语（开放从句的补足对象（动词）–>开放从句的动词）eq：Tom likes to eat fish（like –> eat）
ccomp：被补充说明词–>补语从句主要成分 eq：He says that you like to swim（say –> like）
acomp：用于动词的形容词补语（动词 –> 形容词）eq:She looks very beautiful.(look -> beautiful)
pcomp：介词的补语（介词 –> 从句的主要成分）eq:We have no information on whether users are at risk(on –> are)
cc：连词（第一个并列词 –> 协同关系词）eq:Bill is big and honest(big –> and)
conj：协同连词（第一个并列词 –> 第二个并列词）eq:Bill is big and honest(big –> honest)
preconj：（名词短语的前部 –> 连词前面出现的词）eq：Both the boys and the girls are here（boy –> both）
predet：名词短语的前部–>在限定词前面出现的词 eq: All the boys are here(boys -> all)
det：限定词（名词短语 –> 限定词）eq：The man is here（man –> the）
amod：修饰名词短语的形容词修饰语（名词短语 –> 形容词修饰语）eq:Sam eats red meat(meat –> red)
advmod：副词修饰语（被修饰者 –> 副词）eq：Genetically modified food（modified –> genetically）
npadvmod：名词短语作为副词修饰（副词修饰的词 –> 名词）eq：The director is 65 years old（old –> years）
nummod:数词作为修饰（名词 –> 数词）eq:About 200 people came to the party(people –> 200)
relcl：关系从句修饰（名词短语第一个词 –> 关系动词主要词）eq：I saw the man you love（man –> love）
poss：所属修饰（拥有者 –> 拥有物品）eq:their offices(their –> offices)
compound：名词合成修饰(后一个名词 –> 前一个名词) eq:Oil price futures(future -> price)
parataxis：并列（主要动词 –> 并列句的主要成分）eq:The guy, John said, left early in the morning (left –> said)
neg：否定词
punct：标点
dep：系统无法识别的依赖关系
discourse：句子的主要部分 –> 语气词、感叹词

StanfordNLP解析依存关系

StanfordNLP是一个斯坦福官方提供的python版本的NLP工具包。这些模块构建在Pytorch之上。如果在支持GPU的计算机上运行此系统，将获得更快的性能。

除了官方提供的python版本外，还有许多其他python版本，例如stanfordcorenlp

import stanfordnlp
stanfordnlp.download('en')

nlp = stanfordnlp.Pipeline()
doc = nlp("He was elected president in 2008.")
doc.sentences[0].print_dependencies()

('He', '3', 'nsubj:pass')
('was', '3', 'aux:pass')
('elected', '0', 'root')
('president', '3', 'xcomp')
('in', '6', 'case')
('2008', '3', 'obl')
('.', '3', 'punct')

中文依存句法树

Spacy解析依存句法树

import spacy
nlp = spacy.load('zh_core_web_sm')
doc = nlp("&#x5C0F;&#x7334;&#x5B50;&#x5403;&#x4E86;5&#x6839;&#x9999;&#x8549;")
for token in doc:
    print('{0}({1}) <-- {2} -- {3}({4})'.format(token.text, token.tag_, token.dep_, token.head.text, token.head.tag_)) doc="nlp("&#x4F9D;&#x5B58;&#x53E5;&#x6CD5;&#x5206;&#x6790;&#x4F5C;&#x4E3A;&#x5E95;&#x5C42;&#x6280;&#x672F;&#xFF0C;&#x53EF;&#x76F4;&#x63A5;&#x7528;&#x4E8E;&#x63D0;&#x5347;&#x5176;&#x4ED6;NLP&#x4EFB;&#x52A1;&#x7684;&#x6548;&#x679C;&#x3002;&#x8FD9;&#x4E9B;&#x4EFB;&#x52A1;&#x5305;&#x62EC;&#x4F46;&#x4E0D;&#x9650;&#x4E8E;&#x8BED;&#x4E49;&#x89D2;&#x8272;&#x6807;&#x6CE8;&#x3001;&#x8BED;&#x4E49;&#x5339;&#x914D;&#x3001;&#x4E8B;&#x4EF6;&#x62BD;&#x53D6;&#x7B49;&#x3002;")" sentence_spans="list(doc.sents)" print(len(sentence_spans)) for sentence in sentence_spans: print(sentence) token doc: print('{0}({1}) <-- token.head.tag_))< code></-->

&#x5C0F;(JJ) <-- amod -- 猴子(nn) <-- nsubj 吃(vv) root 了(as) aux:asp 5(cd) nummod 香蕉(nn) 根(m) mark:clf dobj 依存句法分析作为底层技术，可直接用于提升其他nlp任务的效果。 这些任务包括但不限于语义角色标注、语义匹配、事件抽取等。 依存(jj) 句法(nn) 分析(vv) 作为(vv) ccomp 底层(nn) compound:nn 技术(nn) ，(pu) punct 用于(vv) 可(vv) aux:modal 直接(ad) advmod conj 提升(vv) 其他(dt) det 任务(nn) n(nn) l(nn) p(nn) 的(dec) case 效果(nn) 。(pu) 这些(dt) 包括(vv) 但(ad) 限于(vv) 不(ad) neg 语义(nn) 角色(nn) 标注(vv) 抽取(vv) 、(pu) 匹配(nn) 事件(nn) 等(etc) etc 包括(vv)< code></-->

DDParser解析依存句法树

百度中文依存句法分析工具DDParser:baidu/DDParser: 百度开源的依存句法分析系统 (github.com)

百度中文依存句法分析工具DDParser

百度DDParser的依存分析

#&#x672A;&#x5206;&#x8BCD;&#x65B9;&#x5F0F;
from ddparser import DDParser
ddp = DDParser()
#&#x5355;&#x6761;&#x53E5;&#x5B50;
ddp.parse("&#x767E;&#x5EA6;&#x662F;&#x4E00;&#x5BB6;&#x9AD8;&#x79D1;&#x6280;&#x516C;&#x53F8;")    #&#x8F93;&#x51FA;
#&#x591A;&#x6761;&#x53E5;&#x5B50;
ddp.parse(["&#x767E;&#x5EA6;&#x662F;&#x4E00;&#x5BB6;&#x9AD8;&#x79D1;&#x6280;&#x516C;&#x53F8;", "&#x4ED6;&#x9001;&#x4E86;&#x4E00;&#x672C;&#x4E66;"])    #&#x8F93;&#x51FA;
#&#x8F93;&#x51FA;&#x6982;&#x7387;&#x548C;&#x8BCD;&#x6027;&#x6807;&#x7B7E;
ddp = DDParser(prob=True, use_pos=True)
ddp.parse("&#x767E;&#x5EA6;&#x662F;&#x4E00;&#x5BB6;&#x9AD8;&#x79D1;&#x6280;&#x516C;&#x53F8;")    #&#x8F93;&#x51FA;
#buckets=True, &#x6570;&#x636E;&#x96C6;&#x957F;&#x5EA6;&#x4E0D;&#x5747;&#x65F6;&#x5904;&#x7406;&#x901F;&#x5EA6;&#x66F4;&#x5FEB;
ddp = DDParser(buckets = True)
#&#x4F7F;&#x7528;GPU
ddp = DDParser(use_cuda = True)

#&#x5DF2;&#x5206;&#x8BCD;&#x65B9;&#x5F0F;
from ddparser import DDParser
ddp = DDParser()
#&#x5355;&#x6761;&#x53E5;&#x5B50;
ddp.parse_seg([['&#x4ED6;', '&#x9001;', '&#x4E86;', '&#x4E00;&#x672C;', '&#x4E66;']])
#&#x8F93;&#x51FA;&#x6982;&#x7387;
ddp = DDParser(prob=True)
ddp.parse_seg([['&#x4ED6;', '&#x9001;', '&#x4E86;', '&#x4E00;&#x672C;', '&#x4E66;']])

[{'word': ['&#x767E;&#x5EA6;', '&#x662F;', '&#x4E00;&#x5BB6;', '&#x9AD8;&#x79D1;&#x6280;', '&#x516C;&#x53F8;'], 'head': [2, 0, 5, 5, 2], 'deprel': ['SBV', 'HED', 'ATT', 'ATT', 'VOB']}]

[{'word': ['&#x767E;&#x5EA6;', '&#x662F;', '&#x4E00;&#x5BB6;', '&#x9AD8;&#x79D1;&#x6280;', '&#x516C;&#x53F8;'], 'head': [2, 0, 5, 5, 2], 'deprel': ['SBV', 'HED', 'ATT', 'ATT', 'VOB']}, {'word': [' &#x4ED6;', '&#x9001;', '&#x4E86;', '&#x4E00;&#x672C;', '&#x4E66;'], 'head': [2, 0, 2, 5, 2], 'deprel': ['SBV', 'HED', 'MT', 'ATT', 'VOB']}]

[{'word': ['&#x767E;&#x5EA6;', '&#x662F;', '&#x4E00;&#x5BB6;', '&#x9AD8;&#x79D1;&#x6280;', '&#x516C;&#x53F8;'], 'postag': ['ORG', 'v', 'm', 'n', 'n'], 'head': [2, 0, 5, 5, 2], 'deprel': ['SBV', 'HED', 'ATT', 'ATT', 'VOB'], 'prob': [1.0, 1.0, 1.0, 1.0, 1.0]}]

[{'word': ['&#x4ED6;', '&#x9001;', '&#x4E86;', '&#x4E00;&#x672C;', '&#x4E66;'], 'head': [2, 0, 2, 5, 2], 'deprel': ['SBV', 'HED', 'MT', 'ATT', 'VOB']}]

[{'word': ['&#x4ED6;', '&#x9001;', '&#x4E86;', '&#x4E00;&#x672C;', '&#x4E66;'], 'head': [2, 0, 2, 5, 2], 'deprel': ['SBV', 'HED', 'MT', 'ATT', 'VOB'], 'prob': [1.0, 1.0, 1.0, 1.0, 1.0]}]

n普通名词m数量词f方位名词q量词s所处名词r代词nz其他专名p介词nw作品名c连词v普通动词u助词vd动副词xc其他虚词vn名动词w标点符号a形容词PER人名ad副形词LOC地名an名形词ORG机构名d副词TIME时间

Original: https://blog.csdn.net/jiangchao98/article/details/119119347
Author: jiangchao98
Title: NLP词性分析，实体分析，句法树构造（依存句法树分析）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531987/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

“数聚赋能”，让实时数据中台成为惠企、惠民政策服务应用的源头活水

随着”最多跑一次”改革的持续深化，数据资源作为改革扎根的土壤，其重要性也被频繁提及。如何通过加强数字化建设，以数据驱动服务模式创新，实现利企便民、促进治理体…

大数据 2023年6月3日
0092
docker安装

https://www.runoob.com/docker/centos-docker-install.html https://www.cnblogs.com/caoweixio…

大数据 2023年5月29日
0053
学习open62541 — [58] 使用数据库存储历史数据

本文讲述如何把OPCUA的历史数据存储到数据库里，数据库使用SQLite3，运行环境Debian 10，Ubuntu也是一样。文章目录 * – 一源码来源 &#82…

大数据 2023年11月11日
0054
sparkSql数据离线处理–整理记录

大数据 2023年11月14日
0053
CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis 阅读笔记

前言多模态情感分析是一个新兴的研究领域，旨在使机器能够识别、解释和表达情感。通过跨模态交互，我们可以得到说话人更全面的情感特征。（BERT）是一种有效的预训练语言表示模型。然而…

大数据 2023年5月28日
00102
利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站：https://www.captainai.net/dongkelun ; 前言 …

大数据 2023年11月13日
0052
spark增量抽取MySQL中的数据存入hive动态分区表（2）

大数据 2023年11月13日
0040
一文读懂，硬核 Apache DolphinScheduler3.0 源码解析

点亮 ⭐️ Star · 照亮开源之路 https://github.com/apache/dolphinscheduler 本文目录 1 DolphinScheduler的设…

大数据 2023年6月2日
0066
hudi clustering 数据聚集（一）

概要数据湖的业务场景主要包括对数据库、日志和文件的分析。管理数据湖有两个要点：写入吞吐量和查询性能。这里主要说明以下几个问题： [En] The business scenari…

大数据 2023年5月26日
0063
感谢有你！Apache DolphinScheduler 项目 GitHub star 突破 8k

本周伊始，Apache DolphinScheduler 项目在 GitHub 上的 Github Star 总数首次突破 8K。目前，Apache DolphinSchedule…

大数据 2023年6月2日
0066
数据库炸了—-我就重启了一下啊（Communications link failure）

重启数据库后，数据库大部分时间连不上了；连续请求不会报错，请求间隔时间稍微长一点就会报错报错如图： com.mysql.cj.jdbc.exceptions.Communicat…

大数据 2023年6月3日
00123
HDFS数据块副本放置策略

HDFS数据块副本放置策略原创 wx62be9d88ce2942022-07-01 17:59:46博主文章分类：大数据 ©著作权文章标签 hdfs hadoop 大数据上传…

大数据 2023年5月25日
00119
hive数据仓库搭建

一、虚拟机安装CentOS7并配置共享文件夹二、CentOS 7 上hadoop伪分布式搭建全流程完整教程三、本机使用python操作hdfs搭建及常见问题四、mapreduce搭…

大数据 2023年11月13日
0043
关于使用docker volume挂载的注意事项

Content 在用Docker进行持久化的存储的时候，有两种方式： -v 容器绝对路径 -v 已经创建的volume名称:容器绝对路径 -v 宿主绝对路径:容器绝对路径由于两种方…

大数据 2023年5月26日
0063
Unity 如何添加dll引用（Unity 2019 4.10f）

修改.Net 版本在File->Build Setting->ProjectSettings->Player->Other Settings->Ap…

大数据 2023年11月12日
0048
qt中使用sqlite3

1.引入sql类库；在pro工程文件中引入sql类库1.QT+=sql2.在原来的基础上拼接，用空格隔开，每一个空格隔开的表示一个类库。窗体引入#include 就可以连接数据库…

大数据 2023年11月10日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31