NLP6：stanford Parser中文分词

2023年6月1日下午3:18 • 人工智能 • 阅读 60

NLP实验六：stanford Parser中文分词

一、实验内容
二、实验前准备
*
2.1下载安装前需要配置好电脑的JDK
2.2可视化工具
三、实验内容
*
1.安装配置Stanford Parser
2. 自拟文字内容，实现中文分词、词性标注、命名实体识别与句法分析。
3. 使用Stanford Parser可视化工具，自己选择模型，进行中文句法分析。
–
- 4. 《Python自然语言处理》阅读第六章p242性别鉴定例子，完成p244题目。

一、实验内容

使用stanford Parser进行中文分词、命名实体识别与句法分析。
学习使用stanford Parser工具包，通过可视化界面和API调用两种方式进行中文信息处理。

二、实验前准备

2.1下载安装前需要配置好电脑的JDK

1.安装 pip install stanfordcorenlp

2.下载需要的资源下载模型及文件：wget http://nlp.stanford.edu/software/stanford-corenlp-full-2018-10-05.zip 下载中文jar包：链接：https://pan.baidu.com/s/1dNpwG9fkhkwa73RbJcPhpA 提取码：3hfl

3.解压stanford-corenlp-full-2018-10-05.zip，并将stanford-chinese-corenlp-2018-10-05-models.jar，放入文件夹中

说明几点： 1.stanford-corenlp-full-2018-10-05文件夹下需要stanford-chinese-corenlp-2018-10-05-models.jar，代码才可以跑中文文本 2.如果在使用中提示找不到包，检查一下数据包的名称和路径是否正确。

2.2可视化工具

可视化工具使用 Stanford Parser是由StanforsNLP Group开发的基于Java的开源NLP工具，支持中文的语法分析，下载地址为：http://nlp.stanford.edu/software/lex-parser.shtml。下载后解压。

解压文件中lexparser-gui.bat进行可视化页面运行，解析需要的模型文件存放在stanford-parser-3.3.0-models.jar，可以对其解压。在中文处理方面，提供的模型文件有chineseFactored.ser.gz、chinesePCFG.ser.gz、xinhuaFactored.ser.gz、xinhuaFactoredSegmenting.ser.gz、xinhuaPCFG.ser.gz。

factored包含词汇化信息，PCFG是更快更小的模板，xinhua据说是根据大陆的《新华日报》训练的语料，而chinese同时包含香港和台湾的语料，xinhuaFactoredSegmenting.ser.gz可以对未分词的句子进行句法解析。

三、实验内容

1.安装配置Stanford Parser

解压stanford-corenlp-full-2018-10-05.zip，并将stanford-chinese-corenlp-2018-10-05-models.jar，放入文件夹中。

分词与词性标注

调用方法： nlp.word_tokenize(s)、nlp.pos_tag(s)

s为待处理的字符串

命名实体识别调用函数：ner = nlp.ner(s) 能够识别多种ner，包括：FACILITY、ORGANIZATION、NUMBER


from stanfordcorenlp import StanfordCoreNLP

path = r'F:\wyt\stanford-corenlp-full-2018-10-05'

nlp = StanfordCoreNLP(path, lang='zh')
s = '''同学们每天都很努力'''

token = nlp.word_tokenize(s)
postag = nlp.pos_tag(s)
ner = nlp.ner(s)
parse = nlp.parse(s)
dependencyParse = nlp.dependency_parse(s)

print (' '.join(token))
print ('|'.join([','.join(i) for i in postag]))
print ('|'.join([','.join(i) for i in ner]))
print (parse)

&#x540C;&#x5B66;&#x4EEC; &#x6BCF;&#x5929; &#x90FD; &#x5F88; &#x52AA;&#x529B;
&#x540C;&#x5B66;&#x4EEC;,NN|&#x6BCF;&#x5929;,AD|&#x90FD;,AD|&#x5F88;,AD|&#x52AA;&#x529B;,VA
&#x540C;&#x5B66;&#x4EEC;,O|&#x6BCF;&#x5929;,O|&#x90FD;,O|&#x5F88;,O|&#x52AA;&#x529B;,O
(ROOT
  (IP
    (NP (NN &#x540C;&#x5B66;&#x4EEC;))
    (VP
      (ADVP (AD &#x6BCF;&#x5929;))
      (ADVP (AD &#x90FD;))
      (ADVP (AD &#x5F88;))
      (VP (VA &#x52AA;&#x529B;)))))

运行速度超级慢耐心等待…(等到半个小时还没跑完，换了台电脑一分钟跑完了。。。)

2. 自拟文字内容，实现中文分词、词性标注、命名实体识别与句法分析。

测试

对一段句子进行分词（word_tokenize）、词性标注（pos_tag）、命名实体识别（ner）、
句法解析（parse）、句法依存分析（dependency_parse）。

from stanfordcorenlp import StanfordCoreNLP
path = r'F:\wyt\stanford-corenlp-full-2018-10-05'
nlp = StanfordCoreNLP(path, lang='zh')

sentence = '美国财政部将中国列为"汇率操纵国"。'
print ('Tokenize:', nlp.word_tokenize(sentence))
print ('Part of Speech:', nlp.pos_tag(sentence))
print ('Named Entities:', nlp.ner(sentence))
print ('Constituency Parsing:', nlp.parse(sentence))
print ('Dependency Parsing:', nlp.dependency_parse(sentence))

nlp.close()

Tokenize: ['&#x7F8E;&#x56FD;', '&#x8D22;&#x653F;&#x90E8;', '&#x5C06;', '&#x4E2D;&#x56FD;', '&#x5217;&#x4E3A;', '&#x201C;', '&#x6C47;&#x7387;', '&#x64CD;&#x7EB5;', '&#x56FD;', '&#x201D;', '&#x3002;']
Part of Speech: [('&#x7F8E;&#x56FD;', 'NR'), ('&#x8D22;&#x653F;&#x90E8;', 'NN'), ('&#x5C06;', 'BA'), ('&#x4E2D;&#x56FD;', 'NR'), ('&#x5217;&#x4E3A;', 'VV'), ('&#x201C;', 'PU'), ('&#x6C47;&#x7387;', 'NN'), ('&#x64CD;&#x7EB5;', 'VV'), ('&#x56FD;', 'NN'), ('&#x201D;', 'PU'), ('&#x3002;', 'PU')]
Named Entities: [('&#x7F8E;&#x56FD;', 'ORGANIZATION'), ('&#x8D22;&#x653F;&#x90E8;', 'ORGANIZATION'), ('&#x5C06;', 'O'), ('&#x4E2D;&#x56FD;', 'COUNTRY'), ('&#x5217;&#x4E3A;', 'O'), ('&#x201C;', 'O'), ('&#x6C47;&#x7387;', 'O'), ('&#x64CD;&#x7EB5;', 'O'), ('&#x56FD;', 'O'), ('&#x201D;', 'O'), ('&#x3002;', 'O')]
Constituency Parsing: (ROOT
  (IP
    (IP
      (NP
        (NP (NR &#x7F8E;&#x56FD;))
        (NP (NN &#x8D22;&#x653F;&#x90E8;)))
      (VP (BA &#x5C06;)
        (IP
          (NP (NR &#x4E2D;&#x56FD;))
          (VP (VV &#x5217;&#x4E3A;)
            (IP (PU &#x201C;)
              (NP (NN &#x6C47;&#x7387;))
              (VP (VV &#x64CD;&#x7EB5;)
                (NP (NN &#x56FD;)))
              (PU &#x201D;))))))
    (PU &#x3002;)))
Dependency Parsing: [('ROOT', 0, 5), ('nmod:assmod', 2, 1), ('nsubj', 5, 2), ('aux:ba', 5, 3), ('dep', 5, 4), ('punct', 8, 6), ('nsubj', 8, 7), ('ccomp', 5, 8), ('dobj', 8, 9), ('punct', 8, 10), ('punct', 5, 11)]

3. 使用Stanford Parser可视化工具，自己选择模型，进行中文句法分析。

句法分析调用函数：nlp.parse(s) 使用：提取chunk，也即短语、词组之类的；如NP（名词短语）两个词之间的距离，也即一个树的两个叶子节点之间的路径

from nltk.parse import stanford

import os
import jieba

if __name__ == '__main__':

    string = '他骑自行车去了菜市场。'
    seg_list = jieba.cut(string, cut_all=False, HMM=True)
    seg_str = ' '.join(seg_list)

    print(seg_str)

    parser_path =  r'D:\Desktop\大三上\自然语言处理\6\stanford-parser-4.2.0\stanford-parser-full-2020-11-17/stanford-parser.jar'
    model_path =  r'D:\Desktop\大三上\自然语言处理\6\stanford-parser-4.2.0\stanford-parser-full-2020-11-17/stanford-parser-4.2.0-models.jar'

    pcfg_path = r'D:\Desktop\大三上\自然语言处理\6\stanford-parser-4.2.0\stanford-parser-full-2020-11-17\stanford-parser-4.2.0-models\edu\stanford\nlp\models\lexparser/chinesePCFG.ser.gz'

    parser = stanford.StanfordParser(
        path_to_jar=parser_path,
        path_to_models_jar=model_path,
        model_path=pcfg_path
    )

    sentence = parser.raw_parse(seg_str)
    for line in sentence:
        print(line.leaves())
        line.draw()

&#x4ED6; &#x9A91; &#x81EA;&#x884C;&#x8F66; &#x53BB; &#x4E86; &#x83DC;&#x5E02;&#x573A; &#x3002;

C:\Users\15488\anaconda3\lib\site-packages\ipykernel_launcher.py:23: DeprecationWarning: The StanfordParser will be deprecated
Please use [91mnltk.parse.corenlp.CoreNLPParser[0m instead.

['&#x4ED6;', '&#x9A91;', '&#x81EA;&#x884C;&#x8F66;', '&#x53BB;', '&#x4E86;', '&#x83DC;&#x5E02;&#x573A;', '&#x3002;']

4. 《Python自然语言处理》阅读第六章p242性别鉴定例子，完成p244题目。

自己从名字中拟定特征完成分类器训练、测试和精度评价。

def gender_features(word):
    return {'last_letter': word[-1]}
gender_features('Shrek')

from nltk.corpus import names
import nltk
import random
names_set = ([(name, 'male') for name in names.words('male.txt')] +
        [(name, 'female') for name in names.words('female.txt')])
print (names_set[:10])
random.shuffle(names_set)
print (names_set[:10])

[('Aamir', 'male'), ('Aaron', 'male'), ('Abbey', 'male'), ('Abbie', 'male'), ('Abbot', 'male'), ('Abbott', 'male'), ('Abby', 'male'), ('Abdel', 'male'), ('Abdul', 'male'), ('Abdulkarim', 'male')]
[('Thurston', 'male'), ('Keri', 'female'), ('Kassi', 'female'), ('Bradley', 'male'), ('Michale', 'male'), ('Gail', 'male'), ('Nelsen', 'male'), ('Tootsie', 'female'), ('Barry', 'female'), ('Cathee', 'female')]

featuresets = [(gender_features(n), g) for (n,g) in names_set]
train_set, test_set = featuresets[500:], featuresets[:500]
classifier = nltk.NaiveBayesClassifier.train(train_set)


classifier.classify(gender_features('Neo'))

'male'

classifier.classify(gender_features('Trinity'))

'female'


print (nltk.classify.accuracy(classifier, test_set))

0.784


names = nltk.corpus.names
print(names.fileids())
male_names = names.words('male.txt')
female_names = names.words('female.txt')
print([ w for w in male_names if w in female_names ])

['female.txt', 'male.txt']
['Abbey', 'Abbie', 'Abby', 'Addie', 'Adrian', 'Adrien', 'Ajay', 'Alex', 'Alexis', 'Alfie', 'Ali', 'Alix', 'Allie', 'Allyn', 'Andie', 'Andrea', 'Andy', 'Angel', 'Angie', 'Ariel', 'Ashley', 'Aubrey', 'Augustine', 'Austin', 'Averil', 'Barrie', 'Barry', 'Beau', 'Bennie', 'Benny', 'Bernie', 'Bert', 'Bertie', 'Bill', 'Billie', 'Billy', 'Blair', 'Blake', 'Bo', 'Bobbie', 'Bobby', 'Brandy', 'Brett', 'Britt', 'Brook', 'Brooke', 'Brooks', 'Bryn', 'Cal', 'Cam', 'Cammy', 'Carey', 'Carlie', 'Carlin', 'Carmine', 'Carroll', 'Cary', 'Caryl', 'Casey', 'Cass', 'Cat', 'Cecil', 'Chad', 'Chris', 'Chrissy', 'Christian', 'Christie', 'Christy', 'Clair', 'Claire', 'Clare', 'Claude', 'Clem', 'Clemmie', 'Cody', 'Connie', 'Constantine', 'Corey', 'Corrie', 'Cory', 'Courtney', 'Cris', 'Daffy', 'Dale', 'Dallas', 'Dana', 'Dani', 'Daniel', 'Dannie', 'Danny', 'Darby', 'Darcy', 'Darryl', 'Daryl', 'Deane', 'Del', 'Dell', 'Demetris', 'Dennie', 'Denny', 'Devin', 'Devon', 'Dion', 'Dionis', 'Dominique', 'Donnie', 'Donny', 'Dorian', 'Dory', 'Drew', 'Eddie', 'Eddy', 'Edie', 'Elisha', 'Emmy', 'Erin', 'Esme', 'Evelyn', 'Felice', 'Fran', 'Francis', 'Frank', 'Frankie', 'Franky', 'Fred', 'Freddie', 'Freddy', 'Gabriel', 'Gabriell', 'Gail', 'Gale', 'Gay', 'Gayle', 'Gene', 'George', 'Georgia', 'Georgie', 'Geri', 'Germaine', 'Gerri', 'Gerry', 'Gill', 'Ginger', 'Glen', 'Glenn', 'Grace', 'Gretchen', 'Gus', 'Haleigh', 'Haley', 'Hannibal', 'Harley', 'Hazel', 'Heath', 'Henrie', 'Hilary', 'Hillary', 'Holly', 'Ike', 'Ikey', 'Ira', 'Isa', 'Isador', 'Isadore', 'Jackie', 'Jaime', 'Jamie', 'Jan', 'Jean', 'Jere', 'Jermaine', 'Jerrie', 'Jerry', 'Jess', 'Jesse', 'Jessie', 'Jo', 'Jodi', 'Jodie', 'Jody', 'Joey', 'Jordan', 'Juanita', 'Jude', 'Judith', 'Judy', 'Julie', 'Justin', 'Karel', 'Kellen', 'Kelley', 'Kelly', 'Kelsey', 'Kerry', 'Kim', 'Kip', 'Kirby', 'Kit', 'Kris', 'Kyle', 'Lane', 'Lanny', 'Lauren', 'Laurie', 'Lee', 'Leigh', 'Leland', 'Lesley', 'Leslie', 'Lin', 'Lind', 'Lindsay', 'Lindsey', 'Lindy', 'Lonnie', 'Loren', 'Lorne', 'Lorrie', 'Lou', 'Luce', 'Lyn', 'Lynn', 'Maddie', 'Maddy', 'Marietta', 'Marion', 'Marlo', 'Martie', 'Marty', 'Mattie', 'Matty', 'Maurise', 'Max', 'Maxie', 'Mead', 'Meade', 'Mel', 'Meredith', 'Merle', 'Merrill', 'Merry', 'Meryl', 'Michal', 'Michel', 'Michele', 'Mickie', 'Micky', 'Millicent', 'Morgan', 'Morlee', 'Muffin', 'Nat', 'Nichole', 'Nickie', 'Nicky', 'Niki', 'Nikki', 'Noel', 'Ollie', 'Page', 'Paige', 'Pat', 'Patrice', 'Patsy', 'Pattie', 'Patty', 'Pen', 'Pennie', 'Penny', 'Perry', 'Phil', 'Pooh', 'Quentin', 'Quinn', 'Randi', 'Randie', 'Randy', 'Ray', 'Regan', 'Reggie', 'Rene', 'Rey', 'Ricki', 'Rickie', 'Ricky', 'Rikki', 'Robbie', 'Robin', 'Ronnie', 'Ronny', 'Rory', 'Ruby', 'Sal', 'Sam', 'Sammy', 'Sandy', 'Sascha', 'Sasha', 'Saundra', 'Sayre', 'Scotty', 'Sean', 'Shaine', 'Shane', 'Shannon', 'Shaun', 'Shawn', 'Shay', 'Shayne', 'Shea', 'Shelby', 'Shell', 'Shelley', 'Sibyl', 'Simone', 'Sonnie', 'Sonny', 'Stacy', 'Sunny', 'Sydney', 'Tabbie', 'Tabby', 'Tallie', 'Tally', 'Tammie', 'Tammy', 'Tate', 'Ted', 'Teddie', 'Teddy', 'Terri', 'Terry', 'Theo', 'Tim', 'Timmie', 'Timmy', 'Tobe', 'Tobie', 'Toby', 'Tommie', 'Tommy', 'Tony', 'Torey', 'Trace', 'Tracey', 'Tracie', 'Tracy', 'Val', 'Vale', 'Valentine', 'Van', 'Vin', 'Vinnie', 'Vinny', 'Virgie', 'Wallie', 'Wallis', 'Wally', 'Whitney', 'Willi', 'Willie', 'Willy', 'Winnie', 'Winny', 'Wynn']

书上：

一般来说，以字母 a 结尾的名字都是女性名字。所以我们可以提取最后一个字母 name[-1]，则：


cfd = nltk.ConditionalFreqDist((fileid,name[-1]) for fileid in names.fileids() for name in names.words(fileid))
cfd.plot()

<axessubplot:xlabel='samples', ylabel="Counts">
</axessubplot:xlabel='samples',>

可以由此图看到，大多数名字以 a,e,i 结尾的名字是女性，以 k,o,r,s 和 t 结尾的更可能是男性。以 h,l 结尾的男女差不多。

那我们这里就建立一个分类器来更精确的模拟这些差异。

创建一个分类器的第一步是决定输入的什么样的特征是能相关的，以及如何为那些特征编码。
在这个例子中，我们一开始只是寻找一个给定的名称的最后一个字母。
以下特征提取器函数建立了一个字典，包含有关给定名称的相关信息：

def gender_features(word):
    return {'last_letter':word[-1]}
print(gender_features('Shark'))

{'last_letter': 'k'}

这个函数返回的字典被称为特征集，映射特征名称到他们的值。
特征名称是简单类型的值，如布尔，数字和字符串。

现在我们已经建立了一个特征提取器，我们需要准备一个例子和一个对应类标签的链表：

from nltk.corpus import names
import random
names = ([(name,'male') for name in names.words('male.txt')]
         +[(name,'female') for name in names.words('female.txt')])
random.shuffle(names)

接下来，我们使用特征提取器处理名称数据，并划分特征集的结果链表为一个训练集和一个测试集。

训练集用于训练一个新的”朴素贝叶斯”分类器。

featuresets = [(gender_features(n),g) for (n,g) in names]
train_set , test_set = featuresets[500:],featuresets[:500]

下面测试下没有出现在训练数据中的名字：

classiffier = nltk.NaiveBayesClassifier.train(train_set)
print(classiffier.classify(gender_features('Neo')))
print(classiffier.classify(gender_features('Trinity')))

male
female

那我们可以使用大数据量来系统的评估这个分类器：

print(nltk.classify.accuracy(classiffier,test_set))

0.758

最后我们可以检查分类器，确定哪些特征对于区分名字的性别是最有效的。

print(classiffier.show_most_informative_features(10))

Most Informative Features
             last_letter = 'a'            female : male   =     34.6 : 1.0
             last_letter = 'k'              male : female =     30.7 : 1.0
             last_letter = 'f'              male : female =     15.2 : 1.0
             last_letter = 'p'              male : female =     11.2 : 1.0
             last_letter = 'v'              male : female =     11.2 : 1.0
             last_letter = 'd'              male : female =      9.6 : 1.0
             last_letter = 'o'              male : female =      8.7 : 1.0
             last_letter = 'm'              male : female =      8.5 : 1.0
             last_letter = 'r'              male : female =      6.6 : 1.0
             last_letter = 'g'              male : female =      5.4 : 1.0
None

通过输出结果可以看到，训练集中以 ‘a’ 结尾的名字中女性是男性的 34 倍，而以 ‘k’ 结尾名字中男性是女性的30倍。

这些比率叫做似然比，可以用于比较不同特征-结果关系。

实验：

修改gender_features()函数，为分类器提供名称的长度、它的第一个字母以及任何其他看起来可能有用的特征。

再用这些新特征训练分类器，并测试其准确性。


names = nltk.corpus.names
print(names.fileids())
male_names = names.words('male.txt')
female_names = names.words('female.txt')
print([ w for w in male_names if w in female_names ])

['female.txt', 'male.txt']
['Abbey', 'Abbie', 'Abby', 'Addie', 'Adrian', 'Adrien', 'Ajay', 'Alex', 'Alexis', 'Alfie', 'Ali', 'Alix', 'Allie', 'Allyn', 'Andie', 'Andrea', 'Andy', 'Angel', 'Angie', 'Ariel', 'Ashley', 'Aubrey', 'Augustine', 'Austin', 'Averil', 'Barrie', 'Barry', 'Beau', 'Bennie', 'Benny', 'Bernie', 'Bert', 'Bertie', 'Bill', 'Billie', 'Billy', 'Blair', 'Blake', 'Bo', 'Bobbie', 'Bobby', 'Brandy', 'Brett', 'Britt', 'Brook', 'Brooke', 'Brooks', 'Bryn', 'Cal', 'Cam', 'Cammy', 'Carey', 'Carlie', 'Carlin', 'Carmine', 'Carroll', 'Cary', 'Caryl', 'Casey', 'Cass', 'Cat', 'Cecil', 'Chad', 'Chris', 'Chrissy', 'Christian', 'Christie', 'Christy', 'Clair', 'Claire', 'Clare', 'Claude', 'Clem', 'Clemmie', 'Cody', 'Connie', 'Constantine', 'Corey', 'Corrie', 'Cory', 'Courtney', 'Cris', 'Daffy', 'Dale', 'Dallas', 'Dana', 'Dani', 'Daniel', 'Dannie', 'Danny', 'Darby', 'Darcy', 'Darryl', 'Daryl', 'Deane', 'Del', 'Dell', 'Demetris', 'Dennie', 'Denny', 'Devin', 'Devon', 'Dion', 'Dionis', 'Dominique', 'Donnie', 'Donny', 'Dorian', 'Dory', 'Drew', 'Eddie', 'Eddy', 'Edie', 'Elisha', 'Emmy', 'Erin', 'Esme', 'Evelyn', 'Felice', 'Fran', 'Francis', 'Frank', 'Frankie', 'Franky', 'Fred', 'Freddie', 'Freddy', 'Gabriel', 'Gabriell', 'Gail', 'Gale', 'Gay', 'Gayle', 'Gene', 'George', 'Georgia', 'Georgie', 'Geri', 'Germaine', 'Gerri', 'Gerry', 'Gill', 'Ginger', 'Glen', 'Glenn', 'Grace', 'Gretchen', 'Gus', 'Haleigh', 'Haley', 'Hannibal', 'Harley', 'Hazel', 'Heath', 'Henrie', 'Hilary', 'Hillary', 'Holly', 'Ike', 'Ikey', 'Ira', 'Isa', 'Isador', 'Isadore', 'Jackie', 'Jaime', 'Jamie', 'Jan', 'Jean', 'Jere', 'Jermaine', 'Jerrie', 'Jerry', 'Jess', 'Jesse', 'Jessie', 'Jo', 'Jodi', 'Jodie', 'Jody', 'Joey', 'Jordan', 'Juanita', 'Jude', 'Judith', 'Judy', 'Julie', 'Justin', 'Karel', 'Kellen', 'Kelley', 'Kelly', 'Kelsey', 'Kerry', 'Kim', 'Kip', 'Kirby', 'Kit', 'Kris', 'Kyle', 'Lane', 'Lanny', 'Lauren', 'Laurie', 'Lee', 'Leigh', 'Leland', 'Lesley', 'Leslie', 'Lin', 'Lind', 'Lindsay', 'Lindsey', 'Lindy', 'Lonnie', 'Loren', 'Lorne', 'Lorrie', 'Lou', 'Luce', 'Lyn', 'Lynn', 'Maddie', 'Maddy', 'Marietta', 'Marion', 'Marlo', 'Martie', 'Marty', 'Mattie', 'Matty', 'Maurise', 'Max', 'Maxie', 'Mead', 'Meade', 'Mel', 'Meredith', 'Merle', 'Merrill', 'Merry', 'Meryl', 'Michal', 'Michel', 'Michele', 'Mickie', 'Micky', 'Millicent', 'Morgan', 'Morlee', 'Muffin', 'Nat', 'Nichole', 'Nickie', 'Nicky', 'Niki', 'Nikki', 'Noel', 'Ollie', 'Page', 'Paige', 'Pat', 'Patrice', 'Patsy', 'Pattie', 'Patty', 'Pen', 'Pennie', 'Penny', 'Perry', 'Phil', 'Pooh', 'Quentin', 'Quinn', 'Randi', 'Randie', 'Randy', 'Ray', 'Regan', 'Reggie', 'Rene', 'Rey', 'Ricki', 'Rickie', 'Ricky', 'Rikki', 'Robbie', 'Robin', 'Ronnie', 'Ronny', 'Rory', 'Ruby', 'Sal', 'Sam', 'Sammy', 'Sandy', 'Sascha', 'Sasha', 'Saundra', 'Sayre', 'Scotty', 'Sean', 'Shaine', 'Shane', 'Shannon', 'Shaun', 'Shawn', 'Shay', 'Shayne', 'Shea', 'Shelby', 'Shell', 'Shelley', 'Sibyl', 'Simone', 'Sonnie', 'Sonny', 'Stacy', 'Sunny', 'Sydney', 'Tabbie', 'Tabby', 'Tallie', 'Tally', 'Tammie', 'Tammy', 'Tate', 'Ted', 'Teddie', 'Teddy', 'Terri', 'Terry', 'Theo', 'Tim', 'Timmie', 'Timmy', 'Tobe', 'Tobie', 'Toby', 'Tommie', 'Tommy', 'Tony', 'Torey', 'Trace', 'Tracey', 'Tracie', 'Tracy', 'Val', 'Vale', 'Valentine', 'Van', 'Vin', 'Vinnie', 'Vinny', 'Virgie', 'Wallie', 'Wallis', 'Wally', 'Whitney', 'Willi', 'Willie', 'Willy', 'Winnie', 'Winny', 'Wynn']

cfd = nltk.ConditionalFreqDist((fileid,name[-2]) for fileid in names.fileids() for name in names.words(fileid))
cfd.plot()

<axessubplot:xlabel='samples', ylabel="Counts">
</axessubplot:xlabel='samples',>

倒数第二个字母是n的女孩子更多

cfd = nltk.ConditionalFreqDist((fileid,name[0]) for fileid in names.fileids() for name in names.words(fileid))
cfd.plot()

<axessubplot:xlabel='samples', ylabel="Counts">
</axessubplot:xlabel='samples',>

第一个字母c,k,l,m的女孩子更多

cfd = nltk.ConditionalFreqDist((fileid,name[1]) for fileid in names.fileids() for name in names.words(fileid))
cfd.plot()

<axessubplot:xlabel='samples', ylabel="Counts">
</axessubplot:xlabel='samples',>

第二个字母类似

{'last_letter': 'k', 'first_letter': 'S'}

from nltk.corpus import namesimport randomnames = ([(name,'male') for name in names.words('male.txt')]         +[(name,'female') for name in names.words('female.txt')])random.shuffle(names)

malemale

0.792

大于第一个特征提取器的0.758哦！效果得到了提升

Original: https://blog.csdn.net/wtyuong/article/details/121760427
Author: 是Yu欸
Title: NLP6：stanford Parser中文分词

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/557541/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

torch.nn.Conv1d使用详解

pytorch卷积层的介绍：torch.nn.Conv1d介绍：torch.nn.Conv1d(in_channels, out_channels, kernel_size, st…

人工智能 2023年7月23日
0048
Android 讯飞语音识别功能开发

以下代码主要参考博客：Android 科大讯飞语音识别 Android蓝牙串口开发部分请参照博客：Android蓝牙串口开发讯飞语音官方开发文档：语音听写 Android SDK…

人工智能 2023年5月27日
0081
DeepHyperX代码理解-HamidaEtAl

代码复现自论文《3-D Deep Learning Approach for Remote Sensing Image Classification》先对部分基础知识做一些整理：…

人工智能 2023年6月3日
0091
安装PyTorch后引入torchvision报错：Failed to load image Python extension: warn(f“Failed to load image Python

一、问题分析：报错如下： Failed to load image Python extension: warn(f”Failed to load image Pyt…

人工智能 2023年7月4日
0039
线性回归基本流程梳理

线性回归基本流程梳理线性回归概述线性回归实例 * 问题概述预设函数代价函数梯度下降算法学习速率和算法次数的选择线性回归总结线性回归概述线性回归是回归算法是一种监督…

人工智能 2023年6月18日
0054
【FPGA】基于HLS的全连接神经网络手写体识别

目录一系统分析 1.1 全连接神经网络简介二通过HLS 编写全连接神经网络传入权重参数和偏置参数文件 2.1 获得图片、权重以及偏置的参数 2.2 编写C语言的全连接算子 …

人工智能 2023年7月12日
0049
python计算各类型电影的评分_python(15)-pandas-多类型统计-电影分类问题

1.情境描述：用于电影分类，一个电影可以属于好几类。按类型统计片子数。 2.实现步骤：读文件->统计分类->全0数组(行，列)->赋值为1->各列求和 3…

人工智能 2023年7月8日
0062
PyTorch SparseTensor 稀疏张量

torch竟然没有from scipy这种方法。。。。真的是。。 idx , LongTensor, shape=(2,nnz) val , FloatTensor, shape=…

人工智能 2023年6月17日
0068
【ROS进阶篇】第九讲基于Rviz和Arbotix控制的机器人模型运动

【ROS进阶篇】第九讲基于Rviz和Arbotix控制的机器人模型运动文章目录【ROS进阶篇】第九讲基于Rviz和Arbotix控制的机器人模型运动前言一、Arboti…

人工智能 2023年6月10日
00195
Unity -Demo 之 ✨ 接入“科大讯飞”语音识别SDK（完整）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0082
Neo4j导入csv文件

Neo4j导入csv文件文章目录 Neo4j导入csv文件 * 前言文件访问常用参数实际书写参考文章前言 Neo4j 数据库可以使用 load csv 命令从 CSV …

人工智能 2023年6月10日
0091
机器学习强基计划4-2：通俗理解极大似然估计和极大后验估计+实例分析

目录 0 写在前面 1 从一个例子出发 2 极大似然估计 3 极大后验估计 4 Python实现 ; 0 写在前面机器学习强基计划聚焦深度和广度，加深对机器学习模型的理解与应用。…

人工智能 2023年6月13日
0066
给公司省下了300万美元，只因选对了BI工具

作者：Mary Pratt编译：帆软数据应用研究院-grace全文共2600字，阅读需要7分钟。根据调查，商业智能成功的十大障碍包括软件相关问题、缺乏足够的预算、缺乏培训和专业知…

人工智能 2023年7月17日
0046
复杂曲面建模_为什么要用SolidWorks曲面建模？什么时候又不需要曲面建模呢？…

1、为何要用曲面建模前面已经分享了曲面类型特点等知识，下面将为大家解释一下为什么要用曲面： 1) 实体建模在复杂外形中局限性——实体特征中的放样和扫描往往会生成一个或多个扁平形状…

人工智能 2023年6月1日
00178
tensorflow2.6.0 安装的警告记录

安装Anaconda3-2021.05-Windows-x86_64后，再pipinstall tensorflow2.6.0的时候出现下述错误： ERROR: pip&#8217…

人工智能 2023年5月26日
0096
Pandas(九)–数据采样

sample() 采样函数随机采样有条件采样恒定速率采样获取数据剩余部分 resample()采样函数降采样升采样频率转换asfreq() 插值处理随机采样随机抽…

人工智能 2023年7月16日
0040

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30