Kenlm python接口用法详细介绍

2023年5月25日下午5:27 • 人工智能 • 阅读 64

文章目录

加载LM模型
model.score()
model.full_scores()
model.BaseScore()
参考代码

Kenlm的安装和训练方法见
KenLM使用教程

加载LM模型

import kenlm

LM = 'lm.apra'

model = kenlm.LanguageModel(LM)

print('{0}-gram model'.format(model.order))

model.score()

该api可以用于对一整句话进行打分，获取对应的分数。

sentence = '今 天 天 气 真 不 错'
print(sentence, model.score(sentence))

输出结果：

model.full_scores()

用于查看一句话中每个token的分数，但是这个api使用前提是你得先获取这一整句话。


words = [''] + sentence.split() + ['']
for i, (prob, length, oov) in enumerate(model.full_scores(sentence)):
    print('{0} {1}: {2}'.format(prob, length, ' '.join(words[i + 2 - length:i + 2])))
    if oov:
        print('\t"{0}" is an OOV'.format(words[i + 1]))

for w in words:
    if not w in model:
        print('"{0}" is an OOV'.format(w))

输出结果：

由于这里的分数都取log了，所以将每个字的分数相加就是整句话的分数，与model.score()得到的结果一致。

log ⁡ P ( S ) = log ⁡ ( P ( S 1 ∣ S 0 ) ∗ P ( S 2 ∣ S 0 S 1 ) ∗ P ( S 3 ∣ S 0 S 1 S 2 ) … P ( S n ∣ S 0 … S n − 1 ) ) = ∑ i = 1 n log ⁡ P ( S i ∣ S 0 … S i − 1 ) \begin{aligned} \log P(S) &=\log (P(S_1|S_0)P(S_2|S_0S_1)P(S_3|S_0S_1S_2)\dots P(S_n|S_0\dots S_{n-1})) \ &=\sum_{i=1}^{n}\log P(S_i|S_0\dots S_{i-1}) \end{aligned}lo g P (S )=lo g (P (S 1 ∣S 0 )∗P (S 2 ∣S 0 S 1 )∗P (S 3 ∣S 0 S 1 S 2 )…P (S n ∣S 0 …S n −1 ))=i =1 ∑n lo g P (S i ∣S 0 …S i −1 )

model.BaseScore()

在实际解码过程中，一般使用自回归方法每个token依次出来，使用model.BaseScore()接口可以对预测的下一个token进行打分。

model.BaseScore(pre_state, token, cur_state)

pre_state: 前一个token对应的state
token: 当前要打分的token
cur_state: 当前token对应的state


state_pre = kenlm.State()
model.BeginSentenceWrite(state_pre)

for ch in sentence.split(' '):
    state = kenlm.State()
    score = model.BaseScore(state_pre, ch, state)
    print(ch, score)
    state_pre = state
state = kenlm.State()
print('', model.BaseScore(state_pre, '', state))

输出结果：

参考代码

https://github.com/kpu/kenlm/blob/master/python/example.py

Original: https://blog.csdn.net/qq_33424313/article/details/121054737
Author: 爱可乐的松鼠
Title: Kenlm python接口用法详细介绍

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/515242/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【深度学习】pix2pix GAN理论及代码实现

目录 1.什么是pix2pix GAN 2.pix2pixGAN生成器的设计 3.pix2pixGAN判别器的设计 4.损失函数 5.代码实现 1.什么是pix2pix GAN P…

人工智能 2023年7月12日
0060
TaxiBGC ——分类学指导下的生物合成基因簇鉴定流程

谷禾健康当前合成基因簇预测限制较大微生物基因组中的生物合成基因簇 (BGC) 编码具有生物活性的次级代谢物 (SM)，它可以在微生物-微生物和宿主-微生物相互作用中发挥…

人工智能 2023年7月30日
0070
【目标检测】指定划分COCO数据集训练（车类，行人类，狗类…）

前言🍉 目标检测中，训练voc数据（标注好的）时，我们不一定想要全部的80个类别的数据，而是想要一些指定类别的数据作用于特点的任务。比如：行人检测、车辆检测和动物检测等等。本文正是…

人工智能 2023年7月9日
0050
EfficientNet网络详解

原论文名称： EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks论文下载地址：http…

人工智能 2023年6月16日
0091
Qt实现YOLO目标检测及其界面制作

1、环境的搭建本文带你详细了解如何采用Qt搭建深度学习环境，如何制作界面，便于后期的部署与检测。 1.1 深度学习模型的准备本文使用的深度学习模型为YOLO系列的轻量级检测模型…

人工智能 2023年7月9日
0074
PL-Marker(ACL 2022)——信息抽取(NER+RE)新SOTA，论文浅析与代码浏览

文章目录前言：相关工作介绍论文思路整体框架 * 1. NER阶段 2. RE阶段 Train * 1.1 ACEDatasetNER 1.2 for _ in train_i…

人工智能 2023年6月25日
00109
【语音识别入门】特征提取（Python完整代码）

1、数字信号处理基础 1.1数字信号处理基础科学和工程中遇到的信号大多是连续的模拟信号，如电压随时间的变化、一天的温度变化等，而计算机智能地处理离散信号，因此必须对这些连续的模拟…

人工智能 2023年5月25日
0063
MMDetection实战：MMDetection训练与测试

文章目录摘要配置文件参数详解环境准备训练 * 制作数据集修改配置文件修改数据集的类别开始训练测试完整代码和数据集：摘要 MMDetection是商汤和港中文大学…

人工智能 2023年6月16日
00103
NLP-信息抽取-关系抽取-2019：CasRel【关系三元组抽取：一种新的级联二元标注框架】

在百度”2019语言与智能技术竞赛”（下称LIC2019）中，作者提出了一个新的关系抽取模型（参考《基于DGCNN和概率图的轻量级信息抽取模型》），后被进一…

人工智能 2023年5月30日
00278
Pandas（数据分析处理库）—讲解

本内容来自《跟&#…

人工智能 2023年6月19日
0077
ACL2021 知识图谱、推荐系统相关论文

作者 | Ccxs整理 | NewBeeNLP 知识图谱 Robust Knowledge Graph Completion with Stacked Convolutions a…

人工智能 2023年6月1日
0071
andoird PNG 图片与yuv12图像合成

1、png图片转换成ayuv图像Bitmap logoBitmap = BitmapFactory.decodeResource(context.getResources(), l…

人工智能 2023年6月22日
0073
opencv 图像分割与提取(python)

图像分割与提取 * – + * 图像分割与提取 * – 用分水岭算法实现图像分割与提取 – + 算法原理 + 相关函数介绍 + 分水岭算法图像分…

人工智能 2023年5月28日
0092
开源分布式图数据库的思考和实践

本文首发于 Nebula Graph Community 公众号本文整理自 DTCC 主题演讲【开源分布式图数据库的思考和实践】目录目录图数据库市场的现状图数据库的优势 …

人工智能 2023年6月10日
0072
毕业设计:基于机器学习的文本聚类 – 可用于舆情分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月2日
0055
正则化是一种常见的技术，用于控制Logistic回归模型的复杂度，防止过拟合。常用的正则化方法有L1正则化和L2正则化

什么是正则化？正则化是一种常见的技术，用于控制Logistic回归模型的复杂度，防止过拟合。过拟合是指模型在训练集上表现得很好，但在测试集或实际应用中表现很差的情况。正则化通过添…

人工智能 2024年1月6日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Kenlm python接口用法详细介绍

文章目录

大家都在看