自然语言处理（5）——语言模型

2023年5月30日下午5:37 • 人工智能 • 阅读 85

NLP学习笔记（5）——语言模型

1. 基本概念
*
1.1 概念导入
1.2 划分等价类的方法——n元文法模型（n-gram）
1.3 概率计算
1.4 语言模型的应用
–
- 1.4.1 音字转换问题
- 1.4.2 汉语分词问题
2. 参数估计
*
2.1 最大似然估计
2.2 数据平滑
2.2.1 前置知识
–
3. 语言模型的自适应
*
3.1 背景与亟待解决的问题：
3.2 自适应的三种方法
–
4. 语言模型的应用
*
4.1 汉语分词问题
4.2 分词与词性标注一体化方法
基本概念

1.1 概念导入

大规模的语料库的出现为自然语言统计处理方法的实现提供了可能，基于大规模的语料库和统计方法，我们可以：

发现语言使用的普遍规律；
进行机器学习、自动获取语言知识；
对位置语言现象进行推测

我们研究语言模型时，需要计算语句的先验概率：

关于公式中的wi，可以是字、词、短语或者词类等等，统称为统计基元，在讨论中统一以”词”来代替。
对于wi来说，其出现的概率，由其之前的特定序列w1，……wi-1决定，这个序列成为wi的历史

由此就存在了一个问题，当历史基元的数量不断增加，不同的路径的可能性（第i个基元的不同的历史情况）会以指数级增长。i基元存在L(i-1)种不同的历史情况，其中L表示不同基元的数目。在这种情况下，产生不同的i基元发生的概率p(wm|w1……wm-1)时，就存在Lm个自由参数了，而这样大型的计算量显然不符合我们的期望

于是我们通过将历史序列映射到等价类的方法减少历史基元的数量，即将w1,w2……wi-1映射到S（w1 w2 w3……wi-1），则有：
p(wi|w1,……wi-1)=p(wi|S(w1……wi-1))

; 1.2 划分等价类的方法——n元文法模型（n-gram）

具体来讲
如果想将两个历史映射到相同的等价类，当且仅当这两个历史路径中最近的n-1个基元相同才可，即

这种设置n个有限记忆单元的语言模型称为n元文法模型
当n=1时，即出现在第i位的基元wi独立（于历史），一元文法可以成为uni-gram，或monogram
当n=2时，即基元wi的概率取决于其前一个单词，2-gram称为1阶马尔科夫链
当n=3时，即基元wi的概率取决于位置之前的两个单词，3-gram称为2阶马尔科夫链

1.3 概率计算

为了保证在计算条件概率的计算中，i=1时有意义，也为了保证句子内的所有字符串的概率之和为1（通过”加入终结符，将句子结尾词的开放性发展情况考虑进去”，从而能够综合考虑到所有的情况），可以在句子首尾两端加入标志

二元文法计算举例：
首先对语句进行元素划分

计算该语句基于二元文法的概率：

; 1.4 语言模型的应用

1.4.1 音字转换问题

对于给定的拼音串，去猜测其可能的汉字串，有许多种可能。

我们期望得到发生概率最大的一个，经过贝叶斯公式进行转化，并且拼音的出现是一个确定住的事件，并且认为由句子得到的拼音序列的概率是确定的（或者说概率为1），因此我们只需要考虑，各个句子中最大可能性产生的（句子），这与我们的直觉相一致。

在上述化简结果的前提下，我们以二元文法为例进行研究

; 1.4.2 汉语分词问题

参数估计

首先，介绍两个较为重要的概念：
~~ 训练语料：用于建立模型，确定模型参数的已知语料~~

最大似然估计：用相对频率来计算概率

2.1 最大似然估计

利用最大似然估计：

一个使用最大似然估计来求句子概率的例题：

以上为常规的最大似然估计，但由于数据稀疏（也称数据匮乏）sparse data的问题，极易导致出现条件概率为0的情况，这时就需要进行数据平滑（data smoothing）

; 2.2 数据平滑

2.2.1 前置知识

关于困惑度：
即为 测试语料的交叉熵的指数形式

关于测试语料的交叉熵Hp（T），是：

其中WT表示总测试文本语料T的总词数，p（T）表示产生整个测试集的概率

关于测试集T生成的概率p(T),是若干个组成的独立句子的累乘：

其中lT表示测试集语料T的句子数目
（t1,……,tlT）构成测试语料T

关于句子的概率p(ti)的计算（或者对于句子s概率p（s）的计算）

其中p（wi|wi-n+1i-1）表示对于一个平滑的n-gram的概率

=========
一个小知识，n-gram对于英文文本的困惑度的范围一般为50-1000（对应的交叉熵范围为6~10bits/word）

关于数据平滑，基本思想可以概括为”劫富济贫”：调整最大似然估计的概率值，使得零概率增值，非零概率下调，从而达到”劫富济贫”的目的，消除零概率，改进模型的整体正确率

数据平滑的基本目标，是减小测试样本的语言模型的困惑度。

数据平滑的基本约束，是条件概率之和为1

; 2.2.2 数据平滑的几种方法

2.2.2（1）加1法（Additive smoothing）

其基本思想，即在每种情况的基础上加1

针对以下例子，若不进行数据平滑，则会导致其中的部分条件概率为0。

使用数据平滑，使得零概率的情况被避免了，起到了一个缓冲的作用

值得注意的是，词汇量|V|指的是set（）后的元素集个数

; 2.2.2（2）减值法/折扣法（discounting）

其基本思想是，通过修改训练样本材料中发生事件的实际计数，从而使得样本中（修改后）实际计数对应的不同概率之和小于1，而将剩余下来的概率分配给未在训练样本中出现的事件。

对于减值法这一思想，在具体实现方式上，分为四种途径：

Good-Turing法：
Katz后退法（Back-off方法）：
绝对减值法
线性减值法

对于Good-Turing估计：
首先假设N为原始训练样本的大小，对于确定的事件，可能在原始数据中出现若干次，我们设其出现的次数为r；出现总次数为r的事件的数目则设置为nr
则有

但，观察上式，仅考虑到了某事件出现的概率，未考虑未出现过的事件，于是我们计算r，以期能够将r=0（某事件未出现）的情况考虑进去

计算得到r，即考虑”未在样本中出现过的事件”的情况

在这种方法下，估计事件在样本中出现r次的概率为：

显然，这种(r/N格式的)极大似然思想的概率计算方法是针对初始情况（也就是不考虑未出现样本的情况）时所使用的，在新的思想的加持下，使用r*必然导致总数的减小，如下式：
自然语言处理（5）——语言模型

小于1，与1的差值，即n1/N的概率，则分配给所有的未见事件，在Good-Turing法中，这个剩余的概率量时均匀分配给所有的未见事件的。

Good-Turing估计适用于大词汇集产生的符合多项式分布的发亮的观察数据，实际上是对非零事件的概率按照公式削减，将节留出来的概率均匀分配给零概率事件

对于Back-off方法（Katz后退法）
其基本思想为，当某一事件在样本中出现的频率大于阈值K时（K为0或1），运用最大似然估计的减值法来估计其概率，否则使用低阶的概率，即使用（n-1）gram的概率代替n-gram，而这种替代需要受到归一化因子alpha的作用

后退方法的另一种理解：对于每个技术的r>0的n元文法的出现次数减值，把因减值而省下来的剩余概率根据低阶的（n-1）gram分配给未见事件。

下面以二元文法为例，实现Katz平滑

在短语的出现次数大于0时，按照Good-Turing方法进行减值，减值法中的r*/r在这里被抽象成折扣率dr，即直接表示对极大似然方法的折扣比率；
在2-gram短语的出现次数为0时（未现事件），采取低一阶的uni-gram进行运算，符号为pML（wi），同时我们设置归一化因子α，即按照低一阶（n-1）阶文法的概率比例对剩余的概率值进行分配。

根据此思想，可以按照归一化的方法，公式化求出归一化因子

Katz后退法，其对非零事件的概率仍然按照Good-Turing法进行计算减值，不过原零概率的事件的新概率不再是对剩余概率进行均分，而是按照低阶分布的概率比例进行分布，仅需保证概率之和为1即可。

对于绝对减值法：

其基本思想，即为从每个技术r中减去同样的量，剩余的概率量由未见事件进行均分

设置R为所有可能的事件的个数
当事件满足n-gram时，如果统计基元为词（为了方便与n-gram进行匹配），词汇集的大小为L，则可能出现的数目为R=Ln。

在这种情况下，实现绝对减值法：

其中n0,为样本中未出现过的时间的数目，而b为绝对减值减去的常量（b

Original: https://blog.csdn.net/m0_53327618/article/details/121893482
Author: 胖虎干嘛了
Title: 自然语言处理（5）——语言模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544319/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何用两个晚上教女生学会Python

文章目录 * – 安装、需求引导和开发模型 – 命令行计算器 – 用温度指导穿衣 – VS Code 和女孩子的衣柜 –…

人工智能 2023年7月18日
0066
AttributeError: ‘NoneType’ object has no attribute ‘create_execution_context’

在使用tensorrt推理时 import pycuda.autoinit import numpy as np import pycuda.driver as cuda impo…

人工智能 2023年6月17日
0088
AudioUnit录制音频+耳返(四)

前言视频直播，K歌应用等等都会有音频录制的功能，音频录制时还可以带有耳返效果，那这些是如何实现的呢？如果仅仅是录制音频，那使用IOS的AudioQueue框架实现即可，但是在直播…

人工智能 2023年5月27日
00127
【论文阅读】注意力综述（软注意力）

以下内容来自：综述：图像处理中的注意力机制 – 知乎目录概述软注意力 Spatial Transformer Networks(空间域注意力)—2015 nips…

人工智能 2023年7月12日
0074
YoloV1——总结

1.概述 YoloV1是一个快速、准确的目标检测网络，优缺点如下：优点： 1.具备实时性，网络运行速度超过45fps 3.网络结构简单，端到端 4.可用于多种对象的检测缺点： …

人工智能 2023年7月14日
0053
Pandas数据分析—实现数据的合并(concat和append)

11.Pandas实现数据的合并(concat和append) 文章目录 11.Pandas实现数据的合并(concat和append) 前言一、假造数据二、程序演示 * &#…

人工智能 2023年7月8日
00112
yolov5的onnx推断示例和思路记录（包含detect.py的最新源码解读）

最近把yolov5的模型导出为了onnx格式，想写一个脚本来验证一下结果，看看和直接使用pt文件进行推断有无出入，虽然官方在detect.py文件里可以针对各种模型格式直接进行推断…

人工智能 2023年6月17日
0097
第七届工程训练比赛之智能垃圾分类

2021第七届工程训练综合能力竞赛之智能垃圾分类前言写在前面：第一次写博客，想把这半年的备赛经历记录下来分享分享给大家，如有错误欢迎大家指正。有需要代码的请+扣扣：12870…

人工智能 2023年5月26日
00113
DataFrame(13)：DataFrame之合并组合

在Pandas的实践过程中，我们经常需要将两个DataFrame合并组合在一起再进行处理，比如将不同来源的数据合并在一起，或者将不同日期的DataFrame合并在一起。 DataF…

人工智能 2023年6月2日
00140
聚类模型 · 学习笔记一

文章目录聚类模型 * 聚类算法一：K-means聚类算法（K均值聚类算法） – 1. 算法步骤 2. 算法优缺点 3. 改进算法——K-means++算法 4. SP…

人工智能 2023年5月31日
00116
DOTA数据集

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月6日
0098
Latex/科研入门，如何有效美化论文排版，借鉴别人的Latex排版技巧？

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月28日
0076
【读论文】DenseFuse: 一种红外图像和可见图像的融合方法

DenseFuse：一种红外图像和可见图像的融合方法 * – + 摘要：一种解决红外图像和可见图像融合的新型的深度学习框架。 + 导言 + * 过去的方法： * 评价：…

人工智能 2023年6月20日
00109
【魔改YOLOv5-6.x（中）】加入ACON激活函数、CBAM和CA注意力机制、加权双向特征金字塔BiFPN

另外，本文所使用的实验环境为1个GTX 1080 GPU，数据集为VOC2007，超参数为hyp.scratch-low.yaml，训练200个epoch，其他参数均为源码中默认设…

人工智能 2023年6月26日
0084
商城商品的知识图谱构建

知识图谱构建下面重点介绍阿里数字商业知识图谱的升级和相关工作。 1. 数字商业知识图谱升级在这样大的机制和模型设计之下，数字商业知识图谱大致如上图所示。通过知识图谱去管理和组织…

人工智能 2023年6月1日
0084
yoloV5-face学习笔记

前言第一次发博客，也是当记笔记，主要是为了下次更改关键点个数的时候能更方便。本文主要是针对yolov5-face和在yolov5的区别进行归纳总结，并着重复述了更改关键点个数的详…

人工智能 2023年7月25日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31