BERTopic：NLP主题模型的未来！

2023年7月27日下午3:05 • 人工智能 • 阅读 89

文| ZenMoore
编| 小轶

以前我一直以为，主题建模(提取文档的主题词)这种机器学习时代就开始研究的基础工具，现在肯定已经到头了，虽然…有时效果可能不是那么让人满意。

但突然看到一则推文： “彻底疯了！不需要预先清洗数据，就能够快速拿到质量难以置信的主题！” “NLP 主题模型的未来！”

好家伙！让人又爱又恨又离不开的主题模型，终于要升华了吗？！！

看了论文之后，恍然大悟，完全没有想到现在主流主题模型的问题竟然出在这么细节的地方： 基于密度聚类和基于中心采样(主题词)之间的 gap ! 而且这个问题也竟然可以通过非常简单的方式解决……

回顾一下之前的主题建模的方式，可以简单地分成两种：

基于词袋的模型：比如 LDA(潜在狄利克雷分配)、NMF(非负矩阵分解) 等。
基于预训练词嵌入的聚类方法：比如 Top2Vec[1], CTM[2], Sia et al., 2020[3]等。

基于词袋的方法主要是基于 文档-单词的共现频率特征来抽取主题。其缺点在于： 没有充分考虑每个单词的上下文语义 。例如 LDA 算法，假定主题的先验分布和单词的先验分布都服从狄利克雷分布，又假定每个主题的单词分布、每个文档的主题分布均服从多项分布，然后再在”文档-单词”共现数据上通过 EM 等算法去求解得到主题。

在深度学习时代，我们更偏好使用基于预训练词嵌入的方式。一般而言，这类方法首先通过一个预训练的模型（比如 Doc2Vec、Word2Vec、GloVe、BERT）计算出文档的向量表示以及单词的向量表示，然后把它们嵌入到同一个语义空间中。 假定主题相似的文档在嵌入空间中的位置也是相近的（聚类），然后从这个嵌入空间的簇中去采样主题词。

通常这些簇以 基于密度的方式聚类[5]形成。这样 聚类后形成的簇不一定是”球状”的（sphere-like），每个簇的边界形状可以千奇百怪（如下图）。

基于质心的聚类：假定每个簇是一个球状结构(sphere-like) (其实是一个并不太合理的约束…)
基于层次的聚类：假定数据点存在层次关系，例如”国家”-“省份”-“城市”这种。
基于密度的聚类：挨在一起的就是一类的，不一定必须是 sphere-like 所以，基于层次和密度的聚类是最合理的方式。

然而，此前的方法是怎么做的呢？例如 Top2Vec[1]，它会先将 簇的质心(centroid) 作为主题向量, 然后认为：对于一个给定的词语，其 词向量与主题向量距离越近，则它越能代表这一主题。

这就出现问题了朋友们：聚类时是基于密度的，采词却是基于与质心的距离！（盲生发现了华点！）

举个栗子。在下图中有一个 长条状的簇，其质心用红色”X”标记。按照 Top2Vec 的做法，采词空间如红色圆周所示。可以看到，采词空间中有一部分并不在簇，就 很容易误采到其他簇的单词。

▲红色的圆圈就是所谓的”采词空间”，很明显超出了簇的范围

而今天要介绍的这篇 BERTopic, 使用一种基于类别的 TF-IDF 变体，解决了这个问题：聚类和采词之间的不一致不兼容问题(gap)。

论文标题：
BERTopic: Neural topic modeling with a class-based TF-IDF procedure

论文作者：
Maarten Grootendorst

论文链接：
https://arxiv.org/pdf/2203.05794.pdf

原理

BERTopic 方法的步骤如下：

首先使用预训练模型计算 document embeddings (比如常用的 Sentence-BERT 等)
因为 document embeddings 维度很高，在嵌入空间中就非常稀疏，不容易进行聚类，所以需要先进行降维，比如 PCA 或者 t-SNE 等方法，这里用的是 UMAP[4]
基于 层次和密度进行聚类，这里用的是典型的 HDBSCAN[5] 算法
⚡ 划重点：使用 class-based TF-IDF 变体提取每个簇的主题词

因为上文所说的这个 gap 产生的原因，本质上就是”采词空间”没有收束到对应的簇上。所以只要想办法把 候选集合定在簇里面就好了！😋

当然可以通过缩小 sphere 来约束，但是这样肯定会漏掉不少候选词…

静态主题建模

静态主题建模假定时间是静止的当下，不考虑文档主题分布随着时间的变化。

回顾一下 TF-IDF 算法：

式子中，t 代表单词(term), d 代表文档(document), 这个值的意思是 t 在 d 中的词频乘以 log(语料总文档数量比包含t的文档的数量)。

BERTopic 使用的是相同的策略，只不过文档 d 做了一些改变：将一个 cluster (也就是一个类 class) 中的所有文档拼接起来作为新的单个文档 d. 这样 TF-IDF 公式就变成了 c-TF-IDF：

402 Payment Required

其中，c 表示 class, A 表示每个 class 的平均单词数量，表示 class c 中 t 的频率，表示所有 class 中 t 的频率。

就这样，簇 c 里的每个单词 t 都有了一个分数，分数越高，越能代表这个簇的主题~ 显然这个 候选集合是收束在簇 c 的范围里面的。

动态主题建模

和静态主题建模不同，动态主题建模考虑到了文档本身随时间的变化特征，即2022年的文档和2012年的文档主题分布是不一样的，2022年大家在讨论的主题是”三体”即将上映，而2012年大家讨论的主题是”2012世界末日”.

针对这种情况，本文引入了新的 TF-IDF 公式：

402 Payment Required

这里的 i 表示第 i 个 timestep.

平滑化

对于动态主题建模另外一个可能有用的假设是，不同 timestep 的 topic 可能是线性相关的，因此作者引入了平滑技巧(optional)：

首先进行 L1-normalization (即除以 L1-norm), for each topic and timestep.
然后对 normalized vector 进行 average 平滑操作：将第 i 时刻的值与第 i-1 时刻的值进行一个平均作为新的第 i 时刻的值。

效果

作者使用 “all-mpnetbase-v2” SBERT model 作为 embedding model, 在 20 NewsGroups、BBC News、Trump 等数据集上进行了实验，对比结果如下图：

▲可见，BERTopic 有更好的综合能力

然后不同的 embedding model 对效果也会有影响：

对于动态主题建模，BERTopic 也有很好的综合效果：

▲Evolve 表示使用了上文介绍的平滑技巧

总结下来就是：

BERTopic 优点： 弥合了基于密度聚类和基于中心采样之间的 gap；适用于各种语言模型，从而可以根据需要与实际资源量灵活选择可用模型；嵌入聚类和主题生成(采词)是解耦的两个阶段；静态、动态主题建模用的是同一套框架, minimal change.

缺点：没有考虑单文档多主题；因为仅仅考虑了文档的上下文表示而主题词仍然来源于词袋，所以主题当中的单词可能高度相似从而具有一定的冗余性。

写在最后

看完这篇文章之后，最大的感觉就是：细心！太细心了！

密度聚类和中心采样之间的 gap, 这个盲点，真的需要一番好眼力才能发现 😂！所以，做科研，不一定必须追快打新，把 picture 定得多么多么大，能敏锐地发现一些别人发现不了的”小”问题，也是不小的成果。

Finally, 贴一段 BERTopic 的使用示例代码：

from bertopic import BERTopic
from sklearn.feature_extraction.text import CountVectorizer

# we add this to remove stopwords
vectorizer_model = CountVectorizer(ngram_range=(1, 2), stop_words="english")

model = BERTopic(
    vectorizer_model=vectorizer_model,
    language='english', calculate_probabilities=True,
    verbose=True
)
topics, probs = model.fit_transform(text)

代码来源于：https://www.pinecone.io/learn/bertopic/

然后去更新你的常备 toolkit 吧~ (😉)

智源实习生🧐，爱数学爱物理爱 AI🌸 想从 NLP 出发探索人工认知人工情感的奥秘🧠🤖！个人主页🌎 zenmoore.github.io 知乎🤔 ZenMoore, 微信📩 zen1057398161 嘤其鸣矣，求其友声✨！
作品推荐

加入卖萌屋NLP、CV、搜推广与求职讨论群

[1] Dimo Angelov. 2020. Top2vec: Distributed representations of topics. arXiv preprint arXiv:2008.09470.

[2] Federico Bianchi, Silvia Terragni, and Dirk Hovy. 2020a. Pre-training is a hot topic: Contextualized document embeddings improve topic coherence. arXiv preprint arXiv:2004.03974.

[3] Suzanna Sia, Ayush Dalmia, and Sabrina J Mielke. 2020. Tired of topic models? clusters of pretrained word embeddings make for fast and good topics too! arXiv preprint arXiv:2004.14914.

[4] Leland McInnes, John Healy, Nathaniel Saul, and Lukas Grossberger. 2018. Umap: Uniform manifold approximation and projection. The Journal of Open Source Software, 3(29):861.

[5] Leland McInnes, John Healy, and Steve Astels. 2017. hdbscan: Hierarchical density based clustering. The Journal of Open Source Software, 2(11):205.

Original: https://blog.csdn.net/xixiaoyaoww/article/details/125688370
Author: 夕小瑶
Title: BERTopic：NLP主题模型的未来！

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/718612/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SENet实战详解：使用SE-ReSNet50实现对植物幼苗的分类

摘要 1、SENet概述 Squeeze-and-Excitation Networks（简称 SENet）是 Momenta 胡杰团队（WMW）提出的新的网络结构，利用SEN…

人工智能 2023年6月19日
00116
Pytorch 深度强化学习模型训练速度慢

最近一直在用Pytorch来训练深度强化学习模型，但是速度一直很慢，Gpu利用率也很低。一、起初开始在训练参数 batch_size = 200, graph_size = 40…

人工智能 2023年7月22日
0083
4.8 TextCNN 文本分类、tensorflow实现——python实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月24日
0092
Python笔记：数据切片

以下是在pandas中实现数据切片的常用脚本。原理不赘述，具体示例如下： 01. 构造数据集 import pandas as pd df = pd.DataFrame({ &q…

人工智能 2023年7月7日
0076
YOLOv5、YOLOX、YOLOv6的分析与比较

美团的技术团队在最近提出了YOLOv6网络模型，美团在技术文档中重点对比了前两代的YOLOv5和YOLOX，以及百度的PP-YOLOE，在对coco数据集的验证中，YOLOv6不仅…

人工智能 2023年6月16日
00167
Jetson nano + yolov5 + TensorRT加速+调用usb摄像头

目录前言一、环境安装 * 1、安装虚拟环境virtualenv（可选） 2、设置cuda环境变量，解决nvcc -V找不到命令 3、更新 4、安装pytorch 和 torch…

人工智能 2023年7月13日
0077
阿里天池大赛-工业蒸汽预测

一：赛题理解 1.1：数据说明数据可以直接在阿里云天池官网下载。其格式如下：上图所示为训练数据，其中V0-V37共38个特征变量，target字段是目标变量。 ; 1.1：评估指…

人工智能 2023年6月18日
0070
工业镜头、相机的结构、参数解释及选型指南

提示：本文参考了网上其他相关文章，如有侵权，请联系作者。文章目录前言一、镜头的工艺制作原理 * 1.镜头组成部分 2.什么是焦距？ 3.焦距与镜头厚薄的关系？ 4.焦距与镜头…

人工智能 2023年6月17日
00101
使用TF卡烧录Jetson NX开发板

1、适用产品Jetson Nano 和Jetson NX 开发板。2、烧录准备2.1、在镜像下载中心：https://developer.nvidia.com/zh-cn/embe…

人工智能 2023年7月12日
00114
【异常检测-论文阅读】（CVPR 2022）Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection

来源： Ristea N C, Madan N, Ionescu R T, et al. Self-supervised predictive convolutional atte…

人工智能 2023年7月22日
0080
进化计算（四）——NSGA/NSGA II算法详解

NSGA/NSGA II算法理论学习 —A fast and elitist multiobjective genetic algorithm NSGA-II阅读笔记引言 * 概…

人工智能 2023年6月19日
00115
打破数据量瓶颈数据堂推出超大规模英语发音词典

英语是全球最具影响力的交流语言之一，与之相关的英语语音识别系统也引起了学术界和工业界的广泛关注。 [En] English is one of the most influenti…

人工智能 2023年5月25日
00154
Conv2d中的stride和padding参数的使用

Conv2d中最常用的参数就是in_channels ，out_channels ，kernel_size ，stride ，padding 这5个，往往需要我们手动输入，本文结合…

人工智能 2023年7月13日
00108
Leetcode1704：判断字符串的两半是否相似

给你一个偶数长度的字符串 s 。将其拆分成长度相同的两半，前一半为 a ，后一半为 b 。两个字符串相似的前提是它们都含有相同数目的元音（’a’，&#…

人工智能 2023年6月29日
0048
金融风控实战——社交网络分析

社交网络分析上节课有同学希望能讲一些设备指纹的内容，所以这节课我们先讲一下设备指纹，作为反欺诈图谱的基础。设备指纹可以把手机设备理解成一个人，像人一样有身份证号和名字（设备序…

人工智能 2023年6月1日
0078
语音信号处理、语音信号分析

1、语音信号倒谱？？有什么用呢？它和频谱有什么区别呢？2、线性预测分析是预测什么呢？准确吗？语音信号的倒谱分析就是求取语音倒谱特征参数的过程，它可以通过同态处理来实现。同态信…

人工智能 2023年5月25日
00116

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31