BM25算法原理简介

2023年5月28日上午10:21 • 人工智能 • 阅读 79

bm25 是什么？

bm25 是一种用来评价搜索词和文档之间相关性的算法，它是一种基于 概率检索模型提出的算法，再用简单的话来描述下bm25算法：我们有一个query和一批文档Ds，现在要计算query和每篇文档D之间的相关性分数，我们的做法是，先对query进行切分，得到单词$q_i$，然后单词的分数由3部分组成：

query中每个单词和文档d之间的相关性
单词和query之间的相关性
每个单词的权重

最后对于每个单词的分数我们做一个求和，就得到了query和文档之间的分数。

下面将从3个部分来介绍bm25算法。

单词权重

单词的权重最简单的就是用idf值

其中N表示索引中全部文档数，

为包含了

的文档的个数。依据IDF的作用，对于某个

，包含

的文档数越多，说明

重要性越小，或者区分度越低，IDF越小，因此IDF可以用来刻画 BM25算法原理简介

与文档的相似性。

单词和文档的相关性

tf-idf中，这个信息直接就用”词频”，如果出现的次数比较多，一般就认为更相关。但是BM25洞察到：词频和相关性之间的关系是非线性的，具体来说，每一个词对于文档相关性的分数不会超过一个特定的阈值，当词出现的次数达到一个阈值后，其影响不再线性增长，而这个阈值会跟文档本身有关。

在具体操作上，我们对于词频做了”标准化处理”，具体公式如下：

其中，

是单词t在文档d中的词频，

是文档d的长度，

是所有文档的平均长度，变量

是一个正的参数，用来标准化文章词频的范围，当

=0，就是一个二元模型（binary model）（没有词频），一个更大的值对应使用更原始的词频信息。b是另一个可调参数（0

Original: https://blog.csdn.net/laobai1015/article/details/120143102
Author: 小白的进阶
Title: BM25算法原理简介

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530969/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

语音识别中输入输出的可能形式有哪些

序，语音信号的前处理 1，语音数据如何转化为features? 拿到10ms的语音数据后，常会利用一定大小的window将语音数据切分成若干份（在语音识别中，由window生成…

人工智能 2023年5月25日
0083
1. 深度生成模型-扩散模型(非均衡热力学的深度无监督学习)

医学视网膜分割是一项重要的医学图像处理任务，可以帮助医生更准确地诊断疾病，提高治疗效果。基于深度学习_的视网膜分割系统已经取得了很大的进展，其中最常用的是基于卷积神经网络（CNN…

人工智能 2023年7月28日
0067
图像处理基本方法-将BMP图片灰度化-c语言实现

图像处理基本方法-将BMP图片灰度化-c语言实现 c语言实现图片灰度化，主要利用公式Gray = R _0.299 + G_0.587 + B*0.114实现。实现函数为bmpG…

人工智能 2023年6月22日
00116
特征检索总结

特征检索总述 1 Product Quantization乘积量化 * 1.1 训练 1.2 量化 1.3 查询 2 倒排乘积量化 * 2.1 流程 2.2 查询 2.3 分析 …

人工智能 2023年6月2日
0085
【ROS进阶】5000字解析如何确定ROS编程中数据类型（消息类型）

文章目录一、已有ROS仿真器，自行编写控制器节点 * 1、利用rostopic list明确仿真器可用的topic 2、rostopic info 找到对应话题的类型 3、ros…

人工智能 2023年6月25日
0078
CVPR2022新作：P图不会，深度学习来帮忙，基于GAN逆映射的图像编辑(中)

导语 GAN逆映射（GAN Inversion）实际上是逆向思维的极佳范式。简单来说，以往将编码z通过生成器合成图像；现在是求真实图像的编码，期望在特征空间的修改最终映射为对图像…

人工智能 2023年7月22日
0063
Redis学习笔记①基础篇_Redis快速入门

若文章内容或图片失效，请留言反馈。部分素材来自网络，若不小心影响到您的利益，请联系博主删除。资料链接：https://pan.baidu.com/s/1189u6u4icQYHg…

人工智能 2023年6月29日
0068
《WeNet语音识别实战》答疑回顾（二）

问 1：这个热词文件，有行数限制么？比如：3万行，可以么？答：没有限制，但是多了效果不一定好。问 2：热词输出带上 context 的标志了，是不是通过参数可以控制？还是要改下…

人工智能 2023年5月27日
00124
数据分析——pandas玩转数据分析

pandas第一讲——利用pandas创建excel文件 import pandas as pd 导入pandas包 df=pd.DataFrame() 定义一个变量变量类型是d…

人工智能 2023年7月6日
0073
《python金融数据分析》

前言 Python 已广泛应用于银行业、投资管理保险业、房地产行业等金融领域用于开发金融模型、管理风险和自动完成交易。许多大型金融机构依赖 Python 来搭建职位管理、资产定价…

人工智能 2023年7月16日
0075
修改Jupyter Notebook默认打开文件路径

1、添加jupyter_notebook_config.py配置文件 · 对于Windows系统，打开Anaconda Prompt并输入以下命令： jupyter noteboo…

人工智能 2023年6月4日
0066
SAP HANA，S/4HANA 和 SAP BTP 的辨析

这是知乎上一个朋友向我咨询的问题。 SAP HANA，SAP S/4HANA，和 SAP BTP，这几个名词，对于刚接触 SAP 的朋友来说确实容易混淆。光是 SAP HANA，…

人工智能 2023年7月17日
00113
M1 Mac下安装pytorch和pycharm的导入

一、pytorch的安装创建pytorch虚拟环境使用以下命令创建pytorch环境 conda activate pytorch_env 切换到新的环境 conda acti…

人工智能 2023年7月23日
0071
padding(卷积中的填充)

文章目录 * – 情景（步长s为1）： – 另外一种情景（步长不为1）： – 卷积存在问题 – 填充 – Valid卷积…

人工智能 2023年7月28日
0064
双目立体视觉摄像头的标定、矫正、世界坐标计算（opencv）

使用opencv对双目立体视觉摄像头进行标定和矫正摄像头标定准备工作摄像头标定摄像头矫正世界坐标计算摄像头标定准备工作使用双目摄像头拍摄贴有棋盘格的平面，拍摄多组图片，…

人工智能 2023年6月18日
0084
Pytorch环境搭建

1.创建环境首先打开Anaconda 命令提示行，即打开Anaconda Prompt,前面显示(base)说明已经进入Anaconda的基础环境，然后我们键入 conda cr…

人工智能 2023年6月16日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

BM25算法 原理简介

bm25 是什么？

单词权重

单词和文档的相关性

大家都在看

BM25算法原理简介