相似度检索Faiss模型

2023年5月31日上午3:04 • 人工智能 • 阅读 117

相似度检索TopK的问题一般的解决方案是暴力检索，循环遍历所有向量计算相似度然后得出TopK，但是当向量数量巨大时，这种方法及其耗时，Faiss的出现就很好地解决了这个问题。

Faiss的全称是Facebook AI Similarity Search是FaceBook的AI团队针对大规模相似度检索问题开发的一个工具，使用C++编写，有python接口，对10亿量级的索引可以做到毫秒级检索的性能。Faiss的工作，就是把我们自己的候选向量集封装成一个index数据库，它可以加速我们检索相似向量TopK的过程，其中有些索引还支持GPU构建，可谓是强上加强。

FAISS的使用一般包括如下三格步骤：

step1: 构建向量库，一般可以直接通过词向量的平均或者通过BERT等预训练模型直接拿到一个句子的向量，来构建向量库

import numpy as np
d = 64
nb = 100000
nq = 10000
np.random.seed(1234)
xb = np.random.random((nb, d)).astype('float32')
xq = np.random.random((nq, d)).astype('float32')

step2: 构建index，并将向量添加到index中。这里我们选用暴力检索的方法FlatL2，L2代表构建的index采用的相似度度量方法为L2范数，即欧氏距离

import faiss
index = faiss.IndexFlatL2(d)
print(index.is_trained)
index.add(xb)
print(index.ntotal)

step3: 检索TopK相似query

得到如下输出，第一个矩阵是索引，第一列0，1，2，3，4表示待检索矩阵自己的索引，从第二距离矩阵也可以看出，自己和自己的距离为0

[[  0 393 363  78]
 [  1 555 277 364]
 [  2 304 101  13]
 [  3 173  18 182]
 [  4 288 370 531]]

[[ 0.          7.17517328  7.2076292   7.25116253]
 [ 0.          6.32356453  6.6845808   6.79994535]
 [ 0.          5.79640865  6.39173603  7.28151226]
 [ 0.          7.27790546  7.52798653  7.66284657]
 [ 0.          6.76380348  7.29512024  7.36881447]]

tips 1
在实际使用时，构建索引一般都使用 faiss.index_factory 方法，基本所有的index都支持这种构建索引方法，上面步骤2中构建索引可以变成如下方式：

dim, measure = 64, faiss.METRIC_L2
param = 'Flat'
index = faiss.index_factory(dim, param, measure)

dim: 指定向量的维度
param: 是传入index的参数，代表需要构建什么类型的索引
measure：度量方法，目前支持两种，欧氏距离和inner product，即内积。因此，要计算余弦相似度，只需要将向量归一化后，使用内积度量即可。参数为 faiss.METRIC_INNER_PRODUCT

tips 2
一些索引可以保存整型的ID，每个向量可以指定一个ID，当查询相似向量时，会返回相似向量的ID及相似度(或距离)。如果不指定，将按照添加的顺序从0开始累加。其中IndexFlatL2不支持指定ID。IndexFlatL2不支持指定id，但是可以通过 IDMAP的方式实现，如下代码

ids = [2,10, 100,...]
ids = np.array(ids)
index = faiss.index_factory(768, "IDMap, Flat")
index.add_with_ids(save_embedding, ids)

下面方法与上面类似

index = faiss.IndexFlatL2(d)
ids = np.arange(100000, 200000)
index2 = faiss.IndexIDMap(index)
index2.add_with_ids(xb, ids)

优点：该方法是Faiss所有index中最准确的，召回率最高的方法，没有之一；
缺点：速度慢，占内存大
使用情况：向量候选集很少，在50万以内，并且内存不紧张
构建方法：

dim, measure = 64, faiss.METRIC_L2
param =  'Flat'
index = faiss.index_factory(dim, param, measure)
index.is_trained
index.add(xb)

优点：该方法是利用倒排技术对暴力检索加速，速度快于Flat
缺点：还不是很快，并且检索召回率下降
使用情况：同Flat，
参数：IVFx中的x是k-means聚类中心的个数
构建方法：

dim, measure = 64, faiss.METRIC_L2
param =  'IVF100, Flat'
index = faiss.index_factory(dim, param, measure)
print(index.is_trained)
index.train(xb)
index.add(xb)

优点：该方法为基于图检索的改进方法，检索速度极快，10亿级别秒出检索结果，而且召回率几乎可以媲美Flat，能达到惊人的97%。检索的时间复杂度为loglogn，几乎可以无视候选向量的量级了。并且支持分批导入，极其适合线上任务，毫秒级别体验。
缺点：构建索引极慢，占用内存极大（是Faiss中最大的，大于原向量占用的内存大小）
参数：HNSWx中的x为构建图时每个点最多连接多少个节点，x越大，构图越复杂，查询越精确，当然构建index时间也就越慢，x取4~64中的任何一个整数。
使用情况：不在乎内存，并且有充裕的时间来构建index

构建方法：

dim, measure = 64, faiss.METRIC_L2
param =  'HNSW64'
index = faiss.index_factory(dim, param, measure)
print(index.is_trained)
index.add(xb)

优点：利用乘积量化的方法，改进了普通k-means，将一个向量的维度切成x段，每段分别进行k-means。因此速度很快，而且占用内存较小，召回率也相对较高
缺点：召回率相较于暴力检索，下降较多。
使用情况：内存及其稀缺，并且需要较快的检索速度，不那么在意召回率
参数：PQx中的x为将向量切分的段数，因此，x需要能被向量维度整除，且x越大，切分越细致，时间复杂度越高

构建方法：

dim, measure = 64, faiss.METRIC_L2
param =  'PQ16'
index = faiss.index_factory(dim, param, measure)
print(index.is_trained)
index.train(xb)
index.add(xb)

优点：工业界大量使用此方法，各项指标都均可以接受。
缺点：集百家之长，自然也集百家之短
使用情况：同PQx
参数：IVFxPQy，其中的x和y同上
构建方法：

dim, measure = 64, faiss.METRIC_L2
param =  'IVF100, PQ16'
index = faiss.index_factory(dim, param, measure)
print(index.is_trained)
index.train(xb)

更多参考文献[3]

res = faiss.StandardGpuResources()

index_flat = faiss.IndexFlatL2(d)

gpu_index_flat = faiss.index_cpu_to_gpu(res, 0, index_flat)

gpu_index_flat.add(xb)
print(gpu_index_flat.ntotal)
k = 4
D, I = gpu_index_flat.search(xq, k)
print(I[:5])
print(I[-5:])

ngpus = faiss.get_num_gpus()
print("number of GPUs:", ngpus)

cpu_index = faiss.IndexFlatL2(d)
gpu_index = faiss.index_cpu_to_all_gpus(cpu_index)

gpu_index.add(xb)
print(gpu_index.ntotal)

k = 4
D, I = gpu_index.search(xq, k)
print(I[:5])
print(I[-5:])

Original: https://blog.csdn.net/orangerfun/article/details/120105693
Author: orangerfun
Title: 相似度检索Faiss模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548145/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习实战 | Python机器学习算法应用实践

作者：韩信子@ShowMeAI教程地址：https://www.showmeai.tech/tutorials/41本文地址：https://www.showmeai.tech/a…

人工智能 2023年7月26日
0082
注意力机制模块

!function(t,e){“object”==typeof exports&&”object”==typeof …

人工智能 2023年6月24日
0072
【吴恩达机器学习】Week4 编程作业ex3——多分类任务和神经网络

Multi-class Classification 1. 数据预处理和可视化 dispalyData.m function [h, display_array] = displa…

人工智能 2023年7月1日
0084
python数据分析案例1：选择一段时间的数据

目录 * – 问题说明 – 1. 查看数据 – 2. 查看数据类型，可以看出 TIMESTAMP 列的属性并不是时间属性，需要先进行格式转换 &…

人工智能 2023年7月8日
0076
Python批量给店铺图片素材加Logo

现在打算将一篇店铺素材批量加logo后上传至电商平台，平台要求上传像素为800*800。下面我们来一步步使用Python来实现：测试首先读取logo图片看看效果： from …

人工智能 2023年6月18日
0081
R语言计算回归模型每个样本（观察、observation、sample）的杠杆值（leverage）实战：如果一个样本的预测变量比其他样本的预测变量值更极端，那么被认为具有很高的杠杆作用

好的，下面是一个使用Python编写的基于PyTorch的强化学习模型_示例：首先，需要安装PyTorch和其他必要的库。可以使用以下命令在Python中安装PyTorch： …

人工智能 2023年6月18日
0089
低照度图像数据集

包含 500 个低光/正常光图像对。原始图像被调整为 400×600 并转换为便携式网络图形格式。使用三步法来消除数据集中图像对之间的错位。 Exclusive Dark数据集…

人工智能 2023年7月19日
0051
中文新闻文本标题分类（基于飞桨、Text CNN）

目录一、设计方案概述二、具体实现三、结果及分析四、总结一、设计方案概述主要网络模型设计：设计所使用网络模型为TextCNN,由于其本身就适用于短中句子，在标题分类这一方面应…

人工智能 2023年7月3日
0083
Ubuntu18.04 安装ROS全过程及各种问题解决方法

文章目录前言一、ROS版本选择二、安装步骤 * 1.添加ROS软件源 2.添加密钥 3.更新可升级列表 4. 安装ROS Melodic 5.初始化rosdep 6.设置环境…

人工智能 2023年6月2日
00101
如何从solidworks导出URDF模型

1、sw_urdf_exporter插件介绍下载与安装下载地址：http://wiki.ros.org/sw_urdf_exporter 下载插件之前确保已经安装solidwo…

人工智能 2023年6月1日
00144
搭建CNN卷积神经网络（用pytorch搭建）

手撕卷积神经网络—CNN卷积：提取特征池化：压缩特征 heigh X weigh X depth 长度宽度。深度（也就是特征图个数）例如输入32x32x3 hxwxc 卷积就…

人工智能 2023年6月16日
0058
自然语言处理发展的四大阶段

自然语言处理研究自动理解和生成人类语言的算法。小到文本匹配算法，小到机器翻译、对话系统，搜索引擎都可以使用自然语言处理技术。自然语言处理任务包括基本自然语言任务、信息抽取任务、文本…

人工智能 2023年5月27日
0084
dataframe常用笔记

在jupyter notebook里面shift+tab查看函数详情常用的库/包 import numpy as np import pandas as pd import se…

人工智能 2023年7月6日
0074
YOLO7 姿势识别实例

文章目录 1. 预训练模型 2. 测试代码 3. 运行代码 4. 问题上文搭建了YOLO7开发环境，并进行了物体定位测试。参见：YOLO7环境搭建、代码测试。本文将介绍如何使用Y…

人工智能 2023年6月15日
0091
Hugging Face发布diffuser模型AI绘画库初尝鲜！

💡 作者：韩信子@ShowMeAI📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42📘 TensorFlow 实战系列：https:…

人工智能 2023年7月13日
0055
pytorch构建自定义dataset及一些经验

目录 * – 1.前言 – 2. 构建 datasets – 3.Dataloader的使用 – 4. 后记 1.前言此篇文章是作…

人工智能 2023年7月21日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

相似度检索Faiss模型

大家都在看