召回算法演进总结(上)

2023年7月17日上午8:40 • 人工智能 • 阅读 62

召回，推荐系统的奠基者，拍脑袋的集大成者，业务效果的画线者。他决定了你最终能看到的内容的最大集合，他也决定了这次展示的业务体验。

文章目录

假设你是一名推荐系统的开发工程师，经过了几天几夜的爆肝后，第一版的推荐算法终于上线了。这时候，产品找了过来，”不行啊，结果里没有最近上新的产品啊，会影响后续ROI的。老板要求必须有新品的。”你想反驳却又没办法，只能想办法在结果中尽量恰当的显示新品。但是怎么做呢？新品没有足够的行为数据，很难出现在最后的推荐结果中。正在一筹莫展的时候，旁边一个老员工给你除了个主意，”插一路新品的召回进去吧！”

没错，在推荐系统里召回的实践中，多路召回是常用的策略。也就是有多种不同的处理逻辑分别生成一路召回结果分别解决指定的一个问题，最后融合在一起作为召回结果。正因为这个原因，召回几乎称得上是推荐系统的流程中最丰富多彩的过程。

常见的召回算法通常分成非个性化召回和个性化召回两种，而在非个性化和个性化下面又有各种需求带来的不同算法。下面，我们按照在推荐系统的部署实现过程中，召回算法比较常见的上线过程进行一些常见召回算法的介绍。

非个性化召回

非个性化召回通常由策略组成，比如热度、新品、精品···，经常是为了保证业务性的策略而实现。这些方法大多不和用户的信息绑定。比如，现在的新闻信息流中，最top的几条通常是近期热点、时事、政策等，和用户无关，但是非常的重要。这些通过是通过人工或者某些既定的策略维护在一个制定的池子中，根据具体的需求情况进行展示。

; 1 热度召回

第一种，也是在推荐系统前期上线的过程中最容易铺开的一种，热度召回算法。
这种召回算法实质上是一个存储在实时数据库中的倒排索引。这里倒排索引的value是待筛选的商品ids，key则是召回过程中需要使用到的索引query。其中倒排索引的value中的商品按照当前要求的热度召回指标的顺序从高到低进行排序，排序的结果就是在这一路召回中需要的顺序。

热度召回算法的思路很简单，就是按照当前的需求指标对商品进行简单的排序筛选，将满足筛选条件的商品集合进行召回展示。实现过程很简单，直接使用一定时间窗内的商品指标的统计结果即可。以ctr指标为例，对应的统计指标通常如下：

c t r = c l i c k _ c n t e x p o s e _ c n t ctr = \frac{click_cnt}{expose_cnt}c t r =e x p o s e _c n t c l i c k _c n t

c o r r _ c t r = c l i c k _ c n t + c o r r _ c l i c k _ c n t e x p o s e _ c n t + c o r r _ e x p o s e _ c n t corr_ctr=\frac{click_cnt+corr_click_cnt}{expose_cnt+corr_expose_cnt}c o r r _c t r =e x p o s e _c n t +c o r r _e x p o s e _c n t c l i c k _c n t +c o r r _c l i c k _c n t
c o r r _ c t r _ 2 = w e i g h t 1 ∗ h o u r 1 ( c o r r _ c t r ) + w e i g h t 2 ∗ h o u r 2 ( c o r r _ c t r ) + … corr_ctr_2=weight_1 ∗hour_1 (corr_ctr)+weight_2∗hour_2 (corr_ctr)+\dots c o r r _c t r _2 =w e i g h t 1 ∗h o u r 1 (c o r r _c t r )+w e i g h t 2 ∗h o u r 2 (c o r r _c t r )+…

如上，针对最基础的ctr统计方法有两种优化策略。
第二种相对第一种主要解决了新品因为曝光量少而存在的商品ctr统计值存在一些偏差的问题，通过分子分母的校验，保证新品或者是曝光量较少的商品的统计ctr指标能够保持在一个比较稳定的位置上，而不会因为统计偏差导致倒排列表的前面被大量的新品或曝光量少的商品占据，而挤压了真正优质的商品的存活空间。
第三种方法通过时间衰减的策略，保证了热度召回的策略对实时热度商品的快速反应，能够保证在最近一段时间内出现爆款的商品可以较好的出现在召回商品中，而不容易被前期的结果影响。同时这种策略可以对新品和上线时间较长但因为质量不佳而曝光量较少的商品进行一些区分。

常见的热度召回除了以ctr为排序指标外，还可以使用cvr等深层指标进行排序从而实现针对不同质量商品的过滤逻辑。
同样，可以通过调整不同的倒排指标实现对召回商品的质量调整，常用的召回通道如下：

新品上架时间召回：将商品按照上架时间进行倒排，主要为了解决新品因为没有足量的行为数据，导致在排序层较难获得曝光机会的问题。
上下文相关性召回：主要使用在搜索场景或者是相关性推荐场景上。
指定商品召回：主要是为了除了一些拥有特权的商品的召回，尤其是在新闻场景下，某些特殊新闻的召回需求。

Original: https://blog.csdn.net/zhang371312/article/details/122856761
Author: zhang371312
Title: 召回算法演进总结(上)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698271/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

AI画师技术又精进了? AI画师三维版试玩——Dreamfields和DreamFusion向文本生成3D模型领域进发

0、AI画师二维版的出圈最近AI画师的杰出表现让人惊讶无比，2022虽然不是ai绘图这项技术诞生的时间，但却是到目前为止最爆火出圈的绘图元年，现在市场上也已经有了很多成熟的AI绘…

人工智能 2023年6月26日
0083
【mmDetection框架解读】入门篇一、各组件解读，配置文件解读

目录前言一、mmDetection构建流程和思想二、训练核心组件 * 2.1、Backbone 2.2、Neck 2.3、Head 2.4、Enhance 2.5、BBox …

人工智能 2023年7月9日
00216
Jetson nano到底是个怎样的产品？（Jetson nano性能如何）

AI新维度 Jetson Nano 模块的大小仅为 70 x 45mm，比一张信用卡还小。而在为多个行业（包括智慧城市、智慧工厂，以及农业和机器人）的边缘设备部署 AI 时，此支持…

人工智能 2023年6月4日
0058
源码分析基础

1、抽象类特点：1、方法只有声明，没有实现体2、抽象类不可以被实例化，不能被final修饰3、抽象类必须由子类重写所有抽象方法才能实例化该子类4、抽象类不一定非要有抽象方法 2、…

人工智能 2023年6月30日
0065
机器学习：k-近邻算法（三）sklearn手写数字识别

目录一、实战背景二、sklearn 1、sklearn的简介 2、sklearn安装 3.sklearn实现k-近邻算法简介三、使用sklearn实现手写数字识别 1、提供的…

人工智能 2023年6月16日
00102
python期末习题整理

1-1 使用驼峰式命名法给变量命名时，变量名以小写字母开头，并且从第二个单词开始，每个单词的首字母必须大写。T 1-2 Python中标识符区分大小写。T 1-3 无论使用单引号或…

人工智能 2023年7月6日
0085
深度学习中卷积&池化&全连接层及其参数量和计算量

面试20问 1、请你自我介绍一下你自己回答提示：一般人回答这个问题过于平常，只说姓名、年龄、爱好、工作经验，这些在简历上都有，其实，企业最希望知道的是求职者能否胜任工作，包括：最…

人工智能 2023年7月28日
0045
ViLT视觉文本多模态

内容来自b站论文精讲：https://www.bilibili.com/video/BV14r4y1j74y?vd_source=aaa7d9b5dd88818076af6aa4b…

人工智能 2023年6月25日
0073
基于OpenCV实现的最大最小距离聚类算法实战案例

首先声明本文章部分内容借鉴于OpenCV实现最大最小距离聚类算法_pan_jinquan的博客-CSDN博客_opencv 聚类算法 [TencentCloudSDKExcepti…

人工智能 2023年6月2日
0065
Anaconda+PyTorch（GPU）环境搭建

1 安装cuda。去cuda官网下载，选择需要的版本这里选择cuda_11.3.0_465.89_win10.exe，然后进行安装（选精简版进行默然安装就可以，默认C盘）Cmd中切…

人工智能 2023年7月23日
0068
语音识别系列1：语音识别Speech recognition综述

目录 1 什么是语声识别VOICE RECOGNITION？ 2 语声识别（VOICE RECOGNITION）和语音识别(SPEECH RECOGNITION)有什么区别？ 3 …

人工智能 2023年5月23日
0067
网络层——IP协议

网络层网络层概述网络层主要考虑数据传输的路上问题，在复杂的网络环境中确定一个合适的路径。网络层设计要尽量简单，向上层只提供简单灵活的、无连接的、不保证可靠性的数据报服务。网络层…

人工智能 2023年6月16日
0081
用python制作几款简单又好玩的小游戏，找回童年的记忆

今天给大家带来几个Python小游戏，找回童年的同时学习编程！一、接金币普通难度：❤ 玩法介绍：吃金币，控制左右键，有手就行。源码分享 import os import cf…

人工智能 2023年7月29日
0083
【Pytorch】torch.nn.LeakyReLU()

目录简介 torch.nn.LeakyReLU() * 语法作用举例参考结语 ; 简介 Hello！非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～ ଘ(੭ˊ…

人工智能 2023年7月20日
0056
【通信原理】揭开傅里叶级数与傅里叶变换的神秘面纱

🚀个人主页：欢迎访问Ali.s的首页 ⏰ 最近更新：2022年8月18日 ⛽ Java框架学习系列：【Spring】【SpringMVC】【Mybatis】 🔥 Java项目实战系…

人工智能 2023年6月23日
0078
金融数据分析期末报告：基于时间序列的回归模型及其应用

目录 * – 摘要 – 1 引言 – 2 回归模型介绍 – + 2.1 ARCH模型 + GARCH模型 + 2.3 EGARCH模…

人工智能 2023年6月18日
0080

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

召回算法演进总结(上)

文章目录

非个性化召回

; 1 热度召回

大家都在看