推荐召回–基于内容的召回：Content Based

2023年7月17日下午1:06 • 人工智能 • 阅读 49

在之前总结过协同过滤的召回通路后，今天我们来总结下召回策略中的重头戏：基于内容的召回通路，也即我们常说的基于标签的召回。这里就要涉及两个一直很流行的词汇：用户画像User Profile和物品画像Item Profile。

说回推荐系统，它的使命就是， 要在用户（User）和物品（Item）之间建立连接。那么用户画像和物品画像是否是推荐系统的”银弹”呢？答案肯定不是，但也不能说用户画像一无是处。

用户画像只是推荐系统构建过程中的一个副产品，而不是推荐系统的目的。归根结底，用户画像是给机器看的，而不是给用户看的，所以越酷炫的用户画像越没什么用。在使用机器学习、深度学习时，用户画像的维度、数量、量化等，这些往往是不可解释的。所以，不要把用户画像看的那么重要，但是，实际工作中，推荐系统的召回侧，标签化的内容召回，效果往往会比其他策略要好很多，而标签化的迭代往往是一个长期持久的过程。

为何一定要做好内容的推荐呢？这是因为，通常一个推荐系统往往从基于内容开始成长。推荐最开始的时候，内容数据很好获得，不需要有用户数据就可以做出推荐系统。内容数据是基础，只要深入挖掘，就可以挖掘出一些很有用的信息给推荐系统用。

然后，当最初的推荐结果反馈给用户后，用户的行为数据可以作为协同过滤等其他召回通路的数据输入源。

那么，今天我们就来聊聊基于内容的推荐召回。

现在我们来一起聊聊如何构建画像，拿用户画像来说，有两个关键因素：维度、量化。对于维度来说，比如性别、年龄、价格等，我们在处理数据时，要铭记一点，这些数据是让机器去学习的，不一定让人类能够理解，后续我会总结在模型构建时，相关数据格式的处理。

说说量化，在实际的生产系统中，画像每个维度的量化，应该交给机器，而且以目标为导向，以结果来反向优化才有意义。

那么如何构建画像呢？常见的有三种方法：

那该如何把内容推荐做好呢？从技术层面上来说，需要做好：抓、洗、挖、算，这四门功课。

抓：爬虫，很多公司都会有爬虫组，在公司的数据基础上，获取更多互联网的数据来补充自己的内容源，增加分析的维度

洗：清洗，抓取过来的数据，必须洗洗才会更健康，冗余、黄赌毒等敏感及黑名单数据需要清洗

挖：挖掘，不管是自己的数据还是抓取过来的的数据，在清洗之后，需要深入挖掘，统计各维度的结果

算：计算，匹配用户和物品的属性，然后计算出更合理的推荐结果

整体上的流程，是这样的：基于现有的数据源，对内容进行分析，得到结构化的内容库和内容模型，然后根据标签给用户推荐结果，在用户使用产品后，对行为数据进行分析，构建用户的标签。而同时对于那些没有历史行为的用户，可以根据最初的标签，直接拿标签去推荐，所以基于内容的推荐，也常常作用于冷启动过程。

说完流程，我们来谈谈基于内容召回，经常使用的一些算法。

从最初的数据源开始，对于文本数据，经常的做法就是：

对于文本结构化的处理上来说，一般使用比较多的就是NLP相关算法：

在具体的实践中，我目前的做法是：

通过这样的方法，就完成了基于内容的召回，真的不难。就是给每个item打标签，然后统计用户的标签比例，然后根据召回的个数，对应的去数据库里拿item就结束了。

当然，在打标签的时候，根据内容的特点，去针对性的选择算法，筛选完后，再选择es或redis等查询快速的数据库存储即可。

而在实际工作中，标签打的越多，对用户的喜好也就越准确，但是，耗费的精力也就越多。召回阶段是推荐系统的一部分，没必要在某一个节点做的太过细致，就目前业界的趋势来说，更多的是用机器学习，深度学习等算法，去提升生产力，所以适度的标签化即可，也就是前面提到的，用户画像不是推荐系统的目的，而是附带的产品。

好了，关于基于内容的召回，就总结到这里，还是那句话，思路最重要，具体使用什么算法，使用什么工具，需要根据数据的特点来选择。学习就应该从全局到局部，由上至下的思想，才会把知识体系构建出来。

后续我会针对算法进行详细的总结，拜了个拜~

Original: https://blog.csdn.net/hpu120623/article/details/122745257
Author: 火航
Title: 推荐召回–基于内容的召回：Content Based

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698708/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

yoloV5-face学习笔记

前言第一次发博客，也是当记笔记，主要是为了下次更改关键点个数的时候能更方便。本文主要是针对yolov5-face和在yolov5的区别进行归纳总结，并着重复述了更改关键点个数的详…

人工智能 2023年6月22日
00105
聚类算法内部度量-si,ch,dbi

聚类算法内部度量-si,ch,dbi * – + 聚类算法内部度量： + * 1. 轮廓系数（Silhouette Coefficient） * 2. CH分数（Cal…

人工智能 2023年5月31日
00113
KNN算法介绍

KNN算法介绍文章目录 KNN算法介绍 * – + 一、介绍二、原理 * 2.1 K值取几个最近的邻居数据来判断分类 2.2 距离问题三.KNN特点一、介绍 K…

人工智能 2023年6月13日
0061
DL – TensorBoard

TensorBoard 文章目录 TensorBoard * 一、安装 TensorBoard – 启动二、使用 – 1、显示坐标轴 2、展示图片使用注…

人工智能 2023年5月25日
0091
新生儿常见问题＞奶癣

奶癣简介母亲有时会发现宝宝的小脸上会出现一些密集的红色颗粒状皮疹，如果用手抓皮疹会出现一层白色头皮屑，但不会出现脓。这就是我们所说的”奶癣”。牛奶癣主要是由…

人工智能 2023年6月27日
0068
Attention-LSTM模型的python实现

1.模型结构 Attention-LSTM模型分为输入层、LSTM 层、 Attention层、全连接层、输出层五层。LSTM 层的作用是实现高层次特征学习； Attention …

人工智能 2023年7月4日
00148
nebula graph 在 Spark 数据导入中的一些实践细节，以及PR心路历程

0.写在前面 2020真是魔幻的一年，刚过完大年，由于janusgraph的性能过于使人沮丧，正准备放弃分布式图谱调研的我，突然邂逅了nebula graph（以下简称NG）。不得…

人工智能 2023年6月10日
0073
问题解决：Input type (torch.cuda.FloatTensor) and weight type (torch.FloatTensor) should be the

pytorch训练过程中出现如题错误的解决方案常规解决方案从报错问题描述中可以找到错误原因输入的数据类型为 torch.cuda.FloatTensor，说明输入数据在GPU…

人工智能 2023年7月6日
00106
文献17.DL、PHY、自编码器、RTN、CNN调制分类

文献原文：https://arxiv.org/pdf/1702.00832.pdf文献详解参考，请看这位大神的：【文献笔记】【精读】An Introduction to Deep …

人工智能 2023年7月2日
0070
CentOS7和CentOS8 FreeSWITCH 1.10.7 简单图形化界面4-IVR自动话务台

CentOS7和CentOS8 FreeSWITCH 1.10.7 简单图形化界面4-IVR自动话务台 1、添加自动话务台 2、更新数据图形界面安装，请参考https://blo…

人工智能 2023年5月25日
0065
如何用度量数据驱动代码评审的改善

本文正文内容共计8000字，建议阅读时间：16-18分钟。阅读本文你将收获： 1、为什么要做代码评审的背景介绍； 2、代码评审数据分析设计：过程+指标体系+分析方法和模型； 3、…

人工智能 2023年7月15日
0073
mysql随机分层抽样_数据抽样及样本不均衡处理

一、数据抽样抽样的组织形式有： (1)简单随机抽样：按等概率原则直接从总体中抽取样本。该方法适用于个体分布均匀的场景。 (2)分层抽样：先对总体分组，再从每组中随机抽样。该方法适…

人工智能 2023年7月7日
0075
论文：Slicing Aided Hyper Inference and Fine-tuning for Small Object Detection通过划块的方式进行小目标检测

Slicing Aided Hyper Inference and Fine-tuning for Small Object Detection通过划块的方式进行小目标检测 1、看…

人工智能 2023年7月9日
0076
m4a录音文件损坏修复_教学工具 | 轻松编辑音频文件，这几款利器来帮你~

点击上方信息化教学创新订阅本刊在日常教学中，教师有时需要编辑一些教学音频文件，如剪音、音频加速、音频格式转换等。今天，小编介绍了几款音频处理软件和平台，方便音频编辑。 [En…

人工智能 2023年5月27日
0069
Smartbi教你只用Excel，就能掌握RFM模型制作方法

RFM在用户运营中是一个非常重要的模型，都有着广泛的运用，特别在电商商业，RFM是分析模型之一。要想掌握并制作一个完整的RFM模型出来，方法有很多，可以利用PowerBI或者编程工…

人工智能 2023年7月18日
0068
产业链图谱：2022年中国智能安防产业链图谱 | 产业全景图

随着人工智能技术的不断演进，机器视觉、机器学习、算法等领域的长足进步共同推动了传统安防行业的转型升级，对传统安防行业形成了更为先进的技术替代。未来二三十年，人类一定会进入万物感知、…

人工智能 2023年6月1日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

推荐召回–基于内容的召回：Content Based

大家都在看