TensorFlow推荐系统（一）

2023年5月25日上午3:04 • 人工智能 • 阅读 83

1 前言

我们浏览在各个平台时会发现”为你推荐”功能。比如YouTube推荐爱看的视频，音乐软件为你提供你可能喜欢的音乐等。其实这一功能的背后涉及的原理就是人工智能的推荐系统。今天我们将介绍TensorFlow推荐系统模型的库——TensorFlow Recommenders(TFRS)[1]。

对TensorFlow感兴趣的朋友们，还可以回顾我们之前相关的文章：

2 推荐原理

在这里，我们用一个电影推荐的例子来解释推荐系统的原理。

[En]

Here we use an example of movie recommendation to explain the principle of the recommendation system.

对于现有的四个用户和五部类型不同的电影，首先，我们需要创建用户画像和定义电影类别，这一步是为了区分数据，将现实特征转化为可计算的变量。对于现有的用户数据和电影数据，我们如何给用户D推荐她可能喜欢的电影呢？

如下图所示，我们在这里为用户和电影这两个变量分别创建了一个二维矩阵。对于用户，我们会定义他们是否更喜欢儿童电影(-1表示他们喜欢儿童电影，反之亦然)，他们是否更喜欢热门电影(1表示他们喜欢热门电影，-1表示他们喜欢热门电影)。对于电影，定义为是否为儿童片(儿童电影为-1，非儿童电影为1)以及是否为热门电影(热门电影为1，反之亦然)。

[En]

As shown in the following figure, here we create a matrix of two dimensions for each of the two variables, the user and the movie. For users, we will define whether they prefer children’s movies (- 1 means they like children’s movies, and vice versa) and whether they prefer hot movies (1 indicates that they like hot movies,-1 vice versa). For movies, it is defined as whether it is a children’s film (- 1 for children’s movies, 1 for non-children’s movies) and whether it is a hot movie (1 for hot movies,-1 is vice versa).

可以看出，用户A很喜欢看儿童且火爆的电影，这就是基于两个维度的 User Embedding；而《怪物史莱克》在这里被定义为儿童且火爆的电影，这一过程就是 Movie Embedding。值得一提的是，在搭建模型时， Embedding的维度不只是二维的，往往是多维的矩阵来表示变量。

接下来，用矩阵分解进行协同过滤计算预测的反馈矩阵。如下图所示，U代表用户矩阵，V代表电影候选条目的矩阵，计算的A值就是预测的反馈值。所以 协同过滤就是依据用户和候选条目之间的相似度来进行推荐。

在使用矩阵分解进行协同过滤时，为了减少目标函数的预测误差，官方解释使用随机梯度下降 Stochastic Gradient Descent(SGD)或加权交替最小平方算法 Weighted Alternating Least Squares(WALS)两种方式。

值得一提的是，WALS是专门解决推荐系统而创建的新算法，与前者不同，WALS每次迭代时，固定U的值来确定V，再固定V的值来确定U。两种方法各有利弊，这里不再详细介绍了，感兴趣的朋友可以学习一下矩阵分解[2]的官方资料.

3 源码解析

实际的推荐系统分为两部分：

[En]

The actual recommendation system is divided into two parts:

从大量的潜在推荐条目中选择可能性比较大的items，这一过程叫做信息检索（retrieval）。
对于提取模型的结果，我们还需要排序来缩小选择最有可能被用户选择的items，这一过程叫做rank。

这一部分，我们先介绍第一阶段的信息提取模型。信息提取模型又包含两个子模型，查询模型和候选模型，对应上述的例子就是用户矩阵和候选条目矩阵，通过计算两个子模型的乘积，得到的 query-candidate affinity score就是反映查询和候选条目之间的匹配程度，即用户喜欢推荐条目的可能性。

#&#xA0;Dependency&#xA0;install
!pip&#xA0;install&#xA0;-q&#xA0;tensorflow-recommenders
!pip&#xA0;install&#xA0;-q&#xA0;--upgrade&#xA0;tensorflow-datasets

import&#xA0;os
import&#xA0;pprint
import&#xA0;tempfile
from&#xA0;typing&#xA0;import&#xA0;Dict,&#xA0;Text
import&#xA0;numpy&#xA0;as&#xA0;np
import&#xA0;tensorflow&#xA0;as&#xA0;tf
import&#xA0;tensorflow_datasets&#xA0;as&#xA0;tfds
##&#xA0;import&#xA0;tensorflow&#xA0;recommenders&#xA0;API
import&#xA0;tensorflow_recommenders&#xA0;as&#xA0;tfrs

从网上加载 MovieLens数据：

#&#xA0;Ratings&#xA0;data.

ratings&#xA0;=&#xA0;tfds.load("movielens/100k-ratings",&#xA0;split="train")
#&#xA0;Features&#xA0;of&#xA0;all&#xA0;the&#xA0;available&#xA0;movies.

movies&#xA0;=&#xA0;tfds.load("movielens/100k-movies",&#xA0;split="train")
##&#xA0;Note:&#xA0;MovieLens&#xA0;&#x6CA1;&#x6709;&#x4E8B;&#x5148;&#x51C6;&#x5907;&#x597D;&#x6570;&#x636E;&#x96C6;&#xFF0C;&#x6240;&#x6709;&#x7684;&#x6570;&#x636E;&#x90FD;&#x5728;train&#xA0;data&#x4E2D;&#x3002;
#&#xA0;&#x67E5;&#x770B;&#x6570;&#x636E;rating&#x548C;movies
for&#xA0;x&#xA0;in&#xA0;ratings.take(2).as_numpy_iterator():
&#xA0;&#xA0;pprint.pprint(x)
#{'movie_title':&#xA0;b"One&#xA0;Flew&#xA0;Over&#xA0;the&#xA0;Cuckoo's&#xA0;Nest&#xA0;(1975)",&#xA0;'user_id':&#xA0;b'138'}
#{'movie_title':&#xA0;b'Strictly&#xA0;Ballroom&#xA0;(1992)',&#xA0;'user_id':&#xA0;b'92'}

for&#xA0;x&#xA0;in&#xA0;movies.take(2).as_numpy_iterator():
&#xA0;&#xA0;pprint.pprint(x)
#b'You&#xA0;So&#xA0;Crazy&#xA0;(1994)'
#b'Love&#xA0;Is&#xA0;All&#xA0;There&#xA0;Is&#xA0;(1996)'

在提取模型中，我们先处理 rating数据集，并选择 user_id和 movie_title来定义用户画像。

ratings&#xA0;=&#xA0;ratings.map(lambda&#xA0;x:&#xA0;{
&#xA0;&#xA0;&#xA0;&#xA0;"movie_title":&#xA0;x["movie_title"],
&#xA0;&#xA0;&#xA0;&#xA0;"user_id":&#xA0;x["user_id"],
})
movies&#xA0;=&#xA0;movies.map(lambda&#xA0;x:&#xA0;x["movie_title"])

设置训练集和测试数据集：

[En]

Set up the training set and test data set:

tf.random.set_seed(42)
shuffled&#xA0;=&#xA0;ratings.shuffle(100_000,&#xA0;seed=42,&#xA0;reshuffle_each_iteration=False)

train&#xA0;=&#xA0;shuffled.take(80_000)
test&#xA0;=&#xA0;shuffled.skip(80_000).take(20_000)
#&#xA0;&#x4E3A;&#x53D8;&#x91CF;&#x6570;&#x503C;&#x505A;mapping
movie_titles&#xA0;=&#xA0;movies.batch(1_000)
user_ids&#xA0;=&#xA0;ratings.batch(1_000_000).map(lambda&#xA0;x:&#xA0;x["user_id"])

unique_movie_titles&#xA0;=&#xA0;np.unique(np.concatenate(list(movie_titles)))
unique_user_ids&#xA0;=&#xA0;np.unique(np.concatenate(list(user_ids)))

unique_movie_titles[:10]

#array([b"'Til&#xA0;There&#xA0;Was&#xA0;You&#xA0;(1997)",&#xA0;b'1-900&#xA0;(1994)',
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#b'101&#xA0;Dalmatians&#xA0;(1996)',&#xA0;b'12&#xA0;Angry&#xA0;Men&#xA0;(1957)',&#xA0;b'187&#xA0;(1997)',
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#b'2&#xA0;Days&#xA0;in&#xA0;the&#xA0;Valley&#xA0;(1996)',
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#b'20,000&#xA0;Leagues&#xA0;Under&#xA0;the&#xA0;Sea&#xA0;(1954)',
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#b'2001:&#xA0;A&#xA0;Space&#xA0;Odyssey&#xA0;(1968)',
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#b'3&#xA0;Ninjas:&#xA0;High&#xA0;Noon&#xA0;At&#xA0;Mega&#xA0;Mountain&#xA0;(1998)',
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;#b'39&#xA0;Steps,&#xA0;The&#xA0;(1935)'],&#xA0;dtype=object)

定义用户模型和电影模型：

[En]

Define the user model and movie model:

#&#x8BBE;&#x5B9A;embedding&#x7EF4;&#x5EA6;
embedding_dimension&#xA0;=&#xA0;32
#&#x8BBE;&#x5B9A;&#x7528;&#x6237;&#x6A21;&#x578B;
user_model&#xA0;=&#xA0;tf.keras.Sequential([
&#xA0;&#xA0;tf.keras.layers.StringLookup(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;vocabulary=unique_user_ids,&#xA0;mask_token=None),
&#xA0;&#xA0;#&#xA0;We&#xA0;add&#xA0;an&#xA0;additional&#xA0;embedding&#xA0;to&#xA0;account&#xA0;for&#xA0;unknown&#xA0;tokens.

&#xA0;&#xA0;tf.keras.layers.Embedding(len(unique_user_ids)&#xA0;+&#xA0;1,&#xA0;embedding_dimension)
])
#&#x8BBE;&#x5B9A;&#x7535;&#x5F71;&#x6A21;&#x578B;
movie_model&#xA0;=&#xA0;tf.keras.Sequential([
&#xA0;&#xA0;tf.keras.layers.StringLookup(
&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;&#xA0;vocabulary=unique_movie_titles,&#xA0;mask_token=None),
&#xA0;&#xA0;tf.keras.layers.Embedding(len(unique_movie_titles)&#xA0;+&#xA0;1,&#xA0;embedding_dimension)
])

关于评估标准， TensorFlow使用的是 FactorizedTopK去衡量预测能力，

metrics&#xA0;=&#xA0;tfrs.metrics.FactorizedTopK(
&#xA0;&#xA0;candidates=movies.batch(128).map(movie_model)
)

task&#xA0;=&#xA0;tfrs.tasks.Retrieval(
&#xA0;&#xA0;metrics=metrics
)

封装模型函数和损耗函数：

[En]

Encapsulate the model function and loss function:

class&#xA0;MovielensModel(tfrs.Model):

&#xA0;&#xA0;def&#xA0;__init__(self,&#xA0;user_model,&#xA0;movie_model):
&#xA0;&#xA0;&#xA0;&#xA0;super().__init__()
&#xA0;&#xA0;&#xA0;&#xA0;self.movie_model:&#xA0;tf.keras.Model&#xA0;=&#xA0;movie_model
&#xA0;&#xA0;&#xA0;&#xA0;self.user_model:&#xA0;tf.keras.Model&#xA0;=&#xA0;user_model
&#xA0;&#xA0;&#xA0;&#xA0;self.task:&#xA0;tf.keras.layers.Layer&#xA0;=&#xA0;task

&#xA0;&#xA0;def&#xA0;compute_loss(self,&#xA0;features:&#xA0;Dict[Text,&#xA0;tf.Tensor],&#xA0;training=False)&#xA0;->&#xA0;tf.Tensor:
&#xA0;&#xA0;&#xA0;&#xA0;#&#xA0;We&#xA0;pick&#xA0;out&#xA0;the&#xA0;user&#xA0;features&#xA0;and&#xA0;pass&#xA0;them&#xA0;into&#xA0;the&#xA0;user&#xA0;model.

&#xA0;&#xA0;&#xA0;&#xA0;user_embeddings&#xA0;=&#xA0;self.user_model(features["user_id"])
&#xA0;&#xA0;&#xA0;&#xA0;#&#xA0;And&#xA0;pick&#xA0;out&#xA0;the&#xA0;movie&#xA0;features&#xA0;and&#xA0;pass&#xA0;them&#xA0;into&#xA0;the&#xA0;movie&#xA0;model,
&#xA0;&#xA0;&#xA0;&#xA0;#&#xA0;getting&#xA0;embeddings&#xA0;back.

&#xA0;&#xA0;&#xA0;&#xA0;positive_movie_embeddings&#xA0;=&#xA0;self.movie_model(features["movie_title"])

&#xA0;&#xA0;&#xA0;&#xA0;#&#xA0;The&#xA0;task&#xA0;computes&#xA0;the&#xA0;loss&#xA0;and&#xA0;the&#xA0;metrics.

&#xA0;&#xA0;&#xA0;&#xA0;return&#xA0;self.task(user_embeddings,&#xA0;positive_movie_embeddings)&#xA0;

训练并评估模型结果：

model&#xA0;=&#xA0;MovielensModel(user_model,&#xA0;movie_model)
model.compile(optimizer=tf.keras.optimizers.Adagrad(learning_rate=0.1))
#shuffle&#xA0;data&#xA0;and&#xA0;get&#xA0;samples
cached_train&#xA0;=&#xA0;train.shuffle(100_000).batch(8192).cache()
cached_test&#xA0;=&#xA0;test.batch(4096).cache()

model.fit(cached_train,&#xA0;epochs=3)
#&#x4F7F;&#x7528;test&#xA0;data&#xA0;evaluate
model.evaluate(cached_test,&#xA0;return_dict=True)
{'factorized_top_k/top_1_categorical_accuracy':&#xA0;0.00044999999227002263,
&#xA0;'factorized_top_k/top_5_categorical_accuracy':&#xA0;0.004100000020116568,
&#xA0;'factorized_top_k/top_10_categorical_accuracy':&#xA0;0.01145000010728836,
&#xA0;'factorized_top_k/top_50_categorical_accuracy':&#xA0;0.09040000289678574,
&#xA0;'factorized_top_k/top_100_categorical_accuracy':&#xA0;0.19300000369548798,
&#xA0;'loss':&#xA0;28535.75390625,
&#xA0;'regularization_loss':&#xA0;0,
&#xA0;'total_loss':&#xA0;28535.75390625}

使用训练好的模型为 user_id=9的用户推荐电影的预测：

#&#xA0;Create&#xA0;a&#xA0;model&#xA0;that&#xA0;takes&#xA0;in&#xA0;raw&#xA0;query&#xA0;features,&#xA0;and
index&#xA0;=&#xA0;tfrs.layers.factorized_top_k.BruteForce(model.user_model)
#&#xA0;recommends&#xA0;movies&#xA0;out&#xA0;of&#xA0;the&#xA0;entire&#xA0;movies&#xA0;dataset.

index.index_from_dataset(
&#xA0;&#xA0;tf.data.Dataset.zip((movies.batch(100),&#xA0;movies.batch(100).map(model.movie_model)))
)
#&#xA0;Get&#xA0;recommendations.

_,&#xA0;titles&#xA0;=&#xA0;index(tf.constant(["9"]))
print(f"Recommendations&#xA0;for&#xA0;user&#xA0;9:&#xA0;{titles[0,&#xA0;:3]}")

4 总结

TensorFlow 为机器学习提供了非常丰富且强大的资源，感兴趣的朋友可以将这些模型运用到现有的数据中，去探究一些有趣的惊喜吧！

我希望这个分享会对你有所帮助，也欢迎你留言讨论。

[En]

I hope this sharing will be helpful to you, and you are welcome to leave a message for discussion.

参考资料

[1]

TensorFlow Recommenders: https://www.tensorflow.org/recommenders?hl=en

[2]

Matrix Factorization: https://developers.google.com/machine-learning/recommendation/collaborative/matrix

Original: https://blog.csdn.net/BulletTech2021/article/details/121941086
Author: BulletTech2021
Title: TensorFlow推荐系统（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/511742/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas 的数据结构 DataFrame 的常用方法

总结的方法所用实例为 sklearn&tensorflow机器学习使用指南第二章中的房屋价格投资预测项目 housing = pd.read_csv("housi…

人工智能 2023年6月2日
0082
Swin Transformer详解

目录 * – 1. Swin Transformer整体架构 – + (a) Architecture + (b) Two Successive Swin …

人工智能 2023年7月12日
0070
最新｜全新风格原创YOLOv7、YOLOv5和YOLOX网络结构解析图

💡本篇分享一下个人绘制的原创全新风格 YOLOv7网络结构图、 YOL…

人工智能 2023年7月10日
0058
IDEA 连接MySQL与使用方式

IDEA 连接MySQL方式 MySQL使用命令行的形式实在是有点难受，多行书写的时候要是写错了就比较难过了，因此还是需要一个图形化的操作界面。有很多可选择方式，由于之前就下载了I…

人工智能 2023年6月4日
0052
MATLAB数字图像处理大作业:人脸表情识别

一、课程设计任务运用已掌握的知识以及查阅相关资料，设计方案能够识别人脸表情中的高兴、厌恶、生气、悲伤、面无表情这五类表情。二、课程设计原理及设计方案 2.1整体原理本系统是基…

人工智能 2023年7月26日
0059
详细流程记录——基于landsat8影像辐射传输方程法遥感温度反演

基本思路：辐射定标-裁剪-大气校正-ndvi值计算-植被覆盖度计算-地表比辐射率计算-同温黑体辐射亮度计算-温度反演使用软件：ENVI5.3.1 一、下载影像本次数据源来自美国…

人工智能 2023年6月18日
0078
Python日期时间差的计算（天/小时/分钟）及timedelta函数的使用（附python代码）

背景描述数据分析中会遇到日期、时间的计算，主要包括以下几种情况：对2个日期进行时间差值的计算或与目标时长进行比较，如：计算天数(days)、小时数(hours)、分钟数(min…

人工智能 2023年7月4日
0095
python – sklearn 计算准确率

因为最近写的分类模型需要性能评价，常用的分类性能评价有准确率、查准率、召回率、F1 分类问题的常用的包 sklearn ，下面对准确率所用的方法进行介绍前提知识对于我们的二…

人工智能 2023年7月5日
0084
朴素贝叶斯算法原理与Python实现

1 算法介绍朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive …

人工智能 2023年7月18日
0060
带你看懂变分自编码(VAE)

人工智能 2023年5月26日
0050
【视觉SLAM14讲】【汇总】

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月23日
0084
pandas crosstab 输出结果在一行_Pandas 使用入门

Pandas 使用入门 Pandas 数据基础包含两种基本类型：和. 是一个数据表格,而可以看作是的一列. 如何导入数据方法一：通过词典导入第一种导入的方法是把数据放在…

人工智能 2023年7月9日
0079
基于点云的深度学习方法综述

我们生活在一个三维世界里，自从1888年相机问世以来，三维世界的视觉信息就通过相机被映射到二维图象上。但是二维图像的缺点也是显而易见的，那就是缺少深度信息以及真实世界中目标之间的相…

人工智能 2023年7月28日
0065
刘二老师的代码合集

首先谢谢刘老师的视频课，我没有白嫖，我点赞投币了，哈哈哈哈，刘老师讲的很好，感谢，同时感谢吴恩达老师的深度学习的课程，很随和、亲和。谢谢还要谢谢CSDN博主（大佬）：错错莫、wh…

人工智能 2023年7月21日
0070
Perl 编程基础用法

#!/usr/bin/perl -w # 标准的头部写法，-w意为显示警告 $a=$b+10 # $a和$b都不&…

人工智能 2023年6月6日
0077
哈工大面向服务的软件系统实验4

一、环境准备 1.在主节点上下载jdk8、zookeeper jdk8可以在官网下载，下载好后需要配置环境变量JAVA_HOME zookeeper自行下载，下载好后需要改data…

人工智能 2023年7月29日
0043

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

TensorFlow推荐系统（一）

1 前言

2 推荐原理

3 源码解析

4 总结

参考资料

大家都在看