【机器学习】推荐算法(附例题代码)

2023年10月24日上午11:16 • Python • 阅读 40

往期文章
【机器学习】回归分析
 【机器学习】Logistic回归
 【机器学习】神经网络
 【机器学习】支持向量机
 【机器学习】主成分分析与聚类分析

文章目录

协同过滤

如果每部电影的特征没有给出，也就是说一部电影属于爱情片还是动作片的程度未知。

但是已知每个用户的学习参数：

那么我们同样可以推出电影对应的特征。

例如第一部电影，我们只需满足：

( θ ( 1 ) ) T x ( 1 ) ≈ 5 (\theta^{(1)})^Tx^{(1)}≈5 (θ(1 ))T x (1 )≈5

( θ ( 2 ) ) T x ( 2 ) ≈ 5 (\theta^{(2)})^Tx^{(2)}≈5 (θ(2 ))T x (2 )≈5

( θ ( 3 ) ) T x ( 3 ) ≈ 0 (\theta^{(3)})^Tx^{(3)}≈0 (θ(3 ))T x (3 )≈0

( θ ( 4 ) ) T x ( 4 ) ≈ 0 (\theta^{(4)})^Tx^{(4)}≈0 (θ(4 ))T x (4 )≈0

通过这种方法我们可以得到电影的其他适合的特征。

也就是给定θ ( 1 ) , . . . , θ ( n u ) \theta^{(1)},…,\theta^{(n_u)}θ(1 ),…,θ(n u )来学习特征x ( i ) x^{(i)}x (i ):

只学习一部电影的特征：

学习多部电影的特征：

总结：系统一开始会随机取一些θ \theta θ值，有了这些后，我们就可以学习出不同电影的特征x x x，然后又可以前面的推荐算法来学习出一些更好的参数θ \theta θ，不断迭代，最终结果会收敛于一组合理的电影特征和用户参数。

; 协同过滤算法

上面我们讨论的协同过滤步骤如下：

给定特征x ( 1 ) , x ( 2 ) , . . . , x ( m ) x^{(1)},x^{(2)},…,x^{(m)}x (1 ),x (2 ),…,x (m )，估计参数θ ( 1 ) , . . . , θ ( n u ) \theta^{(1)},…,\theta^{(n_u)}θ(1 ),…,θ(n u )：

利用第一步得到的θ ( 1 ) , . . . , θ ( n u ) \theta^{(1)},…,\theta^{(n_u)}θ(1 ),…,θ(n u )，估计特征x ( 1 ) , x ( 2 ) , . . . , x ( m ) x^{(1)},x^{(2)},…,x^{(m)}x (1 ),x (2 ),…,x (m )。

我们要做的是不断重复这些计算，不断优化θ \theta θ和x x x.

实际上还有一个更有效率的算法，能够将x x x和θ \theta θ同时计算出来，因此我们定义这个新的代价函数J J J是关于特征x x x和参数θ \theta θ的函数，其实就是上面两个代价函数的组合：

算法步骤：

初始化x ( 1 ) , x ( 2 ) , . . . , x ( m ) ， θ ( 1 ) , . . . , θ ( n u ) x^{(1)},x^{(2)},…,x^{(m)}，\theta^{(1)},…,\theta^{(n_u)}x (1 ),x (2 ),…,x (m )，θ(1 ),…,θ(n u )为较小的随机数。
使用梯度下降最小化代价函数J ( x ( 1 ) , x ( 2 ) , . . . , x ( m ) ， θ ( 1 ) , . . . , θ ( n u ) ) J(x^{(1)},x^{(2)},…,x^{(m)}，\theta^{(1)},…,\theta^{(n_u)})J (x (1 ),x (2 ),…,x (m )，θ(1 ),…,θ(n u ))。

均值规范化

在实际应用中，我们可能会遇到某个用户从未对电影进行过评分的情况，例如下图的Eve：

而我们相应得到的为0，无法对Eve的偏好进行预测。

θ ( 5 ) = [ 0 0 ] \theta^{(5)}=\left[ \begin{matrix} 0 \ 0 \ \end{matrix} \right]θ(5 )=[0 0 ]

这时我们可以对每部电影的数据进行均值规范化，求出每部电影评分的均值，然后相应地减去这个均值，等到下面数据：

那么当我们对用户j j j预测其对第i i i部电影的评分时，还需要重新加上均值u i u_i u i 才能得到预测的分数：

( θ ( i ) ) T ( x ( i ) ) + u i (\theta^{(i)})^T(x^{(i)})+u_i (θ(i ))T (x (i ))+u i

因此，对于用户Eve，即使( θ ( i ) ) T ( x ( i ) ) (\theta^{(i)})^T(x^{(i)})(θ(i ))T (x (i ))这一项为0，但加上均值后就不为0了，此时Eve就有一个初始的电影评分，也就是说，当一个新用户注册后，可以先根据大众喜好进行推荐，然后根据后续用户的选择，评分等再慢慢优化参数。

; python实现

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
from scipy.io import loadmat

data = loadmat('E:\happy\ML&DL\My_exercise\ex8-recommender System\data\ex8_movies')
data

Y,R = data.get('Y'),data.get('R')
Y.shape,R.shape

param_mat = loadmat('E:\happy\ML&DL\My_exercise\ex8-recommender System\data\ex8_movieParams')
param_mat

X, theta = param_mat.get('X'),param_mat.get('Theta')
X.shape,theta.shape


n_features = 10

def serialize(X, theta):
    return np.concatenate((X.ravel(), theta.ravel()))

def deserialize(params, n_movie, n_user, n_features):
    return params[:n_movie * n_features].reshape(n_movie, n_features), \
           params[n_movie * n_features:].reshape(n_user, n_features)

def cost(params, Y, R, n_features):
    n_movie, n_user = Y.shape
    X, theta = deserialize(params, n_movie, n_user, n_features)

    inner = np.multiply(X @ theta.T - Y, R)
    return np.power(inner, 2).sum() / 2


def gradient(params, Y, R, n_features):
    n_movie, n_user = Y.shape
    X, theta = deserialize(params, n_movie, n_user, n_features)
    inner = np.multiply(X @ theta.T - Y, R)
    X_grad = inner @ theta
    theta_grad = inner.T @ X

    return serialize(X_grad, theta_grad)


def regularized_cost(params, Y, R, n_features, lam=1):
    reg = np.power(params, 2).sum() * (lam / 2)
    return cost(params, Y, R, n_features) + reg


def regularized_gradient(params, Y, R, n_features, lam=1):
    grad = gradient(params, Y, R, n_features)
    reg = lam * params

    return grad + reg


cost(serialize(X, theta), Y, R, n_features)

regularized_cost(serialize(X, theta), Y, R, 10)


movie_idx = {}
f = open('E:\happy\ML&DL\My_exercise\ex8-recommender System\data\movie_ids.txt',encoding= 'gbk')
for line in f:
    tokens = line.split(' ')
    tokens[-1] = tokens[-1][:-1]
    movie_idx[int(tokens[0]) - 1] = ' '.join(tokens[1:])


ratings = np.zeros((1682, 1))
ratings[0] = 4
ratings[6] = 3
ratings[11] = 5
ratings[53] = 4
ratings[63] = 5
ratings[65] = 3
ratings[68] = 5
ratings[97] = 2
ratings[182] = 4
ratings[225] = 5
ratings[354] = 5

Y,R = data.get('Y'),data.get('R')

Y = np.append(Y, ratings, axis=1)
R = np.append(R, ratings != 0, axis=1)
Y.shape, R.shape

初始化x ( 1 ) , x ( 2 ) , . . . , x ( m ) ， θ ( 1 ) , . . . , θ ( n u ) x^{(1)},x^{(2)},…,x^{(m)}，\theta^{(1)},…,\theta^{(n_u)}x (1 ),x (2 ),…,x (m )，θ(1 ),…,θ(n u )为较小的随机数，同时进行标准化。

n_features = 50
n_movie, n_user = Y.shape
lr = 10
X = np.random.standard_normal((n_movie, n_features))
theta = np.random.standard_normal((n_user, n_features))


Y_norm = Y - Y.mean()
Y_norm.mean()

模型训练

import scipy.optimize as opt

params = np.concatenate((np.ravel(X), np.ravel(theta)))

res = opt.minimize(fun=regularized_cost,
                   x0=params,
                   args=(Y_norm, R, n_features, lr),
                   method='TNC',
                   jac=regularized_gradient)

res


X_trained, theta_trained = deserialize(res.x, n_movie, n_user, n_features)
X_trained.shape, theta_trained.shape


pred = X_trained @ theta_trained.T
final_preds = pred[:, -1] + Y.mean()

final_preds

代码和例题获取

点击文末名片，到公号回复”机器学习”领取，以往的例题代码也一起打包了。

参考资料：

[1] https://www.bilibili.com/video/BV164411b7dx

[2] https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes

Original: https://blog.csdn.net/watermelon_c/article/details/123994266
Author: 大拨鼠
Title: 【机器学习】推荐算法(附例题代码)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/804308/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

排序算法python版（4）-希尔排序算法

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月24日
0070
webRTC demo

准备：信令服务前端页面用于视频通话 demo github 地址。前端页面为了使 demo 尽量简单，功能页面如下，即包含登录、通过对方手机号拨打电话的功能。在实际生成过程…

Python 2023年10月16日
0044
【答读者问48】backtrader如何画出来一些其他列的数据，比如PB、PE等财务数据

其实，在以前的文章中，已经在各方面做过分享，可能大家还没能够灵活运用这些知识，我就结合前面的一些知识，看一看怎么实现这个需求。参考下面的文章：我们可以很容易的通过pandas增…

Python 2023年8月31日
0061
pandas.core.groupby.GroupBy.mean

解释：dataframe按某一列属性分组求其他属性的平均值 final_GroupBy.mean(_numeric_only=NoDefault.no_default, engin…

Python 2023年8月21日
0049
Unity架构之详解域重新加载和场景重新加载

一、unity进入运行模式包括以下主要阶段备份当前场景：这仅在场景被修改后发生。这样当退出运行模式时，Unity 将场景恢复为运行模式开始前的状态。 Domain Reload：…

Python 2023年10月8日
0028
银行营销数据分析—Python(numpy、pandas、matplotlib)

数据分析【Python】项目介绍我的理解了解数据 * 源数据解析源数据概况数据处理数据分析 * 数据展示分析影响因素分析分析总结项目介绍数据来源：kaggle银…

Python 2023年8月31日
0066
用python+django+pyecharts制作数据可视化大屏

随着信息化技术在政府、企业管理上应用的进一步发展，大数据技术兴起，数据可视化大屏随之进进入大众视线。下面是用python+django+pyecharts实现大屏的演示。 1，vi…

Python 2023年8月4日
00108
Spark中的DAG和Stage

DAG（有向无环图） Spark的DAG:就是spark任务/程序执行的流程图! DAG的开始:从创建RDD开始 DAG的结束:到Action结束一个Spark程序中有几个Act…

Python 2023年6月3日
0049
基础数据类型之集合

1.集合的定义在{}内用逗号分开多个元素，多个元素满足以下三个条件： 1.集合元素必须是不可变类型2.集合元素无序3.集合内元素没有重复（打印出来会自动去重） d = {} 默认…

Python 2023年11月1日
0036
pandas使用merge函数将多个dataframe数据连接起来、设置how参数为left指定左连接（left join）、on参数指定连接字段

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月17日
0056
MongoDB – 数据模型的设计模式

简介官方文章的地址是 Building with Patterns: A Summary，其中汇总了 12 种设计模式及使用场景。上述的图表列举了 12 种设计模式及应用场景，…

Python 2023年10月12日
0032
基于Django+Vue开发的社区疫情管理系统（附源码）

基于Django、Django Rest framework、Vue的前后端分离的社区疫情管理系统。用户管理（只有管理员有权限）用户注册用户登录修改用户信息删除用户修改…

Python 2023年8月6日
0042
02 Python笔记：如何用pygame在python中导入图片

当前使用python3.8.5 1. 如何加载一张图片： pygame.image.load("images/me_destroy_1.png").conver…

Python 2023年9月19日
0071
Kafka学习(五) 消息分区

消息分区策略这里不是说Kafka的主题为什么要分区，而是说在分区的结构下，如何让具有某种特点的消息发送到特定分区。这里有一个很明显的问题，就是主题分区，那么生产者发送的消息到底…

Python 2023年5月23日
0062
重复造轮子 SimpleMapper

接手的项目还在用 TinyMapper 的一个早期版本用来做自动映射工具，TinyMapper 虽然速度快，但在配置里不能转换类型，比如 deleted 在数据库中用 0、1 表示…

Python 2023年10月22日
0045
Python匹配同名不同后缀的文件

一、前言是这样的，之前手机备份图片到电脑，由于苹果拍照开了Live模式，所以它导出的图片有一个2秒的视频(.mov) 跟一张静态图(.jpg / .heic)，静态图输出取决当时…

Python 2023年10月30日
0027

【机器学习】推荐算法(附例题代码)

文章目录

推荐算法

问题引入

; 基于内容的推荐算法

协同过滤

; 协同过滤算法

均值规范化

; python实现

代码和例题获取

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【机器学习】推荐算法(附例题代码)

文章目录

推荐算法

问题引入

; 基于内容的推荐算法

协同过滤

; 协同过滤算法

均值规范化

; python实现

代码和例题获取

大家都在看