Deep Interest Network (DIN)专题3-样本数据集加载部分代码分析

2023年7月17日下午12:53 • 人工智能 • 阅读 65

上一篇介绍了如何运行训练样本，本篇将详细介绍下训练数据集的加载，首先下载数据集，执行 utils文件夹下的0_download_raw.sh文件：

bash 0_download_raw.sh

下载成功后，../raw_data会有文件:

Deep Interest Network (DIN)专题3-样本数据集加载部分代码分析

包含两个文件，分别是用户 评价、点击相关的文件： reviews_Electronics_5.json以及具体 商品信息相关的文件：meta_Electronics.json

执行脚本

python 1_convert_pd.py

将原始数据转换为dataframe格式文件，源代码如下：

import pickle
import pandas as pd

def to_df(file_path):
  with open(file_path, 'r') as fin:
    df = {}
    i = 0
    for line in fin:
      df[i] = eval(line) #eval函数自动将每一行json格式的文件解析成词典
      i += 1
    df = pd.DataFrame.from_dict(df, orient='index') # from_dict自动将数据转化为DataFrame格式文件
    return df
reviews_df = to_df('../raw_data/reviews_Electronics_5.json')
（读取用户对产品的评论信息）读取数据如下
reviewerID - ID of the reviewer, e.g. A1RSDE90N6RSZF
asin - ID of the product, e.g. 0000013714
reviewerName - name of the reviewer
helpful - helpfulness rating of the review, e.g. 2/3
reviewText - text of the review
overall - rating of the product (产品等级)
summary - summary of the review
unixReviewTime - time of the review (unix time)
reviewTime - time of the review (raw)

with open('../raw_data/reviews.pkl', 'wb') as f:
  pickle.dump(reviews_df, f, pickle.HIGHEST_PROTOCOL)

meta_df = to_df('../raw_data/meta_Electronics.json')
产品信息
asin - ID of the product, e.g. 0000031852
imUrl - url of the product image
description - description of the product
categories - list of categories the product belongs to
title - name of the product
price - price in US dollars (at time of crawl)
salesRank - sales rank information
related - related products (also bought, also viewed, bought together, buy after viewing)
brand - brand name
meta_df = meta_df[meta_df['asin'].isin(reviews_df['asin'].unique())]
meta_df = meta_df.reset_index(drop=True)
with open('../raw_data/meta.pkl', 'wb') as f:
  pickle.dump(meta_df, f, pickle.HIGHEST_PROTOCOL)

具体数据格式已在源代码中进行了详细注解，接下来执行脚本

python 2_remap_id.py

将商品信息和用户信息进行编号并存储，源代码如下：

import random
import pickle
import numpy as np

random.seed(1234)

with open('../raw_data/reviews.pkl', 'rb') as f:
  reviews_df = pickle.load(f)
  reviews_df = reviews_df[['reviewerID', 'asin', 'unixReviewTime']]
  #3个字段：'reviewerID', 'asin', 'unixReviewTime'
with open('../raw_data/meta.pkl', 'rb') as f:
  meta_df = pickle.load(f)
  meta_df = meta_df[['asin', 'categories']]
  meta_df['categories'] = meta_df['categories'].map(lambda x: x[-1][-1])
  #取最后一行一列的值，其他都不需要，例如：[['Electronics', 'GPS & Navigation', 'Vehicle GPS', 'Trucking GPS']]
  #返回的是'Trucking GPS'
  #2个字段：'asin', 'categories'

def build_map(df, col_name): # 将df的col_name列转换为数字编号并返回原值和数字编号对应的词典映射以及去重复后的列数据list
  key = sorted(df[col_name].unique().tolist())
  m = dict(zip(key, range(len(key)))) # key从0开始一次转换为编号：0 1 2 3 4 5 6 ......，m为key和编号对应关系的词典，
  df[col_name] = df[col_name].map(lambda x: m[x]) # 将dataframe里面的col_name的列转换为编号存储
  return m, key

asin_map, asin_key = build_map(meta_df, 'asin')
产品id和数字编号映射， 去重复后的产品id
cate_map, cate_key = build_map(meta_df, 'categories')
产品分类和数字编号映射， 去重复后的产品分类
revi_map, revi_key = build_map(reviews_df, 'reviewerID')
用户id和数字编号映射，去重复后的用户id
user_count, item_count, cate_count, example_count =\
    len(revi_map), len(asin_map), len(cate_map), reviews_df.shape[0]
print('user_count: %d\titem_count: %d\tcate_count: %d\texample_count: %d' %
      (user_count, item_count, cate_count, example_count))

meta_df = meta_df.sort_values('asin')
meta_df = meta_df.reset_index(drop=True) # 最终字段：'asin', 'categories'
reviews_df['asin'] = reviews_df['asin'].map(lambda x: asin_map[x])
reviews_df = reviews_df.sort_values(['reviewerID', 'unixReviewTime'])
reviews_df = reviews_df.reset_index(drop=True)
reviews_df = reviews_df[['reviewerID', 'asin', 'unixReviewTime']] # 最终字端 'reviewerID', 'asin', 'unixReviewTime'
cate_list = [meta_df['categories'][i] for i in range(len(asin_map))]
cate_list = np.array(cate_list, dtype=np.int32) # 所有产品分类组成的list

with open('../raw_data/remap.pkl', 'wb') as f:
  pickle.dump(reviews_df, f, pickle.HIGHEST_PROTOCOL) # uid, iid; 用户id, 商品id， 时间戳
  pickle.dump(cate_list, f, pickle.HIGHEST_PROTOCOL) # cid of iid line; 所有产品分类信息列表
  pickle.dump((user_count, item_count, cate_count, example_count),
              f, pickle.HIGHEST_PROTOCOL) # 用户数、商品数、商品分类数和样本数
  pickle.dump((asin_key, cate_key, revi_key), f, pickle.HIGHEST_PROTOCOL)# 产品id和数字编号映射、分类信息和数字编号映射、去重复后的用户ID

接下来执行：

python build_dataset.py

生成训练样本数据和测试样本数据，源代码如下：

import random
import pickle

random.seed(1234)

with open('../raw_data/remap.pkl', 'rb') as f:
  reviews_df = pickle.load(f) #用户id, 商品id， 时间戳
  cate_list = pickle.load(f) #商品分类List
  user_count, item_count, cate_count, example_count = pickle.load(f)

train_set = []
test_set = []
for reviewerID, hist in reviews_df.groupby('reviewerID'):
  pos_list = hist['asin'].tolist() # 用户点击过的商品作为正样本
  def gen_neg():
    neg = pos_list[0]
    while neg in pos_list:
      neg = random.randint(0, item_count-1)
    return neg
  neg_list = [gen_neg() for i in range(len(pos_list))] # 随机取其他样本数据作为负样本

  for i in range(1, len(pos_list)): #按时间顺依次存入之前浏览的作品+当前是否点击该作品。
    hist = pos_list[:i]
    if i != len(pos_list) - 1:
      train_set.append((reviewerID, hist, pos_list[i], 1))
      train_set.append((reviewerID, hist, neg_list[i], 0))
    else:
      label = (pos_list[i], neg_list[i])
      test_set.append((reviewerID, hist, label))
#train_set和test_set数据格式 [用户id,[用户之前点击商品id列表],当前推荐的商品ID，是否点击（1或0）]
random.shuffle(train_set)
random.shuffle(test_set)

assert len(test_set) == user_count
assert(len(test_set) + len(train_set) // 2 == reviews_df.shape[0])

with open('dataset.pkl', 'wb') as f:
  pickle.dump(train_set, f, pickle.HIGHEST_PROTOCOL)#训练样本集合
  pickle.dump(test_set, f, pickle.HIGHEST_PROTOCOL)#测试样本集合
  pickle.dump(cate_list, f, pickle.HIGHEST_PROTOCOL)#所有商品分类list对应每个商品属于哪个分类
  pickle.dump((user_count, item_count, cate_count), f, pickle.HIGHEST_PROTOCOL)#用户数、商品数、商品分类数

最终生成dataset.pkl文件，包含如下信息：

训练样本和测试样本数据，格式： [用户id, [用户之前点击商品id列表], 当前推荐的商品ID，是否点击（1或0）]；

所有商品分类list对应的商品分类：索引对应商品的id编号，内容对应商品分类；

用户数、 商品数和 商品分类数。

这就是后续所有模型训练需要的数据，下一节将继续介绍模型结构。

Original: https://blog.csdn.net/fangfanglovezhou/article/details/122753922
Author: I_belong_to_jesus
Title: Deep Interest Network (DIN)专题3-样本数据集加载部分代码分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698685/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

智慧供应链的学习笔记（库存管理、配补货、仓间调拨、控制塔等）

文章目录 1 供应链集成系统案例 * 1.1 京东物流一体化供应链 – 1.1.1 算法中台 1.1.2 易卜工程化平台 1.2 美团：到店供应链及商品平台建设实践 2…

人工智能 2023年7月28日
0075
Python实现九九乘法表的几种方式，入门必备案例~超级简单~

前言嗨喽~大家好呀，这里是魔王呐 ❤ ~! 们在学习Python的过程中需要不断的积累和练习，这样才能够走的更远，今天一起来学习怎么用Python写九九乘法表~ ; 第一种方法…

人工智能 2023年6月29日
0063
使用GNN求解组合优化问题

文章目录 1 论文内容 * 1.1 先验知识 1.2 论文方法 – 1.2.1 大致原理 1.2.2 源码关键实现 1.3 实际问题上的应用 – 1.3.1…

人工智能 2023年6月16日
0083
Scala in a Nutshell

Scala in a Nutshell Intro Scala is a modern multi-paradigm programming language designed t…

人工智能 2023年6月28日
0068
常见移动机器人运动学模型总结

文末有彩蛋【原文及其原文中所涉及文章的PDF（共 9篇）免费下载】混沌无形混沌系统是世界本质，无形之中存在规律。机器人智能化发展从线性过渡到混沌，本号将分享机器人全栈技术（感知…

人工智能 2023年6月2日
0073
线性回归的多种实现方式

1 回归的概念在统计学中，回归分析（regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少，分为…

人工智能 2023年6月17日
0071
目标检测论文解读复现之二：基于改进YOLOv5的轻量化航空目标检测方法

目标检测论文解读复现文章目录目标检测论文解读复现前言一、摘要二、网络模型及核心创新点三、应用数据集四、实验效果（部分展示）五、实验结论六、投稿期刊介绍前言此前…

人工智能 2023年6月26日
0073
机器学习之线性回归

文章目录一、线性回归 * 1、普通线性回归（Linear Regression） 2、岭回归（Ridge Regression） 3、套索回归（lasso回归）二、python…

人工智能 2023年6月17日
0062
GEE：影像数据平滑处理【邻域均值滤波】

目录一、问题描述：二、数字图像平滑处理 * 1、基本原理 2、平滑处理在图像处理中的地位三、加载DEM数据并显示： * 1、分析步骤 2、加载数据并显示四、影像平滑处理五…

人工智能 2023年6月18日
0075
PyTorch实现MNIST数据集手写数字识别

本篇文章基于卷积神经网络CNN，使用PyTorch实现MNIST数据集手写数字识别。 PyTorch 是一个 Torch7 团队开源的 Python 优先的深度学习框架，提供两个高…

人工智能 2023年6月17日
0063
[机器学习与scikit-learn-26]：算法-聚类-KMeans寻找最佳轮廓系数

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

人工智能 2023年6月2日
0069
Informer模型与基础学习

文章目录摘要文献阅读一. Informer: 一个基于Transformer改进的高效的长时间序列预测模型 * 1.1 论文摘要 1.2 研究内容 1.3 Informer模…

人工智能 2023年6月23日
0064
机器学习中—sklearn对于鸢尾花如何进行数据集划分

机器学习中，我们熟知的开发流程是：获取数据——数据处理——特征工程——机器学习算法训练模型—&#…

人工智能 2023年7月18日
0047
Python二手房价格预测（二）——数据处理及数据可视化

系列文章目录数据获取部分：Python二手房价格预测（一）——数据获取文章目录系列文章目录一、数据清洗二、数据可视化总结一、数据清洗 1、先导入需要的库： impor…

人工智能 2023年7月15日
0060
详解 TensorFlow TFLite 移动端（安卓）部署物体检测 demo（1）——照本宣科

文章目录 * – 写在前面 – examples/lite/examples/object_detection/android – + 简介 +…

人工智能 2023年5月26日
0072
haproxy，nginx，keepalived综合运用

目录一、haproxy 介绍 1.定义 2.作用二、常见的Web集群调度器三、haproxy集群应用 1.haproxy的特性 2.负载均衡策略与调度算法 3.nginx和L…

人工智能 2023年6月2日
0064

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Deep Interest Network (DIN)专题3-样本数据集加载部分代码分析

大家都在看