CTR—DIN原理，及deepctr组网实现DIN

2023年5月26日下午8:04 • 人工智能 • 阅读 76

文章目录

原理小结
deepctr实现DIN（基于df的数据格式）

原理小结

Candidate Ad
item，在这指广告特征。
User profile features
代表用户的特征。
Context Features
代表跟场景有关的特征，比如时间戳之类的。
User Behaviors
代表着用户行为特征。
主要就是过去用户明确表示感兴趣的item统统都打包起来，我们看一个人不是看他说什么，是看他做什么，所以这些特征要重点关照。
Activation Unit
通常DNN网络抽取特征的高阶特征，减少人工特征组合，对用户历史行为数据进行处理时，需要把它们编码成一个固定长的向量，但是每个用户的历史点击个数是不相等的，通常的做法是对每个item embedding后，进入pooling层（求和或最大值)。DIN认为这样操作损失了大量的信息，故此引入attention机制，并提出了 Dice 激活函数，自适应正则，显著提升了模型性能与收敛速度。
在Base Model里，这些用户行为特征在映射成embedding后直接一个sum/average pooling就算完事了,结果就是一个静态的embedding无法表征一个用户广泛的兴趣，所以在DIN中考虑加入Activation Unit，每个曾经的用户行为都跟Candidate Ad交互，交互的方法在上图的右上角也给出了，交互呢会交互出一个权重，代表着曾经的一个用户行为与Candidate Ad的相关性。比如你曾经买过篮球，买过毛衣针，那眼下有一个哈登同款保温杯，那我们肯定是更关注你以前买篮球的行为，那你买篮球的行为映射出的一个embedding的权重就大，买毛衣针的行为映射出的一个embedding的权重就小。有了这个权重，我们就可以在所有用户行为特征映射成embedding后做weighted sum pooling了。这样，针对每个不同的 Candidate Ad，每个用户行为特征在映射成embedding后经过weighted sum pooling后就会生成一个汇总的不同的embedding，这就是动态的embedding，动态的embedding就能表征出用户广泛的兴趣了。

关于DIN中，attention注意力机制、Dice激活函数、自适应正则详见：
注：链接文中Dice激活函数模块，PReLU的图是错的。
https://blog.csdn.net/Super_Json/article/details/105334936

参考自：

https://blog.csdn.net/Super_Json/article/details/105334936

https://blog.csdn.net/suspend2014/article/details/104377681

https://www.freesion.com/article/70981345211/

https://www.heywhale.com/mw/project/5d47d118c143cf002becca99

; deepctr实现DIN（基于df的数据格式）


import os, warnings, time, sys
import pickle
import matplotlib.pyplot as plt
import pandas as pd, numpy as np
from sklearn.utils import shuffle
from sklearn.metrics import f1_score, accuracy_score, roc_curve, precision_score, recall_score, roc_auc_score
from sklearn import metrics
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder

from sklearn.preprocessing import LabelEncoder
from deepctr.models import DeepFM, xDeepFM, MLR, DeepFEFM, DIN, DIEN, AFM
from deepctr.feature_column import SparseFeat, DenseFeat, get_feature_names
from deepctr.layers import custom_objects
from tensorflow.keras.models import save_model, load_model
from tensorflow.keras.models import model_from_yaml
import tensorflow as tf
from tensorflow.python.ops import array_ops
import tensorflow.keras.backend as K
from sklearn import datasets
from keras.models import Sequential
from keras.layers import Dense
from keras.utils import to_categorical
from keras.models import model_from_json
from tensorflow.keras.callbacks import *
from tensorflow.keras.models import *
from tensorflow.keras.layers import *
from tensorflow.keras.optimizers import *
from keras.preprocessing.sequence import pad_sequences
from keras.preprocessing.text import one_hot
from keras.layers.embeddings import Embedding
from deepctr.feature_column import SparseFeat, VarLenSparseFeat, DenseFeat, get_feature_names

from toolsnn import *
import settings

def get_xy_fd2():
    data = pd.DataFrame({

        'user': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
        'gender': [10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20],
        'item_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11],
        'cate_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11],
        'pay_score': [0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.10, 0.11],

        'hist_item_id': [np.array([1, 2, 3, 10]), np.array([6, 1, 0, 0]), np.array([3, 2, 1, 0]), np.array([1, 2, 10, 0]), np.array([1, 3, 0, 0]), np.array([3, 2, 0, 0]), np.array([5, 2, 0, 0]), np.array([10, 6, 0, 0]), np.array([1, 2, 10, 0]), np.array([3, 2, 10, 0]), np.array([9, 2, 10, 0])],

        'hist_cate_id': [np.array([1, 2, 3, 10]), np.array([6, 1, 0, 0]), np.array([3, 2, 1, 0]), np.array([1, 2, 10, 0]), np.array([1, 3, 0, 0]), np.array([3, 2, 0, 0]), np.array([5, 2, 0, 0]), np.array([10, 6, 0, 0]), np.array([1, 2, 10, 0]), np.array([3, 2, 10, 0]), np.array([9, 2, 10, 0])],
        'y': [1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0]
    })
    print(data)
    print(data.dtypes)
    dcols = len(data.columns)

    bise_feature = [SparseFeat('user', vocabulary_size=int(data['user'].max())+1, embedding_dim=4),
                       SparseFeat('gender', vocabulary_size=int(data['gender'].max())+1, embedding_dim=4),
                       SparseFeat('item_id', vocabulary_size=int(data['item_id'].max())+1, embedding_dim=4),
                       SparseFeat('cate_id', vocabulary_size=int(data['cate_id'].max())+1, embedding_dim=4),
                       DenseFeat('pay_score', 1)]

    behavior_feature_list = ["item_id", "cate_id"]

    behavior_feature = [VarLenSparseFeat(SparseFeat('hist_item_id', vocabulary_size=int(data['item_id'].max())+1, embedding_dim=4, embedding_name='item_id'), maxlen=4),
        VarLenSparseFeat(SparseFeat('hist_cate_id', vocabulary_size=int(data['cate_id'].max())+1, embedding_dim=4, embedding_name='cate_id'), maxlen=4)]

    feature_columns = bise_feature + behavior_feature
    feature_names = get_feature_names(bise_feature + behavior_feature)
    print(feature_names)

    x = {}
    for name in feature_names:
        if name not in ['hist_item_id', 'hist_cate_id']:
            x[name] = data[name].values
            print(name, type(data[name].values))
        else:
            tmp = [t for t in data[name].values]
            x[name] = np.array(tmp)
            print(name, type(x[name]))
    y = data['y'].values

    print(x)
    print(y)
    print(feature_columns)
    print(behavior_feature_list)
    return x, y, feature_columns, behavior_feature_list

if __name__ == "__main__":
    x, y, feature_columns, behavior_feature_list = get_xy_fd2()

    model = DIN(dnn_feature_columns=feature_columns, history_feature_list=behavior_feature_list)
    model.compile('adam', 'binary_crossentropy',
                  metrics=['binary_crossentropy'])
    history = model.fit(x, y, verbose=1, epochs=3)

Original: https://blog.csdn.net/qq_42363032/article/details/121678388
Author: WGS.
Title: CTR—DIN原理，及deepctr组网实现DIN

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/521654/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【深度学习】(9) CNN中的混合域注意力机制（DANet，CBAM），附Tensorflow完整代码

各位同学好，今天和大家分享一下如何使用 Tensorflow构建 DANet和 CBAM混合域注意力机制模型。在之前的文章中我介绍了CNN中的通道注意力机制 SENet 和 EC…

人工智能 2023年7月4日
0085
嵌入式端音频开发（Unisound篇）之 7.4 蜂鸟M配置宏定义

1.GPIO相关宏定义 #define GPIO_OUT_DEF_VAL 1 宏定义说明： 0：默认输出低电平1：默认输出高电平 2.audio相关宏定义 #define USER…

人工智能 2023年5月25日
0052
Python | pandas相关函数的使用教程+简单实例汇总

pandas是Python处理数据时最常用的工具包之一。本文介绍结合自身的实践经历，汇总相关函数的使用方法，供读者参考。以下内容都需要导入pandas工具包 import pan…

人工智能 2023年7月7日
0034
【语音识别】玩转语音识别 2 知识补充

【语音识别】⚠️玩转语音识别 2⚠️ 知识补充概述 RNN 计算 RNN 存在的问题 LSTM GRU Seq2seq Attention 模型 Teacher Forcing …

人工智能 2023年5月25日
0065
Python K-means聚类分析实现，疾病诊断聚类分析，短文本聚类分析，疾病数据聚类分析

一、聚类分析概念物以类聚，人以群分，即聚类。聚类分析，就是物以类聚的过程，是机器识别文本特点进行分类的过程。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包…

人工智能 2023年5月31日
0079
手机所有录音功能失效_还真没想到！手机打电话还能自动录音？可惜用过的人不多…

手机功能现在被越来越多的人使用，因为我们在工作中接到领导的电话，如果我们害怕忘记，可以通过录音来做到这一点。挂断电话后，我们可以重播录音，这样我们就不会错过重要的信息。 [En] …

人工智能 2023年5月27日
00204
你期待的Photoshop 2022中哪个功能吸引了你？

万众瞩目的2022年已经到来，那些大软件的最新大版本也陆续走到我们的面前，看到很多人都在追捧的期待Photoshop 2022，你知道ta具体有哪些变化么？来看看吧。创意世界在 …

人工智能 2023年6月22日
00107
OpenCV-Python教程：模板匹配(matchTemplate)

原文链接：http://www.juzicode.com/opencv-python-matchtemplate 返回Opencv-Python教程模板匹配可以实现在源图像中查找…

人工智能 2023年6月19日
0093
Python类的多种方法，你分得清吗？

在初学Python过程中，会遇到这样的概念，一个类下面会有多个方法，有的叫类方法、有的叫静态方法，还有的叫实例方法。当调用他们的时候，不免会有点蒙圈，那么他们之间的区别是什么呢？ …

人工智能 2023年6月27日
0065
基于Python+Open CV的手势识别算法设计

素材资料下载：目录 1. 课题背景及分析 2. 算法设计 3. 算法实现与调试 4. 实验结果及分析 5. 今后研究及改进计划 6. 设计总结 7. 主要参考书目 8. 附件 1…

人工智能 2023年7月28日
0042
ASEMI肖特基二极管MBR30200PT图片，MBR30200PT规格书

编辑-Z ASEMI肖特基二极管MBR30200PT参数：型号：MBR30200PT 最大重复峰值反向电压（VRRM）：200V 最大平均正向整流输出电流（IF）：30A 峰值正…

人工智能 2023年6月29日
0088
基于matlab点云工具箱对点云进行处理四：对点云进行欧式聚类，并获得包围点云簇的外接凹多边形

基于matlab点云工具箱对点云进行处理四：对点云进行欧式聚类，并获得包围点云簇的外接凹多边形步骤：读取velodyne数据包pcap文件内的点云数据使用pcdownsamp…

人工智能 2023年6月2日
00107
Diffusion models代码实战：从零搭建自己的扩散模型

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月26日
0045
子空间聚类的常见评估指标及pytorch实现

子空间聚类的常见评估指标：ACC, SRE 和 CONN 引言 Evaluation Metrics * 聚类准确度（Clustering accuracy, ACC）子空间保持…

人工智能 2023年5月31日
0061
beamManagement(四)connected mode UL training

最后看connected mode UL beam 上行方向beam训练也有针对PUSCH 和PUCCH的两种机制，先看PUSCH。UE完成初始接入后，上行方向上主要通过Sound…

人工智能 2023年6月26日
0076
只有我一个人对ChatGPT感到蕉绿吗？

卷友们好，我是rumor。上周四，在国内公众号还没刷屏的时候，的消息了，当时迅速看了下博客内容，心想「就这？」，这不跟DeepMind的一样吗？而且设计的还没它好，Sparro…

人工智能 2023年7月31日
0053

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

CTR—DIN原理，及deepctr组网实现DIN

文章目录

大家都在看