点击曝光日志的数据处理

2023年6月11日下午3:57 • 人工智能 • 阅读 73

其实pandas就是dataframe，spark里面的是一样的，有些处理方法可以相互借鉴，也可能会有SQL的一些用法，但今天就事论事，不展开。

For Recommendation in Deep learning QQ Group 277356808

For deep learning QQ Second Group 629530787

I’m here waiting for you

1-统计每个用户的点击序列数

先给出一个高大上的操作，这一步很关键。

df4=df.groupby('user_id')['item_id'].agg(list)
>>> for u in df4:
          print(u,len(u))

[13, 11, 23, 4, 7, 28, 10, 0, 16, 25, 21, 15, 26, 20, 14, 3, 5, 12, 1, 24, 9] 21
[10, 22, 14, 16, 26, 29, 27, 24, 28, 20, 25, 15, 13, 8, 7, 6, 23, 9, 18] 19
[12, 16, 2, 22, 15, 14, 13, 6, 1, 10, 25, 8, 19, 0,

Original: https://blog.csdn.net/SPESEG/article/details/122862100
Author: 小李飞刀李寻欢
Title: 点击曝光日志的数据处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600559/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于FFmpeg的Java视频Mp4转GIF初探

背景在一些业务场景中，会有如下的一些要求：比如有用户需要将Mp4视频转为Gif动图。当然有一些小伙伴说可以使用系统截图，然后使用之前提到过的技术：GIF图像动态生成-JAVA后台…

人工智能 2023年7月30日
0050
FIX:FusionCharts Suite XT 3.19.x

FusionCharts Suite XT：探索 100 多张图表和 2000 多张地图FusionCharts 提供了 100 多张图表和 2000 多张地图。凭借广泛的文档、一…

人工智能 2023年7月29日
0037
札记:ML——权重衰减（weight decay）（L2正则化）的作用

权重衰减（weight decay）（L2正则化）的作用 _ 引自:CSDN博主「Microstrong0305」_ 1. 权重衰减（weight decay） L2正则化的目的就…

人工智能 2023年7月16日
0060
中文文献：多模态知识图谱概述

中文文献：多模态知识图谱概述一、定义 1、模态相关多模态：同一实体的多种记录形式，同一实体虽然底层表征异构，但高层语义一致。数据之间存在语义差异与异质性。包括模式和数据，自上而…

人工智能 2023年6月10日
00147
【数学建模】python建模专用数据清洗代码(本人实践)

刚入坑的小白可以看一下，大佬勿喷，我也是小白，白的不能再白的那种，所以吧，我把我入坑时候大量搜索的代码，没日没夜调试的代码，能用的以及自己写的代码，给各位汇总，会以每篇文章的形式进…

人工智能 2023年7月15日
0067
CMake中set/unset的使用

CMake中的 set命令用于将普通、缓存或环境变量(normal, cache, or environment variable)设置为给定值，其格式如下：指定 set( ……

人工智能 2023年6月28日
0068
图像处理中的用于消除高斯噪声的加法运算

加法运算属于图像增强中的空间域增强（还有频域增强）的代数运算（还有灰度变换、空间域滤波）中的运算。公式：c(x,y)=A(x,y)+A(x,y) 应用：去除叠加性噪声也就是说，…

人工智能 2023年6月20日
00113
Windows下使用Darknet训练自己的数据集（模型：yolov4-tiny、数据集：垃圾分类）

本文章主要介绍如何使用Darknet在windows下训练自己的数据集，其中模型使用的是yolov4-tiny，数据集使用的是自己垃圾分类数据集（需要的自取：在我上传的资源中有）P…

人工智能 2023年7月1日
0082
MMCV之Runner介绍

文章目录前言 1、BaseRunner类 2、EpochBasedRunner 3、IterBasedRunner 总结前言 mmcv/runner/base_runner.p…

人工智能 2023年5月23日
00101
AC自动机算法简述以及基于神经网络的知识推理总结

1、文本分词有中文分词和英文分词，对于后者，目前多采用 nltk进行分词处理；而在这篇文章中，将主要介绍中文分词，其主要有两种思路：查词典和字标注；查词典的方法有：机械的最大匹配法…

人工智能 2023年6月10日
0069
详解 CatBoost 原理

集成学习的两大准则：基学习器的准确性和多样性。算法：串行的Boosting和并行的Bagging,前者通过错判训练样本重新赋权来重复训练，来提高基学习器的准确性， &#x9…

人工智能 2023年6月15日
0098
【个人总结】基于深度学习的语音分离代码及论文

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0086
Opencv中的cv2.calcHist()函数的作用及返回值

在讨论其返回值前，我们先来介绍以下calcHist()函数的用法： cv2.calcHist()函数 cv2.calcHist()函数的作用：通过直方图可以很好的对整幅图像的灰度分…

人工智能 2023年5月26日
00112
混泥土（地面+墙面）+ 山体裂缝数据集汇总（分类及目标检测）

1、混泥土裂缝 1.1 分类混泥土裂缝网上数据集有很多，作者自己收集了一些，大家如果有意愿，麻烦在下方留言。 1、SDNET2018数据集（数据集来源：SDNET2018）主要是…

人工智能 2023年7月12日
0065
Mybatis参数传递方式

在实际的开发中我们会遇到很多的增删改查操作,而这些操作都要涉及到请求参数的传递,下面我们就来简单介绍一下Mybatis中常用的3种参数传递方式 1.单个参数传递在进行单个参数传递…

人工智能 2023年6月30日
0081
2020年12月大学英语六级作文

1.第一套 2.第二套 3.第三套 why students should be encouraged to develop effective communication ski…

人工智能 2023年6月26日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

点击曝光日志的数据处理

大家都在看