含三个字段的用户表当email和mobile有一个重复时即认为是同一个user，查询共几个user?【Python】

2023年8月8日下午8:00 • Python • 阅读 49

来自牛客网分享：字节跳动暑期实习商业产品数据分析笔试题3.6

https://www.nowcoder.com/discuss/614385?type=post&order=time&pos=&page=1&channel=-1&source_id=search_post_nctrack

“现有一个含三个字段的用户表，id/email/mobile, id是自动递增的，不具有重复性。当email和mobile有一个重复时即认为是同一个user, 请用一种方法查询表中实际有几个user？”

举一个例子ob，同一列里相同的字母表示重复的字段

import pandas as pd
ob = {"email":['E','F','F','E','G'],"tell":['A','A','B','C','D']}
ob = pd.DataFrame(ob)

    email   tell
0   E   A
1   F   A
2   F   B
3   E   C
4   G   D

由于0,1″tell”字段相同；1,2″tell”字段相同；0，3″email”字段相同，0，1，2，3是同一个user，ob中一共两个user

第一步：两列分别去重，每个重复的字段留下第一个，记录去重后的索引值f1,f2
第二步：找出f1和f2中重复的索引，数量就是真正的不重复的user数量

f1 = ob['email'].drop_duplicates(keep='first', inplace=False)
f1

0    E
1    F
4    G
Name: email, dtype: object

f2 = ob['tell'].drop_duplicates(keep='first', inplace=False)
f2

0    A
2    B
3    C
4    D
Name: tell, dtype: object

接下来就是找f1和f2的重复项，方法很多，写函数做也可，不过我这里使用了一些函数，先把f1和f2合并在一起（np.concatenate），再用两次keep参数不同的drop_duplicates()

import numpy as np
L = np.concatenate((f1.index.values,f11.index.values),axis=0)
L

array([0, 1, 4, 0, 2, 3, 4], dtype=int64)

r1=pd.DataFrame(L).drop_duplicates(keep=False, inplace=False)

r1

r2=pd.DataFrame(L).drop_duplicates(keep='first', inplace=False)

r2

r1.append(r2).drop_duplicates(keep=False)

    0
0   0
2   4

最后列出的0,4就是不重复的user

【解释】
为什么第二步是找重复项呢？
f1.index={0,1,4}，f2.index={0,2,3,4}，f1.index记录了第一列中暂且被认为的不重复的user，f2.index记录了第二列中暂且被认为的不重复的user，当index只在其中一个index列里出现时（比如2），说明在另一列里这个index被别的index统一掉了，也就是和另一列的某个index是一个人。所以去掉f1.index+f2.index中只出现一次的项，剩下的就是不重复的user

Original: https://blog.csdn.net/ZZqnmdr/article/details/115348002
Author: ZZqnmdr
Title: 含三个字段的用户表当email和mobile有一个重复时即认为是同一个user，查询共几个user?【Python】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743035/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python爬虫：为什么你爬取不到网页数据

前言：之前小编写了一篇关于爬虫为什么爬取不到数据文章（文章链接为：https://liuze.blog.csdn.net/article/details/105965562），但…

Python 2023年8月2日
0043
CSS造成阻塞的原理

目录 1.原理解析 A.webkit渲染过程 B.Gecko渲染过程 C.解析原理接上篇文章CSS会造成阻塞吗？我们来说一下CSS造成阻塞的原理 1.原理解析那么为什么会出现…

Python 2023年11月6日
0030
最网最全python框架–scrapy（体系学习，爬取全站校花图片），学完显著提高爬虫能力（附源代码），突破各种反爬

1.boss直聘爬虫（bossPro） 2.豆瓣爬虫（db） 3.fbsPro 4.百度爬虫（firstblood） 5.校花全站图片爬虫（imgsPro） 6.代理ip配置爬虫（…

Python 2023年10月2日
0022
Python Flask 简明教程(7)–路由使用方法详解

点此查看零基础Python全栈文章目录及源码下载本文目录 1. 概述 2. 简单路由 3. 处理HTTP方法 4. 绑定多个URL 5. URL参数 6. 动态URL 7. 小…

Python 2023年8月14日
0041
Nebula Graph介绍和SpringBoot环境连接和查询

Nebula Graph介绍和SpringBoot环境连接和查询 Nebula Graph 的一些特点 GQL 常用查询下面列出一些常用的查询 — 列出图空间 SHOW SPA…

Python 2023年10月19日
0079
scrapy连接mysql 异步_scrapy MysqlPipeline 同步和异步

import MySQLdb import MySQLdb.cursors class MysqlPipeline(object): 采用同步的机制写入mysql def init…

Python 2023年10月6日
0032
点击让球消失

import pygameimport randomimport sysfrom pygame.locals import* pygame.init() screen = pyga…

Python 2023年9月18日
0044
【WY】数据分析 — Matplotlib 阶段一：基础语法四 —— 参数设置

版权声明：本文为博主原创文章，未经博主允许不得转载。文章目录一、图表参数 * 1.1 基本参数 – 1.1.1 窗口大小 1.1.2 图表标题 1.1.3 轴标签 …

Python 2023年9月4日
0034
【C++】优先级队列priority_queue&&仿函数

这里先简单介绍一下优先级队列priority_queue：优先队列是一种容器适配器,默认的情况下，如果没有为特定的priority_queue类实例化指容器类，则使用vector…

Python 2023年11月7日
0037
注意力机制（含pytorch代码及各函数详解）

目录 * – 注意力机制 – + * 非参注意力汇聚概述（不需要学习参数） * 参数化注意力机制概述 * 正式系统学习 * – 1.平均汇聚（池…

Python 2023年10月26日
0037
基于点云的深度学习方法综述

我们生活在一个三维世界里，自从1888年相机问世以来，三维世界的视觉信息就通过相机被映射到二维图象上。但是二维图像的缺点也是显而易见的，那就是缺少深度信息以及真实世界中目标之间的相…

Python 2023年10月8日
0053
python使用pytest在docker容器中进行单元测试

背景：需要开发插件支持pyton的单元测试,经调研认为pyetst比较合适。 pytest执行测试下面测试python版本为3.8.1 pytest可以直接在python-uni…

Python 2023年9月11日
0025
Django异步任务

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、celery是什么？二、使用步骤 * 1.环境安装 1.配置 2.建立任务 3.触发任务 4…

Python 2023年8月5日
0073
python合并多个excel

@ 前言代码编写 – 1.导包 2.定义位置和表头 3.获取要合并的所有exce表格 4.打开Exce文件 5.获取exce文件下的所有sheet 6.获取sheet…

Python 2023年10月20日
0025
Python的模块

模块是Python架构的一个核心概念模块就好比工具包，要想使用这个工具包中的工具，就需要导入import这个模块每一个以拓展名py结尾的python原代码文件都是一个模块在模…

Python 2023年6月3日
0071
python三维图形旋转_如何在matplotlib中旋转三维曲面

在我的评论之后：import mayavi.mlab as mlab import numpy as np x,y = np.mgrid[-1:1:0.001, -1:1:0.00…

Python 2023年9月5日
0038

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

含三个字段的用户表当email和mobile有一个重复时即认为是同一个user，查询共几个user?【Python】

大家都在看