SQL如何删除重复数据

2023年7月29日下午6:28 • 人工智能 • 阅读 71

SQL去重

1 SQL去重
2 distinct
3 group by
4 总结

1 SQL去重

SQL中去除完全相同数据可以用distinct关键字，任意字段去重可以用group by，以下面的数据表为例。

2 distinct

存在两条完全相同的纪录，用关键字distinct就可以去掉
根据单个字段去重，能精确去重;
作用在多个字段时，只有当这几个字段的完全相同时，才能去重;
关键字distinct只能放在SQL语句中的第一个，才会起作用

一般用来返回不重复的记录条数，返回不重复的条数(去掉test重复的，就剩下6条)

; 3 group by

1. &#x67E5;&#x8BE2;&#x6839;&#x636E;&#x540D;&#x5B57;&#x53BB;&#x91CD;&#x540E;&#x6570;&#x636E;(&#x540D;&#x5B57;&#x76F8;&#x540C;&#x53D6;id&#x503C;&#x5927;&#x7684;)

SELECT * FROM stu WHERE id IN (SELECT MAX(id) FROM stu GROUP BY name)

2. 删除名字相同数据(名字相同保留id值大的)
group by + count + max去掉重复数据

1）SELECT * FROM stu

2）加上group by 后，会将重复的数据去掉了

3) 条件(名字)是数量大于1的重复数据

SELECT name FROM stu GROUP BY name HAVING COUNT(name) > 1

#&#x6761;&#x4EF6;&#x662F;&#x6570;&#x91CF;&#x5927;&#x4E8E;1&#x7684;&#x91CD;&#x590D;&#x6570;&#x636E;
SELECT * FROM stu WHERE name IN(
SELECT name FROM stu GROUP BY name HAVING COUNT(name)>1
)

4）查看某字段重复数据的id

SELECT id, COUNT(*) FROM stu
GROUP BY NAME DESC HAVING(COUNT(*) > 0)

5）查询所有重复数据

SELECT * FROM stu WHERE NAME IN (SELECT name FROM stu GROUP BY name HAVING COUNT(name) > 1)

5) 去重
可以使用distinct去重（返回不重复的用户名）
删除多余的重复记录（name），只保留id最大的记录。

DELETE FROM stu
WHERE id NOT IN ( SELECT a.id FROM ( SELECT MAX( id ) AS id FROM stu GROUP BY name )a )

或者

 DELETE FROM stu WHERE name IN (SELECT name FROM (SELECT name FROM stu GROUP BY name HAVING COUNT(name)>1) e)
 AND id NOT IN (SELECT id FROM (SELECT MAX(id) AS id FROM stu GROUP BY name HAVING COUNT(name)>1) t)
 #&#x67E5;&#x8BE2;&#x663E;&#x793A;&#x91CD;&#x590D;&#x7684;&#x6570;&#x636E;&#x90FD;&#x662F;&#x663E;&#x793A;&#x6700;&#x524D;&#x9762;&#x7684;&#x51E0;&#x6761;&#xFF0C;&#x56E0;&#x6B64;&#x4E0D;&#x9700;&#x8981;&#x67E5;&#x8BE2;&#x662F;&#x5426;&#x6700;&#x5C0F;&#x503C;

错误删除
DELETE FROM stu WHERE name IN (SELECT name FROM stu GROUP BY name HAVING COUNT(name)>1)
AND id NOT IN (SELECT MAX(id) FROM stu GROUP BY stu HAVING COUNT(name)>1)
原因是：不能将直接查处来的数据当做删除数据的条件，我们应该先把查出来的数据新建一个临时表，然后再把临时表作为条件进行删除功能

4 总结

去重后名字记录

SELECT name FROM stu
GROUP BY NAME HAVING(COUNT(*) > 0)

2）
所有重复名字的记录

SELECT name FROM stu
GROUP BY NAME HAVING COUNT(*) > 1

3）把所有重复的记录都删了
DELETE FROM stu WHERE name IN
(SELECT name FROM stu GROUP BY name HAVING COUNT(*)>1)

无法在删除时同时查询这张表，这个问题只在MySQL中出现，oracle没有。怎么解决？我们只需要在查出结果以后加一张中间表。让执行器认为我们要查的数据不是来自正在删的这张表就可以了。

DELETE FROM stu WHERE name IN
    (SELECT a.name FROM
        (SELECT name FROM stu GROUP BY name HAVING COUNT(*)>1) a)

所有重复数据都删除, 就剩王五一条数据了

4) 现在删除所有重复数据数据做完了，考虑怎么保留重复数据中id最小的。只需要在删除时让删除该条的记录id不在重复数据id最小的当中就可以了。

DELETE FROM stu WHERE name IN
    (SELECT a.name FROM
        (SELECT name FROM stu GROUP BY name HAVING COUNT(*)>1) a)
     AND id NOT IN
    (SELECT b.id FROM
        (SELECT MIN(id) id FROM stu
            GROUP BY name HAVING COUNT(*)>1) b);

还有简单办法算出去重后所有数据（保留最小ID），然后删除id不在该数组里的

 DELETE FROM stu WHERE id NOT IN (SELECT t.id FROM (SELECT MIN(id) AS id FROM stu GROUP BY name)t)

Original: https://blog.csdn.net/qq_37705525/article/details/124812776
Author: qq_37705525
Title: SQL如何删除重复数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/722725/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【GPU】计算集群Slurm使用

Motivation 之前从来没有用过集群，跑代码都是用单独的服务器，第一次上手组里的集群懵逼了一天。中文的博客大部分都写的很一般，有些我想知道的问题也找不到答案。所以就想着，自己…

人工智能 2023年7月14日
00112
树莓派视觉小车 — OpenCV巡线(HSL色彩空间、PID)

目录试错试错1：形态学处理试错2：HSV色彩空间基础理论 1、HSV与HSL色彩空间 2、PID调节一、OpenCV图像处理 1、在HSL色彩空间下得到二值图 2、对二…

人工智能 2023年5月26日
0085
对比学习（二）-模型坍塌-infoNCE损失函数

接对比学习（一）对比学习（二） * – L2正则使用原因 – 模型坍塌 – infoNCE损失函数 – 负例难度 L2正则使用原因…

人工智能 2023年6月15日
0091
matlab fft 与fftshift的理解

matlab fft 与fftshift的理解 matlab fft 与fftshift的理解直接看下图信号为：s=5+3 _cos(2_pi _200_t+60 _pi/18…

人工智能 2023年6月15日
00130
分类变量的卡方检验（python实现&SPSS实现）

卡方介绍卡方检验是针对自变量和因变量都是分类数据，也就是说带有属性的数据；而单因素方差分析是自变量是分类数据，因变量是连续型的数据。还有一点：方差分析是参数检验，而卡方检验是属…

人工智能 2023年7月2日
00123
随笔记录：关于SE模块插入位置的总结

一、前言由于之前工作中，训练数据集普遍较小以及开发板对模型的限制，所以对 SE模块的使用较少，对它的插入位置不是很清楚，这样不利于日后对它的使用。故最近查了下使用案例，记录总…

人工智能 2023年7月27日
0072
探索语言交互技术在政务数字化的应用

摘要：在智慧城市的建设中，政府也希望能够使用新技术来提供更好的服务。最近去公积金中心办理逐月还贷的业务，由于害怕排队时间较长，还没到上班时间就早早排队去了。正当我等待得百无聊赖之…

人工智能 2023年5月27日
00142
Jupyter Notebook中将ipynb文件转为py文件

Python：3.7.1Jupyter Notebook：6.3.0 Jupyter Notebook中将ipynb文件转为py文件前言一、将.ipynb文件转为.py文件 *…

人工智能 2023年7月8日
0095
python调用百度语音api_python通过调用百度api实现语音识别（超详细）

最近在学习python，做一些python练习题 github上几年前的练习题有一题是这样的：使用 Python 实现：对着电脑吼一声,自动打开浏览器中的默认网站。例如，对着…

人工智能 2023年5月25日
0099
百家饭OpenAPI平台秋季更新-API网关功能全新上线

百家饭平台经过夏秋多个版本的迭代，发布0.7.0版本，除了更新了大量OpenAPI编辑功能之外，我们还全新提供了API网关功能。 API网关是我们在开发和运营API的时候，经常会用…

人工智能 2023年6月29日
0082
Python的张量运算

目录 1 机器学习中张量的创建 2 索引和切片访问张量中的数据 3 张量的整体操作和逐元素运算 4 张量的变形和转置 * 4.1 变形 4.2 转置 5 Python中的广播 6 …

人工智能 2023年6月16日
0079
微信公众号推送天气教程，自动定时推送【Java版】开发者和小白详细教程

GitHub源码链接放这里建议先打开，因为GitHub在国内加载很慢。点击打开 Java版本，教程最近一次更新时间为： 2022-11-08 目录： 1.通用准备 2.面向开发者…

人工智能 2023年6月21日
0079
【机器学习-西瓜书】第5章神经网络

5.1 神经元模型定义：神经网络是由具有适应性的简单单元组成的、广泛并行互连的网络，其组织能够模拟神武神经系统对真实世界物体所做出的交互反应。这里的简单单元指神经元neuron…

人工智能 2023年7月14日
0080
Five aspects of researches about automatic drive perception by Waymo

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月12日
0058
爬虫：python如何获得天气数据

1.先安装以下库 import requests from bs4 import BeautifulSoup as bs import pandas as pd from pand…

人工智能 2023年7月7日
0060
【OpenCV 例程200篇】81. 频率域高斯低通滤波器

【OpenCV 例程200篇】81. 频率域高斯低通滤波器欢迎关注『OpenCV 例程200篇』系列，持续更新中欢迎关注『Python小白的OpenCV学习课』系列，持续更新…

人工智能 2023年6月20日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

SQL如何删除重复数据

SQL去重

大家都在看