Stata重复与去重

2023年7月15日上午1:00 • 人工智能 • 阅读 112

我们在处理数据的时候，经常会遇到观测值（数据中，每一行叫一个观测值）有重复的情况；有些时候这些观测值是有差别的，而这些差别有可能要关注，也有可能不关注。

下面我们来看一下下图的数据，我截取了某调查数据的一小部分。第一列是Iid，第二列是调查时间，第三列是年龄，第四列是性别。
如果我们只看id，我们会发现这些数据存在重复项。观测值1.2.3（第1.2.3行）重复，id都是11004508，观测值4.5重复，id都是11004808，……

但如果我们看id，age，sex，我们发现这些数据并不存在重复。

例1.如果我们只想保留id相同观测值中的其中一行数据，也就是说观测值1.2.3只留其中一条，观测值4.5只留其中一条，我们直接用一下强制去重命令即可；

help duplicates 可以查看帮助文件，其格式如下：

duplicates drop varlist [if] [in] , force

在本例中,如下命令即可：
duplicates drop id, force / 强制去重id重复的样本
执行以上命令后，结果如下，11个观测值只留下6个id没有重复的，以id为11004508的为例，留下的是年龄为94岁，sex为female的那一个观测值。

例2. 有时候，我们可能需要根据两个或多个变量去重，也就是只要我们考虑的那两个变量都不一样，就可以去掉。
倘若我告诉你，图1中的id为11004508的观测值是夫妻，女性经过了两轮调查，因此她的年龄不一样。而我们在处理数据的时候只需要id和age不重复的样本，我们只需修改下例2命令即可，结果如下，保留了8个观测值，id11004508的样本保留了女性1例，在第一行，男性1例，在第八行：

duplicates drop id sex, force   / &#x5F3A;&#x5236;&#x53BB;&#x91CD;id &#x548C;age &#x91CD;&#x590D;&#x7684;&#x6837;&#x672C;
    &#x5018;&#x82E5;&#x9700;&#x8981;&#x5BF9;&#x591A;&#x4E2A;&#x53D8;&#x91CF;&#x53BB;&#x91CD;&#xFF0C;&#x52A0;&#x4E0A;&#x5176;&#x4ED6;&#x53D8;&#x91CF;&#x5373;&#x53EF;&#x3002;

例3，我们的第三任务是，对同一个id，保留年龄较小的一次调查（涉及到id、age两个变量，不涉及sex），这样的处理更加复杂，可以通过以下步骤完成。

（1）根据id和age排序数据，id在前age在后，可以先根据id排序，再根据age大小排序
（2）由于已根据id和age排序，可以根据根据id分组，产生顺序变量n，结果如下，可以看到，id为11004508的观测值后，年龄为94,97,97的顺序分别为1、2、3；

（3）保留n为1的观测值

sort id age           /&#x6839;&#x636E;id &#x548C; age &#x6392;&#x5E8F;
by id: gen n = _n     /&#x4EE5;id&#x4E3A;&#x5206;&#x7EC4;&#xFF0C;&#x4EA7;&#x751F;&#x987A;&#x5E8F;&#x53D8;&#x91CF;n
keep if n == 1        /&#x4FDD;&#x7559;n&#x4E3A;1&#x7684;&#x89C2;&#x6D4B;&#x503C;

结果如下，还剩7个观测值，都是年龄最小的：

例4. 我们继续加深难度，倘若我们要保留年龄最大的那个不重复样本该怎么办呢？
思考：排序有正序和逆序，但不管怎么排，只要是sort（gsort逆序）后的变量都是同一种排序方式，不能一个顺序一个逆序。有网友建议用 sort id -age的方式，也就是按age的相反数排序，但运行不成功，但这是一个很好地思考。我们先排序id，再排序age的相反数，这样，age大的就在前面了，因此，采用下列办法。

（1）产生新变量为age的相反数
（2）例1的方法

gen gage = 0-age      / &#x4EA7;&#x751F;age&#x7684;&#x76F8;&#x53CD;&#x6570;&#x4E3A;gage
sort id gage          /&#x6839;&#x636E;id &#x548C; gage &#x6392;&#x5E8F;

可以看到，这一次的排序，age大的在前面

by id: gen n = _n     /&#x4EE5;id&#x4E3A;&#x5206;&#x7EC4;&#xFF0C;&#x4EA7;&#x751F;&#x987A;&#x5E8F;&#x53D8;&#x91CF;n
keep if n == 1        /&#x4FDD;&#x7559;n&#x4E3A;1&#x7684;&#x89C2;&#x6D4B;&#x503C;

继续去重，结果如下，留下的都是年龄较大的那一个；

Original: https://blog.csdn.net/dataxc/article/details/121365470
Author: 小陈统计
Title: Stata重复与去重

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/693235/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用Pytorch实现水果分类，训练+测试（内附数据集下载，完整代码）

一.数据集下载链接: https://pan.baidu.com/s/1_7blbYJc0ouCGmqe8kBnTw 提取码: c6ex 复制这段内容后打开百度网盘手机App，操…

人工智能 2023年6月16日
00102
python pandas csv时间聚合_pandas中简单统计分组聚合函数的介绍

说明：这里只是简单的说明了一些pandas中的一些我在毕设中使用到的函数，这个模块的并未具体其他的一些功能并未详细的进行说明。 pandas 简单介绍 Python语言的Pan…

人工智能 2023年7月8日
0069
医学影像管理系统源码（PACS） PACS源码 PACS系统源码

主要功能：一、信息管理 1、支持对患者、检查项目、申请医生、申请单据、设备等信息进行管理； 2、支持检查病人排队管理功能； 3、支持大屏幕队列显示和语音呼叫； 4、提供预约调整、…

人工智能 2023年6月21日
0077
基于Python TensorFlow Keras的深度学习回归代码——keras.Sequential深度神经网络

基于Python TensorFlow Keras的深度学习回归代码——keras.Sequential深度神经网络 1 写在前面 2 代码分解介绍 * 2.1 准备工作 2.2 …

人工智能 2023年5月26日
0075
90+个各种疾病相关医疗数据集

### 回答1：医疗_知识问答 _数据集_是指一个包含 _医疗_领域常见问题和对应答案的 _数据集。这个数据集_可以被用于训练和评估 _医疗_智能问答系统。在CSDN（国内最大…

人工智能 2023年7月26日
0064
neo4j 批量生成节点（LOAD CSV）

在使用neo4j创建知识图谱时，有时会有这样的场景：从大量数据中读取，生成大量同类型节点。使用py2neo似乎没有那么容易。于是便采用这样一种思路。将获得的数据经过预处理，生成CS…

人工智能 2023年6月1日
0082
基于强化学习的图像配准 – Image Registration: Reinforcement Learning Approaches

配准定义给定参考图像 I_f 和浮动图像 I_m ，所谓的配准就是寻找一个图像变换T，将浮动图像I_m变换到和 I_f 相同的坐标空间下，使得两个图像中对应的点处于同一坐标下，从…

人工智能 2023年5月28日
00101
R语言相关性的显著性检验

在计算好相关系数以后，如何对它们进行统计显著性检验呢？常用的原假设为变量间不相关（即总体的相关系数为0）。你可以使用cor.test()函数对单个的Pearson、Spearman…

人工智能 2023年6月17日
0094
数学建模学习（79）：Matlab神经网络工具箱使用，实现多输入多输出预测

最近遇到一个比赛题，要做一个预测，而且还是多输出多输出。开始我选择了一个多输入多输出预测算法进行实现。为了拓展，这里再使用神经网络来实现一下。文章目录 * – 一、问…

人工智能 2023年7月12日
0060
自动驾驶 2D 单目双目多目视觉方法一（Pseudo-LiDAR，Mono3D，FCOS3D，PSMNet）

文章目录概述 * 单目3D感知 – 3D目标检测单目深度估计双目3D感知 – 双目3D目标检测双目深度估计 Pseudo-LiDAR * 1. 核心…

人工智能 2023年6月1日
0096
老油条表示真干不过，部门新来的00后测试员已把我卷崩溃，想离职了…

在程序员职场上，什么样的人最让人反感呢? 是技术不好的人吗?并不是。技术不好的同事，我们可以帮他。是技术太强的人吗?也不是。技术很强的同事，可遇不可求，向他学习还来不及呢。真正让…

人工智能 2023年7月30日
0080
《MATLAB语音信号分析与合成（第二版）》：第8章基音周期的估算方法

《MATLAB语音信号分析与合成（第二版）》：第8章基音周期的估算方法前言 1. 数据与函数路径设置 2. MATLAB仿真一：基音周期提取的预处理 3. MATLAB仿真二：…

人工智能 2023年5月25日
00114
图的分类–图论笔记

图的分类 – 潘登同学的图论笔记文章目录图的分类 — 潘登同学的图论笔记 * 无向图(我们着重讨论简单图) – 图的数学语言简单图:不存在自环和重边的…

人工智能 2023年7月2日
0062
机器学习之KNN算法（python代码实现）

kNN（k-Nearest Neighbors，k近邻）是机器学习中非常基础的一种算法，算法原理简单而且容易实现，结果精度高，无需估计参数，无需训练模型，而且不仅可以用于分类任务，…

人工智能 2023年6月23日
0077
树莓派安装摄像头、耳机、话筒

买了摄像头（500万像素很不清晰）、树莓派喇叭（声音很小稍微远点根本听不见）、话筒(录音根本听不清楚) 然后自己百度摸索安装；一、摄像头安装将摄像头电缆插入耳机孔后面的摄像头插…

人工智能 2023年5月27日
00177
知识图谱推荐之neo4j电影智能问答项目

申明：此项目是由”跟若海写代码”公众号发布内容整理而来，侵删。适用：知识图谱推荐入门项目、熟悉neo4j图数据库一般操作等。目录 1 项目需求分析与方案…

人工智能 2023年6月1日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Stata重复与去重

大家都在看