EDA(Exploratory Data Analysis),全名为数据探索性分析,是通过 了解数据集,了解变量间的相互关系以及变量与预测值之间的关系,从而帮助我们后期更好地进行特征工程和建立模型,是数据挖掘、机器学习中十分重要的一步。
下面我们会将EDA中常用的方法进行总结,帮助大家提高EDA效率。由于本节内容较多,我们将分几篇系列文章为大家分享。
首先来看看一个常规的EDA都需要做哪些事情。
一是对我们要分析的数据进行一个整体的了解即数据的整体概览,这一环节我们可以 了解数据的特征、类型、量纲等基本信息,并对缺失值、异常值等进行处理;
二是查看数据的分布情况, 尽量将数据的分布调整成利于机器学习的输入形式,对于偏斜分布、重尾分布进行规整,一般调整为正太分布;
三是对类别型数据进行处理, 通常采用不同的编码方式对其进行编码,以便转化成数值型数据;
四是重点对数值型数据进一步进行探索分析, 查看数据之间的相关性、独立性等,以便选取更为有效的特征。
Original: https://blog.csdn.net/zy_dreamer/article/details/124298033
Author: 白话机器学习
Title: 数据探索性分析(EDA)常用方法大合集
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/618971/
转载文章受原作者版权保护。转载请注明原作者出处!