数据探索性分析(EDA)常用方法大合集

数据探索性分析(EDA)常用方法大合集

EDA(Exploratory Data Analysis),全名为数据探索性分析,是通过 了解数据集,了解变量间的相互关系以及变量与预测值之间的关系,从而帮助我们后期更好地进行特征工程和建立模型,是数据挖掘、机器学习中十分重要的一步。

下面我们会将EDA中常用的方法进行总结,帮助大家提高EDA效率。由于本节内容较多,我们将分几篇系列文章为大家分享。

首先来看看一个常规的EDA都需要做哪些事情。

一是对我们要分析的数据进行一个整体的了解即数据的整体概览,这一环节我们可以 了解数据的特征、类型、量纲等基本信息,并对缺失值、异常值等进行处理

二是查看数据的分布情况, 尽量将数据的分布调整成利于机器学习的输入形式,对于偏斜分布、重尾分布进行规整,一般调整为正太分布;

三是对类别型数据进行处理, 通常采用不同的编码方式对其进行编码,以便转化成数值型数据

四是重点对数值型数据进一步进行探索分析, 查看数据之间的相关性、独立性等,以便选取更为有效的特征

Original: https://blog.csdn.net/zy_dreamer/article/details/124298033
Author: 白话机器学习
Title: 数据探索性分析(EDA)常用方法大合集

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/618971/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 李宏毅自然语言处理——GPT3简介

    引言 今天来介绍下牛逼的GPT-3 1,它是一个拥有1750亿参数的巨大的自回归(autoregressive)语言模型。 GPT-3简介 之前最大的语言模型是Turing NLG…

    人工智能 2023年5月27日
    051
  • 在Windows 10 增加和使用英语语音包

    什么是实用技巧,就是那种能经常用得着的值得收藏起来的应用方法。本文 中笔者就将向大家介绍35种 Windows_操作系统技巧,招招实用,招招值得你把 他保存到你的电脑中或者把这篇文…

    人工智能 2023年5月27日
    069
  • 大数据进阶之算法——KMeans聚类算法

    首先说一下分类和聚类的区别: 分类: [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:…

    人工智能 2023年6月3日
    074
  • 预训练模型专题_Bart_论文学习笔记

    Bart模型作为一种Seq2Seq结构的预训练模型,是由Facebook在ACL 2020上提出。Bart模型的论文为:《BART: Denoising Sequence-to-S…

    人工智能 2023年5月31日
    096
  • Vue内置组件:teleport和transition组件

    teleport的作用 该组件可以将指定内容渲染到特定容器中,而不受 DOM 层级的限制 应用场景 当蒙层内容在一个组件中时,蒙层内容是无法遮挡住全部内容的,因此,需要使用tele…

    人工智能 2023年6月27日
    0106
  • python librosa 或 ffmpeg 改变音频采样率

    文章目录 * – librosa 改变音频采样率 – + 查看 old.wav的采样率 + 将old.wav转换为16000采样率的音频序列 + 保存写入新…

    人工智能 2023年5月25日
    0210
  • PointAugmenting Cross-Modal Augmentation for 3D Object Detection

    论文: 先提出背景,然后方法,难点/挑战(不过这篇没在摘要里面提出挑战,应该会放到引言里面提) 背景 :摄像头和激光雷达是自动驾驶环境中用于 3D 对象检测的两个互补传感器。相机提…

    人工智能 2023年7月12日
    056
  • python微信机器人制作教程+源码

    一、环境配置 大多数人无法登录网页版,所以饶过它模拟电脑登录,这个模块一定记得安装: pip install itchat-uos pip install itchat ⚠️ 演示…

    人工智能 2023年7月5日
    094
  • 【机器学习】pycm–史上最强多分类性能评估库

    🍓0 博主介绍 👨‍🎓 博主介绍:大家好,我是可可卷,很高兴和大家见面~ ✨主攻领域:【数据分析】【机器学习】 【深度学习】 【数据可视化】 🎉欢迎关注💗点赞👍收藏⭐️评论📝 🙏作…

    人工智能 2023年6月23日
    084
  • 2022数维杯ABC题思路程序实时更新

    A题 题目很简单,所以没啥说的,题目说到有个数据表,是excel,所以用pandas读取:读取数据,太简单了: import pandas as pd a=pd.read_exce…

    人工智能 2023年7月17日
    074
  • 数据可视化——词云图

    本文目的:将爬取的评论数据进行分词,然后使用词云图进行可视化操作。 使用到的工具:结巴中文分词、Wordcloud库 首先介绍一下两个工具,其中结巴中文分词是一个专门将中文句子进行…

    人工智能 2023年5月28日
    094
  • YOLOv5改进之七:损失函数改进

    ​前 言:作为当前先进的深度学习目标检测算法YOLOv5,已经集合了大量的trick,但是还是有提高和改进的空间,针对具体应用场景下的检测难点,可以不同的改进方法。此后的系列文章,…

    人工智能 2023年6月16日
    0112
  • python文件读取&导包的绝对路径、相对路径

    😊 作者简介:大家好我是hellobigorange,大家可以叫我大橙子📃 个人主页:hellobigorange的个人主页📰如果觉得博主的文章还不错的话,请👍三连支持一下博主哦🤞…

    人工智能 2023年7月4日
    0136
  • OpenGL之环境映射

    1.1 环境映射(Environment Mapping) 具有光滑表面的物体会反射形成周围环境的影响,是一种环境光效果。光线跟踪等(全局光照)可以实现这种效果,但是效率太低,可以…

    人工智能 2023年6月30日
    078
  • NLP 语义匹配:经典前沿方案整理

    作者 | 周俊贤整理 | NewBeeNLP 上一篇文章,讨论了语义匹配的语义场景, 这篇跟大家讨论相关的技术,主要包括 BERT-avg、BERT-Whitening、SBERT…

    人工智能 2023年5月30日
    072
  • Pandas深入浅出

    4.Pandas新增数据列 文章目录 4.Pandas新增数据列 前言 一、直接赋值 二、df.apply方法 三、df.assign方法 四、按条件选择分组分别进行赋值 总结 前…

    人工智能 2023年7月7日
    083
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球