大数据探索

2023年7月16日上午6:06 • 人工智能 • 阅读 68

数据挖掘

区间型数据（Interval）
数值型数据的取值都是数值型，其大小代表了对象的状态，比如，年收入的取值，其大小代表了其收入状态。
分类型数据(Categorical)
分类型数据的每一个取值都代表了一个类别，如性别，两个取值代表了两个群体。
序数型数据（Oridinal）
和分类型数据非常相似，每个取值代表了不同的类别，但是序数型的数据还有另外一层含义就是每个取值是有大小之分的。比如：如果将年收入划分为3个档次:高、中、低，则不同的取值既有类别之分，也有大小之分。
注：充分了解字段的含义是很重要的
不同的数据类型，在算法进行模型训练时，处理和对待方式是不同的。区间型数据是直接进行计算的；分类型数据是先将其转换为稀疏矩阵：每一个类别是一个新的字段，然后根据其取值”1″，”0″进行计算。
在很多场景下，人们习惯将分类型数据和序数型数据统称为分类型数据，即数据类型可以是：数值型数据（区间型数据）和分类型数据(分类型数据和序数型数据)。
连续型数据的探索
1缺失值:缺失值的比例是确定该字段是否可用的重要指标，一般情况下，如果缺失率超过50%,则该字段就完全不可以。在很多情况下，需要区别对待Null和0的关系。Null为缺失值，0是有效值，要小心区别对待。例如，某客户在银行内的某账户余额为null，意味着该客户没有该账号，但是如果将Null改为0，则是说用户有该账户，但账户余额为0。
1 均值：反映整体水平。
2 最大值和最小值:反映指标的取值范围。
3 方差：反映各个取值离平均值的离散程度。
4 标准差：与方差类似。
5 中位数：是按顺序排列的一组数据中居于中间位置的数。
6 众数：出现次数最多的取值。
7 四分位数：用3个序号将已经排序过的数据分为四份。
8 四分位距：四分位距通过第三四分位数和第一四分位数的差值来计算，即IQR=Q3–Q1.四分位距是进行离群值判别的一个重要统计指标。一般情况下，极端值都在Q1–1.5 _IQR之下，或者Q3+1.5_IQR之上。

9 偏斜度：偏斜度是关于表现数据分布的对称性的指标，值为0，则代表一个对称性的分布；值为正值，代表分布的峰值偏左；若其值是负值，代表分布的峰度偏右。偏斜度的计算公式为（数据的三阶中心矩）：

通过中位数和均值的差异来判断分布的偏斜情况
判断条件结论
中位数>均值偏左分布
中位数、均值相差无几对称分布
中位数

其中m4是四阶样本中心矩，m2是二阶中心矩（即使样本方差），xi是第i个值，是样本平均值。注意此处计算方差的时候除数是N，而不是单独计算样本方差的(N-1)。

分类型数据探索
分类型数据的探索主要从分类的分布等方面进行考察，常见的统计指标有以下几个：

缺失值：缺失值的比例是确定该字段是否可用的重要指标，过多的缺失值，会使得指标失去意义。
类别个数:依据分类型数据中类别个数，可以对指标是否可用有个大致判断。例如：从业务角度讲，某指标应该有6个类别，但实际样本只有5个类别，则需要重新考虑样本的质量。再例如，某个分类型变只有一个类别时，对数据分析是完全不可用的。
类别中个体数量：反映样本中类别组成结构。
众数：出现次数最多的取值。

下面是数据探索的代码


def dataDescription(data_df):

    from collections import OrderedDict
    dict_result = OrderedDict()

    dict_result['Min.']= data_df.min()

    dict_result['1st Qu.']= data_df.quantile(q = 0.25)

    dict_result['Median']= data_df.median()

    dict_result['Mean']= data_df.mean()

    dict_result['3rd Qu.']= data_df.quantile(q = 0.75)

    dict_result['Qu_Dist.'] = data_df.quantile(q = 0.75) - data_df.quantile(q = 0.25)

    dict_result['Max.']= data_df.max()

    dict_result['Skew.']=data_df.skew()

    dict_result['Kurt.']=data_df.kurt()

    dict_result['NA counts']= data_df.isnull().sum()
    return  pd.DataFrame(dict_result).T

Original: https://blog.csdn.net/chensq_yinhai/article/details/124550898
Author: 素素.陈
Title: 大数据探索

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/695845/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Linux(Centos7版本）安装MySQL 5.7详细安装步骤(是使用命令安装，非上传mysql压缩包安装)

Linux(Centos7版本）安装MySQL 5.7详细安装步骤(是使用命令安装，非上传mysql压缩包安装) 0、更换yum源 1、打开 mirrors.aliyun.com，…

人工智能 2023年5月30日
0087
使用DOTA数据集训练Faster R-CNN模型

一、所需文件下载链接二、基础环境配置三、训练及测试过程使用Faster R-CNN算法在DOTA数据集上实现目标检测。使用Faster R-CNN算法在VOC2007数据集上…

人工智能 2023年5月26日
0087
数据分析-聚类-案例

目录 0、数据集介绍 1、导入必要的包 2、读入数据 3、数据探索 4、数据预处理 5、建模 5.1 Kmeans 探寻最优的K值 5.2 MeanShift 5.3 Agglom…

人工智能 2023年7月18日
0091
python中dot函数总结

本文结合其他博主的一些介绍总结了dot函数运算过程基本简介 dot函数为numpy库下的一个函数，主要用于矩阵的乘法运算，其中包括：向量内积、多维矩阵乘法和矩阵与向量的乘法。 1…

人工智能 2023年7月4日
0081
算法设计与分析复习–回溯法

算法设计与分析期末复习主要参考：算法设计与分析（北京航空航天大学MOOC）算法设计与分析（北京大学MOOC）华中科技大学计算机科学与技术学院算法设计与分析课堂教学…

人工智能 2023年6月18日
00104
利用科大讯飞webAPI实现语音识别

人工智能兴起，搞语音识别的公司很多，这里介绍怎么用科大讯飞提供的webAPI和python实现语音识别。讯飞还提供了sdk，但是需要在visal code上运行，vs体积太大为了…

人工智能 2023年5月23日
00118
Blazor Bootstrap 组件库语音组件介绍

Speech 语音识别与合成通过麦克风语音采集转换为文字（STT），或者通过文字通过语音朗读出来（TTS）本组件依赖于 BootstrapBlazor.AzureSpeech，使…

人工智能 2023年5月25日
0087
MMCV-Registry类代码详解(1)

1.功能简介 2.初始化函数参数说明：构造函数优先级： 2.1self.infer_scope()方法 2.2_add_children()方法源码在工程中的路径为mmcv/…

人工智能 2023年7月12日
0087
CAU SUBMISSION TO DCASE 2021 TASK6: TRANSFORMER FOLLOWED BY TRANSFER LEARNING FOR AUDIO CAPTIONING

Abstract & Introduction & Related Work 研究任务 AAC（自动音频字幕）已有方法和相关工作面临挑战创新思路使用预训练模…

人工智能 2023年5月23日
00119
超详细！手把手带你轻松用 MMSegmentation 跑语义分割数据集

在带你轻松掌握 MMSegmentation 整体构建流程一文中，我们带大家认识了 MMSegmentation 的整体框架，分享了 MMSegmentation 中已经复现的主流…

人工智能 2023年6月16日
00188
深度估计自监督模型monodepth2在自己数据集的实战——单卡/多卡训练、推理、Onnx转换和量化指标评估

本文详细介绍monodepth2模型在自己数据集的实战方法，包括单卡/多卡训练、推理、Onnx转换和量化评估等，关于理论部分请参见另一篇博客：深度估计自监督模型monodepth2…

人工智能 2023年7月21日
0081
R数据分析：临床预测模型中校准曲线和DCA曲线的意义与做法

之前给大家写过一个临床预测模型：R数据分析：跟随top期刊手把手教你做一个临床预测模型，里面其实都是比较基础的模型判别能力discrimination的一些指标，那么今天就再进一步…

人工智能 2023年7月28日
0072
python自动化测试中装饰器@ddt和@data源码解析

; 一、使用ddt和data装饰器的大致框架如下，每个test_开头的方法，代表一条测试用例 from ddt import ddt,data import unittest te…

人工智能 2023年7月30日
0068
1.python基础

文章目录第一章基础 * 1.注释 2.变量 3.输入输出 – 3.1 输入 3.2 输出 4.转换数据类型 5.运算符 6 条件语句(if) – 三⽬运…

人工智能 2023年7月4日
0054
conda安装pytorch

1、卸载虚拟环境 conda uninstall -n novelgnn –all 2、conda安装虚拟环境 conda create -n Novelgnn python=3…

人工智能 2023年7月5日
0065
语音压缩编解码器：lyra

语音压缩编解码器：lyra New Lyra 是 Google 开源的超低比特率，却拥有超高语音质量的编解码器，即便在很糟糕的网络情况下，lyra 也能让你有流畅的语音体验。Lyr…

人工智能 2023年5月25日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

大数据探索

数据挖掘

大家都在看