动手学数据分析 01

2023年7月18日上午7:58 • 人工智能 • 阅读 55

课程现分为三个单元，大致可以分为：数据基础操作，数据清洗与重构，建模和评估。

1 第一章：数据载入及初步观察

第一部分：我们获得一个要分析的数据，我要学会如何加载数据，查看数据，然后学习Pandas的一些基础操作，最后开始尝试探索性的数据分析。

1 第一章：数据加载

import numpy as np
import pandas as pd

相对路径
df = pd.read_csv('train.csv')
df.head(3)

绝对路径
df = pd.read_csv('/Users/chenandong/Documents/datawhale数据分析每个人题目设计/招募阶段/第一单元项目集合/train.csv')
df.head(3)

每1000行为一个数据模块，逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)

修改表头

df = pd.read_csv('train.csv', names=['&#x4E58;&#x5BA2;ID','&#x662F;&#x5426;&#x5E78;&#x5B58;','&#x4ED3;&#x4F4D;&#x7B49;&#x7EA7;','&#x59D3;&#x540D;','&#x6027;&#x522B;','&#x5E74;&#x9F84;','&#x5144;&#x5F1F;&#x59D0;&#x59B9;&#x4E2A;&#x6570;','&#x7236;&#x6BCD;&#x5B50;&#x5973;&#x4E2A;&#x6570;','&#x8239;&#x7968;&#x4FE1;&#x606F;','&#x7968;&#x4EF7;','&#x5BA2;&#x8231;','&#x767B;&#x8239;&#x6E2F;&#x53E3;'],index_col='&#x4E58;&#x5BA2;ID',header=0)
df.head()

查看数据基本信息

df.info()

观察数据

&#x524D;&#x5341;&#x884C;&#x6570;&#x636E;
df.head(10)

&#x540E;15&#x884C;&#x6570;&#x636E;
df.tail(15)

判断数据是否为空，为空的地方返回True，其余地方返回False

df.isnull().head()

保存数据为csv格式

&#x6CE8;&#x610F;&#xFF1A;&#x4E0D;&#x540C;&#x7684;&#x64CD;&#x4F5C;&#x7CFB;&#x7EDF;&#x4FDD;&#x5B58;&#x4E0B;&#x6765;&#x53EF;&#x80FD;&#x4F1A;&#x6709;&#x4E71;&#x7801;&#x3002;&#x5927;&#x5BB6;&#x53EF;&#x4EE5;&#x52A0;&#x5165;encoding='GBK' 或者 ’encoding = ’utf-8‘‘
df.to_csv('train_chinese.csv')

dataframe、series、ndarray。

ndarray

ndarray是Numpy库中的矩阵模块，可以创建n维的数组对象，所有元素必须是相同的类型，比如你的元素是字符，那就全部都是字符。

创建

import numpy as np
arr=np.array([[1,2,3],[4,5,6],[7,8,9]],dtype=np.int32 )
print(arr)

Series

类似于1维数组，由索引+数值组成

创建

import pandas as pd
s=pd.Series(['a','b','c','d'])

DataFrame

重磅来了！dataframe是非常常见的一个表格型数据结构，每一列可以是不同的数值类型，有行索引、列索引。提到它就会自然想到Pandas这个包。平常用Python处理xlsx、csv文件，读出来的就是dataframe格式。

创建

可以单独创建，也可以由别的类型转换过来：列表、series、字典等等。

import pandas as pd
df=pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],columns=['a','b','c'])

【数据分析入门】之：dataframe和series – 知乎

loc和iloc的区别

loc：works on labels in the index.

iloc：works on the positions in the index (so it only takes integers).

也就是说loc是根据index来索引，比如下边的df定义了一个index，那么loc就根据这个index来索引对应的行。iloc并不是根据index来索引，而是根据行号来索引，行号从0开始，逐次加1。

In [1]: df = DataFrame(randn(5,2),index=range(0,10,2),columns=list('AB'))

In [2]: df
Out[2]:
          A         B
0  1.068932 -0.794307
2 -0.470056  1.192211
4 -0.284561  0.756029
6  1.037563 -0.267820
8 -0.538478 -0.800654

In [5]: df.iloc[[2]]
Out[5]:
          A         B
4 -0.284561  0.756029

In [6]: df.loc[[2]]
Out[6]:
          A         B
2 -0.470056  1.192211

对数据进行排序（升序）

&#x5177;&#x4F53;&#x8BF7;&#x770B;&#x300A;&#x5229;&#x7528;Python&#x8FDB;&#x884C;&#x6570;&#x636E;&#x5206;&#x6790;&#x300B;&#x7B2C;&#x4E94;&#x7AE0; &#x6392;&#x5E8F;&#x548C;&#x6392;&#x540D; &#x90E8;&#x5206;

#&#x81EA;&#x5DF1;&#x6784;&#x5EFA;&#x4E00;&#x4E2A;&#x90FD;&#x4E3A;&#x6570;&#x5B57;&#x7684;DataFrame&#x6570;&#x636E;
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['2', '1'],
                     columns=['d', 'a', 'b', 'c'])
frame

【代码解析】

pd.DataFrame() ：创建一个DataFrame对象

np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7

index=[‘2, 1] ：DataFrame 对象的索引列

columns=[‘d’, ‘a’, ‘b’, ‘c’] ：DataFrame 对象的索引行

&#x5927;&#x591A;&#x6570;&#x65F6;&#x5019;&#x6211;&#x4EEC;&#x90FD;&#x662F;&#x60F3;&#x6839;&#x636E;&#x5217;&#x7684;&#x503C;&#x6765;&#x6392;&#x5E8F;,&#x6240;&#x4EE5;&#xFF0C;&#x5C06;&#x4F60;&#x6784;&#x5EFA;&#x7684;DataFrame&#x4E2D;&#x7684;&#x6570;&#x636E;&#x6839;&#x636E;&#x67D0;&#x4E00;&#x5217;&#xFF0C;&#x5347;&#x5E8F;&#x6392;&#x5217;
frame.sort_values(by='c', ascending=True)

&#x8BA9;&#x884C;&#x7D22;&#x5F15;&#x5347;&#x5E8F;&#x6392;&#x5E8F;
frame.sort_index()

&#x8BA9;&#x5217;&#x7D22;&#x5F15;&#x5347;&#x5E8F;&#x6392;&#x5E8F;
frame.sort_index(axis=1)

&#x8BA9;&#x5217;&#x7D22;&#x5F15;&#x964D;&#x5E8F;&#x6392;&#x5E8F;
frame.sort_index(axis=1, ascending=False)

&#x8BA9;&#x4EFB;&#x9009;&#x4E24;&#x5217;&#x6570;&#x636E;&#x540C;&#x65F6;&#x964D;&#x5E8F;&#x6392;&#x5E8F;
frame.sort_values(by=['a', 'c'], ascending=False)

Original: https://blog.csdn.net/qq_40478639/article/details/121938132
Author: Zzz_25
Title: 动手学数据分析 01

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700397/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SSM框架实现登录注册功能

刚刚写出来的SSM登录注册案例，网上随便翻一下都有，本篇直接上手，使用Maven工程搭建一个简单的SSM框架实现简单的登录注册，验证重名功能。目录项目结构图持久层相关配置文…

人工智能 2023年7月29日
0089
python深度学习机器学习必备的学习网站集合！

文章目录目录文章目录前言一、Papers With Code 推荐理由适合人群二、DLab教学与实训平台推荐理由适合人群优质教程(可选) 基于PyTorch搭建C…

人工智能 2023年5月28日
0076
SURF网格化特征点提取算法流程(一)

SURF网格化特征点提取算法流程（一）相关：SURF网格化特征点提取的算法流程(二)SURF网格化特征点提取的算法流程(三) SURF网格化算法主要包括下面三个阶段: 第一部分:…

人工智能 2023年6月20日
00109
【ROS学习笔记】5.创建工作空间和编译功能包

基于B站ROS公开课：【古月居】古月·ROS入门21讲基于Ubuntu 20.04.1、Noetic版本修正错误，并详述Python版本部署目录（本节基于P9） * &#8211…

人工智能 2023年6月10日
0090
一套完善的设备管理系统能给企业带来什么？

图为简道云全流程管理设备管理与维护是制造安装生产企业管理工作的重要环节，依靠人工点检的设备管理模式不仅无法胜任智能化管理的需要，也不符合企业的利益需求。因此，将以信息技术为基础的…

人工智能 2023年6月28日
0068
deepspeech 笔记

为了回馈广大粉丝和订阅者，我在之前的笔记中看到了一些可能对你有用的信息。我希望它能对你有所帮助。 [En] In order to give back to the majorit…

人工智能 2023年5月27日
0050
【目标检测】SPP-Net

目录概述细节 * 网络结构 SPP 网络训练 SPP进行目标检测 SPPLayer实现概述过往的基于CNN的网络都会通过裁剪的缩放将输入图片的尺寸固定，这样的话其实是会降低…

人工智能 2023年7月12日
0056
基于R语言做层次聚类分析

聚类分析法(ClusterAnalysis) 是在多元统计分析中研究如何对样品（或指标）进行分类的一种统计方法，它直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归…

人工智能 2023年5月31日
0085
深度学习与自然语言处理教程(9) – 句法分析与树形递归神经网络（NLP通关指南·完结）

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/36 本文地址：https://www.showmeai.tech…

人工智能 2023年5月31日
0082
【CUDA安装详细教程】

目录前言一、cuda的下载及安装 * 1.cuda版本 2.CUDA toolkit Download 3.cuda安装二、cuDNN下载及安装 * 1.cuDNN下载 2….

人工智能 2023年6月26日
0091
灰色预测模型

一、灰色预测的概念及思想灰色系统是指系统数据有一些是未知，有一些是已知。白色系统是全都已知，黑色系统是全都未知。而灰色预测就是对含有已知和未知信息的系统进行预测，寻找数据变动规…

人工智能 2023年7月28日
0078
Anaconda、PyCharm、Tensorflow环境的配置及安装

第一步：安装 Anaconda 第二步：安装 PyCharm 第三步：测试 Anaconda 环境打开 cmd 命令窗口，输入以下命令： conda -V python -V c…

人工智能 2023年5月23日
0098
命名实体识别（基于规则-无监督学习-机器学习-深度学习）

文章目录 1 简介 2 NER标注语料库 3 NER工具库 4 序列标注标签方案 5 四类NER方法（规则-无监督学习-机器学习-深度学习） * 5.1 基于规则的NER 5.2 …

人工智能 2023年6月16日
00141
CodeQL的自动化代码审计之路（上篇）

0x01 前言最近关于CodeQL的概念很火，大家普遍认为这会是下一代的代码审计神器。网上关于CodeQL的文章已经有不少，但是多数文章还是在分析CodeQL的安装和简单使用用例…

人工智能 2023年6月28日
0077
RLS递归最小二乘法(Recursive Least Squares)

感谢B站Up 凩子白的讲解视频, 大多数的RLS算法介绍都是从各种专业领域角度讲解的(比如滤波器等角度), 对于缺…

人工智能 2023年6月15日
0087
利用Matlab进行线性回归分析（1）

利用Matlab进行线性回归分析利用 Matlab 进行线性回归分析回归分析是处理两个及两个以上变量间线性依存关系的统计方法。可以通过软件 Matlab 实现。利用 Matl…

人工智能 2023年6月17日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31