【TL第二期】动手学数据分析-第一章数据基本操作

2023年7月7日下午7:07 • 人工智能 • 阅读 81

文章目录

*
–
+
* 第一章
*
– 第一节数据载入与初步观察
–
+ 0 导库
+ 1 载入数据
+ 2 查看数据基本信息
– 第二节 pandas基础
–
+ 1 数据类型DataFrame 和 Series
+ 2 对文件数据的基本操作
– 3 数据筛选
* 第三节探索性数据分析

第一章

第一节数据载入与初步观察

0 导库

导入pandas、numpy（都是用于数据分析的库）

1 载入数据

使用 相对路径或 绝对路径打开文件
相对路径：如果在同一文件夹下，直接访问文件名；如果不在同一级目录下：

./：代表目前所在的目录 ../：代表上一层目录以 /开头：代表根目录
绝对路径：

import os
import  pandas as pd
os.path.abspath('.')
os.path.abspath('..')
data  = pd.read_csv('.\data\LJdata.csv')'

read_csv 和 read_table的区别存储效果不同， read_table按行存储，没有分隔（默认使用原始的逗号分隔）； read_csv使用制表符进行分隔
逐块读取适合数据条数较多时。

补充：
返回的数据类型：使用 read_csv返回 DataFrame类型，加入 chunksize属性之后返回的是 TextFileReader对象。

DataFrame类型可以显示，可以使用 head()获取头部数据； TextFileReader对象不可以
可以使用 get_chunk()函数获取逐块的数据
将表头改为中文


df.columns = ['乘客ID','是否幸存',''...]

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存',''...])

2 查看数据基本信息

df.describe()

显示前几行/后几行数据

df.head(10)
df.tail(15)

判断数据是否为空


df.isnull()

保存数据

df.to_csv('train_chinese.csv')

第二节 pandas基础

1 数据类型DataFrame 和 Series

DataFrame ：（二维标签数据结构）可以用Series生成

d = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

Series：带标签的一维数组（一维标签数据结构），可以存储整数、浮点数、字符串、python对象等类型的数据。标签统称为索引。

s = pd.Series(np.random.randn(5), index=['a','b','c','d','e'])

s1 = pd.Series([1,2,3,4,5], index =['a','b','c','d','e'])

Series可以用字典实例化：

s = pd.Series({'b':1, 'a':0, 'c':2})

python中的字典是另一种可变容器模型，且可存储任意类型对象。字典的每个键值对 key=>value 用冒号：分割，每个键值对之间用逗号，分割，整个字典包括在花括号 {} 中

2 对文件数据的基本操作

查看DataFrame数据的每一列的名称

df = pd.read_csv('train.csv')
df.columns

2. 查看某一列的所有数值

df['Cabin'].head(3)

对比两个文件的列的差别，并删除不相同的列

del test_1['a']
test_1.pop('a')
test_1.drop(['a'], axis=1)

python中的布尔值True/False需要大写。
4. 隐藏某几列的元素直接使用 drop方法（不使用 inplace参数），返回一个副本。相当于隐藏某几列。

3 数据筛选

以”Age”为筛选条件，显示年龄在10岁以下的乘客信息

df['Age']<10

df[df['Age']<10]

2. 以”Age”为条件，将年龄在10岁以上和50岁以下的乘客信息显示出来，并将这个数据命名为midage

midage = df[(df["Age"]>10)& (df["Age"]<50)]

使用交集和并集的操作：与、或： &、 | 此案例中，用并集返回的数据条数会更多，因为并集返回的数据中有重合的部分
3. 将midage的数据中第100行的”Pclass”和”Sex”的数据显示出来

midage = midage.reset_index(drop=True)
midage.loc[[100],['Pclass','Sex']]

reset_index()：将DataFrame的序号重置

index()：查看数据索引范围

使用loc方法将midage的数据中第100，105，108行的”Pclass”，”Name”和”Sex”的数据显示出来


midage.loc[[100,105,108],['Pclass','Name','Sex']]

使用iloc方法将midage的数据中第100，105，108行的”Pclass”，”Name”和”Sex”的数据显示出来

midage.iloc[[100,105,108],[2,3,4]]

python中， 获取某一行、列数据的方法 列：使用类似于字典的方法

df['a']

行：使用 loc()或 iloc()方法【但看着更像是列数据索引的区别】

midage.loc[[100,105,108],['Pclass','Name','Sex']]
midage.iloc[[100,105,108],[2,3,4]]

对比 loc()或 iloc():
– loc()：通过 行标签索引行数据
– iloc()：通过行号获取行数据

第三节探索性数据分析

利用Pandas对数据进行排序


df = pd.DataFrame(np.random.randn(6,4) ,index=list('213'), colums=list('ABCD'))

frame = pd.DataFrame(np.arange(8).reshape((2, 4)),ndex=['2', '1'], columns=['d', 'a', 'b', 'c'])

排序：


frame.sort_values(by='c', ascending=True)
frame.sort_values('c')

frame.sort_index()

frame.sort_index(axis=1)

排序方法的参数：
axis
ascend

对泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序

text.sort_values(by=['票价', '年龄'], ascending=False).head(3)

利用Pandas进行算术计算，计算两个DataFrame数据相加结果

frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
                     columns=['a', 'b', 'c'],
                     index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
                     columns=['a', 'e', 'c'],
                     index=['first', 'one', 'two', 'second'])

frame1_a + frame1_b

通过泰坦尼克号数据如何计算出在船上最大的家族有多少人

max(text['兄弟姐妹个数'] + text['父母子女个数'])

Pandas describe()

count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值
50% : 样本数据50%的时候的值
75% : 样本数据75%的时候的值
max : 样本数据的最大值

the end.

Original: https://blog.csdn.net/hhhhh601/article/details/121939209
Author: yijia7590jfz
Title: 【TL第二期】动手学数据分析-第一章数据基本操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676890/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

聚类模型评估指标之外部方法

欢迎关注”生信修炼手册”! [TencentCloudSDKException] code:FailedOperation.ServiceIsolate m…

人工智能 2023年6月2日
00150
【全国一等奖】F题：智能送药小车，2021年全国大学生电子设竞赛

01 前言大家好，我是张巧龙，今天给大家带来关于21年F题的分享：智能送药小车，出了这个题目之后，咋一看，好像比较简单。不过大家慢慢做，越往后做越发现，坑越来越多。第一个问…

人工智能 2023年5月26日
0093
【魔改YOLOv5-6.x（中）】加入ACON激活函数、CBAM和CA注意力机制、加权双向特征金字塔BiFPN

另外，本文所使用的实验环境为1个GTX 1080 GPU，数据集为VOC2007，超参数为hyp.scratch-low.yaml，训练200个epoch，其他参数均为源码中默认设…

人工智能 2023年6月26日
0084
Android集成OpenCV(NDK)

1.下载OpenCv的动态库(.so) OpenCv官网,这边下载的是4.6.0 ; 2.解压opencv-4.6.0-android-sdk.zip 复制目录 opencv-4….

人工智能 2023年6月19日
00120
velo2cam_calibration——最新最准确的激光雷达Lidar和相机Camera外参标定算法实现

因为实验需求，要实现相机和雷达之间的融合，因此需要完成相机内参标定和雷达与相机外参标定。相机内参标定使用ros自带的包camera_calibration即可完成。具体方法可以参考…

人工智能 2023年5月28日
00122
【学习OpenCV4】霍夫变换总结

本文分享内容来自图书《学习OpenCV 4：基于Python的算法实战》，该书内容如下：第1章 OpenCV快速入门；第2章图像读写模块imgcodecs；第3章核心库模…

人工智能 2023年6月22日
0080
BERT最终的输出真的好用吗？

biased embedding distribution issue 这个问题说的含义是：[CLS]的embedding只关注在一些维度，并且是非零中心的。 embedding …

人工智能 2023年5月28日
0097
Matlab多种绘图方式，包括函数，统计，3d等多种实例

%%hold onplot(cos(0:pi/20:2pi),’xr–‘);plot(sin(0:pi/20:2pi),’:&#82…

人工智能 2023年6月22日
0073
LIO-SAM从0到1运行自己的数据集

LIO-SAM从0到1运行自己的数据集前言笔者在学习LIO_SAM时踩了不少坑，在此记录从开始到最后整个踩坑过程。文中参考了很多大佬的文章，我只是个搬运工。可以直接跳到第二…

人工智能 2023年6月15日
00103
手把手教你：基于TensorFlow的语音识别系统

系列文章第十章、手把手教你：基于Django的用户画像可视化系统第九章、手把手教你：个人信贷违约预测模型第八章、手把手教你：基于LSTM的股票预测系统目录系列文章一、项…

人工智能 2023年5月23日
0065
Ubuntu系统安装图形界面

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月4日
0084
手把手教你使用LabVIEW人工智能视觉工具包快速实现图像读取与采集（含源码）

前言一、工具包位置二、图像采集与色彩空间转换 1.文件读写 2.实现图片读取 3.使用算子cvtColor实现颜色空间转换三、从摄像头采集图像 1.Camera类 2.属性节…

人工智能 2023年6月3日
0087
深度学习论文精读[13]：Deeplab v3+

Deeplab v3+是Deeplab系列最后一个网络结构，也是基于空洞卷积和多尺度系列模型的集大成者。相较于Deeplab v3，v3+版本参考了UNet系列网络，对基于空洞卷积…

人工智能 2023年6月16日
0081
Swin Transformer详解: Hierarchical Vision Transformer using Shifted Windows

这篇文章结合了CNN的归纳偏置，基于局部窗口做注意力，并且逐步融合到深层transformer层中构建表征，来达到扩大感受野，并且极大降低了计算量。是一个特征提取的主干网络，bac…

人工智能 2023年6月16日
00111
文本向量化的方法

文本向量化 one-hot 编码 word embedding word embedding API 由于文本不能直接输入到模型中进行相关计算，因此首先需要将文本转换为向量的形式。…

人工智能 2023年5月27日
00102
C++ 文件操作

程序运行时产生的数据都属于临时数据，程序一旦运行结束，数据都会被释放，通过文件可以将数据持久化 C++ 中对文件操作需要包含头文件 < fstream > 文件类型分…

人工智能 2023年5月30日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【TL第二期】动手学数据分析-第一章 数据基本操作