动手学数据分析学习笔记（一）

2023年7月8日下午1:43 • 人工智能 • 阅读 84

一、数据载入

import numpy as np
import pandas as pd

(1) 使用相对路径载入数据
(2) 使用绝对路径载入数据

绝对路径是指文件在硬盘上真正存在的路径。 相对路径就是相对于自己的目标文件位置。

df = pd.read_csv('train.csv')
df.head(3)

df = pd.read_csv('C:/Users/lan/Desktop/hands-on-data-analysis-master/hands-on-data-analysis-master/train.csv')
df.head(3)

拓展 pd.read_csv()和pd.read_table()的不同

read_table以制表符\t作为数据的标志，也就是以行为单位进行存储，读取excel文件后每个字符串间有逗号相隔，这表明每一行（而不是每一个字符串）作为一个维度进行了存储。read_csv读取excel文件后虽然也是一个数组，但每一个字符串作为一列。

因此，设置sep=’\t’可以使pd.read_csv()实现pd.read_table()的功能；同样，设置sep=’,’能够让pd.read_table()实现pd.read_csv()的功能。

【拓展】’.tsv’和’.csv’的不同

tsv代表制表符分隔值，用制表符（Tab,’\t’）作为字段值的分隔符。csv代表逗号分隔符，用半角逗号（’,’）作为字段值的分隔符。

chunker=pd.read_csv('train.csv',chunksize=1000)

for piece in chunker:
    print(type(piece))
    print(len(piece))

PassengerId => 乘客ID
Survived => 是否幸存
Pclass => 乘客等级(1/2/3等舱位)
Name => 乘客姓名
Sex => 性别
Age => 年龄
SibSp => 堂兄弟/妹个数
Parch => 父母与小孩个数
Ticket => 船票信息
Fare => 票价
Cabin => 客舱
Embarked => 登船港

df=pd.read_csv('train.csv', names=['&#x4E58;&#x5BA2;ID','&#x662F;&#x5426;&#x5E78;&#x5B58;','&#x4E58;&#x5BA2;&#x7B49;&#x7EA7;(1/2/3&#x7B49;&#x8231;&#x4F4D;)','&#x4E58;&#x5BA2;&#x59D3;&#x540D;','&#x6027;&#x522B;','&#x5E74;&#x9F84;','&#x5144;&#x5F1F;&#x59D0;&#x59B9;&#x4E2A;&#x6570;','&#x7236;&#x6BCD;&#x5C0F;&#x5B69;&#x4E2A;&#x6570;','&#x8239;&#x7968;&#x4FE1;&#x606F;','&#x7968;&#x4EF7;','&#x5BA2;&#x8231;','&#x767B;&#x8239;&#x6E2F;&#x53E3;'],index_col='&#x4E58;&#x5BA2;ID',header=0)
df.head()

所谓将表头改为中文其中一个思路是：将英文列名表头替换成中文。还有其他的方法吗？

 df.rename(columns={'PassengerId':'&#x4E58;&#x5BA2;ID','Survived':'&#x662F;&#x5426;&#x5E78;&#x5B58;','Pclass':'&#x4E58;&#x5BA2;&#x7B49;&#x7EA7;(1/2/3&#x7B49;&#x8231;&#x4F4D;)',
 'Name':'&#x4E58;&#x5BA2;&#x59D3;&#x540D;','Sex':'&#x6027;&#x522B;','Age':'&#x5E74;&#x9F84;','SibSp':'&#x5802;&#x5144;&#x5F1F;/&#x59B9;&#x4E2A;&#x6570;','Parch':'&#x7236;&#x6BCD;&#x4E0E;&#x5C0F;&#x5B69;&#x4E2A;&#x6570;','Ticket':'&#x8239;&#x7968;&#x4FE1;&#x606F;',
 'Fare':'&#x7968;&#x4EF7;','Cabin':'&#x5BA2;&#x8231;','Embarked':'&#x767B;&#x8239;&#x6E2F;&#x53E3;'},inplace=True)
 df.head(891)

#&#x5199;&#x5165;&#x4EE3;&#x7801;
print(df.dtypes)#&#x67E5;&#x770B;&#x6BCF;&#x5217;&#x7684;&#x7C7B;&#x578B;
df.describe()#&#x83B7;&#x53D6;&#x7EDF;&#x8BA1;&#x7279;&#x5F81;&#xFF08;&#x884C;&#x6570;&#xFF0C;&#x5E73;&#x5747;&#x6570;&#xFF09;
df.info()#&#x603B;&#x7684;&#x7B80;&#x4ECB;&#x63CF;&#x8FF0;

`
乘客ID int64
是否幸存 int64
乘客等级(1/2/3等舱位) int64
乘客姓名 object
性别 object
年龄 float64
堂兄弟/妹个数 int64
父母与小孩个数 int64
船票信息 object
票价 float64
客舱 object
登船港口 object
dtype: object

RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
# Column Non-Null Count Dtype

Original: https://blog.csdn.net/seven11lc/article/details/125738801
Author: seven11lc
Title: 动手学数据分析学习笔记（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678606/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

5 款漏洞扫描工具：实用、强力、全面（含开源）

目录引言 5款工具，打包带走吧！第一款：Trivy 概述安装第二款：OpenVAS 概述安装第三款：Clair 概述安装第四款：Anchore 概述安装第五款：…

人工智能 2023年6月19日
0081
数据挖掘-数据的预处理（三）

🤵‍♂️ 个人主页：@Lingxw_w的个人主页✍🏻作者简介：计算机科学与技术研究生在读🐋 希望大家多多支持，我们一起进步！😄如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂…

人工智能 2023年7月26日
0051
知识图谱2021 paper_biji

Improving Conversational Recommender System by Pretraining Billion-scale Knowledge Graph 利…

人工智能 2023年6月1日
0089
Pytorch_lstm详细讲解

1.详细讲解官方文档的例子：这里有个老哥先带你回顾一下lstm的理论知识： pytorch中lstm参数与案例理解。_wangwangstone的博客-CSDN博客_torch….

人工智能 2023年6月16日
00119
DataFrame(12)：DataFrame的排序与排名问题

1、说明 DataFrame中的排序分为两种，一种是对索引排序，一种是对值进行排序。索引排序：sort_index()；值排序：sort_values()；值排名：rank(…

人工智能 2023年6月2日
0070
详细实操分享，一个月收益6000，每天2小时复制粘贴

一个普通人没有颜值、没有口才、没有才华，怎么靠媒体赚钱？ [En] An ordinary person has no appearance, no eloquence, no t…

人工智能 2023年5月27日
0071
构建逻辑回归模型识别MNIST手写字——单个神经元

实验步骤 1、导入库 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt %mat…

人工智能 2023年5月23日
0084
pandas基础

目录文件读取：数据结构： seriers： dataframe: 常用基本函数：汇总函数：唯一值函数：排序函数: 文件读取： pandas可以简单的读取csv，excel…

人工智能 2023年7月8日
0066
Android自定义View之点赞撒花（三阶贝塞尔曲线应用）

前言本文参考辉哥的贝塞尔曲线 – 花束直播点赞效果，是对 三阶贝塞&#…

人工智能 2023年6月28日
00120
MFCC、FBank以及语谱图特征提取

目录语谱图特征提取 MFCC特征提取 FBank特征提取 FBank与MFCC的比较总代码参考博客 ; 语谱图特征提取再看一段时间补充。 def get_frequency…

人工智能 2023年5月27日
00102
目标检测中的数据增强

random erasing data augmentation 论文说明论文为CNN训练提出了一种新的数据增强方法。Random Erasing，在一张图片中随机的选择一个矩形…

人工智能 2023年6月16日
00116
机器学习与数据挖掘-educoder-实训作业（逻辑回归）

目录第1关：逻辑回归算法大体思想第2关：逻辑回归的损失函数第3关：梯度下降第4关：逻辑回归算法流程第5关：sklearn中的逻辑回归第1关：逻辑回归算法大体思想什么是…

人工智能 2023年7月17日
0055
SSD系列、Retinanet、Efficientdet、RCNN系列知识点整理

接着前面的YOLO系列继续做一些简单的关键点整理,便于博主快速回忆起来。 1.SSD（2016） https://arxiv.org/pdf/1512.02325.pdf 类似前面…

人工智能 2023年5月28日
0064
Excel数据分析实战之开宗明义: Excel与数据分析实战

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多…

人工智能 2023年7月14日
0049
防止过拟合之提前终止（Early Stopping）

防止过拟合之提前终止（Early Stopping） Early Stopping * Brief Introduction How to slove overfitting Ea…

人工智能 2023年7月14日
00115
【活动报名】11月19日 | AI GC 的技术与应用构建

2022/11/19 Apps Everywhere 系列活动-上海站 AI GC 的技术与应用构建 “Apps Everywhere” 是亚马逊云科技 U…

人工智能 2023年6月27日
00118

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

动手学数据分析 学习笔记（一）

一、数据载入

大家都在看

动手学数据分析学习笔记（一）