数据分析入门 | kaggle泰坦尼克任务（二）—＞pandas基础

2023年7月18日上午3:17 • 人工智能 • 阅读 44

系列索引：数据分析入门 | kaggle泰坦尼克任务;

文章目录

一、pandas基础
*
（1）数据类型
（2）基本操作
（3）筛选的逻辑
（4）loc函数和iloc函数：

一、pandas基础

（1）数据类型

DateFrame
Series

sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
example_1 = pd.Series(sdata)
example_1

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
example_2 = pd.DataFrame(data)
example_2

我个人理解的是， Series是一个字典型的，而 DataFrame则是像一个excel表格。

（2）基本操作

1. 导入并查看DataFrame每列的名称：

df.columns

2. 查看”Cabin”这列的所有值：

df['Cabin'] or df.Cabin

3. 删除某一列：

del test_1['a'] 或者 df.drop(['xxx'], axis = 1) 也可以使用该方法删除多列

4. 如果想要完全的删除你的数据结构，使用 inplace = True将原数据进行覆盖。

（3）筛选的逻辑

1. 以’Age’为筛选条件，显示年龄在10岁以下的乘客信息。

 df[df['Age']<10].head(3)

2. 交集：筛选在10-50岁的乘客：

  midage = df[(df["Age"]>10)& (df["Age"]<50)]
  midage.head(3)

3. 将上述midage的第100行的指定数据输出：

  midage = midage.reset_index(drop=True)
  midage.head(3)

注意这里使用了 reset_index()函数，reset_index（）方法可能最经常使用的地方是处理groupby（）方法调用后的数据。 其功能是将原来的index设置为列，与set_index（）方法的功能相反。

df=pd.read_excel(r'D:/myExcel/1.xlsx', index_col='id')
>>> df
id    name  score grade
a     bog   45.0     A
c   jiken   67.0     B
i     bob   23.0     A
b   jiken   34.0     B
g    lucy    NaN     A
e    tidy   75.0     B

>>> df.reset_index()
  id   name  score grade
0  a    bog   45.0     A
1  c  jiken   67.0     B
2  i    bob   23.0     A
3  b  jiken   34.0     B
4  g   lucy    NaN     A
5  e   tidy   75.0     B

默认名称为index，可以通过 df.index.name来进行修改。
索引的值也可以修改，参考以下代码：

>>> df.set_index(pd.Series(['f', 'b', 'g', 'm', 'k', 'l']), inplace=True)
>>> df
  id   name  score grade
f  a    bog   45.0     A
b  c  jiken   67.0     B
g  i    bob   23.0     A
m  b  jiken   34.0     B
k  g   lucy    NaN     A
l  e   tidy   75.0     B

>>> df.index.name='newId'
>>> df
      id   name  score grade
newId
f      a    bog   45.0     A
b      c  jiken   67.0     B
g      i    bob   23.0     A
m      b  jiken   34.0     B
k      g   lucy    NaN     A
l      e   tidy   75.0     B
>>> df.reset_index()
  newId id   name  score grade
0     f  a    bog   45.0     A
1     b  c  jiken   67.0     B
2     g  i    bob   23.0     A
3     m  b  jiken   34.0     B
4     k  g   lucy    NaN     A
5     l  e   tidy   75.0     B

然后将第100行的两列数值输出出来，代码：

midage.loc[[100],['Pclass','Sex']]

这里简单介绍一下：

（4） `loc函数` 和 `iloc函数` ：

在数据分析过程中，很多时候需要从数据表中提取出相应的数据，而这么做的前提是需要先”索引”出这一部分数据。虽然通过 Python 提供的索引操作符”[]”和属性操作符”.”可以访问 Series 或者 DataFrame 中的数据，但这种方式只适应与少量的数据，为了解决这一问题，Pandas 提供了两种类型的索引方式来实现数据的访问。

.loc[]：基于标签索引选取数据
df.loc[] 只能使用 标签索引，不能使用整数索引。当通过标签索引的切片方式来筛选数据时，它的取值 前闭后闭，也就是只包括边界值标签（开始和结束）。
loc[] 接受两个参数，并以’,’分隔。第一个位置表示行，第二个位置表示列。

df.loc['a':'d',:]
df.loc[['a','b','f','h'],['A','C']]

.iloc[]：基于整数索引选取数据
df.iloc[] 只能使用 整数索引，不能使用标签索引，通过整数索引切片选择数据时， 前闭后开(不包含边界结束值)。
同 Python 和 NumPy 一样，它们的索引都是从 0 开始。

df.iloc[2,:]

加油！干就完了！

数据分析入门 | kaggle泰坦尼克任务系列持续更新，欢迎 点赞收藏＋ 关注

上一篇：数据分析入门 | kaggle泰坦尼克任务（一）—＞数据加载和初步观察
下一篇：

本人水平有限，文章中不足之处欢迎下方👇评论区批评指正~
如果感觉对你有帮助，点个赞👍 支持一下吧 ~
不定期分享有趣、有料、有营养内容，欢迎订阅关注 🤝 我的博客，期待在这与你相遇 ~

Original: https://blog.csdn.net/Magic_Zsir/article/details/123512864
Author: 猿知
Title: 数据分析入门 | kaggle泰坦尼克任务（二）—＞pandas基础

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700025/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

yolov5ds-断点训练、继续训练、先终止训练并调整最终epoch（yolov5同样适用）

目录参考链接 1. 训练过程中中断了，继续训练如果觉得数值差不多稳定了，但是距离最终设置的epoch还很远，所以想要停止训练但是又得到yolov5在运行完指定最大epoch后生…

人工智能 2023年7月25日
0091
【Python 实战基础】Pandas 如何统计某个数据列的空值个数

一、实战场景二、主要知识点文件读写基础语法 Pandas numpy 三、菜鸟实战 1、创建 python 文件 2、运行结果实战场景：Pandas 如何统计某个数据列的空…

人工智能 2023年7月14日
0094
[2021ICLR]Improve Object Detection with Feature-based Knowledge Distillation 论文笔记

动机认为目标检测知识蒸馏效果不好的问题出在两个地方。 1.前背景像素比例不平衡问题。提出了基于注意力引导的提取方法，利用== 注意机制(而非gt)找到前景物体的关键像素点==，使…

人工智能 2023年7月10日
0059
OpenCvSharp (C# OpenCV) 轮廓排序–按坐标排序、按面积排序(附源码)

点击下方卡片，关注” OpenCV与AI深度学习“公众号！视觉/图像重磅干货，第一时间送达! Python和C++版本的OpenCV轮廓排序可查看下面文…

人工智能 2023年6月22日
0069
(ROS_Melodic) 使用Rviz进行Boundingbox可视化

(ROS_Melodic) 使用Rviz进行Boundingbox可视化 先赞后看&…

人工智能 2023年7月10日
0057
人工智能在医疗领域的应用

1.背景分析人工智能是研究开发用于模拟和延伸人的智能的理论，方法，技术和应用系统的一项新技术科学，它的结构类似金字塔结构：上层是算法，中间是芯片，第三层是各种软硬件平台，最下面是…

人工智能 2023年6月24日
0056
Pytorch学习笔记–SEResNet50搭建

目录 1–ResNet50介绍 1-1–Stem Block环节 1-2–Stage环节 1-3–ResNet50核心代码： 2&#…

人工智能 2023年7月21日
0075
目标检测: 一文读懂 OTA 标签分配

论文：OTA: Optimal Transport Assignment for Object Detection 论文链接：https://arxiv.org/abs/2103….

人工智能 2023年7月9日
0058
均匀线列阵的波束图和波束时域输出图matlab仿真

1、基础知识：鱼雷自导的波束配置是通过波束形成器来实现的，希望在接近目标至中近程时，精确估计目标的方位，以利于精确引导和目标识别和反抗。常规的时域波束形成器的输出表示为：，原理…

人工智能 2023年6月22日
0057
leidenalg包教程-1

简单来说，可以使用 pip install leidenalg直接安装。不建议Windows，使用源代码进行安装。 leidenalg软件包建立在 igraph基础之上，有助于网…

人工智能 2023年6月4日
00123
CVPR2019论文列表（中英对照）

CVPR2019论文列表（中英对照） 2.5D Visual Sound2.5D 视觉音效3D Appearance Super-Resolution With Deep Lear…

人工智能 2023年5月28日
0047
距离度量 —— 曼哈顿距离（Manhattan Distance）

Python学习系列文章：👉 目录 👈 文章目录 * – 一、概述 – 二、计算公式 – + ① 二维平面上的曼哈顿距离 + ② 三维空间上的曼…

人工智能 2023年6月15日
0046
机器学习系列6 使用Scikit-learn构建回归模型：简单线性回归、多项式回归与多元线性回归

本文所用数据均可免费下载ps:1万多字写了四天，累死我了；如有错别字请评论告诉我。创作不易，恳请四联🥰 课前测验目录一、内容介绍二、理论实践 1.学习准备 ①数据准备 ②运行…

人工智能 2023年6月16日
00102
解决PermissionError: [Errno 13] Permission denied: ‘E:/test/mp3‘

1.MP3 toWAV 背景：将mp3格式的文件批量转为wav格式 from pydub import AudioSegment import os def mp3_wav(mp3…

人工智能 2023年5月27日
00122
硬核，你见过机器人玩“密室逃脱”吗？(附代码)

目录 0 专栏介绍 1 什么是路径规划？ 2 栅格建模：构造密室 3 发布首末位置 4 执行路径规划 5 演示测试 ; 0 专栏介绍 🔥附C++/Python/Matlab全套代码…

人工智能 2023年7月26日
0091
stata 回归干扰项_STATA数据处理技巧与计量分析七|回归分析偏误处理（下）

上期小统和大家一起了解了STATA数据处理技巧与计量分析中的部分回归分析偏误处理知识，这期小统和大家继续学习一下剩下的知识点~ 偏误处理之三共线性假定SLR.2 解释变量X是确…

人工智能 2023年6月18日
0062

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30