机器学习-数据科学库第四天——笔记

2023年7月6日下午2:15 • 人工智能 • 阅读 64

为什么要学习pandas

numpy能够帮我们处理处理数值型数据，但是这还不够
很多时候，我们的数据除了数值之外，还有字符串，还有时间序列等

比如：我们通过爬虫获取到了存储在数据库中的数据
比如：之前youtube的例子中除了数值之外还有国家的信息，
视频的分类(tag)信息，标题信息等

所以，numpy能够帮助我们处理数值，但是pandas除了处理数值之外(基于numpy)，还能够帮助我们处理其他类型的数据

pandas的常用数据类型

1.Series 一维，带标签数组
2.DataFrame 二维，Series容器

pandas之Series创建

pandas之Series的索引和值

; pandas之读取外部数据

我们的这组数据存在csv中，我们直接使用pd. read_csv即可
和我们想象的有些差别，我们以为他会是一个Series类型，但是他是一个DataFrame，那么接下来我们就来了解这种数据类型

pandas之DataFrame

DataFrame对象既有行索引，又有列索引
行索引，表明不同行，横向索引，叫index，0轴，axis=0
列索引，表名不同列，纵向索引，叫columns，1轴，axis=1

Series能够传入字典，那么DataFrame能够传入字典作为数据么？那么mongodb的数据是不是也可以这样传入呢？

和一个ndarray一样，我们通过shape，ndim，dtype了解这个ndarray的基本信息，那么对于DataFrame我们有什么方法了解呢

; DataFrame的基础属性

那么回到之前我们读取的狗名字统计的数据上，我们尝试一下刚刚的方法

import pandas as pd
df = pd.read_csv("./dogNames2.csv")
df = df.sort_values(by="Count_AnimalName",ascending=False)

!](https://img-blog.csdnimg.cn/e232abf73e3a45a9bac689ff6723098c.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAc2hlbum6kw==,size_15,color_FFFFFF,t_70,g_se,x_16

print(df[:20])
print(df["Row_Labels"])
print(type(df["Row_Labels"]))

pandas之loc

还有更多的经过pandas优化过的选择方式：
1.df.loc 通过标签索引行数据
2.df.iloc 通过位置获取行数据

现在假设我们有一个组关于狗的名字的统计数据，假如我们想找到所有的使用次数超过700并且名字的字符串的长度大于4的狗的名字，应该怎么选择？

import pandas as pd

df = pd.read_csv("./dogNames2.csv")
print(df[(800<df["Count_AnimalName"])|(df["Count_AnimalName"]<1000)])

缺失数据的处理

对于NaN的数据，在numpy中我们是如何处理的？
在pandas中我们处理起来非常容易
=判断数据是否为NaN：pd.isnull(df),pd.notnull(df)
处理方式1：删除NaN所在的行列dropna (axis=0, how=’any’, inplace=False)
处理方式2：填充数据，t.fillna(t.mean()),t.fiallna(t.median()),t.fillna(0)=

【动手】对于这一组电影数据，如果我们想rating，runtime的分布情况，应该如何呈现数据？

import pandas as pd
from matplotlib import pyplot as plt
file_path = "./IMDB-Movie-Data.csv"
df = pd.read_csv(file_path)

runtime_data = df["Runtime (Minutes)"].values
max_runtime = runtime_data.max()
min_runtime = runtime_data.min()

print(max_runtime-min_runtime)
num_bin = (max_runtime-min_runtime)//5

plt.figure(figsize=(20,8),dpi=80)
plt.hist(runtime_data,num_bin)
plt.xticks(range(min_runtime,max_runtime+5,5))
plt.show()

Original: https://blog.csdn.net/weixin_45649258/article/details/122973424
Author: 鹿衔草啊
Title: 机器学习-数据科学库第四天——笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674113/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

利用支持向量机(SVM)进行分类的Matlab实现

文章目录前言一、支持向量机是什么？二、步骤 * 1.构建特征矩阵和类标签 2.使用fitcsvm函数训练svm 3.使用predict函数验证svm 4.完整代码总结前言…

人工智能 2023年7月3日
00100
使用网格搜索优化支持向量机(SVM)实现预测回归

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月18日
0096
已解决（paddleocr库安装报错） error: subprocess-exited-with-error × Running setup.py install for python-Leve

已解决（paddleocr库安装报错） error: subprocess-exited-with-error× Running setup.py install for pyth…

人工智能 2023年7月5日
0083
Python requests.post()方法中data和json参数的使用

python中的dict类型要转换为json格式的数据需要用到json库： import json = json.dumps() = json.loads() 需要注意的是： p…

人工智能 2023年7月4日
0073
Transformer在细粒度分类上的应用

TransFG ：Transformer在细粒度分类上的应用摘要 1.引言 2.相关工作 * ==细粒度视觉分类== ==Transformer== 3.方法 * 3.1作为特征…

人工智能 2023年7月3日
00102
【Python】Python爬虫豆瓣电影数据并进行数据分析

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月4日
0056
RNA 6. 差异基因表达之– 火山图 (volcano)

火山图也是 RNA 数据&…

人工智能 2023年6月19日
0087
Yolov5 v6.1网络结构

Yolov5 已经更新到v6.1版本了，与之前的版本有了不少区别，网络结构有了进一步优化。来整理一下。本文主要参考 https://blog.csdn.net/qq_375410…

人工智能 2023年5月26日
0063
下载对应版本的torch-geometric

本篇主要针对使用torch-geometric读取数据时出现错误： The ‘data’ object was created by an older ve…

人工智能 2023年7月12日
00241
图像处理各种变换、运算、算法的简明原理、作用和应用场合

1 图像仿射变换原理：仿射变换就是图像的旋转、平移和缩放操作的统称，一个仿射变换可以表示为线性变换和平移变换的叠加。仿射变换的数学表示是先乘以一个线性变换矩阵再加上一个平移向量。应…

人工智能 2023年6月20日
0082
OpenCV安装成功，但是无法导入 cv2 的指定模块 — Ubuntu Anaconda 环境一键安装 opencv

文章目录 1. 问题 2. 分析 3.解决 4. 其它尝试 5. 总结问题 OpenCV安装成功，但是无法导入 cv2 的指定模块 – Ubuntu Anaconda 环境，具体…

人工智能 2023年6月19日
00109
热门算法总结 —— AP聚类

1、算法简介（1）概述：AP聚类是在2007年的《Clustering by Passing Messages Between Data Points》一文中首次提出的一种新的聚…

人工智能 2023年6月15日
0078
度秘语音引擎app_语音机器人哪家强度秘/小冰/Siri/小娜横向评测

关于智能语音机器人，我们一定不会陌生，它们在某种程度上给我们带来了极大的便利。 [En] About intelligent voice robots, we must be no…

人工智能 2023年5月27日
00180
（ICLR-2022）关于局部注意力和动态深度卷积之间的联系

关于局部注意力和动态深度卷积之间的联系 paper题目：ON THE CONNECTION BETWEEN LOCAL ATTENTION AND DYNAMIC DEPTH-WI…

人工智能 2023年7月13日
0051
【目标检测】YOLO v5 吸烟行为识别检测

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档 YOLO v5 吸烟行为目标检测模型：计算机配置、制作数据集、训练、结果分析和使用前言相关连接（look评论）…

人工智能 2023年7月26日
0083
python和numpy纯手写BP神经神经网络

这里写目录标题 python和numpy纯手写BP神经神经网络 * 二级目录 – 三级目录神经网络的基本理解神经网络公式 – 前向传播激活函数误差求…

人工智能 2023年7月14日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31