机器学习-数据科学库第五天—笔记

2023年8月7日下午4:07 • Python • 阅读 25

import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
file_path = "./IMDB-Movie-Data.csv"
df = pd.read_csv(file_path)
print(df["Genre"].head(3))

temp_list = df["Genre"].str.split(",").tolist()
genre_list = list(set([i for j in temp_list for i in j]))

zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(genre_list))),columns=genre_list)

for i in range(df.shape[0]):

    zeros_df.loc[i,temp_list[i]] = 1

genre_count = zeros_df.sum(axis=0)
print(genre_count)

genre_count = genre_count.sort_values()
_x = genre_count.index
_y = genre_count.values

plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y,width=0.4,color="orange")
plt.xticks(range(len(_x)),_x)
plt.show()

运行结果：

数据合并之join

join:默认情况下他是把行索引相同的数据合并到一起

; 数据合并之merge

merge:按照指定的列把数据按照一定的方式合并到一起

现在我们有一组关于全球星巴克店铺的统计数据，如果我想知道美国的星巴克数量和中国的哪个多，或者我想知道中国每个省份星巴克的数量的情况，那么应该怎么办？

import pandas as pd
import numpy as np
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)

print(df.info())
china_data = df[df["Country"]=="CN"]
grouped = china_data.groupby(by="State/Province").count()["Brand"]
print(grouped)

分组和聚合

如果我们需要对国家和省份进行分组统计，应该怎么操作呢？
grouped = df.groupby(by=[df[“Country”],df[“State/Province”]])
很多时候我们只希望对获取分组之后的某一部分数据，或者说我们只希望对某几列数据进行分组，这个时候我们应该怎么办呢？
获取分组之后的某一部分数据：
df.groupby(by=[“Country”,”State/Province”])[“Country”].count()
对某几列数据进行分组：
df[“Country”].groupby(by=[df[“Country”],df[“State/Province”]]).count()

继续刚才的问题

import pandas as pd
import numpy as np
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)
grouped = df["Brand"].groupby(by=[df["Country"],df["State/Province"]]).count()
print(grouped)
print(type(grouped))
grouped1 = df[["Brand"]].groupby(by=[df["Country"],df["State/Province"]]).count()
grouped2= df.groupby(by=[df["Country"],df["State/Province"]])[["Brand"]].count()
grouped3 = df.groupby(by=[df["Country"],df["State/Province"]]).count()[["Brand"]]
print(grouped1,type(grouped1))
print("*"*100)
print(grouped2,type(grouped2))
print("*"*100)
print(grouped3,type(grouped3))

运行结果：

索引和复合索引

简单的索引操作

获取index：df.index
指定index ：df.index = [‘x’,’y’]
重新设置index :df.reindex(list(“abcedf”))
指定某一列作为index：df.set_index(“Country”,drop=False)
返回index的唯一值：df.set_index(“Country”).index.unique()

【动手】使用matplotlib呈现出店铺总数排名前10的国家

import pandas as pd
from matplotlib import pyplot as plt
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)

data1 = df.groupby(by="Country").count()["Brand"].sort_values(ascending=False)[:10]
_x = data1.index
_y = data1.values

plt.figure(figsize=(20,8),dpi=80)
plt.bar(range(len(_x)),_y)
plt.xticks(range(len(_x)),_x)
plt.show()

使用matplotlib呈现出每个中国每个城市的店铺数量

import pandas as pd
from matplotlib import pyplot as plt
from matplotlib import font_manager
import matplotlib
my_font = matplotlib.rc('font',family='MicroSoft YaHei',weight='bold')
file_path = "./starbucks_store_worldwide.csv"
df = pd.read_csv(file_path)
df = df[df["Country"]=="CN"

data1 = df.groupby(by="City").count()["Brand"].sort_values(ascending=False)[:25]
_x = data1.index
_y = data1.values

plt.figure(figsize=(20,12),dpi=80)

plt.barh(range(len(_x)),_y,height=0.3,color="orange")
plt.yticks(range(len(_x)),_x,fontproperties=my_font)
plt.show()

运行结果：

【动手】现在我们有全球排名靠前的10000本书的数据，那么请统计一下下面几个问题：
1.不同年份书的数量
2.不同年份书的平均评分情况


import pandas as pd
from matplotlib import pyplot as plt
file_path = "./books.csv"
df = pd.read_csv(file_path)

data1 = df[pd.notnull(df["original_publication_year"])]
grouped = data1["average_rating"].groupby(by=data1["original_publication_year"]).mean()

_x = grouped.index
_y = grouped.values

plt.figure(figsize=(20,8),dpi=80)
plt.plot(range(len(_x)),_y)
print(len(_x))
plt.xticks(list(range(len(_x)))[::10],_x[::10].astype(int),rotation=45)
plt.show()

运行结果：

Original: https://blog.csdn.net/weixin_45649258/article/details/122989184
Author: 鹿衔草啊
Title: 机器学习-数据科学库第五天—笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/740382/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytest自动化测试-简易入门教程（01）

我们今天主讲的内容，就是测试框架Pytest，讲到这个测试框架对于没有做过Web自动化的伙伴来说，会觉得这个东西是陌生的，那么到底什么是框架呢？什么又是自动化呢？自动化为什么又要用…

Python 2023年9月10日
0035
Python实现坦克大战(TankWar)游戏

文章目录 1 前言 2 功能需求 3 游戏规则总览 4 游戏设计概览 5 TankGame类和游戏状态管理 6 ViewManager类和游戏界面管理 7 GameLevelVie…

Python 2023年9月17日
0051
【20211029】【Python】删除 DataFrame 中的某行、某列

pandas 中的 drop 方法是很明智的数据清理的方法，它的好处在于：它不改变原有的 df 中的数据，而是返回另一个新的 DataFrame 来存放删除后的数据。一、drop…

Python 2023年8月9日
0049
学习Python的三种境界

前言王国维在《人间词话》中将读书分为了三种境界：”古今之成大事业、大学问者，必经过三种之境界：’昨夜西风凋碧树，独上高楼，望尽天涯路’。此第一…

Python 2023年6月12日
0063
场景之在线人数或者粉丝查询实现

直播间在线人数或者粉丝查询一、主要功能通常对于一些实时在线业务中，比如直播业务中的主播，希望让主播看到直播间实时在线粉丝数等数据，从而从数据方面提升主播的整体直播体验。二、简…

Python 2023年6月16日
00275
十大 CI/CD 安全风险（三）

在上一篇文章，我们了解了依赖链滥用和基于流水线的访问控制不足这两大安全风险，并给出缓解风险的安全建议。本篇文章将着重介绍 PPE 风险，并提供缓解相关风险的安全建议与实践。 Poi…

Python 2023年10月19日
0044
面试题 08.08. 有重复字符串的排列组合

面试题 08.08. 有重复字符串的排列组合题目描述有重复字符串的排列组合。编写一种方法，计算某字符串的所有排列组合。示例1: 输入：S = “qqe&#8221…

Python 2023年6月12日
0066
软件测试工程师为什么要写测试用例？

软件测试工程师为什么要写测试用例？相信从事软件测试行业的从业者来讲，测试用例并不陌生。因为测试用例不仅仅是一组简单的文档，它包含前提条件、输入、执行条件和预期结果等等重要内容，并且…

Python 2023年11月4日
0032
pytest 二次开发方法与步骤

在做pytest二次开发之前首先需要了解pytest 框架，可以查看之前的文章—》。对于初学者来说，可能一听到需要二次开发就无从下手了。本编文章就介绍两种入手的方式：…

Python 2023年9月10日
0064
Python编程 whl文件安装库

作者简介：一名在校计算机学生、每天分享Python的学习经验、和学习笔记。 *座右铭：低头赶路，敬事如仪目录前言 1.wheel文件安装 2.wheel安装介绍与实现 3.安…

Python 2023年9月18日
0052
python 调用百度翻译接口,使用flask 提供接口,实现线上翻译功能

Python 2023年5月24日
0065
Python处理csv数据的技巧（pandas为主）

目录查看唯一值设定格式创建空的DataFrame pandas切片指定的行和列 pandas替代值读取和存储数据时，设置索引和表头转置设置路径重命名表头合并表格更…

Python 2023年8月7日
0055
Javaweb-在idea中配置Tomcat

解决警告问题为什么会有这个问题：我们访问一个网站，需要制定一个文件夹名字最后点OK，Tomcat就亮起来了运行成功弹出界面： Original: https://www.cn…

Python 2023年6月12日
0070
python之疫情监控（爬虫+可视化）主要技术（Python+Flask+Echarts）

项目准备简介基于Python+Flask+Echarts打造一个疫情监控系统，涉及技术有： Python爬虫使用Python与Mysql数据库交互使用Flask构建Web项…

Python 2023年8月13日
00125
深入浅出理解SVM支持向量机算法

支持向量机是Vapnik等人于1995年首先提出的，它是基于VC维理论和结构风险最小化原则的学习机器。它在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势，并在一定程度上…

Python 2023年10月25日
0042
【Python】发送微信公众号消息（附完整代码）一一CSDN21天学习挑战赛

目录一、微信公众号注册 * 注册测试号获取账号信息新增消息模板二、代码实现 * 新建access_token.py文件新建send_message.py文件新建main…

Python 2023年6月11日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习-数据科学库第五天—笔记

目录

数据合并之join

; 数据合并之merge

分组和聚合

索引和复合索引

简单的索引操作

大家都在看