学习笔记 Day 27(pandas)

2023年7月7日下午10:32 • 人工智能 • 阅读 86

代码:(统计字符串出现的次数)

import pandas as pd
import numpy as np

df = pd.read_csv('./data/IMDB-Movie-Data.csv')

temp_list = df['Genre'].str.split(',').tolist()
genre_list = list(set([i for j in temp_list for i in j]))
搞出来所有的电影类型,set 去重处理

创建一个全为零的数组
zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(genre_list))),columns=genre_list)
df.shape[0] 规定行,len(genre_list)规定列

当该类型存在时,将0改写为1
for i in range(df.shape[0]):
    zeros_df.loc[i,temp_list[i]] = 1

sum_df = zeros_df.sum(axis=0) # 求和
sum_df = sum_df.sort_values() # 排序

画图,选择条形图
import matplotlib.pyplot as plt

plt.figure(figsize=(20,8),dpi=80)

_x = sum_df.index
_y = sum_df.values

plt.xticks(range(len(_x)),_x)

plt.bar(range(len(_x)),_y)

plt.show()

数据合并,join:

join:默认情况下是将行索引相同的数据合并到一起

import numpy as np
import pandas as pd

t_1 = pd.DataFrame(np.zeros((2,4)),index=list('AB'),columns=list('abcd'))
t_2 = pd.DataFrame(np.ones((3,4)),index=list('ABC'),columns=list('xyzo'))

print(t_1)
print(t_2)

print(t_1.join(t_2))
print(t_2.join(t_1))

结果:

merge:

按照指定的列把数据按照一定的方式合并到一起

inner:交集

outer:并集

left:按左

right:按右

pandas分组聚合：

分组：

聚合：

1,在所有国家的数据中统计中国和美国星巴克数量

import pandas as pd

df = pd.read_csv('./starbucks_store_worldwide.csv')

print(df)

分组groupby  count() 聚合
groub = df.groupby(by = df['Country']).count()['Brand']

print(groub) # groub代表所有国家星巴克数量

print(groub['US']) # 美国数量

print(groub['CN']) # 中国数量

2，对中国每个省份数量分组聚合

import pandas as pd

df = pd.read_csv('./starbucks_store_worldwide.csv')

china_data = df[df['Country'] == 'CN'] # 中国的数据

groub = china_data.groupby(by='State/Province').count()['Brand']# 从中取所有的省份分组聚合

print(groub)

这里省份用数字代替

3，对国家和省份同时分组（多个字段分组

import pandas as pd

df = pd.read_csv('./starbucks_store_worldwide.csv')

groub = df['Brand'].groupby(by=[df['Country'],df['State/Province']]).count() # count() 求和
df['Brand']中是不包含 Country和State/Province的，所以要从df中取

print(groub)

结果：

这里注意：得到的结果是一个Series类型而不是DATa Frame ，因为我们按照国家和城市两个条件进行分组就会有俩个索引（复合索引），只有Bread一列数据。

需要变成DataFrame类型

groub1 = df[['Brand']].groupby(by=[df['Country'],df['State/Province']]).count() # count()
groub2 = df.groupby(by=[df['Country'],df['State/Province']])[['Brand']].count() # count()
groub3 = df.groupby(by=[df['Country'],df['State/Province']]).count()[['Brand']] # count()

在Bread外多加一个[] （用DataFrame方式整组一起取）

索引和复合索引：

如何通过复合索引取值：

s.swaplevel()[”]:从内层开始取值

DataFrame取的时候要加上.loc

Original: https://blog.csdn.net/a_Loki/article/details/122548337
Author: a_Loki
Title: 学习笔记 Day 27(pandas)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677219/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Pytorch】model.train()和model.eval()原理与用法

pytorch可以给我们提供两种方式来切换训练和评估(推断)的模式，分别是： model.train() 和 model.eval()。一般用法是：在训练开始之前写上 model…

人工智能 2023年7月24日
0044
VQA: Visual Question Answering 视觉问答

论文：Antol S, Agrawal A, Lu J, et al. Vqa: Visual question answering[C]//Proceedings of the …

人工智能 2023年6月24日
0079
python的三种图像读取处理存储方法

python中常用的图像读取处理存储方法有三种，分别基于pillow、matplotlib和opencv库。本文分别使用这三种对同一张图片进行读取、灰度化、像素修改、显示、存储操作…

人工智能 2023年7月19日
0057
构建神经网络对鸢尾花进行多分类分析

鸢尾花数据在机器学习中经常会运用到，并且其中的数据可以进行三分类的操作，机器学习算法对其的应用例子特别多。最近在学习神经网络方面的知识，所以运用了神经网络方面的知识对其数据进行分析…

人工智能 2023年7月13日
0059
汽车质心绝对加速度数学推导和滑模控制实例

1. 线性二自由度汽车质心绝对加速度在车辆坐标系下的公式在汽车线性二自由度微分方程那篇博客中，我具体推导了(a_y)，但是用了近似和忽略。下面将用向量的方法，详细推导出(a_x、…

人工智能 2023年6月4日
0071
多旅行商问题——公式和求解过程概述

英文：The multiple traveling salesman problem an overview of formulations and solution proced…

人工智能 2023年6月15日
0078
PyTorch中torch、torchvision、torchaudio版本对应关系

如果有帮助，请点个赞吧！ torchtorchvisionpythonmain / nightlymain / nightly>=3.8, Original: https:/…

人工智能 2023年7月20日
0058
数据挖掘复习笔记第七章——聚类

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月2日
0079
使用最大离散重叠小波变换MODWT和支持向量回归 SVR的金融时间序列预测

本例使用的数据链接如下：https://www.histdata.com/download-free-forex-historical-data/?/ascii/tick-data…

人工智能 2023年6月17日
00142
Python每日一练（牛客数据分析篇新题库）——第39天：排序、函数

文章目录 1. 牛客网答题正误总数 2. 牛客网连续练习题目3天及以上的用户 3. 牛客网不同毕业年份的大佬 4. 不同等级用户语言使用情况《100天精通Python》专栏推荐白…

人工智能 2023年7月16日
0069
【图像分割】基于蚁群算法优化模糊c均值聚类实现图像分割matlab代码

1 简介在图像分割研究中,针对模糊C均值(FCM)聚类算法聚类个数难于确定,搜索过程容易陷入局部最优的缺陷,把蚁群算法与FCM聚类算法有机结合,提出了一种基于蚁群算法的模糊C均值…

人工智能 2023年5月31日
00102
【好玩的小demo】微信&QQ聊天数据统计分析

突发奇想，想统计一下读研期间和导师的聊天记录，分析一下。实现的效果如下：完整代码见：wechat_ana: 微信、QQ聊天记录分析 – Gitee.com 聊天记录获…

人工智能 2023年7月15日
00110
强化学习环境配置（使用Anaconda安装CUDA、cuDNN、Pytorch、gym）

本文为初学作品，高人不必读。本文内容均为原创，参考材料列在文末。如需转载，请注明出处。这里写自定义目录标题 Anaconda安装CUDA、cuDNN * 查看显卡驱动版本 Ana…

人工智能 2023年7月21日
00238
MySQL进阶之索引【分类，性能分析，使用，设计原则】

目录 1、演示 1.1、无索引的情况 1.2、有索引的情况 2、特点 3、索引结构 3.1 二叉树 3.2 B-Tree 3.3 B+Tree 3.4 Hash 4、索引分类 …

人工智能 2023年7月1日
0084
AI算法中的Layer有哪些常见的类型

介绍在AI算法中，Layer是深度神经网络的基本组成单元。神经网络由多个层组成，每个Layer包含一组神经元（也称为节点或单元）。每个神经元都接收一组输入，并为下一层的神经元生成…

人工智能 2024年1月5日
0058
【人工智能】期末复习重点知识点总结

试卷共有15道题，四种题型： 1、名词解释题（不超过五个字的概念） 2、简答题（包涵计算）鲁滨逊归结原理、wuzi？置换？倒推值计算方法、代价树每个结点的代价的算法：最大代价…

人工智能 2023年7月27日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

学习笔记 Day 27(pandas)

大家都在看