【Pandas】Pandas数据分析题

2023年8月24日下午3:24 • Python • 阅读 102

数据集下载

Pandas数据分析题

Chipotle快餐数据
数据的过滤和排序(探索2012欧洲杯数据)
探索酒类消费数据
探索1960 – 2014 美国犯罪数据
合并–探索虚拟姓名数据
统计–探索风速数据
时间序列–探索Apple公司股价数据
删除–探索Iris纸鸢花数据

Chipotle快餐数据

题目如下

– 将数据集存入一个名为chipo的数据框内
– 查看前10行内容
– 数据集中有多少个列(columns)？
– 打印出全部的列名称
– 数据集的索引是怎样的？
– 被下单数最多商品(item)是什么?

– 在item_name这一列中，一共有多少种商品被下单？
– 在choice_description中，下单次数最多的商品是什么？
– 一共有多少商品被下单？
– 将item_price转换为浮点数
– 在该数据集对应的时期内，收入(revenue)是多少？
– 在该数据集对应的时期内，一共有多少订单？
– 每一单(order)对应的平均总价是多少？

数据前几行展示


chipo = pd.read_table('resource/chipotle.tsv', sep='\t', engine='python')

chipo.head(10)

count_columns = chipo.shape[1]

columns = chipo.columns

df_index = chipo.index

item_max_quantity = chipo[['item_name', 'quantity']].groupby(by=['item_name']).sum().sort_values(by=['quantity'],
                                                                                                 ascending=False).head(
    1)

unique_item = chipo.item_name.nunique()
unique_item = chipo['item_name'].nunique()

choice_description_max = chipo['choice_description'].value_counts().head(1)

quantity_sum = chipo['quantity'].sum()

chipo['item_price'] = chipo['item_price'].apply(lambda x: float(x[1:]))

all_money = (chipo['quantity'] * chipo['item_price']).sum()

chipo['order_id'].nunique()

chipo['item_price_sum'] = chipo['quantity'] * chipo['item_price']
(chipo[['order_id', 'item_price_sum']].groupby(by=['order_id']).sum()).mean()

其中 apply 的应用:
apply 函数是 pandas 里面所有函数中自由度最高的函数。该函数如下：

DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)

该函数最有用的是第一个参数，这个参数是函数，相当于 C/C++ 的函数指针。

这个函数需要自己实现，函数的传入参数根据 axis 来定，比如 axis = 1 ，就会把一行数据作为 Series 的数据结构传入给自己实现的函数中，我们在函数中实现对 Series 不同属性之间的计算，返回一个结果，则 apply 函数会自动遍历每一行 DataFrame 的数据，最后将所有结果组合成一个 Series 数据结构并返回。

数据的过滤和排序(探索2012欧洲杯数据)

数据展示

题目

– 将数据集命名为euro12
– 只选取 Goals 这一列
– 有多少球队参与了2012欧洲杯？
– 该数据集中一共有多少列(columns)?

– 将数据集中的列Team, Yellow Cards和Red Cards单独存为一个名叫discipline的数据框
– 对数据框discipline按照先Red Cards再Yellow Cards进行排序
– 计算每个球队拿到的黄牌数的平均值
– 找到进球数Goals超过6的球队数据
– 选取以字母G开头的球队数据
– 选取前7列
– 选取除了最后3列之外的全部列
– 找到英格兰(England)、意大利(Italy)和俄罗斯(Russia)的射正率(Shooting Accuracy)


euro = pd.read_csv('resource/Euro2012.csv')

Goals = euro['Goals']
Goals = euro.Goals

item_all = euro['Team'].nunique()

columns_all = euro.shape[1]

discipline = euro[['Team', 'Yellow Cards', 'Red Cards']]

discipline_sort = discipline.sort_values(['Red Cards', 'Yellow Cards'], ascending=[True, False])

Yellow_Card_Mean = discipline['Yellow Cards'].mean()

Goals_over_six = euro[euro['Goals'] > 6]

Time_Start_With_G = euro[euro['Team'].str.startswith('G')]

head_seven_columns = euro.iloc[:, :7]

except_last_three = euro.iloc[:, :-3]

data = euro.loc[euro['Team'].isin(['England', 'Italy', 'Russia']), ['Team', 'Shooting Accuracy']]

iloc 和 loc

pandas 以类似字典的方式来获取某一列的值，比如 df['A'] ，这会得到 df 的 A 列，返回的也是一个 Series 对象。如果想要获取部分行的话就得用到切片
例如： df'[:3] ，获取前三行； df[3:4] ，获取第四行。但是如果想要获取部分行部分列的上述两种方法就无能为力了。这时就得用到 ix, loc, iloc 方法(ix已弃用)loc是指location的意思，iloc中的i是指 integer 。 iloc 和 loc 方式索引也更为精细。这两者的区别如下：

loc works on labels in the index
iloc works on the positions in the index

跳转顶部

探索酒类消费数据

数据展示

题目展示

– 将数据框命名为drinks
– 哪个大陆(continent)平均消耗的啤酒(beer)更多？
– 打印出每个大陆(continent)的红酒消耗(wine_servings)的描述性统计值
– 打印出每个大陆每种酒类别的消耗平均值
– 打印出每个大陆每种酒类别的消耗中位数
– 打印出每个大陆对spirit饮品消耗的平均值，最大值和最小值


drinks = pd.read_csv('resource/drinks.csv')

max_beer = drinks[['continent', 'beer_servings']].groupby('continent').mean().sort_values('beer_servings').head(1)

continent_wine_des = drinks.groupby('continent')['wine_servings'].describe()

continent_mean = drinks.groupby('continent').mean()

continent_median = drinks.groupby('continent').median()

continent_spirit_des = drinks.groupby('continent').spirit_servings.describe()

跳转顶部

探索1960 – 2014 美国犯罪数据

数据展示

题目展示

– 将数据框命名为crime
– 每一列(column)的数据类型是什么样的？
– 将Year的数据类型转换为 datetime64
– 将列Year设置为数据框的索引
– 删除名为Total的列
– 按照Year（每十年）对数据框进行分组并求和
– 何时是美国历史上生存最危险的年代？


crime = pd.read_csv('resource/US_Crime_Rates_1960_2014.csv')

columns_type = crime.info()

crime['Year'] = pd.to_datetime(crime['Year'], format='%Y')

crime = crime.set_index('Year', drop=True)

del crime['Total']

crimes = crime.resample('10AS').sum()
population = crime.resample('10AS').max()
crimes['Population'] = population

crime.idxmax(0)

跳转顶部

合并–探索虚拟姓名数据

数据是自己创建的

raw_data_1 = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

题目展示

– 创建DataFrame
– 将上述的DataFrame分别命名为data1, data2, data3
– 将data1和data2两个数据框按照行的维度进行合并，命名为all_data
– 将data1和data2两个数据框按照列的维度进行合并，命名为all_data_col
– 打印data3
– 按照subject_id的值对all_data和data3作合并
– 对data1和data2按照subject_id作连接
– 找到 data1 和 data2 合并之后的所有匹配结果

跳转顶部

raw_data_1 = {
    'subject_id': ['1', '2', '3', '4', '5'],
    'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
    'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
    'subject_id': ['4', '5', '6', '7', '8'],
    'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
    'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
    'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
    'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

data1 = pd.DataFrame(raw_data_1)
data2 = pd.DataFrame(raw_data_2)
data3 = pd.DataFrame(raw_data_3)

all_data = pd.concat([data1, data2], axis=0)

all_data_col = pd.concat([data1, data2], axis=1)

subject_id_data = pd.merge(all_data, data3, on='subject_id')

inner_join = pd.merge(data1, data2, on='subject_id', how='inner')

all_join = pd.merge(data1, data2, on='subject_id', how='outer')

统计–探索风速数据

数据展示

题目展示

– 将数据作存储并且设置前三列为合适的索引
– 2061年？我们真的有这一年的数据？创建一个函数并用它去修复这个bug
– 将日期设为索引，注意数据类型，应该是datetime64[ns]
– 对应每一个location，一共有多少数据值缺失
– 对应每一个location，一共有多少完整的数据值
– 对于全体数据，计算风速的平均值
– 创建一个名为loc_stats的数据框去计算并存储每个location的风速最小值，最大值，平均值和标准差
– 创建一个名为day_stats的数据框去计算并存储所有location的风速最小值，最大值，平均值和标准差
– 对于每一个location，计算一月份的平均风速
– 对于数据记录按照年为频率取样
– 对于数据记录按照月为频率取样


wind = pd.read_csv('resource/wind.csv', sep='\s+', parse_dates=[[0, 1, 2]])

def fix_century(x):
    year = x.year - 100 if x.year > 1900 else x.yeaa
    return datetime.date(year, x.month, x.day)

wind['Yr_Mo_Dy'] = wind['Yr_Mo_Dy'].apply(fix_century)

wind['Yr_Mo_Dy'] = pd.to_datetime(wind['Yr_Mo_Dy'])
wind = wind.set_index('Yr_Mo_Dy')

null_count = wind.isnull().sum()

not_null_count = wind.shape[1] - wind.isnull().sum()

data_mean = wind.mean().mean()

loc_stats = pd.DataFrame()
loc_stats['min'] = wind.min()
loc_stats['max'] = wind.max()
loc_stats['mean'] = wind.mean()
loc_stats['std'] = wind.std()

day_stats = pd.DataFrame()
day_stats['min'] = wind.min(axis=1)
day_stats['max'] = wind.max(axis=1)
day_stats['mean'] = wind.mean(axis=1)
day_stats['std'] = wind.std(axis=1)

wind['date'] = wind.index

wind['year'] = wind['date'].apply(lambda df: df.year)
wind['month'] = wind['date'].apply(lambda df: df.month)
wind['day'] = wind['date'].apply(lambda df: df.day)
january_winds = wind.query('month ==1')
january_winds.loc[:, 'RPT':'MAL'].mean()

wind.query('month ==1 and day == 1')

wind.query('day == 1')

跳转顶部

时间序列–探索Apple公司股价数据

数据展示

题目展示

– 读取数据并存为一个名叫apple的数据框
– 查看每一列的数据类型
– 将Date这个列转换为datetime类型
– 将Date设置为索引
– 有重复的日期吗？
– 将index设置为升序
– 找到每个月的最后一个交易日(business day)
– 数据集中最早的日期和最晚的日期相差多少天？
– 在数据中一共有多少个月？


apple = pd.read_csv('resource/appl_1980_2014.csv')

columns_type = apple.info()

apple['Date'] = pd.to_datetime(apple['Date'])

apple = apple.set_index('Date')

data = apple.index.is_unique

apple = apple.sort_index(ascending=True)

apple_month = apple.resample('BM').mean()

max_min = (apple.index.max() - apple.index.min()).days

month_sum = apple['Adj Close'].plot(title='Apple Stock').get_figure().set_size_inches(9, 5)

跳转顶部

删除–探索Iris纸鸢花数据

数据展示

题目展示

– 将数据集存成变量iris
– 创建数据框的列名称[‘sepal_length’,’sepal_width’, ‘petal_length’, ‘petal_width’, ‘class’]
– 数据框中有缺失值吗？
– 将列petal_length的第10到19行设置为缺失值
– 将petal_lengt缺失值全部替换为1.0
– 删除列class
– 将数据框前三行设置为缺失值
– 删除有缺失值的行
– 重新设置索引


iris = pd.read_csv('resource/iris.data', header=None)

iris.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

null_sum = iris.isnull().sum()

iris['petal_length'].loc[10:19] = np.nan

iris['petal_length'].fillna(1, inplace=True)

del iris['class']

iris.loc[0:2, :] = np.nan

iris = iris.dropna(how='any')

iris = iris.reset_index(drop=True)

跳转顶部

Original: https://blog.csdn.net/heiren_a/article/details/123608260
Author: 飝鱻.
Title: 【Pandas】Pandas数据分析题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/758591/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【pygame游戏】用Python实现一个蔡徐坤大战篮球的小游戏，可还行？【附源码】

Python制作坤坤打篮球小游戏序言准备工作 * – 开发环境效果预览 * – 开始界面游戏规则结束游戏代码实现序言话说在前面，我不是小黑子…

Python 2023年8月3日
0043
HTML小游戏11 —— 横版恐龙大冒险游戏（附完整源码）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月25日
0035
IP地址虚拟网络与虚拟机网络配置

欢迎关注博主 Mindtechnist 或加入【Linux C/C++/Python社区】一起探讨和分享Linux C/C++/Python/Shell编程、机器人技术、机器学习、…

Python 2023年9月26日
0053
Python 数据可视化中图表样式的美化

1.图表样式的概述：1.1 默认图表样式matplotlib在绘图的过程中会读取存储在本地的配置文件matplotlibre，通过matplotlibrc文件中的缺省配置信息指定图…

Python 2023年9月1日
0050
Flask连接PostgreSQL数据库

Ubuntu下Flask的安装配置记录如何在Ubuntu 20.04上安装Flask过程（Flask Web框架安装也不难）创建虚拟环境 mkdir myproject cd …

Python 2023年8月11日
0044
16. vue3合成API,setup,reactive,toRef,toRefs,Ref,watchEffect,watch,project,inject

合成API 就是是相对应选项API。将相关联的数据和方法放置在一起编排。方便查看修改。setup函数在创建组件之前执行，所以不能用this。它跟data有点类似，都是有返回值，…

Python 2023年8月4日
0046
笔记（二）maxflow

笔记（二）maxflow 1、maxflow.cpp中maxflow3d的python封装 2、文件引用关系 1、maxflow.cpp中maxflow3d的python封装 #i…

Python 2023年8月29日
0053
【SpringMVC】下篇，拦截器（一步到位学会它）

✅作者简介：热爱Java后端开发的一名学习者，大家可以跟我一起讨论各种问题喔。🍎个人主页：Hhzzy99🍊个人信条：坚持就是胜利！💞当前专栏：【Spring】🥭本文内容：Sprin…

Python 2023年10月27日
0030
西门子S7-200 SMART PLC编程初体验

0x00 前期准备 1. 了解西门子西门子中国公司官网 2. 了解西门子S7-200 SMART 西门子S7-200 SMART 更智能，更经济的控制器官方提供了STEP 7- …

Python 2023年6月12日
0078
Python量化交易实战：获取股票数据并做分析处理

量化交易（也称自动化交易）是一种应用数学模型帮助投资者进行判断，并且根据计算机程序发送的指令进行交易的投资方式，它极大地减少了投资者情绪波动的影响。量化交易的主要优势如下：快速检…

Python 2023年8月2日
0082
【Python打包成exe方法】——已解决导入第三方包无法打包的问题

在我们写代码的过程中，我们开发的脚本一般都会用到一些第三方包，可能别人也需要用到我们的脚本，如果我们将我们的xx.py文件发给他，他是不能直接用的，他还需要安装python解释器，…

Python 2023年5月24日
0080
分布式注册服务中心etcd在云原生引擎中的实践

作者：王雷 etcd是什么 etcd是云原生架构中重要的基础组件，由CNCF孵化托管。ETCD是用于共享配置和服务发现的分布式，一致性的KV存储系统，是CoreOS公司发起的一个开…

Python 2023年10月11日
0033
mysql错误案例

报错案例1–加索引报错对mysql的一个大于10G的表加索引，出现 repair with keycache原因如下查询myisam_max_sort_file_s…

Python 2023年6月10日
0075
python做飞机大战游戏_python实现飞机大战游戏

飞机大战(Python)代码分为两个python文件，工具类和主类，需要安装pygame模块，能完美运行(网上好多不完整的，调试得心累。实现出来，成就感还是满满的)，如图所示：完…

Python 2023年9月23日
0039
Stable Diffusion 关键词tag语法教程

Stable Diffusion 关键词tag语法教程 AI绘图在线体验二次元绘图在线体验地址:Stable Diffusion模型包括： NovelAI，NovelAI的模型…

Python 2023年10月8日
0050
Flask 框架 ORM & 增删改查

Flask Python 利用 pymysql 库连接 Mysql（直接连接） Python 利用 SQLAlchemy 库连接 Mysql SQLAlchemy 执行原生 SQL…

Python 2023年8月15日
0043

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【Pandas】Pandas数据分析题

Pandas数据分析题

大家都在看