【Pandas】Pandas数据分析题

数据集下载

Pandas数据分析题

Chipotle快餐数据

题目如下

– 将数据集存入一个名为chipo的数据框内
– 查看前10行内容
– 数据集中有多少个列(columns)?
– 打印出全部的列名称
– 数据集的索引是怎样的?
– 被下单数最多商品(item)是什么?

– 在item_name这一列中,一共有多少种商品被下单?
– 在choice_description中,下单次数最多的商品是什么?
– 一共有多少商品被下单?
– 将item_price转换为浮点数
– 在该数据集对应的时期内,收入(revenue)是多少?
– 在该数据集对应的时期内,一共有多少订单?
– 每一单(order)对应的平均总价是多少?

数据前几行展示

【Pandas】Pandas数据分析题

chipo = pd.read_table('resource/chipotle.tsv', sep='\t', engine='python')

chipo.head(10)

count_columns = chipo.shape[1]

columns = chipo.columns

df_index = chipo.index

item_max_quantity = chipo[['item_name', 'quantity']].groupby(by=['item_name']).sum().sort_values(by=['quantity'],
                                                                                                 ascending=False).head(
    1)

unique_item = chipo.item_name.nunique()
unique_item = chipo['item_name'].nunique()

choice_description_max = chipo['choice_description'].value_counts().head(1)

quantity_sum = chipo['quantity'].sum()

chipo['item_price'] = chipo['item_price'].apply(lambda x: float(x[1:]))

all_money = (chipo['quantity'] * chipo['item_price']).sum()

chipo['order_id'].nunique()

chipo['item_price_sum'] = chipo['quantity'] * chipo['item_price']
(chipo[['order_id', 'item_price_sum']].groupby(by=['order_id']).sum()).mean()

其中 apply 的应用:
apply 函数是 pandas 里面所有函数中自由度最高的函数。该函数如下:

DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds)

该函数最有用的是第一个参数,这个参数是函数,相当于 C/C++ 的函数指针。

这个函数需要自己实现,函数的传入参数根据 axis 来定,比如 axis = 1 ,就会把一行数据作为 Series 的数据 结构传入给自己实现的函数中,我们在函数中实现对 Series 不同属性之间的计算,返回一个结果,则 apply 函数 会自动遍历每一行 DataFrame 的数据,最后将所有结果组合成一个 Series 数据结构并返回。

数据的过滤和排序(探索2012欧洲杯数据)

数据展示

【Pandas】Pandas数据分析题
题目

– 将数据集命名为euro12
– 只选取 Goals 这一列
– 有多少球队参与了2012欧洲杯?
– 该数据集中一共有多少列(columns)?

– 将数据集中的列Team, Yellow Cards和Red Cards单独存为一个名叫discipline的数据框
– 对数据框discipline按照先Red Cards再Yellow Cards进行排序
– 计算每个球队拿到的黄牌数的平均值
– 找到进球数Goals超过6的球队数据
– 选取以字母G开头的球队数据
– 选取前7列
– 选取除了最后3列之外的全部列
– 找到英格兰(England)、意大利(Italy)和俄罗斯(Russia)的射正率(Shooting Accuracy)


euro = pd.read_csv('resource/Euro2012.csv')

Goals = euro['Goals']
Goals = euro.Goals

item_all = euro['Team'].nunique()

columns_all = euro.shape[1]

discipline = euro[['Team', 'Yellow Cards', 'Red Cards']]

discipline_sort = discipline.sort_values(['Red Cards', 'Yellow Cards'], ascending=[True, False])

Yellow_Card_Mean = discipline['Yellow Cards'].mean()

Goals_over_six = euro[euro['Goals'] > 6]

Time_Start_With_G = euro[euro['Team'].str.startswith('G')]

head_seven_columns = euro.iloc[:, :7]

except_last_three = euro.iloc[:, :-3]

data = euro.loc[euro['Team'].isin(['England', 'Italy', 'Russia']), ['Team', 'Shooting Accuracy']]

ilocloc

  • pandas 以类似字典的方式来获取某一列的值,比如 df['A'] ,这会得到 dfA 列,返回的也是一个 Series 对象。如果想要获取部分行的话就得用到切片
  • 例如: df'[:3] ,获取前三行; df[3:4] ,获取第四行。但是如果想要获取部分行部分列的上述两种方法就无能为力了。这时就得用到 ix, loc, iloc 方法(ix已弃用)loc是指location的意思,iloc中的i是指 integerilocloc 方式索引也更为精细。这两者的区别如下:
loc works on labels in the index
iloc works on the positions in the index

跳转顶部

探索酒类消费数据

数据展示

【Pandas】Pandas数据分析题

题目展示

– 将数据框命名为drinks
– 哪个大陆(continent)平均消耗的啤酒(beer)更多?
– 打印出每个大陆(continent)的红酒消耗(wine_servings)的描述性统计值
– 打印出每个大陆每种酒类别的消耗平均值
– 打印出每个大陆每种酒类别的消耗中位数
– 打印出每个大陆对spirit饮品消耗的平均值,最大值和最小值


drinks = pd.read_csv('resource/drinks.csv')

max_beer = drinks[['continent', 'beer_servings']].groupby('continent').mean().sort_values('beer_servings').head(1)

continent_wine_des = drinks.groupby('continent')['wine_servings'].describe()

continent_mean = drinks.groupby('continent').mean()

continent_median = drinks.groupby('continent').median()

continent_spirit_des = drinks.groupby('continent').spirit_servings.describe()

跳转顶部

探索1960 – 2014 美国犯罪数据

数据展示

【Pandas】Pandas数据分析题

题目展示

– 将数据框命名为crime
– 每一列(column)的数据类型是什么样的?
– 将Year的数据类型转换为 datetime64
– 将列Year设置为数据框的索引
– 删除名为Total的列
– 按照Year(每十年)对数据框进行分组并求和
– 何时是美国历史上生存最危险的年代?


crime = pd.read_csv('resource/US_Crime_Rates_1960_2014.csv')

columns_type = crime.info()

crime['Year'] = pd.to_datetime(crime['Year'], format='%Y')

crime = crime.set_index('Year', drop=True)

del crime['Total']

crimes = crime.resample('10AS').sum()
population = crime.resample('10AS').max()
crimes['Population'] = population

crime.idxmax(0)

跳转顶部

合并–探索虚拟姓名数据

数据是自己创建的

raw_data_1 = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

题目展示

– 创建DataFrame
– 将上述的DataFrame分别命名为data1, data2, data3
– 将data1和data2两个数据框按照行的维度进行合并,命名为all_data
– 将data1和data2两个数据框按照列的维度进行合并,命名为all_data_col
– 打印data3
– 按照subject_id的值对all_data和data3作合并
– 对data1和data2按照subject_id作连接
– 找到 data1 和 data2 合并之后的所有匹配结果

跳转顶部

raw_data_1 = {
    'subject_id': ['1', '2', '3', '4', '5'],
    'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
    'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
    'subject_id': ['4', '5', '6', '7', '8'],
    'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
    'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
    'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
    'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

data1 = pd.DataFrame(raw_data_1)
data2 = pd.DataFrame(raw_data_2)
data3 = pd.DataFrame(raw_data_3)

all_data = pd.concat([data1, data2], axis=0)

all_data_col = pd.concat([data1, data2], axis=1)

subject_id_data = pd.merge(all_data, data3, on='subject_id')

inner_join = pd.merge(data1, data2, on='subject_id', how='inner')

all_join = pd.merge(data1, data2, on='subject_id', how='outer')

统计–探索风速数据

数据展示

【Pandas】Pandas数据分析题

题目展示

– 将数据作存储并且设置前三列为合适的索引
– 2061年?我们真的有这一年的数据?创建一个函数并用它去修复这个bug
– 将日期设为索引,注意数据类型,应该是datetime64[ns]
– 对应每一个location,一共有多少数据值缺失
– 对应每一个location,一共有多少完整的数据值
– 对于全体数据,计算风速的平均值
– 创建一个名为loc_stats的数据框去计算并存储每个location的风速最小值,最大值,平均值和标准差
– 创建一个名为day_stats的数据框去计算并存储所有location的风速最小值,最大值,平均值和标准差
– 对于每一个location,计算一月份的平均风速
– 对于数据记录按照年为频率取样
– 对于数据记录按照月为频率取样


wind = pd.read_csv('resource/wind.csv', sep='\s+', parse_dates=[[0, 1, 2]])

def fix_century(x):
    year = x.year - 100 if x.year > 1900 else x.yeaa
    return datetime.date(year, x.month, x.day)

wind['Yr_Mo_Dy'] = wind['Yr_Mo_Dy'].apply(fix_century)

wind['Yr_Mo_Dy'] = pd.to_datetime(wind['Yr_Mo_Dy'])
wind = wind.set_index('Yr_Mo_Dy')

null_count = wind.isnull().sum()

not_null_count = wind.shape[1] - wind.isnull().sum()

data_mean = wind.mean().mean()

loc_stats = pd.DataFrame()
loc_stats['min'] = wind.min()
loc_stats['max'] = wind.max()
loc_stats['mean'] = wind.mean()
loc_stats['std'] = wind.std()

day_stats = pd.DataFrame()
day_stats['min'] = wind.min(axis=1)
day_stats['max'] = wind.max(axis=1)
day_stats['mean'] = wind.mean(axis=1)
day_stats['std'] = wind.std(axis=1)

wind['date'] = wind.index

wind['year'] = wind['date'].apply(lambda df: df.year)
wind['month'] = wind['date'].apply(lambda df: df.month)
wind['day'] = wind['date'].apply(lambda df: df.day)
january_winds = wind.query('month ==1')
january_winds.loc[:, 'RPT':'MAL'].mean()

wind.query('month ==1 and day == 1')

wind.query('day == 1')

跳转顶部

时间序列–探索Apple公司股价数据

数据展示

【Pandas】Pandas数据分析题

题目展示

– 读取数据并存为一个名叫apple的数据框
– 查看每一列的数据类型
– 将Date这个列转换为datetime类型
– 将Date设置为索引
– 有重复的日期吗?
– 将index设置为升序
– 找到每个月的最后一个交易日(business day)
– 数据集中最早的日期和最晚的日期相差多少天?
– 在数据中一共有多少个月?


apple = pd.read_csv('resource/appl_1980_2014.csv')

columns_type = apple.info()

apple['Date'] = pd.to_datetime(apple['Date'])

apple = apple.set_index('Date')

data = apple.index.is_unique

apple = apple.sort_index(ascending=True)

apple_month = apple.resample('BM').mean()

max_min = (apple.index.max() - apple.index.min()).days

month_sum = apple['Adj Close'].plot(title='Apple Stock').get_figure().set_size_inches(9, 5)

跳转顶部

删除–探索Iris纸鸢花数据

数据展示

【Pandas】Pandas数据分析题

题目展示

– 将数据集存成变量iris
– 创建数据框的列名称[‘sepal_length’,’sepal_width’, ‘petal_length’, ‘petal_width’, ‘class’]
– 数据框中有缺失值吗?
– 将列petal_length的第10到19行设置为缺失值
– 将petal_lengt缺失值全部替换为1.0
– 删除列class
– 将数据框前三行设置为缺失值
– 删除有缺失值的行
– 重新设置索引


iris = pd.read_csv('resource/iris.data', header=None)

iris.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

null_sum = iris.isnull().sum()

iris['petal_length'].loc[10:19] = np.nan

iris['petal_length'].fillna(1, inplace=True)

del iris['class']

iris.loc[0:2, :] = np.nan

iris = iris.dropna(how='any')

iris = iris.reset_index(drop=True)

跳转顶部

Original: https://blog.csdn.net/heiren_a/article/details/123608260
Author: 飝鱻.
Title: 【Pandas】Pandas数据分析题

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/758591/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球