案例——中国篮球运动员的基本信息分析

2023年8月18日上午12:27 • Python • 阅读 61

案例——中国篮球运动员的基本信息分析

分析目标

1、计算中国男篮、女篮运动员的平均身高与平均体重
2、分析中国篮球运动员的年龄分布
3、计算中国篮球运动员的体质指数

数据获取

先导入可能需要用到的包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

读取数据源文件

df_left = pd.read_csv("配套资源/源代码/第6章/运动员信息采集01.csv", encoding="gbk")
df_right = pd.read_excel("配套资源/源代码/第6章/运动员信息采集02.xlsx")

用外连接的方式合并数据

data_df = pd.merge(df_left, df_right, how="outer")
data_df.head()

筛选出中国篮球运动员的信息

basketball_data = data_df[data_df['国籍'] == '中国']
basketball_data = basketball_data[basketball_data['项目'] == '篮球']
basketball_data.head()

数据清理

检测和处理重复值

检测重复值

basketball_data[basketball_data.duplicated().values == True]

处理重复值

basketball_data.drop_duplicates(ignore_index=True, inplace=True)
basketball_data[basketball_data.duplicated().values == True]

检测和处理缺失值

检测缺失值

basketball_data[basketball_data.isna().values == True]

因为省份对分析目的无影响，这里只用处理身高和体重，但是因为男女有差异性，故先分男女两个表。
先处理男表
查看详细信息

male_data = basketball_data[basketball_data['性别'] == '男']
female_data = basketball_data[basketball_data['性别'] == '女']
male_data.info()

只有身高存在缺失值，查看身高数据

print(male_data['身高'].values)

除了空值，其他都是一样的单位xxx+’厘米’
开始处理空值，选择用平均值代替

male_heights = male_data['身高'].dropna()
fill_male_height = male_heights.apply(lambda x: x[:-2]).astype(int).mean()
fill_male_height = str(int(fill_male_height)) + '厘米'
male_data.loc[:, '身高'] = male_data.loc[:, '身高'].fillna(fill_male_height)
male_data.info()

男表缺失值处理完成。
开始查看女表信息

female_data.info()

忽略省份，还有身高和体重存在缺失值，先查看身高数据

print(female_data['身高'].values)

存在不一致的数据结构，所以需要先统一将数据变成xxx + “厘米”

data = {'191cm':'191厘米','1米89公分':'189厘米','2.01米':'201厘米',
          '187公分':'187厘米','1.97M':'197厘米','1.98米':'198厘米',
          '192cm':'192厘米'}
female_data.loc[:, '身高'].replace(data, inplace=True)
print(female_data['身高'].values)

继续处理缺失值，采用平均值来填充

female_heights = female_data['身高'].dropna()
fill_female_height = female_heights.apply(lambda x: x[:-2]).astype(int).mean()
fill_female_height = str(int(fill_female_height)) + '厘米'
female_data.loc[:, '身高'] = female_data.loc[:, '身高'].fillna(fill_female_height)
female_data.info()

身高的缺失值处理完成

开始处理体重缺失值，先查看数据

print(female_data['体重'].values)

发现一个明显的异常数值8kg，决定采用向前填充的方式替换

female_data['体重'].replace(to_replace='8kg', method='pad', inplace=True)
print(female_data['体重'].values)

开始用平均值填充缺失值

female_weights = female_data['体重'].dropna()
fill_female_weight = female_weights.apply(lambda x: x[:-2]).astype(int).mean()
fill_female_weight = str(int(fill_female_weight)) + '厘米'
female_data.loc[:, '体重'] = female_data.loc[:, '体重'].fillna(fill_female_weight)
female_data.info()

检测和处理异常值

为了方便计算等操作，选择将身高和体重两列变为int类型，并重新命名列表

male_data['身高'] = male_data['身高'].apply(lambda x: x[:-2]).astype(int)
male_data.rename(columns={'身高': '身高/cm'}, inplace=True)
male_data['体重'] = male_data['体重'].apply(lambda x: x[:-2]).astype(int)
male_data.rename(columns={'体重': '体重/kg'}, inplace=True)
female_data['身高'] = female_data['身高'].apply(lambda x: x[:-2]).astype(int)
female_data.rename(columns={'身高': '身高/cm'}, inplace=True)
female_data['体重'] = female_data['体重'].apply(lambda x: x[:-2]).astype(int)
female_data.rename(columns={'体重': '体重/kg'}, inplace=True)

male_data.head()

female_data.head()

利用箱型图查看男表的身高和体重是否存在异常值

plt.rcParams['font.sans-serif'] = ['SimHei']
male_data.boxplot(column='身高/cm')

身高不存在异常值

plt.rcParams['font.sans-serif'] = ['SimHei']
male_data.boxplot(column='体重/kg')

体重也不存在异常值，说明男表数据正常
接下来查看女表数据

plt.rcParams['font.sans-serif'] = ['SimHei']
female_data.boxplot(column='身高/cm')

出现一个异常值，但经核实，是真实值
查看体重数据

plt.rcParams['font.sans-serif'] = ['SimHei']
female_data.boxplot(column='体重/kg')

经核实，这个离群点也属于非异常值
如果我们通过箱型图发现了异常值，可以使用下面的函数来找到这个异常值

def box_outliers(ser):
    new_ser = ser.sort_values()
    if new_ser.count() % 2 == 0:
        Q3 = new_ser[int(len(new_ser) / 2):].median()
        Q1 = new_ser[:int(len(new_ser) / 2)].median()
    elif new_ser.count() % 2 == 1:
        Q3 = new_ser[int((len(new_ser) + 1) / 2):].median()
        Q1 = new_ser[:int((len(new_ser) + 1) / 2)].median()
    IQR = round(Q3 - Q1, 1)
    rule = (ser < round(Q1 - 1.5 * IQR, 1)) | (ser > round(Q3 + 1.5 * IQR, 1))
    index = np.arange(ser.shape[0])[rule]
    outliers = ser.iloc[index]
    return outliers

除了通过箱型图，我们也可以通过3sigma原则来验证，
函数实现如下

def three_sigma(ser):

    mean_data = ser.mean()

    std_data = ser.std()

    rule = (mean_data-3*std_data>ser) | (mean_data+3*std_data<ser)

    index = np.arange(ser.shape[0])[rule]

    outliers = ser.iloc[index]
    return outliers

异常值处理完毕，重新将男女两个表合并

basketball_data = pd.concat([male_data, female_data])
basketball_data

实现分析要求

计算中国男篮、女篮的平均身高体重

mean_male_height = basketball_data[basketball_data['性别'] == '男']['身高/cm'].mean()
print(f'中国男篮的平均身高为{int(mean_male_height)}厘米')
mean_male_weight = basketball_data[basketball_data['性别'] == '男']['体重/kg'].mean()
print(f'中国男篮的平均体重为{int(mean_male_weight)}kg')
mean_female_height = basketball_data[basketball_data['性别'] == '女']['身高/cm'].mean()
print(f'中国女篮的平均身高为{int(mean_female_height)}厘米')
mean_female_weight = basketball_data[basketball_data['性别'] == '女']['体重/kg'].mean()
print(f'中国女篮的平均身高为{int(mean_female_weight)}kg')

分析中国篮球运动员的年龄分布

print(basketball_data['出生日期'].values)

先处理数据不一致问题，全部转为年份

import datetime
basketball_data2 = basketball_data.copy()
initial_time = datetime.datetime.strptime('1900-01-01', '%Y-%m-%d')
for i in basketball_data2['出生日期']:
    if type(i) == int:
        new_time = (initial_time + datetime.timedelta(days=i)).strftime("%Y{y}%m{m}%d{d}").format(y='年', m='月', d='日')
        basketball_data2.loc[:, '出生日期'] = basketball_data2.loc[:, '出生日期'].replace(i, new_time)
basketball_data2['出生日期'] = basketball_data2['出生日期'].apply(lambda x: x[:5])
print(basketball_data2['出生日期'].values)

分析中国篮球运动员的年龄分布

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']
ages = 2022 - basketball_data2['出生日期'].apply(lambda x: x[:-1]).astype(int)
ax = ages.plot(kind='hist')
ax.set_xlabel('年龄（岁）')
ax.set_ylabel('频数')
ax.set_xticks(range(ages.min(), ages.max() + 1, 2))

计算中国篮球运动员的体质指数

weight = basketball_data['体重/kg']
height = basketball_data['身高/cm']
sum_bmi = weight / (height / 100)**2
basketball_data['体质指数'] = sum_bmi.round(1)
basketball_data

到此任务完成

Original: https://blog.csdn.net/weixin_54230314/article/details/126806087
Author: 恒星小白
Title: 案例——中国篮球运动员的基本信息分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/752577/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytest+python3+requests+jenkins+git+allure接口测试框架

本人将自己之前写的基于pytest和requests的接口自动化测试框架分享出来。请参考gitee上项目的使用说明。这里不再赘述。后期会考虑录制一个视频来介绍该框架的具体使用及…

Python 2023年9月12日
0031
经纬恒润标记重复元素 python

经纬恒润标记重复元素 python 2022.09.15 题目描述在给定的numpy数组中找到重复的条目(第二次出现以后)，并将它们标记为True(第一次出现应该为False)…

Python 2023年8月28日
0056
Python 源代码缩进格式化工具

Original: https://www.cnblogs.com/123456feng/p/16210262.htmlAuthor: 蚂蚁ailingTitle: Python …

Python 2023年11月2日
0052
Win10不支持安装uWSGI

近期想重新做一下Django的项目，本科做的太小儿科了，想做个并发的，在安装uWSGI时碰到了问题，记录一下过程。首先需要说明的结论是：WIN10不支持安装uWSGI ,大家不用…

Python 2023年8月6日
0055
pytest单元测试框架简介

一、什么是单元测试框架单元测试框架是指：在软件开发当中，针对软件的最小单位（函数，方法）进行正确性的检查测试。二、单元测试框架的分类 Java: Juint、TestNGPyt…

Python 2023年9月9日
0043
Django笔记七之ManyToMany和OneToOne介绍

ManyToMany 是一种多对多的关系，在用途和使用方法上和外键 ForeignKey 类似。以下是本篇笔记的目录： ManyToMany 的介绍 through 参数 thr…

Python 2023年8月5日
0059
conda环境切换清华源下载。安装opencv问题和conda常用命令

Windows系统命令行中使用如下命令即可添加清华源 conda config –add channels https://mirrors.tuna.tsinghua.edu.c…

Python 2023年9月7日
0043
VScode配置深度学习环境python+conda

VScode配置深度学习环境python+conda 1.VScode常用的插件 2.VScode配置虚拟环境 * 2.1进入设置 2.2添加虚拟环境路径 2.3切换环境 2.3….

Python 2023年9月8日
0047
Django–015 容器化部署

文章目录 1. 环境准备 * 1.1 django 1.2 Vue 1.3 服务器 1.4 架构 2. 代码准备 * 2.1 django代码 2.2 vue代码 2.3 depl…

Python 2023年8月5日
0047
MapReduce 概述原理说明

文章目录 MapReduce概述 * 一、MapReduce定义二、MapReduce 优缺点 – 1、MapReduce 优点 + (1)、MapReduce 易于…

Python 2023年9月7日
0047
谣言检测——(GCAN)《GCAN: Graph-aware Co-Attention Networks for Explainable Fake News Detection on Social Media》

论文标题：GCAN: Graph-aware Co-Attention Networks for Explainable Fake News Detection on Social…

Python 2023年10月21日
0040
「python」快速入门Scrapy框架的5个执行模组及架构——第一篇

一般想要自动化搜集网页上的资料时，普遍都会使用像BeautifulSoup或Selenium套件开发Python网页爬虫来取得，但是，如果所要爬取的资料量较大，拥有复杂的逻辑处理及…

Python 2023年10月6日
0039
Scrapy爬取51job

目录一. 介绍二.步骤 1.分析网页 ①51job的岗位信息都在标签中，并且为json格式 ②url解析 ③URL拼接+翻页操作 2.爬虫项目代码 settings.py pi…

Python 2023年8月11日
0099
Pandas——Excel技术总结

首先导入模块 import pandas as pd 使用read_excel的最简单方法是将文件名作为字符串传递。如果我们不传递任何其他参数(例如工作表名称)，它将读取索引中的…

Python 2023年8月22日
0037
计算机二级——python自己的学习总结(三）

好久没发总结了，也没停下练习，，快要考试了，继续加油！ 1.类的定义中：一个下划线开头的是保护成员；两个下划线开头且结尾的是特殊成员；两个或多个下划线开头但是不结尾的是私有成员。2…

Python 2023年9月25日
0060
Python 爬虫爬取A站视频

一、环境使用 Python 3.8 Pycharm 二、模块使用 import requests >>> pip install requests 内置模块你安…

Python 2023年5月24日
0081

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

案例——中国篮球运动员的基本信息分析

分析目标

数据获取

数据清理

检测和处理重复值

检测和处理缺失值

检测和处理异常值

实现分析要求

计算中国男篮、女篮的平均身高体重

分析中国篮球运动员的年龄分布

计算中国篮球运动员的体质指数

大家都在看