刘畊宏男孩女孩看过来！运动数据分析挖掘！⛵

2023年6月14日下午10:00 • 数据库 • 阅读 79

💡 作者：韩信子@ShowMeAI
📘数据分析 ◉ 技能提升系列：https://www.showmeai.tech/tutorials/33
📘AI 面试题库系列：https://www.showmeai.tech/tutorials/48
📘本文地址：https://www.showmeai.tech/article-detail/301
📢 声明：版权所有，转载请联系平台与作者并注明出处
📢 收藏ShowMeAI查看更多精彩内容

因为疫情，2年多的时间里，大家多了很多居家的经历，但是运动健康并不能因为居家而停止，健身随时随处可以进行！健身环大冒险等大热，而前阵子的刘畊宏跳操，带火了一大票畊宏男孩女孩，可穿戴设备市场大涨，而这些设备也记录了大量的运动数据。

现在有非常多的运动穿戴设备，比如简单的小米手环，到fitbit，到apple watch，而数据科学领域的从业者们，我们众多的数据分析师和数据科学家，可以轻松分析健身设备上收集的数据，把数据科学和医疗保健结合起来。

在本篇内容中，ShowMeAI就基于 fitbit 手环记录的一部分数据，讲解如何进行有效的数据分析。本次使用的数据集可以在 Kaggle 平台; 上免费下载。大家也可以通过ShowMeAI的网盘直接下载。

🏆 实战数据集下载（百度网盘）：公众号『ShowMeAI研究中心』回复『实战』，或者点击这里获取本文 [12] 运动手环的数据分析挖掘与建模案例『 Fitabase 运动佩戴设备数据集』

⭐ ShowMeAI官方GitHub：https://github.com/ShowMeAI-Hub

本篇内容涉及的工具库，大家可以参考ShowMeAI制作的工具库速查表和教程进行学习和快速使用。

💡 数据导入

我们先导入所需工具库，并读取数据：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go

读取数据
data = pd.read_csv('dailyActivity_merged.csv')
print(data.head())

该数据集由2016年12月3日-2016年12月5日期间通过亚马逊Mechanical Turk进行的分布式调查的受访者产生。30名符合条件的Fitbit用户同意提交个人追踪器数据，包括身体活动、心率和睡眠监测的分钟级输出。个人报告可以通过输出会话ID（A列）或时间戳（B列）进行解析。输出结果之间的差异代表了不同类型的Fitbit追踪器的使用和个人追踪行为/偏好。

💡 初步分析

我们先看看这个数据集的缺失值情况：

data.isnull().sum()

我们可以通过info和describe查看数据基本信息。

data.info()

我们在数据中看到记录时间的字段ActivityDate，我们把它转换为时间型，以便进行后续进一步分析。

更改 ActivityDate 的数据类型。
data["ActivityDate"] = pd.to_datetime(data["ActivityDate"], format="%m/%d/%Y")

我们从字段名称中可以看到，有记录『非常活跃』、『相当活跃』、『轻度活跃』和『久坐』的时间信息，分别是VeryActiveMinutes、FairlyActiveMinutes、LightlyActiveMinutes、SedentaryMinutes，我们对所有时间做一个汇总。

data["TotalMinutes"] = data["VeryActiveMinutes"] + data["FairlyActiveMinutes"] + data["LightlyActiveMinutes"] + data["SedentaryMinutes"]
data["TotalMinutes"].sample(5)

我们通过 describe函数查看一下数据集的描述性统计数据。

data.describe()

💡 EDA 探索性数据分析

数据集中的”卡路里”列记录了每天燃烧多少卡路里，我们基于它做一点分析。

研究一下每日总步数和消耗的卡路里之间的联系。
figure = px.scatter(data_frame = data, x="Calories",
                    y="TotalSteps", size="VeryActiveMinutes",
                    trendline="ols",
                    title="总步数和消耗的卡路里的关系")
figure.show()

从上图可以看出，每日热量消耗与所采取的总步数之间存在直接关联。同样的思路我们分析一下总路程和消耗卡路里的关系：

研究一下每日总路程和消耗的卡路里之间的联系。
figure = px.scatter(data_frame = data.dropna(), x="Calories",
                    y="TotalDistance", size="VeryActiveMinutes",
                    trendline="lowess", color='TotalSteps',
                    title="总路程和消耗的卡路里的关系")
figure.show()

上图可以看到，总路程和卡路里之间也是正相关的关系。下面让我们分析一下一天中的平均总活跃分钟数。

label = ["Very Active Minutes", "Fairly Active Minutes", "Lightly Active Minutes", "Inactive Minutes"]
counts = data[["VeryActiveMinutes", "FairlyActiveMinutes", "LightlyActiveMinutes", "SedentaryMinutes"]].mean()
colors = ["gold","lightgreen", "pink", "blue"]

fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
fig.update_layout(title_text="总活动时间")
fig.update_traces(hoverinfo="label+percent", textinfo="value", textfont_size=24, marker=dict(colors=colors, line=dict(color="black", width=3)))
fig.show()

一些观察结论：

81.3% 的非活动分钟数
15.8% 的轻度活动分钟数
平均21 分钟（1.74%）非常活跃
评价13 分钟（1.11%）的相当活跃的分钟数

下面我们展开做一点更详细的分析，我们先抽取更细化的信息，我们添加一个新字段”Day”记录星期几。

data["Day"] = data["ActivityDate"].dt.day_name()
data["Day"].head()

下面我们可视化对比一下一周中每一天的『非常活跃』、『相当活跃』和『轻度活跃』的分钟数。

fig = go.Figure()

fig.add_trace(go.Bar(
                         x=data["Day"],
                         y=data["VeryActiveMinutes"],
                         name="Very Active",
                         marker_color="purple"
                        ))

fig.add_trace(go.Bar(
                         x=data["Day"],
                         y=data["FairlyActiveMinutes"],
                         name="Fairly Active",
                         marker_color="green"
                        ))

fig.add_trace(go.Bar(
                         x=data["Day"],
                         y=data["LightlyActiveMinutes"],
                         name="Lightly Active",
                         marker_color="pink"
                        ))

fig.update_layout(barmode="group", xaxis_tickangle=-45)

fig.show()

让我们看看一周中每一天的非活动分钟数。

day = data["Day"].value_counts()
label = day.index
counts = data["SedentaryMinutes"]

colors = ['gold','lightgreen', "pink", "blue", "skyblue", "cyan", "orange"]
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])

fig.update_layout(title_text='Inactive Minutes Daily')
fig.update_traces(hoverinfo='label+percent', textinfo='value', textfont_size=30,
                  marker=dict(colors=colors, line=dict(color='black', width=3)))
fig.show()

从这份数据看来，星期四是大家最不活跃的一天。下面我们来看看一周中每一天燃烧的卡路里数。

calories = data["Day"].value_counts()
label = calories.index
counts = data["Calories"]

colors = ['gold','lightgreen', "pink", "blue", "skyblue", "cyan", "orange"]
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])

fig.update_layout(title_text='Calories Burned Daily')
fig.update_traces(hoverinfo='label+percent', textinfo='value', textfont_size=30, marker=dict(colors=colors, line=dict(color='black', width=3)))
fig.show()

从上图可以看出，星期二是这份数据集中的用户最活跃的日子之一，这一天燃烧的卡路里最多。下面我们分析一下每日步数：

import seaborn as sns
sns.set(rc={'figure.figsize':(8,6)})
activity_by_week_day = sns.barplot(x="Day", y="TotalSteps", data=data,
                                   order=['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'],
                                   capsize=.2)

💡 每日消耗卡路里预估

下面我们搭建一个模型，对于每日消耗的卡路里进行建模预估。

本部分涉及到的模型知识与建模操作方法，参见ShowMeAI以下部分教程：

我们剔除ID类特征和日期特征，把『Calories』作为目标，把其他字段作为特征，注意其中的『星期几/Day』字段是类别型，我们要单独编码一下。

features = ['TotalSteps', 'TotalDistance', 'TrackerDistance', 'LoggedActivitiesDistance', 'VeryActiveDistance', 'ModeratelyActiveDistance', 'LightActiveDistance', 'SedentaryActiveDistance', 'VeryActiveMinutes', 'FairlyActiveMinutes', 'LightlyActiveMinutes', 'SedentaryMinutes', 'TotalMinutes', 'Day']
target = 'Calories'

数据切分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data[features], data[target], test_size=0.2, random_state=0)

使用lightgbm训练
from lightgbm import LGBMRegressor
lgbm = LGBMRegressor(n_estimators=1000, learning_rate=0.05, random_state=0)

「星期几」字段编码
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
X_train['Day'] = le.fit_transform(X_train['Day'])
X_test['Day'] = le.transform(X_test['Day'])

拟合模型
lgbm.fit(X_train, y_train)

测试集预估
predictions = lgbm.predict(X_test)

计算测试集RMSE
from sklearn.metrics import mean_squared_error
rmse = np.sqrt(mean_squared_error(y_test, predictions))
print("RMSE: %f" % (rmse))

运行得到结果为 RMSE: 373.128953

为了更准确地进行建模和评估，我们使用网格搜索交叉验证进行超参数优化：

使用网格搜索对lightgbm模型进行超参数调优
from sklearn.model_selection import GridSearchCV
parameters = {
                'learning_rate': [0.02, 0.05, 0.08, 0.1],
                'max_depth': [5, 7, 10],
                'feature_fraction': [0.6, 0.8, 0.9],
                'subsample': [0.6, 0.8, 0.9],
                'n_estimators': [100, 200, 500, 1000]}

网格搜索
grid_search = GridSearchCV(lgbm, parameters, cv=5, n_jobs=-1, verbose=1)

最佳模型
grid_search.fit(X_train, y_train)
best_lgbm = grid_search.best_estimator_
输出最佳超参数
print(grid_search.best_params_)
测试集预估
predictions = best_lgbm.predict(X_test)
计算RMSE
from sklearn.metrics import mean_squared_error
rmse = np.sqrt(mean_squared_error(y_test, predictions))
print("RMSE: %f" % (rmse))

最终结果输出

{'feature_fraction': 0.6, 'learning_rate': 0.05, 'max_depth': 5, 'n_estimators': 1000, 'subsample': 0.6}
RMSE: 352.782209

我们可以看到，调参后的模型在测试集上表现更优。最后我们输出一下特征重要度，看看那些因素对于卡路里消耗更加重要：

#绘制特征重要度
import matplotlib.pyplot as plt
plt.figure(figsize=(20,10))
importance = best_lgbm.feature_importances_
feature_importance = pd.DataFrame({'feature': features, 'importance': importance})
feature_importance = feature_importance.sort_values('importance', ascending=True)
feature_importance.plot.barh(x='feature', y='importance', figsize=(20,10))

可以看到，每日总步数对结果影响最大，大家要多多抬腿多多运动！

参考资料

🏆 实战数据集下载（百度网盘）：公众号『ShowMeAI研究中心』回复『实战』，或者点击这里获取本文[12] 运动手环的数据分析挖掘与建模案例『 Fitabase 运动佩戴设备数据集』
⭐ ShowMeAI官方GitHub：https://github.com/ShowMeAI-Hub
📘 数据科学工具库速查表 | Pandas 速查表 https://www.showmeai.tech/article-detail/101
📘 图解数据分析：从入门到精通系列教程 https://www.showmeai.tech/tutorials/33
📘 图解机器学习算法：从入门到精通系列教程 https://www.showmeai.tech/tutorials/34
📘 机器学习实战：手把手教你玩转机器学习系列 https://www.showmeai.tech/tutorials/41

Original: https://www.cnblogs.com/showmeai/p/16567678.html
Author: ShowMeAI
Title: 刘畊宏男孩女孩看过来！运动数据分析挖掘！⛵

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/612769/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

5个必知的高级SQL函数

5个必知的高级SQL函数 SQL是关系数据库管理的标准语言，用于与数据库通信。它广泛用于存储、检索和操作数据库中存储的数据。SQL不区分大小写。用户可以访问存储在关系数据库管理系统…

数据库 2023年6月11日
00103
MySQL学习笔记-day02

select distinct job from emp;# distinct关键字去除重复记录。结果： +———–+ | job | +———–+ …

数据库 2023年6月11日
0095
力扣数据库题目627变更性别

力扣数据库题目627变更性别给定一个 salary 表，如下所示，有 m = 男性和 f = 女性的值。交换所有的 f 和 m 值（例如，将所有 f 值更改为 m，反之亦然）…

数据库 2023年6月9日
0061
【转】MySQL合理使用索引

索引可以说是数据库中的一个大心脏了，如果说一个数据库少了索引，那么数据库本身存在的意义就不大了，和普通的文件没什么两样。所以说一个好的索引对数据库系统尤其重要，今天来说说MySQL…

数据库 2023年5月24日
0091
一文读懂Redis

Redis与NoSQL概述 Nosql的优势使用nosql解决cpu与内存压力使用nosql解决I/O压力 Nosql数据库的概述 NoSql= Not Only SQL 采用…

数据库 2023年6月6日
00111
Try-with-resources are not supported at language level ‘5’

Try-with-resources are not supported at language level ‘5’没有指定maven版本导致的指定ma…

数据库 2023年6月16日
0069
Linux指令_入门基础

2.pwd指令：用法：#pwd （print working directory ，打印当前工作目录） 3.cd指令：命令：# cd （change directory，改…

数据库 2023年6月11日
00104
一份超长的MySQL学习笔记

前言最近系统地学习了一边MySQL数据库的基础知识，巩固了一下以前学习的数据库查询基础，又新学习了关于索引、事务等的新内容，做了一些学习笔记。因为MySQL的学习，实操性比较强，…

数据库 2023年5月24日
0092
我竟然才知道slf4j里还有个MDC

大家好久不见，我是walking。今天给大家带来一个日志方面的知识——MDC，不知道大家认识不，反正我是最近刚知道的😂 初见MDC 前两天看项目中的代码，无意中看到一个自定义的线程…

数据库 2023年6月11日
00152
线程的生命周期

线程的生命周期线程具有生命周期，其中包含 5种状态（出生状态，就绪状态，运行状态、暂停状态、死亡状态）。出生状态就是线程被创建时的状态：当线程对象调用 start()方法后…

数据库 2023年6月16日
00117
使用postman Mock后端响应

使用postman Mock后端响应接口文档开发与评审后，前后端各自依照标准进行开发，此时前端人员有以下选择：使用工具自己mock构造后端数据验证已开发页面在项目中自己编写添…

数据库 2023年6月6日
00105
使用mybatis连接数据库–针对小白

实现mybatis连接数据库的步骤： 1.建表 2.pom.xml的配置 <?xml version="1.0" encoding="UTF-8…

数据库 2023年6月11日
0064
mysql的半同步复制

binlog dump线程何时向从库发送binlog mysql在server层进行了组提交之后，为了提高并行度，将提交阶段分为了 flush sync commit三个阶段，根据…

数据库 2023年6月9日
0096
“10X 程序员是如何思考的” 阅读总结

开发新需求前的四个思考原则（不能自答出来就问产品经理）这个功能不做会怎么样？有没有什么替代方案？ DoD（Definition of Done，完成的定义）在做事前，先定义完成…

数据库 2023年6月6日
00136
达梦数据库_DM8配置MPP主备

为了提高MPP系统可靠性，克服由于单节点故障导致整个系统不能继续正常工作，DM 在普通的MPP系统基础上，引入主备守护机制，将MPP节点作为主库节点，增加备库作为备份节点，必要时可…

数据库 2023年6月11日
00100
快速入门上手Markdown

第一次接触 Markdown是写代码初期看很多大佬的 github，他们的项目一定会有一份文件叫 Readme.md的文件他们由一些简单美观的符号和汉字字母组成，编译之后成为一篇简…

数据库 2023年6月11日
0095

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

刘畊宏男孩女孩看过来！运动数据分析挖掘！⛵

大家都在看