Python案例实操3-电影数据分析

2023年7月18日上午10:47 • 人工智能 • 阅读 69

Python案例实操3-电影数据分析

一、读取数据
二、数据处理
*
1.索引重命名
2.合并数据集
3.选取子集
4.缺失值处理
5.数据格式转换
三、数据分析及可视化
*
1.电影类型随时间变化趋势图
2.统计电影分类情况
3.电影类型与利润的关系
4.Universal Pictures 和 Paramount Pictures 公司电影发行数据对比
5.改编电影和原创电影的对比情况
6.电影时长与电影票房及评分的关系
7.电影关键词分析

本案例数据来源于 kaggle 上的
Movie数据集

，主要研究以下几个问题：

电影类型如何随着时间的推移发生变化的？
统计电影分类的情况?
电影类型与利润的关系？
Universal 和 Paramount 两家影视公司的对比情况如何？
改编电影和原创电影的对比情况如何？
电影时长与电影票房及评分的关系？
分析电影关键字

实战开始：

一、读取数据

creditlist = pd.read_csv(r'E:\WorkSpaces\Python\data\tmdb\tmdb_5000_credits.csv')
movielist = pd.read_csv(r'E:\WorkSpaces\Python\data\tmdb\tmdb_5000_movies.csv')

二、数据处理

1.索引重命名


creditlist.rename(columns={'movie_id': 'id', 'crew': 'directors', 'cast': 'actors'}, inplace=True)

movielist.rename(
    columns={'original_language': 'language',
             'production_companies': 'companies', 'production_countries': 'countries'}, inplace=True)

2.合并数据集

合并数据集，注意列索引保持一致


databoth = pd.merge(creditlist, movielist, on=['id', 'title'])

3.选取子集

选取子集，选择我们需要的列


datalist = pd.DataFrame(databoth,
                        columns=['title', 'genres', 'language', 'directors', 'actors', 'release_date', 'runtime',
                                 'vote_average', 'vote_count', 'keywords', 'companies',
                                 'countries', 'budget', 'revenue', 'popularity'])

4.缺失值处理

少量缺失值可进行手动赋值处理，大量缺失值可使用dropna()删除或者fillna()替换


res_null = pd.isnull(datalist).sum()
print('缺失值检测结果：\n', res_null)

mask = datalist.loc[:, 'release_date'].isnull()
mask2 = datalist.loc[:, 'runtime'].isnull()

movie_name = datalist.loc[mask, 'title']
movie_name2 = datalist.loc[mask2, 'title']
print('缺失上映日期的电影名称为：\n', movie_name)

print('缺失电影时长的电影名称为：\n', movie_name2)

datalist.loc[mask, 'release_date'] = '2014-06-01'
datalist.iloc[2656, datalist.columns.get_indexer(['runtime'])] = 94
datalist.iloc[4140, datalist.columns.get_indexer(['runtime'])] = 81

5.数据格式转换


def data_format(datas):
"""
    数据格式转换
    :param datas: 数据
    :return: 转换之后的数据
"""
    name_list = []

    for item in datas:

        if item:
            movie_type = item['name']
            name_list.append(movie_type)

    return ','.join(name_list)

print('电影类型：\n', datalist.loc[:, 'genres'])

datalist.loc[:, 'genres'] = datalist.loc[:, 'genres'].transform(json.loads)

datalist.loc[:, 'genres'] = datalist.loc[:, 'genres'].transform(data_format)
print('电影类型 转换之后的结果：\n', datalist.loc[:, 'genres'])

三、数据分析及可视化

1.电影类型随时间变化趋势图

思路：

在每行数据后追加所有电影类型列，初始值为0
遍历每一部电影的’genres’列，把分类包含在该列中的值置为1
分组并按照类型求和


datalist.loc[:, 'release_date'] = pd.to_datetime(datalist.loc[:, 'release_date'])

datalist.loc[:, 'release_year'] = datalist.loc[:, 'release_date'].dt.year

temp_list = [i.split(",") for i in datalist["genres"]]

typelist = np.unique([i for j in temp_list for i in j])

typelist = np.delete(typelist, typelist == '')
for column in typelist:

    datalist.loc[:, column] = 0

    mask = datalist.loc[:, 'genres'].str.contains(column)

    datalist.loc[mask, column] = 1

res = datalist.groupby('release_year')[typelist].sum()
print(res)

plt.figure()

plt.rcParams['font.sans-serif'] = 'SimHei'

plt.rcParams['axes.unicode_minus'] = False

x = res.index
for movie_type in res.columns:

    y = res[movie_type]

    plt.plot(x, y)

plt.title('电影类型随时间变化趋势图')

plt.legend(res.columns, fontsize='x-small')

plt.ylabel('数量')

plt.xlabel('年份')

plt.grid(True, alpha=0.2)

plt.savefig('./电影类型随时间变化趋势图.jpg')

plt.show()

2.统计电影分类情况

思路
1、创建一个全为0的dataframe，列索引置为电影的分类，temp_df
2、遍历每一部电影，temp_df中把分类出现的列的值置为1
3、求和


temp_df = pd.DataFrame(np.zeros([datalist.shape[0], typelist.shape[0]], dtype=int), columns=typelist)

for i in range(datalist.shape[0]):

    temp_df.iloc[i, temp_df.columns.get_indexer(temp_list[i])] = 1

temp_df.sum().sort_values().plot(kind="pie", figsize=(20, 8), fontsize=10, autopct="%.2f", title='电影分类情况统计')

plt.rcParams['font.sans-serif'] = 'SimHei'
plt.savefig('电影分类情况统计.jpg')

3.电影类型与利润的关系

对比各种电影类型的平均利润 —柱状图
Music —> profit — sum / music 电影的数量 count ===>平均每一个music电影的利润


datalist.loc[:, 'profit'] = datalist.loc[:, 'revenue'] - datalist.loc[:, 'budget']
print('利润：\n', datalist.loc[:, 'profit'])

movie_type_profit = []

for column in typelist:

    mask = datalist.loc[:, column] == 1

    mean_profit = datalist.loc[mask, 'profit'].mean()

    movie_type_profit.append(mean_profit)

print(typelist)
print(movie_type_profit)

res_series = pd.Series(data=movie_type_profit, index=typelist).sort_values()

res_series.plot(kind="barh", figsize=(20, 8), fontsize=10, title='电影类型和利润关系图', ylabel='电影分类')

plt.rcParams['font.sans-serif'] = 'SimHei'
plt.savefig('电影类型和利润关系图.jpg')

4.Universal Pictures 和 Paramount Pictures 公司电影发行数据对比

1）Universal Pictures 和 Paramount Pictures 公司电影发行量对比

对’companies’列数据进行处理，判断是否包含Universal Pictures 或 Paramount Pictures公司


datalist.loc[:, 'Universal Pictures'] = 0
datalist.loc[:, 'Paramount Pictures'] = 0

mask1 = datalist.loc[:, 'companies'].str.contains('Universal Pictures')

datalist.loc[mask1, 'Universal Pictures'] = 1

mask2 = datalist.loc[:, 'companies'].str.contains('Paramount Pictures')

datalist.loc[mask2, 'Paramount Pictures'] = 1

res_pie = datalist.loc[:, ['Universal Pictures', 'Paramount Pictures']].sum()

res_pie.plot(kind="pie", figsize=(20, 8), fontsize=10, autopct="%d", title='电影发行量对比图')

plt.rcParams['font.sans-serif'] = 'SimHei'
plt.savefig('电影发行量对比图.jpg')

2）分析 Universal Pictures 和 Paramount Pictures 两家影视公司电影发行量随时间变化的趋势

按照 release_year分组，对发行数量求和


res_line = datalist.groupby(by='release_year')[['Universal Pictures', 'Paramount Pictures']].sum()
res_line.plot(figsize=(20, 8), fontsize=20, title='发行量随时间变化趋势')
plt.ylabel('发行量')
plt.xlabel('时间')
plt.savefig('发行量随时间变化趋势.jpg')

5.改编电影和原创电影的对比情况

如何确定电影是改编的？还是原创的呢？
与电影相关的关键字 keywords
如果在这里是根据小说改编的 base on novel/fairy tale/…

只要出现 base on 这个字眼就说明是改编的


datalist.loc[:, 'not_original'] = '原创'

mask = datalist.loc[:, 'keywords'].str.contains('based on')

datalist.loc[mask, 'not_original'] = '改编'

datalist.loc[:, 'profit'] = datalist.loc[:, 'revenue'] - datalist.loc[:, 'budget']
res_not_original = datalist.groupby('not_original')[['budget', 'revenue', 'profit']].mean()
print('res_not_original\n', res_not_original)

res_not_original.plot(kind="bar", figsize=(20, 8), fontsize=20, title='原创与改编电影预算、收入、利润对比柱状图')

plt.rcParams['font.sans-serif'] = 'SimHei'
plt.ylabel('美元')
plt.xlabel('原创或改编')
plt.savefig('原创与改编电影预算、收入、利润对比柱状图.jpg')

6.电影时长与电影票房及评分的关系

按照电影时长分组，查看不同电影时长的平均票房、平均评分
1、自定义时长分组
2、进行离散化
3、分组聚合，对票房和评分进行求均值

print('查看电影时长、票房、评分：\n', datalist.loc[:, ['runtime', 'revenue', 'vote_average']].head())

bins = [0, 60, 90, 120, 150, 180, 210, 240]

datalist.loc[:, 'runtime'] = pd.cut(x=datalist.loc[:, 'runtime'],
                                    bins=bins,
                                    include_lowest=True)

res_runtime = datalist.groupby('runtime')[['revenue', 'vote_average']].mean().sort_values(
    by=['revenue', 'vote_average'])
print('res_runtime:\n', res_runtime)

ax = res_runtime.plot(secondary_y=['vote_average'], figsize=(10, 5), title='不同时长的电影票房、评分的对比柱状图')
ax.set_xlabel('时长（分钟）')
ax.set_ylabel('票房（美元）')
ax.right_ax.set_ylabel('评分')
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.savefig('不同时长的电影票房、评分的对比柱状图.jpg')

7.电影关键词分析

生成电影关键词词云

from wordcloud import WordCloud, STOPWORDS

keywords_list = []
    for x in datalist['keywords']:
        keywords_list.append(x)
    str_key = ''.join(keywords_list)
    str_key.replace('\'s', '')

    stopwords = STOPWORDS
    stopwords.update(['based', 'film'])

    wc = WordCloud(
        background_color="white",
        font_path="simkai.ttf",
        stopwords=stopwords
    )
    wc.generate_from_text(str_key)

    plt.figure(figsize=(10, 5))
    plt.imshow(wc)
    plt.axis("off")
    plt.savefig(r'电影关键词.jpg')

参考文章：https://blog.csdn.net/markshui/article/details/108214328

Original: https://blog.csdn.net/weixin_45698637/article/details/122777579
Author: Buckletime
Title: Python案例实操3-电影数据分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700634/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas常用操作小结

记录一些常用的操作，供日常使用 df.value_counts() 统计表类别个数 value_counts(values,sort=True, ascending=False, …

人工智能 2023年7月17日
0045
神经网络的基本结构

作为一个学哲学的，只能从最基础的知识开始。这篇文章仅仅是笔记，不要喷我…… 一、神经网络的分层顾名思义，神经网络是一种网络，它分为三层：输入层、隐藏层和…

人工智能 2023年7月27日
0057
医疗知识图谱问答系统（python neo4j)

这是中科院软件所刘焕勇老师在github上的一个开源项目地址：本项目构建了以疾病为中心的医疗知识图谱，实体规模4.4万，实体关系规模30万。并基于此，搭建起了一个可以回答18类…

人工智能 2023年7月26日
0061
Multi-View Learning（多视图学习/多视角学习）是什么？ Co-training（协同训练）和它的关系

一句话解释什么是Multi-View Learning：从多个视角进行学习，可以让模型从多方面更好的理解事物，从而提升模型的性能多个视角的来源： (1) 多个源（multipl…

人工智能 2023年6月15日
0072
python简单命令_python常用命令有哪些

Python常用的命令有：1、打开csv文件；2、数据重新排序【dataframe index】；3、求标准差；4、向上取整；5、希尔伯特变换；6、dataframe修改列名；7、…

人工智能 2023年7月7日
0082
机器学习——逻辑回归(分类算法）、聚类算法

目录模型的保存与加载逻辑回归——能得出概率值逻辑回归的损失函数、优化 sklearn逻辑回归API LogisticRegression回归案例——良／恶性乳腺癌肿瘤预测 p…

人工智能 2023年7月1日
0080
windows 安装mysql

资源链接MySQL :: Download MySQL Community Server 1）解压重命名mysql-8.0.31-winx64.zip-》mysql8 …

人工智能 2023年6月29日
0080
【目标检测】YOLOX ，YOLO系列的集大成者

文章目录 * – 一、YOLOX简介 – 二、YOLOX模型结构（Decouple head） – 三、YOLOX的改进之处 – +…

人工智能 2023年7月12日
0066
快速上手：图聚类入门 Graph Clustering

硕士研究工作基本告一段落了，静候佳音中～其实一直想总结一下图节点聚类的一些工作，算是一个逗号吧。个人总结，若有错误欢迎指正。本文从问题定义入手，再到近几年的工作，最后进行横向对…

人工智能 2023年6月15日
0089
应用发布新版本如何保障流量无损

作者：扬少历史上 90%的故障源于业务新版本上线，如何最大化保障功能迭代过程中业务流量无损一直是开发者比较关心的问题。尤其对于分布式架构的微服务应用而言，服务之间的依赖关系错综复…

人工智能 2023年6月28日
0087
CT图像中的窗宽和窗位

通常我们称CT图像为DICOM(Digital Imaging and Communications in Medicine)图像，但是DICOM不是一个图像或者文件格式，它是包含…

人工智能 2023年6月21日
0087
AI遮天传 ML-回归分析入门

相信大家初高中都学习过求解回归线方程，大学概率论的第九章也有讲，忘记了也不要紧，这里简单回忆一下：线性回归方程为：我们可以先求出x、y的均值：对于系数 : 对于系数 : 例：已知…

人工智能 2023年6月18日
00109
DataFrame筛选出指定列值的行

对于一个DataFrame，常常需要筛选出某列为指定值的行。 pandas中获取数据的有以下几种方法：布尔索引位置索引标签索引使用API 假设df数据如下： import …

人工智能 2023年6月15日
0097
Python实现秒杀抢购某宝商品，不再害怕双十一抢不到了

前言马上就要双十一咯，给你们展示一下我在618干的大事，直接用Python抢购商品今天就来分享给你们吧这又快要到付尾款的日子咯，有些哥们需要送礼物给对象的，赶紧买这些预售的商…

人工智能 2023年6月16日
0073
Pytorch安装，这一篇就够了，绝不踩坑

在pytorch安装时踩到了不少坑，看了好多博客，最后整合了一份不会踩坑的安装教程，主要是参考各个博主的内容，从零开始安装pytorch，分享给大家！因为这篇文章是整合各个链接，…

人工智能 2023年7月28日
0088
OpenCV绘制图像与文字(可作为脚手架代码)(python) Open_CV系列（四）

文章目录 1. cv2.line()绘制线段 2. cv2.rectangle() 绘制矩形 3. cv2.circle() 绘制圆形 * 3.1 绘制实现圆与空心圆 3.2 …

人工智能 2023年6月18日
0087

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python案例实操3-电影数据分析

Python案例实操3-电影数据分析

1.索引重命名

2.合并数据集

3.选取子集

4.缺失值处理

5.数据格式转换

1.电影类型随时间变化趋势图

2.统计电影分类情况

3.电影类型与利润的关系

4.Universal Pictures 和 Paramount Pictures 公司电影发行数据对比

5.改编电影和原创电影的对比情况

6.电影时长与电影票房及评分的关系

7.电影关键词分析

大家都在看