电影数据分析——国产烂片深度揭秘

2023年8月8日上午5:29 • Python • 阅读 52

1 读取数据，以”豆瓣评分”为标准，看看电影评分分布，及烂片情况

要求：

① 读取数据”moviedata.xlsx”，去除缺失值

② 查看”豆瓣评分”数据分布，绘制直方图、箱型图

③ 判断”烂片标准” → 这里以上四分位数（该样本中所有数值由小到大排列后第25%的数字）评分为”烂片标准”

④ 筛选出烂片数据，并做排名，找到TOP20

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore')
不发出警告

from bokeh.io import output_notebook
output_notebook()
导入notebook绘图模块

from bokeh.plotting import figure,show
from bokeh.models import ColumnDataSource,HoverTool
导入图表绘制、图标展示模块
导入ColumnDataSource模块

查看数据,数据清洗
import os
os.chdir(r'E:\Python数据分析\项目\国产烂片深度揭秘')
创建工作路径

df = pd.read_excel('moviedata.xlsx')
df = df[df['豆瓣评分'] > 0]
print('初步清洗后数据量为%i条' % len(df))
读取数据
删除"豆瓣评分"小于等于0的值

查看豆瓣评分情况
fig = plt.figure(figsize = (10,6))
plt.subplots_adjust(hspace=0.2)
创建绘图空间

ax1 = fig.add_subplot(2,1,1)
df['豆瓣评分'].plot.hist(stacked=True,bins=50,color = 'green',alpha=0.5,grid=True)
plt.ylim([0,150])
plt.title('豆瓣评分数据分布-直方图')
绘制直方图

ax2 = fig.add_subplot(2,1,2)
color = dict(boxes='DarkGreen', whiskers='DarkOrange', medians='DarkBlue', caps='Gray')
df['豆瓣评分'].plot.box(vert=False, grid = True,color = color)
plt.title('豆瓣评分数据分布-箱型图')
绘制箱型图

df['豆瓣评分'].describe()

判断是否符合正态分布
from scipy import stats
导入相关模块

u = df['豆瓣评分'].mean()  # 计算均值
std = df['豆瓣评分'].std()  # 计算标准差
stats.kstest(df['豆瓣评分'], 'norm', (u, std))
这里p值大于0.05，为正态分布

结论：以样本数据上四分位数为烂片评判标准 → 4.3分

筛选出烂片数据，并做排名，找到TOP20
data_lp = df[df['豆瓣评分']

烂片评价标准：4.3分，整理后烂片数据大概546条

2 什么题材的电影烂片最多？

要求：

① 按照”类型”字段分类，筛选不同电影属于什么题材

② 整理数据，按照”题材”汇总，查看不同题材的烂片比例，并选取TOP20

③ 将得到的题材烂片比例TOP20制作散点图 → 横坐标为”题材”类型，纵坐标为烂片比例，点大小为样本数量

提示：

① 删除”类型”字段空值的数据

② 由于一个电影”类型”会有多个，这里需要将一个电影每个”类型”都识别出来，在统计某个题材时都需要计算，例如：

如果一个电影的类型为：”喜剧/爱情”，则在计算”喜剧”、”爱情”题材的烂片比例时，都需要将该电影算上

③ 注意类型字段中，要删除空格字符

④ bokeh图设置点大小，这里通过开方减小数据差距 → size = count*0.5系数

筛选出所有题材类型，查看不同题材烂片比例

typelst = []
for i in df[df['类型'].notnull()]['类型'].str.replace(' ','').str.split('/'):
    typelst.extend(i)
取出所有电影的"类型"，并整理成列表
注意这里要删除"类型"中的空格字符

typelst = list(set(typelst))
print(typelst)
列表去重

创建函数，查看不同题材的烂片比例
这里要删除"类型"字段空值的数据

lst_type_lp = []
创建空字典、空列表

df_type = df[df['类型'].notnull()][['电影名称','豆瓣评分','类型']]
筛选数据

def f1(data,typei):
    dic_type_lp = {}
    datai = data[data['类型'].str.contains(typei)]
    # 筛选数据
    lp_pre_i = len(datai[datai['豆瓣评分']

3 和什么国家合拍更可能产生烂片？

要求：

① 按照”制片国家/地区”字段分类，筛选不同电影的制片地

② 整理数据，按照”题材”汇总，查看不同题材的烂片比例

提示：

① 删除”制片国家/地区”字段空值的数据

② 删除”制片国家/地区”中不包括”中国大陆”的数据

③ 制片地删除”中国大陆”、”中国”、”台湾”、”香港”等噪音数据

④ 筛选合作电影大于等于3部以上的国家

筛选电影制片地；
和什么国家合拍更可能产品烂片
df_loc = df[['电影名称','制片国家/地区','豆瓣评分']][df['制片国家/地区'].notnull()]
df_loc = df_loc[df_loc['制片国家/地区'].str.contains('中国大陆')]
筛选数据

loclst = []
for i in df_loc['制片国家/地区'].str.replace(' ','').str.split('/'):
    loclst.extend(i)
取出所有电影的制片地，并整理成列表；
注意这里要删除"制片国家/地区"中的空格字符

loclst = list(set(loclst))
loclst.remove('中国大陆')
loclst.remove('中国')
loclst.remove('台湾')
loclst.remove('香港')
print(loclst)
列表去重

创建函数，查看不同制片地的烂片比例

lst_loc_lp = []
创建空列表

def f2(data,loci):
    dic_loc_lp = {}
    datai = data[data['制片国家/地区'].str.contains(loci)]
    # 筛选数据
    lp_pre_i = len(datai[datai['豆瓣评分']=3]   # 筛选合作电影大于等于3部以上的国家
loc_lp_top20 = df_loc_lp.sort_values(by = 'loc_lp_pre',ascending = False).iloc[:20]
loc_lp_top20
筛选出烂片比例TOP的制片地

结论：综合来看，居然和欧美合作更可能产生烂片

4 卡司数量是否和烂片有关？

要求：

① 计算每部电影的主演人数

② 按照主演人数分类，并统计烂片率（分类：’1-2人’,’3-4人’,’5-6人’,’7-9人’,’10以上’）

③ 查看烂片比例最高的演员TOP20

提示：

① 通过”主演”字段内做分列来计算主演人数

② 需要分别统计不同主演人数的电影数量及烂片数量，再计算烂片比例

③ 这里可以按照明星再查看一下他们的烂片率，比如黄晓明、甄子丹、刘亦菲、范冰冰等

卡司数量与烂片的关系
计算每部电影的主演人数，并统计烂片率
分类：'1-2人','3-4人','5-6人','7-9人','10以上'
df['主演人数'] = df['主演'].str.split('/').str.len()
计算主演人数

df_leadrole1 = df[['主演人数','豆瓣评分']].groupby('主演人数').count()
df_leadrole2 = df[['主演人数','豆瓣评分']][df['豆瓣评分']2:
        dic_role_lp = {}
        lp_pre_i = len(datai[datai['豆瓣评分']

5 不同导演每年电影产量情况如何

要求：

① 通过”上映日期”筛选出每个电影的上映年份

② 查看不同导演的烂片比例、这里去除掉拍过10次电影以下的导演

③ 查看不同导演每年的电影产量制作散点图 → 横坐标为年份，纵坐标为每年电影平均分，点大小该年电影数量

** 用bokeh制图

** 横坐标限定为2007-2017年

** 绘制散点图只需要用产出过烂片的导演数据

提示：

① 注意要删除”上映日期”中的空格字符

② 绘制图表时，分开建立数据绘制

电影上映时间整理
电影"上映日期"字段整理 → 时间序列
年份限定为2007-2017年

df_year = df[['电影名称','导演','豆瓣评分','上映日期']][df['导演'].notnull()]
df_year = df_year[df_year['上映日期'].notnull()]
df_year['上映日期'] = df_year['上映日期'].str.replace(' ','')  # 删除空格字符
df_year['year'] = df_year['上映日期'].str[:4]   # 识别年份
df_year = df_year[df_year['year'].str[0] == '2']  # 去除错误数据
df_year['year'] = df_year['year'].astype(np.int)   # 年份设置为整型

筛选导演
directorlst = []
for i in df_year['导演'].str.replace(' ','').str.split('/'):
    directorlst.extend(i)
取出所有电影的主演，并整理成列表；  注意这里要删除"主演"中的空格字符

directorlst = list(set(directorlst))
print('筛选后的导演人数为%i人' % len(directorlst))
print(directorlst)
列表去重

查看不同导演的烂片比例
这里去除掉拍过10次电影以下的导演
年份限定为2007-2017年

lst_dir_lp = []
创建空字典、空列表

for i in directorlst:
    datai = df_year[df_year['导演'].str.contains(i)]
    if len(datai) >10:
        dic_dir_lp = {}
        lp_pre_i = len(datai[datai['豆瓣评分']

Original: https://blog.csdn.net/yangyuying_1219/article/details/114230063
Author: yangyuying_1219
Title: 电影数据分析——国产烂片深度揭秘

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/741644/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Python】学习规划

Python 2023年5月24日
0081
windows下sklearn库的安装教程，Numpy、Scipy、matplotlib

windows下sklearn库的安装教程 sklearn库 sklearn是scikit-learn的简称，是一个基于Python的第三方模块。sklearn库集成了一些常用的机…

Python 2023年8月24日
0047
Pytest自动化测试框架

fixture 特点：命令灵活：对于setup，teardown可以省略数据共享：在conftest.py配置里写方法可以实现数据共享，不需要import导入，可以跨文件共享 …

Python 2023年9月10日
0054
爬虫日记(92)：Scrapy的下载结果回应分析

前面分析了HTTP协议发起请求的过程，这个过程是比较复杂的，因为要处理的东西比较多，不但要处理代理的问题，还需要处理协议的数据，以及设置回调的过程。这么多东西放在一起，肯定是比较难…

Python 2023年10月6日
0060
【Python】利用Conda尝鲜Python 3.10

1 简介【文末有免费全套视频教程】就在几天前， Python3.10的第一个正式版本 3.10.0发布，之前我们只是从其各个测试版本中捕风捉影地知晓了一些可能加入的新特性，而在…

Python 2023年9月8日
0054
Mybatis缓存机制

什么是缓存？为什么使用缓存？什么场景下使用缓存？缓存（Cache）就是数据交换的缓冲区，一个临时存储数据的地方，当我们读取数据时会首先从缓存中查找需要的数据，如果找到了则直接…

Python 2023年10月13日
0029
如何将读取的mat文件转换为python中的矩阵

如何将读取的mat文件转换为python中的矩阵导入numpy模块 import numpy as np address = ‘E:/’ #the add…

Python 2023年8月30日
0040
Vue3 Vite3 多环境配置 – 基于 vite 创建 vue3 全家桶项目(续篇）

在项目或产品的迭代过程中，通常会有多套环境，常见的有： dev：开发环境 sit：集成测试环境 uat：用户接收测试环境 pre：预生产环境 prod：生产环境环境之间配置可能存…

Python 2023年10月19日
00154
19.python爬虫—Scrapy

; 19.1 什么是scrapy Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，我们只需要实现少量的代码，就能够快速的抓取 Scrapy 使用了Twiste…

Python 2023年10月6日
0056
如何使用PyCharm快速创建一个Flask项目

创建一个新的Flask项目 File – New Project选择Flask 之后在创建的文件夹里有自动包含以下三个文件：其中app.py的默认格式如下： from…

Python 2023年8月9日
0051
Python中range()函数的使用方法

range()函数可以产生一系列的数字。当需要叠加一些数字时，可以用到range()函数。 1 基本语法 range()函数的基本语法如下所示。 range(start, stop…

Python 2023年8月1日
0075
【MySQL】如何构建一个完整的MySQL知识体系（MySQL专栏启动）

📫作者简介：小明java问道之路，专注于研究 Java/ Liunx内核/ C++及汇编/计算机底层原理/源码，就职于大型金融公司后端高级工程师，擅长交易领域的高安全/可用/并发…

Python 2023年9月29日
0041
Numpy+PyTorch基础《python深度学习—-基于pytorch》

第1章 Numpy基础 Numpy封装了一个新的数据类型ndarray(N-dimensional Array), 它是一个多维数组对象 1.1.1 从已有的数据中创建数组将列表…

Python 2023年8月28日
0083
【正点原子I.MX6U-MINI】通过tftp从Ubuntu中下载zImage 和设备树文件 | 从网络启动Linux系统

从网络启动linux系统的唯一目的就是为了调试！不管是为了调试linux系统还是linux下的驱动。每次修改linux系统文件或者linux下的某个驱动以后都要将其烧写到EMMC中…

Python 2023年10月24日
0047
推理网络精度不达标，5个方法轻松搞定

摘要：推理时精度错误或不达标，怎么办？模型推理时，模型推理功能调测OK，但推理精度错误，或推理精度与标杆数据存在少量差距，这时该怎么做呢？一、推理时精度错误或不达标，怎么办？模…

Python 2023年10月29日
0043
python colormap jet_无法在matplotlib中显示普通图像，它将使用jet colormap继续显示

数据存储为64位numpy数组，从docsFor RGB and RGBA images, matplotlib supports float32 and uint8 data t…

Python 2023年9月6日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

电影数据分析——国产烂片深度揭秘

1 读取数据，以”豆瓣评分”为标准，看看电影评分分布，及烂片情况

2 什么题材的电影烂片最多？

3 和什么国家合拍更可能产生烂片？

4 卡司数量是否和烂片有关？

5 不同导演每年电影产量情况如何

大家都在看