次案例主要是对数据计算的应用。
如题,数据还是movie数据,分别通过以下指标分析导演和演员的盈利能力
1.计算导演的总票房gross,排名
2.计算导演的总利润gross-budget,排名
3.筛选出那些导演总利润是盈利的,那些导演的总利润是亏损的
4.imdb评分的分布情况
5.imdb平均分排名前二十导演
6.电影主演actor_1_name的总票房,排名
7.导演和电影主演的总票房,排名
一、计算导演的总票房gross,排名
df = pd.read_csv('movie_metadata.csv',
usecols=[0,1,2,3,4,5,6,7,8,9,10,11,13,15,27])
data=df.dropna(how='any')
data
#%%
data['profit']=data['gross'] - data['budget']
group_director_gross=data.groupby('director_name')['gross'].sum()/10000
group_director_gross.sort_values(ascending=False)
通过计算得出的seires可以看出来这些导演的票房都很高。
二、计算导演的总利润gross-budget,排名
group_director_profit=data.groupby('director_name')['profit'].sum()/10000
group_director_profit.sort_values(ascending=False)
这些导演的利润都很高
三、筛选出那些导演总利润是盈利的,那些导演的总利润是亏损的
group_director_gross[group_director_profit.values>0]
group_director_gross[group_director_profit.values
有八百多位导演拍出来的电影是挣钱的。
有七百多位导演拍出来电影是赔钱的。
四、imdb评分的分布情况
imdb = data.groupby('imdb_score')['movie_title'].count()
plt.figure()
imdb.plot()
plt.savefig('imdb.png')
plt.show()
可以看出来大部分的分数分布在6-7分之间,5分以下基本奇葩,九分以上可能高质量。
五、imdb平均分排名前二十导演
director_mean = data.groupby('director_name')['imdb_score'].mean()
top20_imdb_directors=director_mean.sort_values(ascending=False)[:20]
plt.figure(figsize=(18.0,10.0))
top20_imdb_directors.plot(kind='barh')
plt.savefig('top20_imdb_directors.png')
plt.show()
六、电影主演actor_1_name的总票房,排名
group_actor1_gross = data.groupby('actor_1_name')['gross'].sum()
group_actor1_gross.sort_values(ascending=False)
七.导演和电影主演的总票房,排名
group_diract_gross=data.groupby(by=['director_name','actor_1_name'])['gross'].sum()
group_diract_gross.sort_values(ascending=False)
Original: https://blog.csdn.net/andakiwukawa/article/details/119090027
Author: andakiwukawa
Title: 电影分析案例-分析导演、演员拍电影盈利和票房(2021/07/25)
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/679751/
转载文章受原作者版权保护。转载请注明原作者出处!