【数据分析】豆瓣电影Top250爬取的数据的可视化分析

2023年5月25日下午11:12 • 大数据 • 阅读 212

豆瓣Top250网址将之前爬取到的豆瓣电影进行简单的可视化：数据列表保存为CSV格式，如图

导入数据做好准备

import pandas as pdimport numpy as npimport matplotlib.pylab as pltimport refrom numpy import rankfrom builtins import mapfrom datashape.coretypes import MapMovie=pd.read_csv('./doubanmovietop.csv')

检查数据头

Movie.head()

Unnamed: 0

title

info

rating_num

comment_num

daoyan

date

guojia

juqing

肖申克的救赎

希望让人自由。

9.7

1682392

导演: 弗兰克·德拉邦特 Frank Darabont主演: 蒂姆·罗宾斯 Tim Robb…

1994

美国

犯罪剧情

霸王别姬

风华绝代。

9.6

1244650

导演: 陈凯歌 Kaige Chen主演: 张国荣 Leslie Cheung / 张丰毅 …

1993

中国大陆中国香港

剧情爱情同性

阿甘正传

一部美国近现代史。

9.5

1301770

导演: 罗伯特·泽米吉斯 Robert Zemeckis主演: 汤姆·汉克斯 Tom Han…

1994

美国

剧情爱情

这个杀手不太冷

怪蜀黍和小萝莉不得不说的故事。

9.4

1495321

导演: 吕克·贝松 Luc Besson主演: 让·雷诺 Jean Reno / 娜塔莉·波…

1994

法国

剧情动作犯罪

美丽人生

最美的谎言。

9.5

760464

导演: 罗伯托·贝尼尼 Roberto Benigni主演: 罗伯托·贝尼尼 Roberto…

1997

意大利

剧情喜剧爱情战争

Rating=Movie['rating_num']bins=[8,8.5,9,9.5,10]  rat_cut=pd.cut(Rating,bins=bins)rat_class=rat_cut.value_counts()  rat_pct=rat_class/rat_class.sum()*100  rat_arr_pct=np.array(rat_pct)f1=plt.figure(figsize=(9,9))plt.title('DoubanMovieTop250\nRatingDistributin(0~10)')plt.pie(rat_arr_pct,labels=rat_pct.index,colors=['r','g','b','c'],autopct='%.2f%%',startangle=75,explode=[0.05]*4)  plt.savefig('MovieTop250.RatingDistributin(0~10).png')f1.show()

year=Movie['date']for i in year.index:    if len(year[i])>4:        year.drop(i,inplace=True)  year=year.astype(int)bins=np.linspace(min(year)-1,max(year)+1,10).astype(int)  year_cut=pd.cut(year,bins=bins)year_class=year_cut.value_counts()year_pct=year_class/year_class.sum()*100year_arr_pct=np.array(year_pct)color=['b', 'g', 'r', 'c', 'm', 'y', (0.2,0.5,0.7), (0.6,0.5,0.7),(0.2,0.7,0.1)]  f2=plt.figure(figsize=(9,9))patches,out_text,in_text=plt.pie(year_arr_pct,labels=year_pct.index,colors=color,autopct='%.2f%%',explode=[0.05]*9,startangle=30)plt.title('MovieTop250\nYears Distribution')f2.show()

豆瓣电影Top250，电影排名&评价人数&电影评分的散点图：

rank=np.array(Movie.index,dtype=int)+1 Movie['0']=rankf3=plt.figure(3,figsize=(12,10))plt.scatter(x=Movie['0'],y=Movie['comment_num'],c=Movie['rating_num'],s=80)plt.title('Douban Movie\nRank and Rating People by Rating',fontsize=20)plt.xlabel('Rank',fontsize=15)plt.ylabel('Rating People',fontsize=15)plt.axis([-5,255,0,750000])  plt.colorbar()  plt.savefig('DoubanMovie_Rank_and_RatingPeople_by_Rating.png')plt.show()

import pandas as pdimport numpy as npimport matplotlib.pylab as pltfrom matplotlib.font_manager import FontProperties  Movie=pd.read_csv('./doubanmovietop.csv',encoding='utf-8')country_iter=(set(x.split(' ')) for x in Movie['guojia']) countries=sorted(set.union(*country_iter)) df=pd.DataFrame(np.zeros((len(Movie),len(countries))),columns=countries)for i,gen in enumerate(Movie['guojia']):     df.ix[i,gen.split(' ')]=1  num_of_country=df.sum() num_of_country[4]=num_of_country[1]+num_of_country[2]+num_of_country[4]  num_of_country.sort_values(inplace=True,ascending=False)f1=plt.figure()for i,gen in enumerate(num_of_country[:10]):    plt.bar(i,gen)   names=list(num_of_country.index)plt.xticks(np.arange(10),names,fontproperties='SimHei',rotation =60)  plt.ylabel('Movie Number')plt.title('Douban Movie\nMovie Distribution by Countries')f1.show()

genre_iter=(set(x.split(' ')) for x in Movie['juqing'])genre=sorted(set.union(*genre_iter))frame=pd.DataFrame(np.zeros((len(Movie),len(genre))),columns=genre)for i,gen in enumerate(Movie['juqing']):    frame.ix[i,gen.split(' ')]=1genre_sum=frame.sum()genre_sum.sort_values(inplace=True,ascending=False)f2=plt.figure(2)'''for i,gen in enumerate(genre_sum[:8]):    plt.bar(i,gen)names=list(genre_sum.index)plt.xticks(np.arange(8)+0.4,names,fontproperties='SimHei')plt.show()'''p2=plt.bar(np.arange(8),genre_sum.values[:8],align='center') names=list(genre_sum.index)plt.xticks(np.arange(8),names,fontproperties='SimHei')plt.legend((p2[0],),('MovieNumber',)) plt.ylabel('Movie Number')plt.title('Douban Movie\nDistribution by Genre')plt.show()

如需数据请关注公众号后台回复：豆瓣电影
即可获取~

Original: https://blog.51cto.com/u_15707053/5441341
Author: 刘旺學長
Title: 【数据分析】豆瓣电影Top250爬取的数据的可视化分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/516764/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Kafka存储内幕详解

1.概述随着微服务和分布式计算的出现，Kafka已经成为各种主流平台系统架构中不可缺少的组成部分了。在本篇文章中，笔者将尝试为大家来解密Kafka的内部存储机制是如何运作的。 2…

大数据 2023年5月28日
0088
nginx【29】冲突的配置指令以谁为准？

通过实例向大家演示HTTP模块,并结合以前讲解的知识; nginx的模块非常多,包括官方模块和第三方模块;每一个模块又都有自己独特的指令;这些繁琐的指令是非常难以记忆的; 接下来带…

大数据 2023年5月26日
0084
序列化二叉树

序列化二叉树问题描述 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service…

大数据 2023年6月3日
0068
Redis(lua脚本) 实现秒杀抢购商品

大数据 2023年11月15日
0048
Apache Kafka Clients

Alternative Java Of course the main project maintains a set of jvm-based clients. But here…

大数据 2023年5月28日
0060
docker 安装 confluence

sudo docker run -m 4096M –privileged=true –memory-swap -1 -e LANG=en_US.UTF-8 -e JVM_MAX…

大数据 2023年5月29日
0062
【MapReduce】分析每个部门工资总额的数据处理流程并开发程序

分析每个部门总额的数据处理流程并开发程序 1 分析每个部门工资总额的数据处理流程 2 每个部门工资总额程序开发 2.1 创建框架 2.2 开发Mappe…

大数据 2023年5月24日
0093
Docker常用命令

帮助命令 docker version # 查看当前docker的本本信息 docker info # 显示docker的系统信息包括docker的镜像信息和容器信息 docke…

大数据 2023年5月28日
0067
git-history：一款用于分析保存在Git和SQLite中的网页抓取数据的工具

大多数人都知道Git scraping ，这是一种网页抓取工具编程技术，你可以定期将数据源快照抓取到Git 存储库来跟踪数据源随时间的变化。如何分析这些收集到的数据是个公认的难题…

大数据 2023年11月11日
0033
Sqoop 从 MySQL 导数据到 HDFS

Sqoop 从 MySQL 导数据到 HDFS 原创 wx62be9d88ce2942022-07-01 18:00:14博主文章分类：大数据 ©著作权文章标签大数据 sqoo…

大数据 2023年5月25日
0073
大数据—-Hive学习（6）—-Hive 基本操作4

大数据 2023年11月14日
0033
大数据学习笔记——————-(17_1)

第17章 KAFKA 生产者与消费者实例 17.1 生产者实例用Java客服端来创建一个发布和订阅消息的应用程序。Kafka生产者客服端由如下API组成。 17.1.1Kafka…

大数据 2023年5月26日
00101
Sqlite注入基础

更多渗透技能欢迎搜索公众号：白帽子左一作者：掌控安全-手电筒前置知识 Sqlite数据库的特点是它每一个数据库都是一个文件，当你查询表的完整信息时会得到创建表的语句，基本和m…

大数据 2023年11月11日
0061
Win 11 下 VS2019 连接Linux 跨平台开发使用SQLite3的开发环境配置

本人开发环境： Window系统版本：Win 11 Visual Studio 2019版本：16.11.7 Linux版本：Ubuntu 16.0.1 SQLite3版本：337…

大数据 2023年11月11日
0045
ASP.Net Core 发布到 Centos Docker

1.VS2019 创建一个netcore3.0项目选中Docker 选中Docker后会自动创建DockerFile #See https://aka.ms/containerf…

大数据 2023年5月29日
0094
大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA?

大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA? 大家知道，在生产环境的大数据集群中，在向资源管理器YARN提交作业时，我们一般会将作业提交到管理员指…

大数据 2023年11月13日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【数据分析】豆瓣电影Top250爬取的数据的可视化分析

豆瓣Top250网址 将之前爬取到的豆瓣电影进行简单的可视化： 数据列表保存为CSV格式，如图

导入数据 做好准备

检查数据头

豆瓣电影Top250，电影排名&评价人数&电影评分的散点图：

大家都在看

豆瓣Top250网址将之前爬取到的豆瓣电影进行简单的可视化：数据列表保存为CSV格式，如图

导入数据做好准备