【Python数据分析实战】豆瓣读书分析(含代码和数据集)

2023年8月6日下午10:16 • Python • 阅读 80

@[TOC]豆瓣

一.导入数据

数据集：
链接：douban.csv
提取码：pmls


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df=pd.read_csv(r'/PythonTest/Data/book_douban.csv',index_col=0)

df.head(10)
![【Python数据分析实战】豆瓣读书分析(含代码和数据集)](https://johngo-pic.oss-cn-beijing.aliyuncs.com/articles/20230619/eb27ca3a59a44089a587da9b2774fbf2.png)

`python
df.info()

二.数据清洗


df=df.rename(columns={'数':'页数'})

df.reset_index(drop=True,inplace=True)

df.shape

df.describe()

2.1清理null值


df.replace('None',np.nan,inplace=True)

df.isnull().sum()

del df['ISBM']

df.dropna(axis=0,subset=['作者','出版社','出版时间','页数','价格','评分','评论数量'],
          how='any',inplace=True)

df.reset_index(drop=True,inplace=True)

df.isna().sum()

2.2清洗出版时间列

从数据集中可以发现出版时间的数据格式多样，有1999,2012/12,1923-4,2019年六月，因此需要提取出其年份


import re
df['出版时间']=df['出版时间'].str.replace(' ','')
for index,row in df.iterrows():
    num=re.findall('\d+',row[3])
    num=''.join(num)[0:4]
    df.iloc[index,3]=num

df.drop(df[df['出版时间'].str.len()!=4].index,axis=0,inplace=True)
df['出版时间']=df['出版时间'].astype(np.int32)

df.drop(df[df['出版时间']>2019].index,inplace=True)

2.3转换评分及平均数量的数据类型


df['评分']=df['评分'].astype(float)
df['评论数量']=df['评论数量'].astype(np.int32)

2.4清洗页数列


df['页数'].str.contains('\.').value_counts()

结果：
False 46173
True 7
Name: 页数, dtype: int64


df['页数']=df['页数'].apply(lambda x:x.replace(',','').replace(' ',''))
df.drop(df[~(df['页数'].str.isdecimal())].index,axis=0,inplace=True)

df['页数']=df['页数'].astype(np.int32)

df.drop((df[df['页数']==0]).index,inplace=True)

2.5清洗价格列


df['价格']=df['价格'].apply(lambda x:x.replace(',','').replace(' ',''))
for r_index,row in df.iterrows():
    if row[5].replace('.','').isdecimal()==False:
        df.drop(r_index,axis=0,inplace=True)
    elif row[5][-1].isdecimal()==False:
        df.drop(r_index,axis=0,inplace=True)

df['价格']=df['价格'].astype(float)

df.drop(df[df['价格']<1].index,inplace=True)

2.6去除书名重复的数据


df['书名'].value_counts()


df['书名'].duplicated().value_counts()

结果：
False 42813
True 2073
Name: 书名, dtype: int64


df=df.sort_values(by='评论数量',ascending=False)
df.reset_index(drop=True,inplace=True)


df.drop_duplicates(subset='书名', keep='first',inplace=True)
df.reset_index(drop=True,inplace=True)

df['书名'].value_counts()


df.to_excel(r'/PythonTest/Data/douban_book.xls',encoding='utf_8_sig')
df

2.7哪个出版社的书籍评分较高？


press=df['出版社'].value_counts()
press=pd.DataFrame(press)
press=press.reset_index().rename(columns={'index':'出版集团','出版社':'出版数量'})
press

lst=press[press['出版数量']>200]['出版集团'].tolist()

press_rank=df[df['出版社'].isin(lst)].groupby(by='出版社',as_index=False).agg(
    {'评分':np.mean}).sort_values(by='评分',ascending=False)

press_rank.to_excel(r'/PythonTest/Data/press_rank.xls',encoding='utf_8_sig')
press_rank

2.8哪些书值得一读？


sor=df[df['评论数量']>50000].sort_values(by='评分',ascending=False)
sor


df['评分'].mean()

sor.eval('加权总分=(((评论数量/(评论数量+50000))*评分)+(50000/(评论数量+50000)))',inplace=True)
book_rank=sor.sort_values(by='加权总分',ascending=False).reset_index(drop=True).head(20)

book_rank.to_excel(r'/PythonTest/Data/book_rank.xls',encoding='utf_8_sig')
book_rank

2.9作者排名（10部作品及以上）


df1=df[df['评论数量']>100]

df1=df1[df1['评分']>=8]

writer=df1['作者'].value_counts()
writer=pd.DataFrame(writer)
writer.reset_index(inplace=True)
writer.rename(columns={'index':'作家','作者':'作品数量'},inplace=True)
writer


lst1=writer[writer['作品数量']>=10]['作家'].tolist()

writer_rank=df1[df1['作者'].isin(lst1)].groupby(by='作者',as_index=False).agg(
    {'评分':np.mean}).sort_values(by='评分',ascending=False).reset_index(drop=True).head(20)

writer_rank.to_excel(r'/PythonTest/Data/writer_rank.xls',encoding='utf_8_sig')
writer_rank

三.数据分析与可视化

3.1各年作品出版数量折线图

; 3.2各价位作品数量直方图

3.3各出版社出版作品数量条形图&评分折线图

; 3.4作者作品评分条形图

3.5作品评分树状图

Original: https://blog.csdn.net/m0_49263811/article/details/122220339
Author: CHRN晨
Title: 【Python数据分析实战】豆瓣读书分析(含代码和数据集)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/738561/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

三个月能学到多少网络安全知识？

现在可以看到很多标题都是三个月零基础转行网络安全，三个月成为网络工程师月入15K，还有很多一系列类似吸引人的标题，那这些话是不是真实情况呢？那我们就来整理一下这三个月可以学到什么，…

Python 2023年9月15日
0044
DiffusionDet: Diffusion Model for Object Detection

paper: https://arxiv.org/abs/2211.09788 code：https://github.com/ShoufaChen/DiffusionDet 探索…

Python 2023年9月29日
0074
mac安装anaconda教程

随数据分析的发展，大多数企业对数据分析师要求已经不局限与Excel、SQL等工具了，为快速对数据进行处理和可视化，python成了数据分析的一项必备技能。作为入门简单的一个编程语言…

Python 2023年8月1日
0062
Vue+Django 旅游网项目首页前端实现

Vue+Django 旅游网项目首页前端实现结构公共的样式 src/assets/common.less 公共的js（工具函数、接口地址、配置文件）接口地址配置 src/u…

Python 2023年8月5日
0070
scrapy中如何实现翻页抓取数据

翻页请求的思路回顾requests模块是如何实现翻页请求的：（1）找到下一页的URL地址，并找出翻页以后的url中的那个参数变动了（2）调用requests.get(url)…

Python 2023年10月2日
0064
学习 python 中遇到的小问题

说明：以下都是我在学习《Python 编程从入门到实践（第2版）》这本书时提出的一些迷惑的地方，这些问题都已得到解决。以后还会更新。 1. python中方法与函数的区别 2. p…

Python 2023年9月25日
0044
使用VMware安装Ubuntu虚拟机

一、下载安装VM软件这一步跳过，因为网上都能找到下载地址，下载后一步一步的安装即可，网上也有很多下载地址，这里提供一个Windows的下载链接。链接: https://pan….

Python 2023年6月9日
0068
Ubuntu上安装 Spark3.3与Scala2.13的过程

解压文件 sudo tar -zxvf scala-2.13.7.tgz -C /usr/local/ sudo mv ./scala-2.13.7/ ./scala /etc/p…

Python 2023年11月6日
0047
设计模式(Python语言)—-设计模式分类

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月24日
0094
scrapy mysql pipeline_Scrapy用Pipeline写入MySQL

编辑pipelines.py，添加自定义pipelines类： class MySQLPipeline(object): @classmethod def from_crawler…

Python 2023年10月5日
0034
day 60、61、62 Python Scrapy

文章目录一、Scrapy * 1、结构 2、序 3、API 接口 4、XPath 读取 html – 2.1 指令零碎 I know, i know 地球另一端有你…

Python 2023年10月3日
0048
添加水印究竟多简单，python两三行代码实现批量添加~

Original: https://www.cnblogs.com/Qqun261823976/p/16419175.htmlAuthor: python倩Title: 添加水印究…

Python 2023年11月2日
0040
pytorch 一维线性模型，一维线性回归，matplotlib 显示

预备知识 python语言基础知识 [百度网盘python 基础电子书提取码 :6ttd](%E9%93%BE%E6%8E%A5%EF%BC%9Ahttps://pan.baidu…

Python 2023年9月2日
0073
垃圾回收机制

垃圾回收机制什么是垃圾回收机制垃圾回收机制是专门回收没有被变量名绑定的垃圾数据用来释放空间引用计数引用计数就是数据值与变量名之间绑定的次数 age = 18 #数据值18…

Python 2023年10月29日
0044
Python Pandas 数据分析工具透视表（pivot table）

数据透视表概念数据透视表是Excel中常用的工具，本片文章的重点不是认识数据透视表，所以找了一片文章，供大家参考。>>>Excel学习笔记-数据透视表透视表操…

Python 2023年8月7日
0084
scrapy框架访问链接时，post请求的几种姿势

title: scrapy框架访问链接时，post请求的几种姿势 tags: [‘scrapy’,’python’,’p…

Python 2023年10月2日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31