【Python爬虫案例】用Python爬取李子柒B站视频数据

2023年6月9日上午7:10 • Python • 阅读 130

一、视频数据结果
二、部分核心代码
三、同步讲解视频
四、获取python源码文件

一、视频数据结果

今天是2021.12.7号，前几天用python爬取了李子柒的油管评论并做了数据分析，可移步至：
https://www.cnblogs.com/mashukui/p/16220254.html
这次呢，用python爬虫爬了李子柒B站的所有视频数据。
先看下，最终爬取到的视频数据：

一共是142条视频数据（截至目前，李子柒在B站一共上传过142个视频）

每条数据包含的字段是：

视频标题，视频地址，视频上传时间，视频时长，是否合作视频，视频分区，弹幕数，播放量，点赞数，投币量，收藏量，评论数，转发量，实时爬取时间

基本上涵盖了视频的所有属性字段。

二、部分核心代码

这里，我分享下部分核心代码：

url_list = []  # &#x89C6;&#x9891;&#x5730;&#x5740;
title_list = []  # &#x89C6;&#x9891;&#x6807;&#x9898;
author_list = []  # UP&#x4E3B;&#x6635;&#x79F0;
mid_list = []  # UP&#x4E3B;UID
create_time_list = []  # &#x4E0A;&#x4F20;&#x65F6;&#x95F4;
play_count_list = []  # &#x64AD;&#x653E;&#x6570;
length_list = []  # &#x89C6;&#x9891;&#x65F6;&#x957F;
comment_count_list = []  # &#x8BC4;&#x8BBA;&#x6570;
is_union_list = []  # &#x662F;&#x5426;&#x5408;&#x4F5C;&#x89C6;&#x9891;
type_list = []  # &#x5206;&#x533A;
danmu_count_list = []  # &#x5F39;&#x5E55;&#x6570;
for i in range(1, 10):  # &#x524D;10&#x9875;
    url = 'https://api.bilibili.com/x/space/arc/search?mid=19577966&ps=30&tid=0&pn={}&keyword=&order=pubdate&jsonp=jsonp'.format(
        str(i))
    r = requests.get(url, headers=headers)
    print(r.status_code)  # &#x54CD;&#x5E94;&#x7801;200
    json_data = r.json()
    pprint(json_data)
    video_list = json_data['data']['list']['vlist']
    pprint(video_list)
    for i in video_list:
        bvid = i['bvid']
        url = 'https://www.bilibili.com/video/' + bvid
        url_list.append(url)
        title = i['title']
        title_list.append(title)
        author = i['author']
        author_list.append(author)
        mid = i['mid']
        mid_list.append(mid)
        create_time = i['created']
        create_time = trans_date(v_timestamp=create_time)
        create_time_list.append(create_time)
        play_count = i['play']
        play_count_list.append(play_count)
        length = i['length']
        length_list.append(length)
        comment = i['comment']
        comment_count_list.append(comment)
        is_union = '&#x662F;' if i['is_union_video'] == 1 else '&#x5426;'
        is_union_list.append(is_union)
        type_name = get_video_type(v_num=i['typeid'])
        type_list.append(type_name)
        danmu_count = i['video_review']
        danmu_count_list.append(danmu_count)

其中，把url中的mid换成B站任意up主的对应mid，都可以进行爬取！！
其中，把url中的mid换成B站任意up主的对应mid，都可以进行爬取！！
其中，把url中的mid换成B站任意up主的对应mid，都可以进行爬取！！

三、同步讲解视频

代码逐行讲解：
https://www.zhihu.com/zvideo/1451862342237229056

四、获取python源码文件

爱学习的小伙伴，想获取完整python代码文件，关注我的微信公众号”老男孩的平凡之路”，后台回复关键字”李子柒B站爬虫”，即可获取完整python源码及数据！

https://mp.weixin.qq.com/s?__biz=MzU5MjQ2MzI0Nw==&mid=2247484589&idx=1&sn=ceb10c99c39ce145ebb1cd2cabd6c099&chksm=fe1e104dc969995bf436d3626e4a88d8221304455b4ed0c8082baae97bc359714ccbeade0510&payreadticket=HBrNf9846j7VLid60OxD8cPqzB1Q6w7BIwOzmPhS-3sm4ekAs6Vwwj-WBlsFOLMCFVQS7A0#rd

我是马哥，全网累计粉丝上万，欢迎一起交流python技术。
各平台搜索”马哥python说”：知乎、哔哩哔哩、小红书、新浪微博。

Original: https://www.cnblogs.com/mashukui/p/16221258.html
Author: 马哥python说
Title: 【Python爬虫案例】用Python爬取李子柒B站视频数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/591432/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python开发常用知识

pip freeze > requirements.txt 这种方式配合 virtualenv才好使，否则把整个环境中的包都列出来了。下面是在虚拟环境中生成的 requ…

Python 2023年8月10日
0031
Python实现图像的全景拼接

Original: https://www.cnblogs.com/123456feng/p/16112806.htmlAuthor: 蚂蚁ailingTitle: Python实…

Python 2023年5月24日
0065
Flask项目部署到Ubuntu上

前期准备将在本地开发好的Flask项目打包，发送到云主机上，可以使用xftp等传输工具放到远程主机上。安装python虚拟环境 sudo apt install python3…

Python 2023年8月9日
0062
.NET 7 性能改进 — 至今为止最快的.NET平台

2022年8月31日 Stephen Toub 发布的关于 .NET 7 性能改进的博客，核心主题是 .NET 7 速度很快。这篇博客非常的长，我尝试将它拷贝到Word 里，拷…

Python 2023年10月23日
0048
非root用户，conda环境下配置并使用其他版本gcc

背景 Linux环境下的gcc版本太低，有些需要编译的代码在低版本gcc(一般解决首先激活待配置环境 conda activate pytorch1.2 然后下载4.9.1版本…

Python 2023年9月9日
0065
BERTopic：NLP主题模型的未来！

文| ZenMoore编| 小轶以前我一直以为，主题建模(提取文档的主题词)这种机器学习时代就开始研究的基础工具，现在肯定已经到头了，虽然…有时效果可能不是那么让人满…

Python 2023年10月8日
0072
windows环境下python连接openGauss数据库

文章目录一、python 介绍二、Python下载及安装三、openGauss Connectors （Psycopg2）介绍四、openGauss Connectors…

Python 2023年7月31日
0042
python多级雷达图绘制解析_Python实例15：霍兰德人格分析雷达图

Python实例15：霍兰德人格分析雷达图雷达图是多特性直观展示的重要方式；霍兰德认为：人格兴趣与职业之间应有一种内在的对应关系；人格分类：研究型、艺术型、社会型、企业型、传…

Python 2023年9月6日
0077
海康威视云台获取视频流数据——vue前端页面实时显示

方式1： python rstp推送原文链接地址 import cv2 class VideoCamera(object): url = "rtsp://admin:a…

Python 2023年8月10日
00208
计算机毕业设计（附源码）python影院售票系统

项目运行环境配置：Pychram社区版+ python3.7.7 + Mysql5.7 + HBuilderX+list pip+Navicat11+Django+nodejs。 …

Python 2023年11月8日
0026
【一起玩蛇】Python 结构化数据分析工具 Pandas | Series 与 DataFrame | 读取CSV文件数据 |

💭 写在前面：本章为基础前置，将介绍 Python 经典结构化分析工具 Pandas，掌握 Series 与 DataFrame 的用法，并学习如何使用 CSV 读取文件数据，为后…

Python 2023年8月9日
0034
一文读懂野指针

一、引子我们都知道对指针（ Pointer）的操作，实际上是对计算机内存地址的操作，通过访问内存地址实现间接访问该地址中保存的数据。其实就是CPU的寻址方式中的间接寻址。简单概括…

Python 2023年10月13日
0041
人工智能实验——八数码难题

人工智能实验——八数码难题人工智能实验——八数码难题人工智能实验——八数码难题 * 八数码难题简介八数码难题所用到的算法简介代码实现解释运行结果显示代码附件程序可视化…

Python 2023年8月2日
0042
matplotlib绘图库

matplotlib绘图库 Matplotlib是绘图库，可以绘制函数图、统计图等。专门用于开发2D/3D图表。在数据挖掘中，其可以将难以理解的大量数据进行可视化，使得结果更加直观…

Python 2023年9月6日
0059
记录安装dlib库失败解决过程，认识conda-forge

近期在研究人脸算法，需要用到dlib库，已经在window环境中正常跑通代码，准备把程序部署到服务器上，却卡在了安装dlib库上，耗费了大半天时间，特地记录一下纪念耗费掉的时间。 …

Python 2023年9月8日
0056
Python ❀ 制作简单的猜拳游戏

Python ❀ 制作简单的猜拳游戏原创无糖可乐没有灵魂2022-06-24 19:21:43博主文章分类：Python ©著作权文章标签 Python 猜拳游戏数据 py…

Python 2023年5月25日
0067

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【Python爬虫案例】用Python爬取李子柒B站视频数据

大家都在看