爬虫入门实战第一站——梨视频视频爬取

2023年6月29日下午1:02 • 人工智能 • 阅读 117

爬虫入门实战第一站——梨视频视频爬取

简介

博主最近重新开始了解爬虫，想以文字方式记录自己学习和操作的过程。本篇文章主要是使用爬虫爬取梨视频网站中的视频并下载到本地，同时将视频简介和视频网站保存在excel表里面，进行持久化存储。
使用的python包:

pandas(数据存储)
requests(发起请求)
bs4(进行解析网页)
multiprocessing(多进程操作)

使用浏览器:

Edge浏览器

步骤

(1)进入梨视频网站,然后选择人物(也可以自己根据情况选择，但是可能代码不一定适用)

(2)按下F12键打开开发者模式，点击如下图标进行元素定位：

(3)第(2)步后会出现下面的界面:

我们想要得到的是视频的地址，要想获得视频地址我们还需要进入视频播放界面，通过观察，我们可以从上图得到这个视频的视频播放地址,就是https://www.pearvideo.com/video_1556159
则我们应该获取的是li标签下的第一个a标签,a标签的class属性值为vervideo-lilink
注意这里使用class属性值来获取，不使用标签来获取，因为li标签下面还有一个a标签。
该li标签下还有视频的简介:

通过观察,我们通过class属性值来获取就可以了，即:class属性值为vervideo-title的。
前面几步的代码如下:

url = "https://www.pearvideo.com/category_1"
base_url = "https://www.pearvideo.com/"

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.47'
}

session = requests.Session()

person_page = session.get(url=url,headers=headers).text

bs = BeautifulSoup(person_page, 'html.parser')

person_a = bs.select(".vervideo-bd .vervideo-lilink")

person_content = bs.select(".vervideo-bd .vervideo-lilink .vervideo-title")

(4)然后我们进入其中一个视频播放界面，按下F5键进行抓包

然后点击这个请求，发现它有两个参数：

contId其实就是video的ID，我们可以将它和之前a标签里面的地址进行比较，它就是video_后面的数字
mrd就是一个0-1的随机数

然后看下它的响应，发现有我们需要的地址，但是注意：这个地址我们复制之后是访问不了的，这其实是一个虚假的地址，不是真正的地址，那真正的地址是什么呢？

真正的地址我们我们可以在现在这个界面找到，如下图所示:

通过上面的分析，
真地址为:https://video.pearvideo.com/mp4/adshort/20190519/cont-1556159-13923459_adpkg-ad_hd.mp4
假地址为:https://video.pearvideo.com/mp4/adshort/20190519/1668240894839-13923459_adpkg-ad_hd.mp4
通过比较，我们发现主要是1668240894839将cont-1556159替换掉了，而cont-1556159其实就是cont-video的id，那我们将1668240894839替换掉就好了,videoId我们之前都获得了的。
由此我们的思路就出来了：

进入视频播放界面
向https://www.pearvideo.com/videoStatus.jsp发起请求
从上面的返回值中获取虚假的地址
将虚假的地址变为真实的地址

但我们需要注意这里有一个坑，当我们向https://www.pearvideo.com/videoStatus.jsp发起请求时，请求头里面需要加一个Referer，表示你是从哪个界面过来的，比如这里，我们就是

'Referer':'https://www.pearvideo.com/video_1556159'

这部分的代码如下:

links = []
conent = []
a_size = len(person_a)
real_videos = []
real_urls = []
for i in range(a_size):
    links.append(base_url + person_a[i]['href'])
    conent.append(person_content[i].string + ".mp4")

    contId = person_a[i]['href'].split("_")[1]
    mrd = random.random()

    params = {
        "contId":contId,
        "mrd":mrd
    }
    video_url = "https://www.pearvideo.com/videoStatus.jsp"

    headers["Referer"] = links[i]
    video_response = session.get(url=video_url, headers=headers, params = params).json()

    fake_video_url = video_response['videoInfo']['videos']['srcUrl']
    ss = fake_video_url.split("/")
    end_string = ss[-1].split("-")
    end_fix = ""
    for s in range(1,len(end_string)):
        end_fix = end_fix + "-" + end_string[s]
    start_fix = ""
    for s in range(len(ss)-1):
        start_fix = start_fix + ss[s] + "/"
    real_video_url = start_fix + "cont-" + str(contId) + end_fix
    dic = {
        "url":real_video_url,
        "name":conent[i]
    }
    real_videos.append(dic)
    real_urls.append(real_video_url)

(5)最后使用多进程进行下载和将信息写入excel表里面。

代码

import requests
from bs4 import BeautifulSoup
import random
import pandas as pd
from multiprocessing.dummy import Pool

def get_video(dic):
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.47'
    }
    video_data = requests.get(url=dic['url'], headers=headers).content
    print(dic['name'] + '开始下载')

    path = "./" + dic['name']

    with open(path, 'wb') as fp:
        fp.write(video_data)
    print(dic['name'] + '下载成功')

if __name__ == '__main__':
    url = "https://www.pearvideo.com/category_1"
    base_url = "https://www.pearvideo.com/"
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.47'
    }
    session = requests.Session()
    person_page = session.get(url=url,headers=headers).text

    bs = BeautifulSoup(person_page, 'html.parser')

    person_a = bs.select(".vervideo-bd .vervideo-lilink")

    person_content = bs.select(".vervideo-bd .vervideo-lilink .vervideo-title")

    links = []
    conent = []
    a_size = len(person_a)
    real_videos = []
    real_urls = []
    for i in range(a_size):
        links.append(base_url + person_a[i]['href'])
        conent.append(person_content[i].string + ".mp4")

        contId = person_a[i]['href'].split("_")[1]
        mrd = random.random()

        params = {
            "contId":contId,
            "mrd":mrd
        }
        video_url = "https://www.pearvideo.com/videoStatus.jsp"

        headers["Referer"] = links[i]
        video_response = session.get(url=video_url, headers=headers, params = params).json()

        fake_video_url = video_response['videoInfo']['videos']['srcUrl']
        ss = fake_video_url.split("/")
        end_string = ss[-1].split("-")
        end_fix = ""
        for s in range(1,len(end_string)):
            end_fix = end_fix + "-" + end_string[s]
        start_fix = ""
        for s in range(len(ss)-1):
            start_fix = start_fix + ss[s] + "/"
        real_video_url = start_fix + "cont-" + str(contId) + end_fix
        dic = {
            "url":real_video_url,
            "name":conent[i]
        }
        real_videos.append(dic)
        real_urls.append(real_video_url)

    data = pd.DataFrame({"视频简介":conent,"视频地址":real_urls})
    data.to_excel("视频信息.xlsx", sheet_name='Sheet1', index=False)

Original: https://blog.csdn.net/qq_41234663/article/details/127794087
Author: lzl2040
Title: 爬虫入门实战第一站——梨视频视频爬取

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/659201/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

通信网信息传输与分发技术国家级重点实验室2021年度预研基金项目申请指南

通信网信息传输与分发技术国家级重点实验室2021年度预研基金项目申请指南人工智能技术与咨询人工智能技术与咨询北京龙腾亚太教育咨询有限公司依托中国管理科学研究院职业资格认证培训…

人工智能 2023年6月1日
0091
数字化转型的四大典型场景，TempoBI来支持

当企业发展到一定规模的时候，如何进行业务管理，就变成了比业务增长更为棘手的首要难题。企业管理颗粒度越细致，越是重视对日常业务数据的梳理和分析。但这类企业，特别容易陷入到&#8221…

人工智能 2023年6月11日
00105
3D目标检测评估标准

评价指标 bbox：2D检测框的准确率 3d： 3D检测框的准确率 bev： BEV视图下检测框的准确率 aos：检测目标旋转角度的准确率 pointrcnn评估的时候就产生了4…

人工智能 2023年7月9日
0077
CUDA(C)和PyCUDA(Python) GPU加速OpenCV视觉

CUDA 本节介绍一个简单的加法程序，该程序在设备上执行两个变量的加法。虽然它没有利用设备的任何数据并行性，但它对于演示 CUDA C 的重要编程概念非常有用。首先，我们将看到如…

人工智能 2023年7月19日
0062
《Remote Sensing》期刊从投稿到录用过程

本人研究方向：激光雷达数据处理与三维点云语义分割录用文章的方向：对多光谱LiDAR点云数据进行语义分割的研究文章：单栏，19页文章投Remote Sensing期刊从投稿到onl…

人工智能 2023年6月23日
00115
windows10和ubuntu两种环境搭建YOLOX环境配置，并训练VOC数据集

前言：本文使用的代码来自于：https://github.com/Megvii-BaseDetection/YOLOX，确保系统中已经安装好cuda cudnn，未装好的请自行查阅…

人工智能 2023年7月9日
00108
SIFT特征提取（PCV、VLFeat）的环境配置、常见Bug及修复方案

SIFT特征提取代码 PCV下载 * 下载安装PCV包后，Pycharm仍无法导入 VLFeat * 下载配置报错信息及处理 * pycharm无法导入PCV 安装PCV过…

人工智能 2023年6月20日
0089
Python统计代码运行时间

Python统计代码运行时间前言方法1（推荐）：通过代码统计 * 说明步骤单位完整示例方法2：通过Pycharm编辑器前言 Python代码想统计运行时间有很多种方法…

人工智能 2023年7月4日
0088
Permission denied: ‘C:UsersAdminAppDataLocalTemptmp06sdogpt.py’

运行时出现下面的错误: Traceback (most recent call last): File "D:/Projects/project_name/tools/t…

人工智能 2023年6月4日
00103
文本分类模型合集-详细注解–tf/pytorch双版本

Overview 仓库地址：https://github.com/DengBoCong/text-similarity Overview Usages * – TF-I…

人工智能 2023年5月24日
0098
网络安全知识图谱构建《理论篇》

文章目录问题 * 观点安全知识图谱 * 安全知识图谱技术流程数据来源 – 漏洞数据库安全博客黑客论坛安全公告本体设计信息抽取 – 实体抽取 …

人工智能 2023年6月1日
0078
Python实现KNN算法

目录创建数据集自写版KNN算法优化版KNN算法效果可视化创建数据集：创建一个电影分类数据集接吻次数打斗次数电影类型 3100动作片190动作片281动作片10110…

人工智能 2023年7月4日
0077
lidar_align联合标定激光雷达和IMU外参

lidar_align联合标定激光雷达和IMU外参运行LIO-SAM之前需要联合标定激光雷达和IMU的外参，官方推荐的方案是浙大的开源联合标定方案：lidar_IMU_calib…

人工智能 2023年6月2日
00137
无人机基于目标检测的路径规划任务

无人机目标检测相机配置目标检测基于darknet-yolo框架，darknet用于C/C++代码实现，适用于嵌入式设备上的目标检测更改目标检测相机使用RGB-D相机的左摄像头而不…

人工智能 2023年7月10日
0083
TensorFlow败给PyTorch，谷歌：未来就靠你了，JAX

整理 | 彭慧中责编 | 屠敏出品 | CSDN（ID：CSDNnews）谷歌是机器学习领域的开拓者，它于2015年发布开源深度学习框架TensorFlow，开创了现代机器学习…

人工智能 2023年5月23日
00117
模型的自相关系数计算_Eviews中的自相关检验与修正操作（三）：科克伦奥科特迭代法…

自相关是指在时间序列资料中按时间顺序排列的观测值之间存在相关性或在横截面资料中按空间顺序排列的观测值之间存在相关性，它是不满足经典OLS回归的假定之一。自相关问题往往出现在时间序列…

人工智能 2023年6月18日
001.4K

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

爬虫入门实战第一站——梨视频视频爬取

简介

步骤

代码

大家都在看