【Python爬虫】如何把抖音漂亮的小姐姐（高清、无水印）保存到硬盘里，附源码

2023年5月25日上午12:51 • Python • 阅读 123

前言

现在经常有一些视频素材需要保存在自媒体平台上，但大多数平台下载时都打上了平台水印，影响了视频的美观。这一次，我们使用爬虫爬到高清晰度的无水印视频。

[En]

Now there are often some video materials that need to be saved on the self-media platform, but most platforms are downloaded with platform watermarks, affecting the beauty of the video. This time we use crawlers to climb to high-definition unwatermarked videos.

本文知识点

1、selenium模块的使用
2、requests模块的使用
3、re正则表达式的使用

环境介绍

python 3.8
pycharm 2021专业版 >>> 激活码
谷歌浏览器/火狐浏览器
谷歌驱动/火狐驱动

模块使用

requests >>> pip install requests
selenium >>> pip install selenium
re
time

内容

本次目标：爬取漂亮小姐姐视频内容

; 分析网页

F12或者鼠标右键点击检查 >>>选择network 下面 media 过滤音频和视频数据包

找到播放地址 (指定的当前视频的播放地址)，视频播放地址, 是可以在视频详情页网页源代码里面可以获取

代码实现步骤:

发送请求, 对于视频详情页发送请求 https://www.douyin.com/video/7012228758782397699
获取数据, 获取网页源代码数据内容
解析数据, 提取视频播放地址以及视频标题
保存数据, 把小姐姐视频保存到本地

爬取一个视频内容

导入模块

import requests  # 数据请求模块 pip install requests
import re  # 正则表达式模块 内置模块 不需要安装

发送请求

url = 'https://www.douyin.com/video/6975418738799676680'
headers 伪装 把python代码进行伪装 让服务器识别不出我是脚本
headers = {
    'cookie': 'douyin.com; ttcid=de99440b8a5c4d16affc993730f4983310; ttwid=1%7CwyS5KyrVGXLuX5nmoYq1CJi6RjbegNYEf85fr4LcrRM%7C1632744377%7C0ae37032dafd0b7394ba6c35f7d78fc3bcfc17bf3465ee87b6ffb23c9bd1d9aa; MONITOR_WEB_ID=aa02b1ce-7eca-4ca1-9945-26f6eb8736c4; passport_csrf_token_default=41c044ddb9a7768743f59ef8c445836b; passport_csrf_token=41c044ddb9a7768743f59ef8c445836b; odin_tt=59541282299fd6088773d60702c10e22cf395bbe2ad43387cc5a1f1268e0b49539d2228b027e13642805eaa6c46804e338df3a16d9da9c7178a2a202f7489d12; _tea_utm_cache_6383=undefined; douyin.com; s_v_web_id=verify_kuqvv6p4_YjqU18Ra_QeV7_4zv8_9ZB9_WBVgaVOs06uj; _tea_utm_cache_1300=undefined; __ac_nonce=061681c2f000567586575; __ac_signature=_02B4Z6wo00f01-i76fwAAIDCi7EplXNNuu.on-1AAJtQNYXvhFUOGADQjDBpv-bfFdUV4sLQv1NC67tc-k1IspofGeBvDhfKKqeZNZCOa.hxwhj-AHQQIVnquzZ7vtGjx2HSsG3GQLOgMse720; msToken=6sG90ahzLoVg7R4O5SAh_qe9OXTGEHiSZ4997ef5wn5ep5Jkg1NMJ0O73wMh-xJS3rYRUuk7Z6LBkKolkMEg63exfDDl-gsStfY6HfqBlmaaLfTTX6aDzd8dZvs=; msToken=htFRUeGN-Xof_NiqwMK2xx1UuA3wqQuzgbdl7KoH_hS2T730pt6bw7vz0RzU3BCuGiSq-YQF61qyvnSJY3CZqcUgAuLgBNWiD1vY3KIKZnMmGLoG1W3jMA==; tt_scid=9F5FY0k84EFeUv8G-wjVOB2.pGkWm9KQRvFIte.XLiJNaUyk1vHm5HoJgiDNYpzx9f71',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}
response = requests.get(url=url, headers=headers)

获取数据

print(response.text)

; 解析数据

提取视频播放地址和视频标题

[En]

Extract video playback address and video title

title = re.findall(' (.*?)', response.text)[0]
href = re.findall('src(.*?)vr%3D%2', response.text)[1]
video_url = requests.utils.unquote(href).replace('":"', 'https:') # 解码

保存数据

video_content = requests.get(url=video_url).content # 获取二进制数据内容
with open('video\\' + title + '.mp4', mode='wb') as f:
    f.write(video_content)
    print(title, video_url)

运行代码，得到数据

; 批量获取数据数据

导入模块

from selenium import webdriver  # pip install selenium 模拟人的行为操作浏览器
import time

实例化一个浏览器对象

driver = webdriver.Chrome()  # 实例化一个浏览器对象
driver.get('https://www.douyin.com/user/MS4wLjABAAAAK1Zd96kIeExggUquf_wrHUPDQYTZfjdGXClxQAJHyMQ')
time.sleep(3)  # 延时3秒钟 手动打码
drop_down()

提取标签

lis = driver.find_elements_by_css_selector('#root > div.windows-os > div:nth-child(2) > div > div._67f6d320f692f9e5f19d66f4c8a1ecf9-scss > div._927ae3b0dd790b5b62eae61c7d2fa0bc-scss > div:nth-child(2) > ul > li')
for li in lis:
    url = li.find_element_by_css_selector('a').get_attribute('href')
    print(url)

执行页面滚动的操作

def drop_down():
    for x in range(1, 30, 4):  # 1 3 5 7 9  在你不断的下拉过程中, 页面高度也会变的
        time.sleep(1)
        j = x / 9  # 1/9  3/9  5/9  9/9
        # document.documentElement.scrollTop  指定滚动条的位置
        # document.documentElement.scrollHeight 获取浏览器页面的最大高度
        js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight * %f' % j
        driver.execute_script(js)

替换特殊字符

title = re.sub(r'[\/:*?"<>|]', '_', title)

运行代码

Original: https://www.cnblogs.com/qshhl/p/15443093.html
Author: 松鼠爱吃饼干
Title: 【Python爬虫】如何把抖音漂亮的小姐姐（高清、无水印）保存到硬盘里，附源码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/511022/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOPose实战：手把手实现端到端的人体姿态估计+原理图与代码结构

开源地址: https://github.com/TexasInstruments/edgeai-yolov5/tree/yolo-pose 导读：前不久看到一则新闻，YOLO之父…

Python 2023年8月2日
0070
Python全栈工程师之从网页搭建入门到Flask全栈项目实战(4) – Flask模板语法与继承

1.Flask模板介绍前置：理解渲染机制即上篇笔记中render_template()功能是如何实现的！ 1）找到html文件地址 2）读取html文件中的内容 3）替换html…

Python 2023年10月13日
00102
彻底卸载并重装Anaconda环境与Python的方法

本文介绍在 Windows平台下，彻底删除 Anaconda环境与其自带 Python版本，并进行重新安装的方法。最近，由于原有 Anaconda环境中的部分第三方库出现了冲突的…

Python 2023年9月16日
0049
一道Python练习题引发的，一个知识点的探讨：删除列表中特定元素的几种方法

题目如下：给定一个仅包含大小写字母和空格 ‘ ‘ 的字符串 s，返回其最后一个单词的长度。如果字符串从左向右滚动显示，那么最后一个单词就是最后出现的单词。…

Python 2023年6月9日
0077
数据分析5–多层索引与分组聚合

一、多层索引 MultiIndex，即具有多个层次的索引，有些类似于根据索引进行分组的形式。通过多层次索引，我们就可以使用高层次的索引，来操作整个索引组的数据。多层索引的创建方式第…

Python 2023年8月21日
0052
python try异常处理

什么是异常 python异常捕获，在刚开始学的时候，经常会遇到两种报错信息：语法错误和执行的异常。语法错误在执行的时候就会报错，同时控制端会告诉你错误所在的行；但即便python…

Python 2023年6月11日
0092
Flask学习之旅——2.6 模板继承

另外，模板中不能出现重名的 block，如果一个地方需要用到另外一个 block中的内容，可以使用 self.blockname的方式进行引用，如父模板 <title&gt…

Python 2023年8月11日
0059
Scrapy爬虫框架学习_intermediate

一.Scrapy爬虫框架介绍 Scrapy是功能强大的非常快速的网络爬虫框架，是非常重要的python第三方库。scrapy不是一个函数功能库，而是一个爬虫框架。 1.1 Scra…

Python 2023年10月1日
0049
websocket接口自动化集成pytest测试框架

01 websocket协议 1、介绍 WebSocket是一种在单个TCP通信的协议。WebSocket通信协议于2011年被IETF…

Python 2023年9月10日
0052
django实现jwt身份认证

文章中使用版本信息：python3.8，django2.2 闲暇之余研究了下jwt，没想到过程中遇到各种各样问题，网上乱七八糟搜了一堆，都不能串起来，最后理了理跑起来了，就记录一下…

Python 2023年11月8日
0033
Django学习—2.商城设计说明和配置

学习项目地址： GitHub – xyjw/Django3-Web: Django book 商品信息表表字段字段类型含义idint 长度11primary key …

Python 2023年8月4日
0059
前端开发日常——CSS动画无限轮播

近来没有什么值得写的东西，空闲的时候帮前端的同学做了些大屏上的展示模块，就放在这里写写吧，手把手”需求->设计-> 实现”，受众偏新手向。为了…

Python 2023年10月18日
0044
python显示图片的方式(OpenCV，PIL，matplotlib)

这一篇博客介绍几个python处理图像的常见库，介绍基础的存取和显示，旨在帮助大家更好的选择合适的库进行图像处理，或者结合pytorch等深度学习框架进行图像的读取与显示 1.Op…

Python 2023年8月31日
0041
【pandas 类库】

Pandas 是 Python 语言的一个扩展程序库，用于数据分析。 Pandas 是一个开放源码、BSD 许可的库，提供高性能、易于使用的数据结构和数据分析工具。 Pandas …

Python 2023年8月8日
0051
Python学习：property装饰器

装饰器：装饰器是在不修改被装饰对象源代码以及调用方式的前提下为被装饰对象添加新功能的可调用对象 property是一个装饰器，是用来绑定给对象的方法伪造成一个数据属性装饰器pro…

Python 2023年6月9日
0099
Python+大数据-数据分析与处理(六)-综合案例

Python+大数据-数据分析与处理(六)-综合案例案例一：Appstore数据分析学习目标掌握描述性数据分析流程能够使用pandas、seaborn进行数据分析和可视化 …

Python 2023年8月1日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【Python爬虫】如何把抖音漂亮的小姐姐（高清、无水印）保存到硬盘里，附源码

本次目标：爬取漂亮小姐姐视频内容

导入模块

发送请求

获取数据

; 解析数据

保存数据

运行代码，得到数据

导入模块

实例化一个浏览器对象

提取标签

执行页面滚动的操作

替换特殊字符

运行代码

大家都在看