python驾到~障碍通通闪开，美女批量入内存~

2023年7月6日上午10:30 • 人工智能 • 阅读 73

前言

嗨喽~大家好呀，这里是魔王呐 !

又是普普通通采集美女得一天啊~

; 环境使用:

Python 3.8
Pycharm
谷歌浏览器
谷歌驱动

模块使用:

requests >>> pip install requests
re
json
selenium >>> pip install selenium==3.141.0

安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
在pycharm中点击Terminal(终端) 输入安装命令

如何配置pycharm里面的python解释器?

选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
点击齿轮, 选择add
添加python安装路径

pycharm如何安装插件?

选择file(文件) >>> setting(设置) >>> Plugins(插件)
点击 Marketplace 输入想要安装的插件名字比如:翻译插件输入 translation / 汉化插件输入 Chinese
选择相应的插件点击 install(安装) 即可
安装成功之后是会弹出重启pycharm的选项点击确定, 重启即可生效

思路分析

先采集一个视频内容 —> 采集这个视频博主所有视频内容

如何实现案例: 流程思路

一. 数据来源分析:

明确需求: 采集那个网站上面什么数据内容 —> 1. 视频标题 2. 视频播放链接
通过开发者工具进行抓包分析, 分析数据所在地方
F12 或者鼠标右键点击检查选择network 刷新网页 —> 为了让本网页相关数据内容, 重新加载一遍
找视频播放链接在什么地方 —> 找media
已知视频播放链接 —> 分析这个视频播放链接在什么可以得到通过搜索分析, 可以找到视频数据来源, 但是链接是转码了

二. 代码实现步骤过程

发送请求, 模拟浏览器对于url地址发送请求
获取数据, 获取服务器返回响应数据开发者工具里面 response
解析数据, 提取我们想要数据内容
视频链接
视频标题
保存数据, 把视频内容保存本地文件夹

批量采集代码

导入数据请求模块

第三方模块需要在cmd里面或者pycharm终端里面进行安装 pip install requests

import requests

import re

import json

from pprint import pprint

from selenium import webdriver

import time

“””

发送请求, 模拟浏览器对于url地址发送请求

对于url地址请求成功, 但是不代表你一定得到数据
为什么没有得到我们想要数据内容当我们被服务器识别出来是爬虫程序的时候, 我可能得不到数据, 或者得到数据不是我们想要的

selenium 模拟人的行为去操作浏览器, 获取所有视频ID

定位元素获取视频播放页url地址

selenium —> 浏览器驱动谷歌 —> 浏览器谷歌

“””

打开浏览器实例化浏览器对象 driver 浏览器对象

driver = webdriver.Chrome()

输入网址, 访问网站

因为代码里有链接，不给过的，所以我只能截个图展示一下，你们可以根据下方图片添加完整哦~

或点击蓝色字体领取完整源码，我都放在这里了。

滑动页面,让网页加载所有视频内容 selenium 去执行js代码

def drop_down():
    """执行页面滚动的操作 自定义函数"""
    for x in range(1, 30, 4):
        time.sleep(1)
        j = x / 9

        js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight * %f' % j
        driver.execute_script(js)

drop_down()

通过元素定位通过 css 选择器查找元素所有li标签

lis = driver.find_elements_by_css_selector('.Eie04v01')
if lis:
    pass
else:
    lis = driver.find_elements_by_css_selector('.ECMy_Zdt')

for li in lis:
    try:
        time.sleep(1)

        url = li.find_element_by_css_selector('a').get_attribute('href')
        print(url)

确定请求url地址


        headers = {

            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
        }

发送请求

        response = requests.get(url=url, headers=headers)

“””
获取数据, 获取服务器返回响应数据

开发者工具里面 response —> response.text

解析数据, 提取我们想要数据内容

视频链接
视频标题

正则re提取数据内容

调用re模块findall方法 –> 找到我们想要的数据内容

re.findall(‘什么数据’, ‘什么地方’)

从什么地方, 去找什么样的数据内容

从 response.text 里面去找 <title data-react-helmet="true">(.*?)</title> 其中(.*?) 这段是我们要的数据

print(json_data) –> 打印字典数据返回一行数据内容

pprint(json_data) –> 打印字典数据返回多行数据内容展开效果

字典数据提取内容

键值对取值 —> 根据冒号左边的内容[键], 提取冒号右边的内容[值]

“””

提取标题

        title = re.findall('(.*?)', response.text)[0]

        video_info = re.findall('(.*?)</script'</span><span class="token punctuation">,</span> response<span class="token punctuation">.</span>text<span class="token punctuation">)</span><span class="token punctuation">[</span><span class="token number">0</span><span class="token punctuation">]</span>

        html_data <span class="token operator">=</span> requests<span class="token punctuation">.</span>utils<span class="token punctuation">.</span>unquote<span class="token punctuation">(</span>video_info<span class="token punctuation">)</span>

        json_data <span class="token operator">=</span> json<span class="token punctuation">.</span>loads<span class="token punctuation">(</span>html_data<span class="token punctuation">)</span>

        video_url <span class="token operator">=</span> <span class="token string">'https:'</span> <span class="token operator">+</span> json_data<span class="token punctuation">[</span><span class="token string">'32'</span><span class="token punctuation">]</span><span class="token punctuation">[</span><span class="token string">'aweme'</span><span class="token punctuation">]</span><span class="token punctuation">[</span><span class="token string">'detail'</span><span class="token punctuation">]</span><span class="token punctuation">[</span><span class="token string">'video'</span><span class="token punctuation">]</span><span class="token punctuation">[</span><span class="token string">'bitRateList'</span><span class="token punctuation">]</span><span class="token punctuation">[</span><span class="token number">0</span><span class="token punctuation">]</span><span class="token punctuation">[</span><span class="token string">'playAddr'</span><span class="token punctuation">]</span><span class="token punctuation">[</span><span class="token number">0</span><span class="token punctuation">]</span><span class="token punctuation">[</span><span class="token string">'src'</span><span class="token punctuation">]</span>
</code></pre><p>"""<br>保存数据, 把视频内容保存本地文件夹</p><ul><li>对于视频链接发送请求, 获取数据的</li></ul><p>response.content 获取二进制数据内容<br>"""</p><pre><code class="prism language-python">
        video_content <span class="token operator">=</span> requests<span class="token punctuation">.</span>get<span class="token punctuation">(</span>url<span class="token operator">=</span>video_url<span class="token punctuation">,</span> headers<span class="token operator">=</span>headers<span class="token punctuation">)</span><span class="token punctuation">.</span>content

        <span class="token keyword">with</span> <span class="token builtin">open</span><span class="token punctuation">(</span><span class="token string">'video\\'</span> <span class="token operator">+</span> title <span class="token operator">+</span> <span class="token string">'.mp4'</span><span class="token punctuation">,</span> mode<span class="token operator">=</span><span class="token string">'wb'</span><span class="token punctuation">)</span> <span class="token keyword">as</span> f<span class="token punctuation">:</span>

            f<span class="token punctuation">.</span>write<span class="token punctuation">(</span>video_content<span class="token punctuation">)</span>
        <span class="token keyword">print</span><span class="token punctuation">(</span>title<span class="token punctuation">)</span>
        <span class="token keyword">print</span><span class="token punctuation">(</span>video_url<span class="token punctuation">)</span>
    <span class="token keyword">except</span><span class="token punctuation">:</span>
        <span class="token keyword">pass</span>
</code></pre><h2><a id="_269"></a>下面，我们来欣赏一下小姐姐吧~</h2><p><img src="https://img-blog.csdnimg.cn/b9c4525cef1043e8820725724e64e13e.png"></p><p><img src="https://img-blog.csdnimg.cn/7b3863f9e0a74ebbb77f0262e05920c3.png"><br><img src="https://img-blog.csdnimg.cn/70ae7b2f0d8e404eafec68791a9f9a4c.png"><br><img src="https://img-blog.csdnimg.cn/8e1ede715120463e8a60330d72c8640e.png"><br><img src="https://img-blog.csdnimg.cn/270467d4e40d489da783ca12c7aee960.png"><br><img src="https://img-blog.csdnimg.cn/3c7dbdb577954bd1840add5427298e99.png"><br><img src="https://img-blog.csdnimg.cn/853a3085d6c94192a56c074fb38f8b16.png"><br><img src="https://img-blog.csdnimg.cn/442e16e6af70497c8ab6786ed93880ff.png"><br><img src="https://img-blog.csdnimg.cn/541842d37a22477da37c7b8555a2b67b.png"></p><p>文章看不懂，我专门录了对应的视频讲解，本文只是大致展示，完整代码和视频教程点击下方蓝字</p><p>点击 <a href="https://jq.qq.com/?_wv=1027&k=fWtpTWBM">蓝色字体</a> 自取，我都放在这里了。</p><h2><a id="_289">;</a>尾语</h2><p>要成功，先发疯，下定决心往前冲！</p><p>学习是需要长期坚持的，一步一个脚印地走向未来！</p><p>未来的你一定会感谢今天学习的你。</p><p>—— 心灵鸡汤</p><p>本文章到这里就结束啦~感兴趣的小伙伴可以复制代码去试试哦 😝</p><p><img src="https://img-blog.csdnimg.cn/e015446cc0c348da94b9dd8c577ccfae.gif"></p><p class="node-read-div2p">👇问题解答 · 源码获取 · 技术交流 · 抱团学习请联系👇</p>

Original: https://blog.csdn.net/python56123/article/details/127394684
Author: 魔王不会哭
Title: python驾到~障碍通通闪开，美女批量入内存~

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/673774/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

VUE 学习

VUE 是什么一套用于构建用户界面的渐进式 JavaScript 框架构建用户界面：数据变成界面渐进式：Vue 可以自底向上逐层的应用简单应用：只需一个轻量小巧的核心库复…

人工智能 2023年6月28日
0080
Python二手车价格预测（一）—— 数据处理

文章目录前言一、数据二、处理过程 * 1.引入库 2.读入数据 3.删除无效列与填充空值 4.数值型数据处理 5.日期型数据处理 6.二值型数据处理 7.One-Hot型数据…

人工智能 2023年6月18日
0091
DataFrame(4)：DataFrame元素的获取方式

1、学习DataFrame元素获取，需要掌握以下几个需求访问一列或多列访问一行或多行访问某个值访问某几行中的某几列访问某几列中的某几行 2、构造一个DataFra…

人工智能 2023年6月2日
0097
体验最近火爆的ChatGPT

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0092
深度学习笔记（3）——kernel（内核）与filter（滤波器）

深度学习笔记（3）——kernel（内核）与filter（滤波器）文章目录深度学习笔记（3）——kernel（内核）与filter（滤波器）前言一、kernel内核概念二…

人工智能 2023年6月17日
00127
背景宽高随文本变化_今日论文|零资源口语建模&多尺度合并蒸馏语义分割持续学习&迷彩动物识别&数据到文本语义准确新指标&自动深度GNN设计&MORE…

11月24日人工智能领域新增论文 456篇，AI日读精选其中 88篇推荐给大家。这些论文主要来自AAAI，AAMAS，ACCV，CIKM，Artificial Intelligen…

人工智能 2023年6月1日
00125
R语言相关性分析和相关性分析可视化常用方法汇总

本次，介绍一下相关性分析以及相关性分析可视化常用方法。相关数据 library(learnasreml) library(tidyverse) data(fm) str(fm) …

人工智能 2023年6月19日
0043
pytorch稀疏张量模块torch.sparse详解

torch.sparse是一个专门处理稀疏张量的模块。通常，张量会按一定的顺序连续地进行存取。但是，对于一个存在很多空值的稀疏张量来说，顺序存储的效率显得较为低下。因此，pytor…

人工智能 2023年7月21日
0072
数据分析03pandas

Pandas 功能在于筛选清洗和处理 Series 中文叫做序列，pandas模块的一种数据类型，是一个一维的、带索引的数组对象，Series就像排行榜。左侧是索引（index） …

人工智能 2023年7月17日
0053
【NIPS2018】实时联合目标检测与语义分割网络

本文发表于第32届神经信息处理系统会议(NIPS 2018)，是法国汽车零部件供应商法雷奥集团（Valeo）研究提出的一种用于自动驾驶领域的多任务神经网络，可同时执行目标检测与语义…

人工智能 2023年6月10日
0088
day01 R语言笔记之向量、数组、因子、列表、数据框

一、向量(vector) 1、向量类型 2、向量元素的命名 3、提取向量子集 4、向量数值类型的转换二、数组（matrix） 1、创建数组 2、数组命名 3、提取数组的子集三、…

人工智能 2023年6月1日
00101
数据分析-参数调优-GridSearchCV

目录前言参数调优人工循环搜索网格搜索交叉验证（GridSearchCV）随机搜索交叉验证（RandomizedSearchCV）前言算法模型中的两种参数：模型参数：从…

人工智能 2023年7月18日
0064
凯斯西储大学轴承数据介绍及处理

轴承故障诊断一般使用美国凯斯西储大学的数据集进行标准化检测算法的优劣。以下几种实验数据提取和使用方法为我在论文中所看到的。进行以下陈述一、基于 RA-LSTM 的轴承故障诊断方法…

人工智能 2023年7月4日
00244
吴恩达深度学习课程-Course 4 卷积神经网络第一周卷积神经网络编程作业（第二部分）

【注意】！！！！这个代码基于tf1，但是笔者装的tf2框架，实在改不动了，1.1和1.2还能勉强跑通，1.3怎么改都报错，所以1.3放的是原始tf1的代码卷积神经网络: 应用 *…

人工智能 2023年5月25日
0088
Python爬虫系列（一）——手把手教你写Python爬虫

1. 什么是爬虫？根据百度百科的定义，网络爬虫，又称为网页蜘蛛，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。人们如今的生活，大都离不开网络，发一条微信，电子支付买…

人工智能 2023年7月6日
0092
深度学习21天——卷积神经网络（CNN）：实现mnist手写数字识别（第1天）

目录一、前期准备 1.1 环境配置 1.2 CPU和GPU 1.2.1 CPU 1.2.2 GPU 1.2.3 CPU和GPU的区别第一步：设置GPU 1.3 MNIST 手写…

人工智能 2023年7月27日
00195

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31