Python爬虫何如抓包?这三个案例手把手教会你,非常详细…

很多朋友总是问我怎么找到数据源,怎么抢袋子。其实很简单,再做几次手术我就记住了。

[En]

Many friends always ask me how to find the data source and how to grab the bag. in fact, it is very simple, and I will remember it after a few more operations.

今天,让我们通过三个案例来展示它。

[En]

Today, let’s show it through three cases.

某牙直播抓包

首先,让我们转到目标网页,找到一个随机的视频,通过开发人员的工具分析包。

[En]

First of all, let’s go to the target web page, find a random video, and analyze the package through the developer’s tool.

首先按F12或者点击右键选择检查,打开开发者工具,依次选择 network(网络面板) → AII (全部)

然后刷新页面并重新加载当前页面的内容。

[En]

Then refresh the page and reload the contents of the current page.

以前是可以直接选择 media (媒体文件)就能看到了,现在不行了,所以说,互联网更新迭代很快,网站经常更新,技术也需要时刻准备更新,我们也是学习不能停,一停就落伍。

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...
但是刷新后的数据量太大,怎么确定哪一个是我们的目标呢?
[En]

But there is too much data after refreshing, how can we determine which one is our goal?

以当前某牙为例, 视频改成了m3u8格式,它会把完整视频分成很多个视频片段,这些ts文件都是m3u8格式视频片段。

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...
我们把URL复制到新窗口打开,它就直接把片段下载下来了。

我们完整的视频是2.26分,但是每一个片段只有几秒钟。

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...
所以算一算,平均5秒2.26分,差不多17个视频,还要人工合并,多麻烦啊。
[En]

So do the math, an average of five seconds, 2.26 points, almost 17 videos, but also have to merge manually, how troublesome.

但是它有一个专门的m3u8格式的文件,保存了所有的ts文件内容。

我们直接点击左上角搜索框,直接搜索 m3u8 ,然后看到一个get开头的文件,点击它,再点击preview (预览数据) ,视频的标题等信息都可以看到。

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...
找到这个 definitions 展开 ,m3u8的视频就在里面了,原画、超清、流畅。

可以看到,它也有完整的url地址在这,可以直接用。

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...

我都注释一下吧

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...
这就是视频直播的数据搜索方式。
[En]

This is the data search method for live video.

这三个案例的爬虫代码我都准备好了,点击蓝色字体自取

接下来看看微博视频

; 某博抓包

第一步详细描述,然后没有太多截图一一展示,只有大体流程,所以如果你忘记了,建议先看第一步。当然,我会截图来展示这两个网站的区别。

[En]

The first step is described in detail, and then there are not too many screenshots to show one by one, only the general process, so if you forget, it is recommended to take a look at the first step. Of course, I will take screenshots to show the differences between the two websites.

确定目标URL,打开视频播放页面。

[En]

Determine the target URL and open a video playback page.

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...

有点太暴露了,这是我没想到的,一个简单的代码。

[En]

A little too exposed, this is what I did not expect, a simple code.

按F12 打开开发者工具,点击network 点击Aii ,刷新网页。

然后一件快乐的事情发生了,😂。

[En]

And then a happy thing happened, 😂.

刷新视频后就消失了,于是我去搜索博主的名字。

[En]

Refresh the video and disappear, so I went to search the name of the blogger.

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...
啊这 😲

我太南了,算了 ,换一个吧…

小编推荐的每一款都很给力。我先给你看第四个。演出结束后,我会再去看😏。

[En]

Each one recommended by the editor is very powerful. I’ll show you the fourth one first. after the show, I’ll go to see 😏 again.

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...

好了,咱们言归正传。

对于大多数网站来说,他的第一个包就是当前的网页。除了少数专门的网站。

[En]

For most websites, his first packet is the current web page. Except for a small number of special web sites.

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...
今天的目标它的视频不一定在第一个网页源代码中,即使复制了url能进入,也还是不一定在。

因为有一些数据,它将被动态加载,或者不在同一个包中。

[En]

Because there is some data, it will be loaded dynamically, or not in the same packet.

在第二种方式中,我们将当前目标的标题复制到搜索框中,然后输入,当然可能找不到。

[En]

In the second way, we copy the title of the current target to the search box, and then enter, of course, it may not be found.

第三种方法,我们直接点击 fetch/XHR 动态数据抓包,这里面是实时加载的。

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...
我真的会谢,视频又没了…

算了,我再找新的吧。

我们看到左边有这么多数据,那么我们需要谁呢?

[En]

We can see that there is so much data on the left, so who do we need?

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...
这个时候,我们需要一个点,通常是这两个,有时不一定,所以我们需要一个点。
[En]

At this time, we need a point, usually these two, sometimes not necessarily, so we need a point.

然后点击右边的倒三角,一一展开,往下拉,找到这个urls,就可以看到视频地址了,各个清晰度的都有。

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...

为什么要逐点进行呢?你看,这两个看起来一模一样。我刚点了第一个,现在看看第二个。

[En]

Why point by point? you see, these two look the same. I just ordered the first one, and now look at the second one.

这里面都是右边推荐栏的封面,标题,视频id等等。

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...

某手短视频抓包

接下来,让我们来拿到一定的牌,这一次让我们认真地找一个严肃的视频来演示。

[En]

Next, let’s come to a certain hand, this time let’s be serious and find a serious video to demonstrate.

Python爬虫何如抓包?这三个案例手把手教会你,非常详细...

emmm … 这个正经多了,我们直接进入主页。

还是一样的操作,打开开发者工具,点开network,刷新,选择AII 。

这一次,让我们直接复制小姐姐的名字来搜索。

[En]

This time, let’s directly copy the name of the little sister to search.

搜索后,有两个相同的选项,我们需要逐个点击,看看我们需要哪一个。

[En]

After the search, there are two identical options, and we need to click on them one by one to see which one we need.

一个是博主的ID简介等等,另外一个就是视频的数据了。

这里我直接点第一个graphql → preview 总共是21个视频,可以看到,下图最下方的protourl就是视频的url,photoH265Url 则是音频url 。

为什么只有21个?因为没加载出来,刷新后默认只给你加载那么多,所以爬的时候,可以用selenium自动翻页,就能自己加载了。

最后给大家推荐一套视频正好实战一下:代码总是学完就忘记?100个爬虫实战项目!让你沉迷学习丨学以致用丨下一个Python大神就是你!

Original: https://www.cnblogs.com/hahaa/p/16628966.html
Author: 轻松学Python
Title: Python爬虫何如抓包?这三个案例手把手教会你,非常详细…

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/498605/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球