利用Python爬虫买车比价，自动采集某车之家各车型裸车价

2023年5月24日下午10:44 • Python • 阅读 60

在一位朋友的要求下，帮助收集一家汽车屋的一些汽车品牌销售数据，包括购车时间、车型、经销商、裸车价格等信息。

[En]

At the request of a friend, help collect some car brand sales data of a car house, including car purchase time, model, dealer, naked car price and other information.

今天我们将简要演示采集流程，您可以根据自己的兴趣进行扩展，比如采集您喜欢的品牌汽车数据进行统计分析等。

[En]

Today we will briefly demonstrate the collection process, you can expand according to your own interests, such as collecting your favorite brand car data for statistical analysis and so on.

进入正文：

目标网页分析

许多人向蟒蛇学习，不知道从哪里开始。<details><summary>*<font color='gray'>[En]</font>*</summary>*<font color='gray'>Many people learn from pythons and don't know where to start.</font>*</details>

很多人学习寻找python，掌握了基本语法之后，不知道在哪里案例上手。

许多可能已经了解此案的人并没有学习到更高级的知识。<details><summary>*<font color='gray'>[En]</font>*</summary>*<font color='gray'>Many people who may already know the case do not learn more advanced knowledge.</font>*</details>

这三类人，我为你提供了一个很好的学习平台，免费获取视频教程、电子书以及课程源代码！<details><summary>*<font color='gray'>[En]</font>*</summary>*<font color='gray'>These three categories of people, I provide you with a good learning platform, free access to video tutorials, e-books, as well as course source code!</font>*</details>

QQ群：101677771

欢迎加入，一起讨论学习

目标网站是某车之家关于品牌汽车车型的口碑模块相关数据，比如我们演示的案例奥迪Q5L的口碑页面如下：

https:<span class="hljs-regexp">//k.autohome.com.cn<span class="hljs-regexp">/4851/</span></span>

为了进行演示，您可以直接打开上面的URL，然后拖动到所有的口碑位置，找到我们需要的这个集合的字段，如下所示：

[En]

In order to demonstrate, you can directly open the above URL, and then drag to all the word-of-mouth locations to find the fields we need for this collection as shown below:

采集字段

我们翻了一页，发现浏览器的URL已经改变。您可以了解以下页面的规则：

[En]

We turned the page and found that the browser URL had changed. You can find out the rules for the following pages:

<span class="hljs-attribute">https:</span>

对于上面写网址，我们发现可变部分是车型（如4851）以及页码（如2,3,4），于是我们可以构建url参数如下：

数据请求

通过一个简单的测试，发现似乎没有防爬行，这很简单。

[En]

Through a simple test, it is found that there seems to be no anti-crawling, which is simple.

让我们首先介绍一下需要使用的库：

[En]

Let’s first introduce the libraries that need to be used:

<span class="hljs-keyword">import requests
<span class="hljs-keyword">import pandas as pd
<span class="hljs-keyword">import html
from lxml <span class="hljs-keyword">import etree
<span class="hljs-keyword">import re
</span></span></span></span></span>

然后为数据请求创建函数备份：

[En]

Then create a function backup for the data request:

请求来的数据就是网页html文本，我们接下来采用re解析出一共多少页码，再用xpath进行采集字段的解析。

数据解析

由于需要进行翻页，这里我们可以先通过re正则表达式获取总页码。通过查看网页数据，我们发现总页码可以通过如下方式获取：

<span class="hljs-keyword">try:
    pages = int(re.findall(<span class="hljs-string">r'&#x5171;(\d+)&#x9875;',r)[<span class="hljs-number">0])
</span></span></span>

总页码采集

关于待采集字段信息，我们发现都在节点div[@class=”mouthcon-cont-left”]里，可以先定位这个节点数据，然后再进行逐一解析。

待采集字段信息所在节点

此外，我们发现每页最多有15个车辆口碑数据，所以我们可以定位每页需要收集的15个信息数据集，并遍历收集代码：

[En]

In addition, we find that there are up to 15 vehicle word-of-mouth data per page, so we can locate 15 information data sets to be collected per page and traverse the collection code:

<span class="hljs-attribute">divs = r_html.xpath(<span class="hljs-string">'.//div[<span class="hljs-variable">@class="mouthcon-cont-left"]')
</span></span></span>

数据存储

由于没啥反爬，这里直接将采集到的数据转化为pandas.DataFrame类型，然后存储为xlsx文件即可。

df = pd.DataFrame(items)
df = df[[<span class="hljs-string">'&#x8D2D;&#x4E70;&#x8F66;&#x578B;', <span class="hljs-string">'&#x8D2D;&#x4E70;&#x914D;&#x7F6E;', <span class="hljs-string">'&#x8D2D;&#x4E70;&#x5730;&#x70B9;', <span class="hljs-string">'&#x8D2D;&#x8F66;&#x7ECF;&#x9500;&#x5546;', <span class="hljs-string">'&#x8D2D;&#x4E70;&#x65F6;&#x95F4;', <span class="hljs-string">'&#x88F8;&#x8F66;&#x8D2D;&#x4E70;&#x4EF7;']]
</span></span></span></span></span></span>

采集结果预览

整个爬虫过程比较简单，采集下来的数据也比较规范，以本文案例奥迪Q5L示例如下：

采集结果预览

这些都是这次的内容，比较简单。感兴趣的学生可以在此基础上收集一些有趣的数据，并尝试进行统计分析、可视化展示等。

[En]

These are all the contents of this time, which is relatively simple. Interested students can collect some interesting data based on this and try to do statistical analysis, visual display and so on.

Original: https://www.cnblogs.com/sn5200/p/15802187.html
Author: Python可乐的呀
Title: 利用Python爬虫买车比价，自动采集某车之家各车型裸车价

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/510252/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas 两列相乘 dataframe

import numpy as np import pandas as pd from IPython.core.interactiveshell import Interacti…

Python 2023年8月6日
0088
pytest-测试用例命名规则及其配置文件

编写的测试用例名称要按照规则进行命名，pytest才能发现和收集到测试用例 pytest的默认的命名规则如下：如果pytest的命令行没有指定路径，那么从testpaths配置的路…

Python 2023年9月12日
0056
python编程从入门到实践之外星人入侵全代码

好久没有更新了，最近寒假在家没事做，就想学点东西，在网上找到一本关于python的书籍《python编程从入门到实践》，经过大概一个多月的时间吧，也算是大致把本书浏览了一遍。本人…

Python 2023年9月22日
0052
LabVIEW图形化的AI视觉开发平台（非NI Vision），大幅降低人工智能开发门槛

之前每次进行机器学习和模型训练的时候发现想要训练不同模型的时候需要使用不同的框架，有时候费了九牛二虎之力终于写下了几百行代码之后，才发现环境调试不通，运行效率也差强人意，于是自己写…

Python 2023年10月25日
0041
mitmproxy抓包 | Python篡改请求参数实战（五）

篡改GET请求参数，实例一：拉钩app，我的页面，显示推荐banner为8点一课抓包信息如下，参数type=1 GET https://gate.lagou.com/v1/ne…

Python 2023年8月4日
0070
某大型政务网站的优化咨询案例(视频点播VOD+GZIP压缩+静态文件CDN+Redis缓存+全文索引)

2022年圣诞节到来啦，很高兴这次我们又能一起度过~ 这次分享关于一个对某大型政务网站的优化咨询的案例，发生在今年的下半年，已过去一段时间，并取得了良好的成果！* 项目背景某大型…

Python 2023年10月10日
0061
联邦学习：联邦场景下的多源知识图谱嵌入

1 导引目前，知识图谱(Knowlege Graph)在医疗、金融等领域都取得了广泛的应用。我们将知识图谱定义为(\mathcal{g}={\mathcal{E}, \mathc…

Python 2023年10月29日
0033
用自己的编程语言实现了一个网站（增强版）

前言前段时间在《用自己的编程语言实现了一个网站》用介绍了用 GScript 写的一个简单”网站”，虽然是打上引号的；页面长这样：看起来确实非常的挫，其实…

Python 2023年10月19日
0046
魔改editormd组件，优化ToC渲染效果

前言我的StarBlog博客目前使用 editor.md 组件在前端渲染markdown文章，但这个组件自动生成的ToC(内容目录)不是很美观，我之前魔改过一个树形组件 Boot…

Python 2023年10月18日
0044
《Python顶级入门教程》一步一步，是魔鬼的步伐

### 回答1： Python 安装_教程： 1. 首先，打开 _Python_官方网站 (www. _python.org)。在网站顶部导航栏的”Downloads&…

Python 2023年8月1日
0042
MPC：百万富翁问题

学习文章：”一起学MPC：（一）百万富翁问题“和”【隐私计算笔谈】MPC系列专题（一）：安全多方计算应用场景一览“ 百万富翁问题将…

Python 2023年10月15日
0057
六轴机械臂DIY（三）开源项目介绍

就这样一年半了，项目断断续续仍在进行，期间我混了个毕业，相信大家也经历了很多吧。最近上海疫情，毕业后的我哪里也去不了，只能在寝室等学校的投喂，那么正好，让我们项目继续。本节主要完…

Python 2023年11月7日
0063
python使用Flask框架实现疫情监控追踪可视化项目

之前博主通过python来爬取电影信息，今天，博主分享的项目是疫情监控可视化的项目编程语言：python框架：flask数据库：MySQL开发环境: python3.7 pych…

Python 2023年8月11日
0050
Yolov5如何在训练意外中断后接续训练

Yolov5如何在训练意外中断后接续训练 1.配置环境 2.问题描述 3.解决方法 * 3.1设置需要接续训练的结果 3.2设置训练代码 4.原理 5.结束语 1.配置环境操作系…

Python 2023年8月2日
0067
Pycharm安装numpy失败

在使用Pycharm下载numpy库时，可能会出现以下错误：这种情况主要是两种思路：第一种方法是查看是否pip版本是否正确，具体操作方法可以参照这篇博客：PyCharm安装库n…

Python 2023年8月23日
0093
Python课程设计

Python课程设计（ZZU结课作业）基础版源码：Python: Python结课作业 – Gitee.com 进阶版源码：Python: Python结课作业 &#…

Python 2023年8月2日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

利用Python爬虫买车比价，自动采集某车之家各车型裸车价

大家都在看