python爬虫re+requests+bs4爬取汽车之家全部过程，附代码。支持互联网免费至上，看了全部关于汽车之家的文章都是收费的，我很看不过去

2023年6月19日下午11:47 • 人工智能 • 阅读 134

爬虫项目讲解

我做的是爬取汽车之家全部车型以及配置表的爬虫代码

我们要爬取的就是这个网站https://www.autohome.com.cn

这边我已经爬取完毕，但是有一些错误，后续说

python爬虫re+requests+bs4爬取汽车之家全部过程，附代码。支持互联网免费至上，看了全部关于汽车之家的文章都是收费的，我很看不过去

第一步先找到汽车之家全部的车型

通过刷新网络然后就可以找到了车型库的链接了

https://car.autohome.com.cn/AsLeftMenu/As_LeftListNew.ashx?typeId=2%20&brandId=0%20&fctId=0%20&seriesId=0

原本的车型库地址是上面这个，但是后来搞糊涂了，typeid的值让我换成了1，就将错就错的一直写下去了，不过思路都是一样的（其实是原本的地址车型太多了，更容易出错）

我写的车型库地址是下面这个

https://car.autohome.com.cn/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId=134%20&fctId=0%20&seriesId=0

找到了车型库的地址那我们就要把全部的车型都给爬出来先

第一步代码如下

#&#x5148;&#x5F15;&#x5165;&#x51E0;&#x4E2A;&#x722C;&#x866B;&#x5E38;&#x7528;&#x7684;&#x5E93;&#xFF0C;&#x90FD;&#x662F;&#x65B0;&#x624B;&#x7EA7;&#x522B;&#x7684;&#xFF0C;&#x6211;&#x4E5F;&#x662F;&#x521A;&#x5B66;python&#x51E0;&#x5929;&#xFF0C;&#x6CA1;&#x4E8B;&#x6478;&#x6478;&#x9C7C;&#x7EC3;&#x7EC3;&#x624B;
import requests
import re
from bs4 import BeautifulSoup

#1.&#x521B;&#x5EFA;&#x4E00;&#x4E2A;&#x8BBF;&#x95EE;&#x7F51;&#x9875;&#x7684;&#x51FD;&#x6570;
def askurl(url):
    headers = {
        "user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36 QIHU 360SE"
    }
    html = requests.get(url,headers=headers)
    return html.text

#2.&#x5148;&#x83B7;&#x53D6;&#x5230;&#x8F66;&#x578B;&#x5E93;&#x7684;&#x8F66;&#x578B;
def getcars():
    html = askurl('https://car.autohome.com.cn/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId=134%20&fctId=0%20&seriesId=0')
    print(html)

#3.&#x8FD0;&#x884C;&#x4EE3;&#x7801;
def main():
    getcars()

#4.&#x4E3B;&#x7A0B;&#x5E8F;
if __name__ == '__main__':
    main()

运行得到以下的数据，通过观察，可以看到每个厂家都有固定的brand值，那这个brand值的作用就是可以从刚刚的车型库链接获取到车厂所有的车型，例如本田的可以获取到雅阁这个车型的某些值

我们把第一个brand的值替换掉车型库链接的brandid的值，就可以展开车厂所拥有的车型链接了

知道这个规律就可以继续往下走了，下一步就是获取全部的型号了

先写个正则找一下brand的值

findbrand = re.compile(r'<h3></h3>

然后准备爬取所有的brand的值了，代码如下

#&#x5148;&#x5F15;&#x5165;&#x51E0;&#x4E2A;&#x722C;&#x866B;&#x5E38;&#x7528;&#x7684;&#x5E93;&#xFF0C;&#x90FD;&#x662F;&#x65B0;&#x624B;&#x7EA7;&#x522B;&#x7684;&#xFF0C;&#x6211;&#x4E5F;&#x662F;&#x521A;&#x5B66;python&#x51E0;&#x5929;&#xFF0C;&#x6CA1;&#x4E8B;&#x6478;&#x6478;&#x9C7C;&#x7EC3;&#x7EC3;&#x624B;
import requests
import re
from bs4 import BeautifulSoup

findbrand = re.compile(r'<h3></h3>

运行之后就发现问题了，解析完之后出现很多空列表（我也不知道是怎么产生的，有知道的希望可以给我评论一下）

所以我选择眼不见为净，空列表全部删除

brandlist = [] #&#x6E05;&#x6D17;brand&#x5217;&#x8868;

brandlist = [ele for ele in brands if ele != []]#&#x5220;&#x9664;&#x7A7A;&#x6570;&#x7EC4;

brandlist = list(chain.from_iterable(brandlist)) #&#x5408;&#x5E76;&#x5C0F;&#x5217;&#x8868;

然后开始爬取全部车厂的地址了

brandlink = []       #存放车厂链接地址
    for i in brandlist:
        u = 'https://car.autohome.com.cn/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId='+str(i)+'%20&fctId=0%20&seriesId=0'
    brandlinks.append(u)

获取到这些地址就可以查到全部的车型了，接下来继续往下走

    for u in brandlinks[0:2]:#先测试两个车厂
        html = askurl(u)
        print(html)

通过获取到的车型来看，每个车型都是有对应的一个id，也就是series，所以接下来我们就先爬取全部的series值

    for u,b in zip(brandlinks[0:2],brandlist[0:2]):
        html = askurl(u)
        #print(html)
        soup = BeautifulSoup(html, 'html.parser')
        for item in soup('li', id='b' + b):
            item = str(item)
            print(item)
            serie = re.findall(findseries, item)
            series.append(serie)

拿到车型的id之后就可以开始找到配置库了

按照正常的思路应该是直接到车型配置里面爬数据

但是试了一下发现取不到数据

翻了好久的网络文件也没找到有用的，于是就打算换一种方式，去别的地方找找看

终于是从二手车那个板块也看到了配置表，但是我这个代码是前段时间写的，最近汽车之家二手车的板块已经改版了，图片已经截图不了了

就先按照我之前写的来讲，到了最后在讲一下现在的

以前的版本是直接在这个地址就可以查到了

https://dealer.autohome.com.cn/Price/_SpecConfig?SpecId=

现在新版的已经改成两个地址

先对比一下老版的配置库和新版的区别吧

这个是老版的配置库，布局相当容易解析，而且只有一个库

这个是新版的，对于爬取难度相当麻烦，而且这只是其中一个库，配置总共分成了两个库，一个是存内饰数据，一个可以说是发动机型号动力之类的吧，这里就不深究了，继续老版的吧

从链接可以看出，两种配置库都是需要specid的值来查询，所以接下来我们就找specid的值吧

这里还是从汽车之家二手车里面看

二手车的链接构成主要还是cid，seriesId，pvareaid。cid就是城市编号，seriesid就是之前我们拿到的车型id，最后一个我就没研究了，因为把最后一个删除了还是能拿到一样的页面

然后这个二手车的页面车型是真的很完善，年款配置版本全给写得清清楚楚，连1999年的雅阁都出来了

接下来就继续爬取specid吧

findcarname = re.compile(r'<input all=".*?specid=" \d{2,8}".*?>(.*?)<') findspecid="re.compile(r'<input" all=".*?specid=" (\d{2,8})".*?<') serieslink="[]" #存放二手车车型链接 carnames="[]" #存放车型年款版本 specids="[]" #存放specid for i in series: n="https://www.che168.com/autoseries/list.aspx?cid=440100&seriesid=" + serieslink.append(n) serieslink: print(i) html="askurl(i)" soup="BeautifulSoup(html,'html.parser')" #print(html) item soup: #print(item) carname="re.findall(findcarname,item)" carnames.append(carname) specid="re.findall(findspecid,item)" specids.append(specid) ele if !="[]]" # 合并小列表 print(carnames) print(specids)< code></')>

可以得到以下数据

得到了specid就可以直接查询配置库了

'https://dealer.autohome.com.cn/Price/_SpecConfig?SpecId='+specid

    for i in specids:
        url = 'https://dealer.autohome.com.cn/Price/_SpecConfig?SpecId=' + str(i)
        html = askurl(url)
        soup = BeautifulSoup(html, 'html.parser')
        for item in soup:
            item = str(item)
            item = item.replace(' ', '').replace('\n', '').replace('\r', '')
            print(item)

然后就能直接获取到配置啦

前面是功能名字，后面要么就是黑心圆点，代表的就是有这个功能，一个 – 号就是没有，需要爬取什么功能就写好re就好了

我这里就测试了一个车机互联功能，然后本文章说到的没解决的意外就来了

findcarplay = re.compile(r'&#x624B;&#x673A;&#x4E92;&#x8054;/&#x6620;&#x5C04;<td>(.*?)</td>')

carplays = []

carplay = re.findall(findcarplay, item)
            # print(carplay)
            carplays.append(carplay)
    carplays = [ele for ele in carplays if ele != []]
    carplays = list(chain.from_iterable(carplays))  # &#x5408;&#x5E76;&#x5C0F;&#x5217;&#x8868;

    for name, carplay in zip(carnames, carplays):
        print(name + '    ' + carplay)

但是爬取出来的每次都会少两个配置，所以有懂的大佬也帮忙回复一下看看

最后在附上全部代码

#先引入几个爬虫常用的库，都是新手级别的，我也是刚学python几天，没事摸摸鱼练练手
import requests
import re
from bs4 import BeautifulSoup
from itertools import chain

findbrand = re.compile(r'(.*?)(.*?)')

#1.创建一个访问网页的函数
def askurl(url):
    headers = {
        "user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36 QIHU 360SE"
    }
    html = requests.get(url,headers=headers)
    return html.text

#2.先获取到车型库的车型
def getcars():
    brands = []          #存放获得的brand值
    brandlist = []       #清洗brand列表
    brandlinks = []      #存放车型链接地址
    series = []          #存放车型id
    serieslink = []      #存放二手车车型链接
    carnames = []        #存放车型年款版本
    specids = []         #存放specid
    carplays = []        #存放需要的功能数据
    html = askurl('https://car.autohome.com.cn/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId=134%20&fctId=0%20&seriesId=0')
    soup = BeautifulSoup(html, 'html.parser')
    for item in soup:
        item = str(item)
        brand = re.findall(findbrand, item)
        brands.append(brand)

    #print(brands)
    brandlist = [ele for ele in brands if ele != []] #删除空数组
    brandlist = list(chain.from_iterable(brandlist)) #合并小列表
    #print(brandlist)

    for i in brandlist:
        u = 'https://car.autohome.com.cn/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId='+str(i)+'%20&fctId=0%20&seriesId=0'
        brandlinks.append(u)
    #print(brandlinks)

    for u,b in zip(brandlinks[0:10],brandlist[0:10]):#先测试几个网页
        html = askurl(u)
        #print(html)
        soup = BeautifulSoup(html, 'html.parser')
        for item in soup('li', id='b' + b):
            item = str(item)
            #print(item)
            serie = re.findall(findseries, item)
            series.append(serie)
    #print(series)
    series = list(chain.from_iterable(series))  # 合并小列表
    for i in series:
        n = 'https://www.che168.com/autoseries/list.aspx?cid=440100&seriesid=' + i
        serieslink.append(n)

    for i in serieslink:
        #print(i)
        html = askurl(i)
        soup = BeautifulSoup(html,'html.parser')
        #print(html)
        for item in soup:
            item = str(item)
            #print(item)
            carname = re.findall(findcarname,item)
            carnames.append(carname)
            specid = re.findall(findspecid,item)
            specids.append(specid)
    specids = [ele for ele in specids if ele != []]
    carnames = [ele for ele in carnames if ele != []]
    specids = list(chain.from_iterable(specids))  # 合并小列表
    carnames = list(chain.from_iterable(carnames))  # 合并小列表
    #print(carnames)
    #print(specids)

    for i in specids:
        url = 'https://dealer.autohome.com.cn/Price/_SpecConfig?SpecId=' + str(i)
        html = askurl(url)
        soup = BeautifulSoup(html, 'html.parser')
        for item in soup:
            item = str(item)
            item = item.replace(' ', '').replace('\n', '').replace('\r', '')
            #print(item)
            carplay = re.findall(findcarplay, item)
            # print(carplay)
            carplays.append(carplay)
    carplays = [ele for ele in carplays if ele != []]
    carplays = list(chain.from_iterable(carplays))  # 合并小列表

    for name, carplay in zip(carnames, carplays):
        print(name + '    ' + carplay)
#3.运行代码
def main():
    getcars()

#4.主程序
if __name__ == '__main__':
    main()

Original: https://blog.csdn.net/qq_29393255/article/details/121731183
Author: qq_29393255
Title: python爬虫re+requests+bs4爬取汽车之家全部过程，附代码。支持互联网免费至上，看了全部关于汽车之家的文章都是收费的，我很看不过去

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/640344/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SourceTree for Mac(Git客户端)中文

Original: https://www.cnblogs.com/aurora-123/p/16737962.htmlAuthor: 佛系女孩Title: SourceTree …

人工智能 2023年6月3日
0062
内网机conda环境配置流程

在被公司的内联网机器多次崩溃后，我决定摸一摸鱼，写一篇文章来总结一下。我希望我以后不需要再用它了。 [En] After being crashed many times by t…

人工智能 2023年5月24日
0077
【深度学习】目前几种热门的数据增强方法

目录 1）Mosaic增强 2）Mixup增强 3）Cutout增强 3）CutMix增强前言传统的镜像、旋转、缩放、调整亮度、对比度、高斯噪声这里不详细讲解。主要讲一下现在几…

人工智能 2023年6月20日
0083
pycharm安装opencv-python报错

嘿嘿，大家好，我又遇到拦路的小可爱了！报错内容 3): Read timed out. WARNING: You are using pip version 21.3.1; how…

人工智能 2023年7月18日
0067
在Anaconda下创建一个新的环境并安装tensorflow

1.打开Anaconda Prompt 2. 第一种方式：输入conda create tensorflow python=3.6(tensorflow是环境的名字，自定义)，创建…

人工智能 2023年5月24日
00111
遥感图像处理——仿射变换，坏值删除或者填充（不直接按照某值填充，而是按照最近点的值填充）

文章目录前言一、仿射变换 * 1.什么是仿射变换二、python-opencv实现仿射变换 * 1.使用python-opencv实现反射变换三、仿射变换后对无效值/零值的…

人工智能 2023年6月22日
0085
LEAP: Learning to Prescribe Effective and Safe Treatment Combinations for Multimorbidity

LEAP: Learning to Prescribe Effective and Safe Treatment Combinations for Multimorbidity A…

人工智能 2023年6月6日
0085
Opencv-Python学习（二）———图像处理

目录一、阈值处理二、图像的平滑处理三、腐蚀与膨胀一、阈值处理 import cv2 as cv import numpy as np from matplotlib imp…

人工智能 2023年6月20日
0079
基于prompt的关系抽取方法

一、《 AdaPrompt : Adaptive Prompt-based Finetuning for Relation Extraction 》【摘要】本文，我们将关系抽取…

人工智能 2023年5月28日
0093
opencv-python图像增强

图像的几何变换又称为图像空间变换，它将一幅图像中的坐标位置映射到另一幅图像中的新坐标位置。缩放只是调整图像的大小。为此，OpenCV 附带了一个函数cv.resize(…

人工智能 2023年5月28日
0061
opencv c++ 调用 cornerHarris函数一直报错OpenCV(4.5.5) Error: Assertion failed (src.type() == CV_8UC1 || src.

报错：OpenCV(4.5.5) Error: Assertion failed (src.type() == CV_8UC1 || src.type() == CV_32FC1)…

人工智能 2023年7月19日
0075
机器学习之KNN算法

KNN：K nearest neighbor，是一种分类算法，其中的K是人工指定的邻居个数，K常用交叉验证法进行确定。也称为：K近邻算法，K个最近的邻居。 knn不需要训练模型或者…

人工智能 2023年6月15日
0075
MATLAB图像处理入门

一、读写图像、直方图 1、读取并显示图像 imread与imshow函数 clc;clear; close all; I = imread(‘pout.tif’); imshow(…

人工智能 2023年6月17日
0088
【2022 小目标检测综述】Towards Large-Scale Small Object Detection: Survey and Benchmarks

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月9日
0069
机器学习基础之模型篇—–二元分类和多元分类

机器学习是一个比较广阔的知识领域，涉及到很多数学统计和计算机的相关知识。要想深入了解，需要系统学习和大量的时间。但是如果我们很清楚地知道机器学习如果用一句话来概括就是:通过大量…

人工智能 2023年7月1日
0092
主成分分析（PCA）详解

主成分分析（PCA)是一种比较基础的数据降维方法，也是多元统计中的重要部分，在数据分析、机器学习等方面具有广泛应用。主成分分析目的是用较少的变量来代替原来较多的变量，并可以反映原来…

人工智能 2023年7月18日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python爬虫re+requests+bs4爬取汽车之家全部过程，附代码。支持互联网免费至上，看了全部关于汽车之家的文章都是收费的，我很看不过去

爬虫项目讲解

大家都在看