【Python爬虫】糗事百科数据段子采集

2023年5月25日上午12:59 • Python • 阅读 69

知识点

1.爬虫基本步骤
2.requests模块
3.parsel模块
4.xpath数据解析方法
5.分页功能

爬虫基本步骤:

1.获取网页地址 (糗事百科的段子的地址)
2.发送请求
3.数据解析
4.保存本地

爬虫代码

导入所需模块

import re
import requests
import parsel

1.获取网页地址

url = 'https://www.qiushibaike.com/text/'
请求头   伪装客户端向服务器发送请求
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}

2.发送请求

requ = requests.get(url=url, headers=headers).text

3.数据解析

sel = parsel.Selector(requ)  # 解析对象
href = sel.xpath('//body/div/div/div[2]/div/a[1]/@href').getall()
for html in href:
    txt_href = 'https://www.qiushibaike.com' + html
    requ2 = requests.get(url=txt_href, headers=headers).text
    sel2 = parsel.Selector(requ2)
    title = sel2.xpath('//body/div[2]/div/div[2]/h1/text()').get().strip()
    title = re.sub(r'[|/\：？<>*]','_',title)
    # content = sel2.xpath('//div[@class="content"]/text()').getall()
    content = sel2.xpath('//body/div[2]/div/div[2]/div[2]/div[1]/div/text()').getall()
    contents = '\n'.join(content)

4.保存数据

with open('糗事百科text\\'+title + '.txt', mode='w', encoding='utf-8') as fp:
    fp.write(contents)
    print(title, '下载成功')

运行代码，得到数据

Original: https://www.cnblogs.com/qshhl/p/15430257.html
Author: 松鼠爱吃饼干
Title: 【Python爬虫】糗事百科数据段子采集

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/511064/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python：当函数做为参数时的技巧

下面我们在深度学习项目情境中展示用lambda函数嵌套法修改函数参数个数的应用。我们这是一个联邦学习项目，有多个client客户端，每个client中都有机器学习模型。我们现在有一…

Python 2023年10月26日
0043
计算机视觉—图像处理基础

目录一、直方图 1.1直方图定义 1.2代码实现 1.3运行结果二、高斯滤波 2.1定义 2.2代码实现 2.3运行结果三、直方图均衡化 3.1定义 3.2代码实现 3.3运…

Python 2023年9月1日
0050
用昇腾AI护航“井下安全”

摘要：基于CANN（异构计算架构）打造的”智能矿山安全生产管理平台”，能够更便捷和更高效地服务于更多矿山安全生产建设。都说”矿产品是工业的粮食…

Python 2023年10月25日
0026
Obsidan之数学公式的输入

前言： 最近在学习专升&a…

Python 2023年8月3日
0059
基于python地铁客流量分析平台

http://ym6se2.natappfree.cc import requestsimport pandas as pdimport timeimport csv def ds…

Python 2023年8月7日
0049
树莓派4B配置dokcer镜像，安装python及numpy

首先，为树莓派安装docker环境，并初步测试： docker搭建python环境创建文件夹/tmp，编辑Dockerfile，写入待执行命令 FROM python:3.8 R…

Python 2023年8月27日
0043
Python游戏嗷大喵快跑设计

全套资源下载地址：https://download.csdn.net/download/sheziqiong/86774416全套资源下载地址：https://download.c…

Python 2023年9月19日
0056
python tips系列1——pandas的map函数

前言大家在使用pandas的时候，大部分可能就是一些匹配关系，主要也就是使用merge函数之类的。但是有时候在匹配的时候，并不需要使用merge的函数，使用别的函数也是可以做到，…

Python 2023年8月16日
0065
DataFrame的一般操作

*1.DataFrame对象的生成 pandas.DataFrame(data,index,columns,dtype,copy) 1.data:支持多种数据类型 2.index：…

Python 2023年8月17日
0077
学生管理系统——Django

好的，您想了解关于和MySQL 的相关信息，我可以为您提供一些指导。首先，是一个基于的Web应用框架，它提供了一系列的工具和接口，可以帮助我们快速构建高效、安全、可扩展的W…

Python 2023年8月4日
0044
Matplotlib——多图_1、网格子图_subplot()函数使用

Matplotlib 的subplot()函数提供了一种简单的方式，可以在网格中绘制子图。语法： subplot(nrows, ncols, index, **kwargs) ●…

Python 2023年9月5日
0041
matplotlib画动态轨迹图

参考https://blog.csdn.net/suzyu12345/article/details/78338091 函数 from matplotlib.animation i…

Python 2023年9月2日
0044
Jupyter notebook 详细安装步骤

前言：在安装Jupyter notebook 之前，确认您已安装python编译器（点击进入python官网）一、开始安装 1、打开cmd命令窗口在键盘上点击 win+r 键…

Python 2023年7月31日
00184
艾略特波段理论实战（1）：8浪

一、艾略特波段理论简介波浪理论是美国证券分析家拉尔夫·纳尔逊·艾略特（R.N.Elliott）利用道琼斯工业平均指数（Dow Jones Industrial Average，D…

Python 2023年9月4日
0051
python-pytest-allure,生成测试报告并查看

默认环境：python3.9及以上，pycharm编译器一、安装配置环境 1、安装pytest 命令行输入pip install pytest 2、安装JDK，因为allure依…

Python 2023年9月10日
0055
YOLOv7训练自己的数据集（口罩检测）

YOLOv7训练自己的数据集（口罩检测） * – 前言 – 前提条件 – 实验环境 – 项目结构 – 制作自己的数据集 …

Python 2023年8月2日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31