scrapy mysql 词云_利用Scrapy爬取姓名大全作词云分析

2023年10月6日上午2:38 • Python • 阅读 36

scrapy介绍

Scrapy 是一套基于Twisted、纯python实现的异步爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，相当的方便～

整体架构和组成

Scrapy Engine(引擎)

引擎负责控制数据流在系统所有组件中的流动，并在相应动作发生时触发事件，是框架的核心。

Scheduler(调度器)

调度器从引擎接受request并将他们入队，在引擎再次请求时将请求提供给引擎。

Downloader(下载器)

下载器负责获取页面数据并提供给引擎，而后提供给spider。

Spider(爬虫)

Spider是Scrapy用户编写用于分析response并提取item(即获取到item)或额外跟进的URL的类，定义了爬取的逻辑和网页内容的解析规则。每个spider负责处理一个特定(或一些)网站。

Item Pipeline(管道)

Item Pipeline负责处理被spider提取出来的item。典型的处理有清洗，验证及持久化(例如存取到数据库中)

Downloader Middlewares(下载中间件)

下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response(也包括引擎传递给下载器的Request)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

Spider Middlewares(Spider中间件)

Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

安装

pip install scrapy

爬虫项目

准备工作

创建项目

scrapy startproject xingmingdq

新建爬虫

scrapy genspider xingming resgain.net/xmdq.html

这个时候，目录下会创建xingmingdq文件夹，文件夹下就是xingmingdq scrapy项目，spiders下有xingming爬虫文件。

建立item

items.py中添加以下代码：

class Xingming_Item(scrapy.Item):

name = scrapy.Field()

xingshi = scrapy.Field()

xingshi_zh = scrapy.Field()

爬取名字

爬虫文件spiders/xingming.py书写网页解析规则。

–– coding: utf-8 ––

import scrapy

from xingmingdq.items import Xingming_Item

class XingmingSpider(scrapy.Spider):

name = ‘xingming’

allowed_domains = [‘www.resgain.net/xmdq.html’]

start_urls = [‘http://www.resgain.net/xmdq.html’]

def parse(self, response):

content = response.xpath(‘//div[@class=”col-xs-12″]/a/@href’).extract()

for i in content:

page = 0

href = ‘http:’ + i

base = href.split(‘/name’)[0] + ‘/name_list_’

while page < 10:

url = base + str(page) + ‘.html’

page += 1

yield scrapy.Request(url, callback=self.parse_in_html)

解析每一页

def parse_in_html(self, response):

person_info = response.xpath(‘//div[@class=”col-xs-12″]/div[@class=”btn btn-default btn-lg namelist”]/div[@style=”margin-top: 20px;”]’)

xingshi_zh = response.xpath(‘//div[@class=”navbar-header”]/a/div[@style=”text-align: center;”]/text()’).extract()[0].split(‘姓之家’)[0]

xingshi = response.url.split(‘/’)[2].split(‘.’)[0]

for every_one in person_info:

name = every_one.xpath(‘./text()’).extract()[0]

the_item = Xingming_Item()

the_item[‘name’] = name

the_item[‘xingshi’] = xingshi

the_item[‘xingshi_zh’] = xingshi_zh

yield the_item

处理流程

pipelines.py中，编写结果写入文件的处理。

class XingmingdqPipeline(object):

def init(self):

self.fp = open(‘xingming.csv’, ‘w’, encoding=’utf-8′)

def process_item(self, item, spider):

self.fp.write(‘%s,%s,%s\n’ % (item[‘name’], item[‘xingshi_zh’], item[‘xingshi’]))

return item

def close_spider(self, spider):

self.fp.close()

设置参数

要想执行pipelines，需要在settings.py中进行配置，搜索USER_AGENT和ITEM_PIPELINES进行修改。

修改USER_AGENT

USER_AGENT = ‘Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)’

配置ITEM_PIPELINES

ITEM_PIPELINES = {

‘xingmingdq.pipelines.XingmingdqPipeline’: 300,

}

执行爬虫

命令执行

scrapy crawl xingming

脚本执行

写入python文件，创建run.py，编辑下面代码，pycharm中运行。

import os

os.system(“scrapy crawl xingming”)

结果文件

词云分析

导入爬取的姓名数据，分析出图：

哈哈哈，最多的竟然是婷婷

找找有你的名字没有吧。

Original: https://blog.csdn.net/weixin_32689769/article/details/113566164
Author: 123456zggb
Title: scrapy mysql 词云_利用Scrapy爬取姓名大全作词云分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792256/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

《Python程序设计》python常用的格式转换

#字典 tinydict = {‘Name’: ‘Zara’, ‘Age’: 7, ‘Class’: ‘First’} tinydict…

Python 2023年8月3日
0047
机器学习强基计划0-2：什么是机器学习？和AI有什么关系？

目录 0 写在前面 1 什么是机器学习？ * 1.1 定义 1.2 编程逻辑 2 机器学习与AI的关系 * 2.1 人工智能三大学派 2.2 机器学习在AI中 3 机器学习能干什么…

Python 2023年8月2日
0055
【自动化测试】requests发送HTTPS请求(处理SSL证书验证)

SSL是什么，为什么发送HTTPS请求时需要证书验证？ SSL（Secure Socket Layer，安全套接字层）：位于可靠的面向连接的网络层协议和应用层协议之间的一种协议层。…

Python 2023年6月15日
00163
头歌平台-机器学习-11.神经网络

EduCoder：机器学习—神经网络第1关：什么是神经网络 ; 第2关：神经元与感知机编程要求：根据提示，在右侧编辑器补充 python 代码，构建一个感知机模型，底层代码会…

Python 2023年8月3日
00143
Python自动抢购脚本，学废了双十一双十二帮女票抢购心爱的礼物，隔壁女孩都馋哭了。

Python版本：3.10分享一个秒杀抢购的脚本程序，感兴趣的朋友一起看看吧第一步：需要把想要的商品加进购物车 （ 此&#x8…

Python 2023年8月1日
0060
前端性能优化

前端性能优化(考虑方向) 1、Echarts按需加载2、UI库按需加载3、图片压缩（https://tinypng.com/）4、较大的json和图片存放到服务器的静态资源文件夹5…

Python 2023年11月6日
0033
Matplotlib系列(六)：路径、面片和集合

Matplotlib系列目录文章目录一、简介二、思维导图三、 Matplotlib路径、块、集合 * 1. 路径(Path)和块(Patch) – 1.1 …

Python 2023年9月7日
0067
对载荷谱进行雨流计数的几个主要步骤（以四点雨流计数为例）

四点雨流计数四点雨流计数法，依据时间序列读入时域数据的四个数据点，如果中间两个数据点构成的幅值被第一个和第四个点构成的幅值包含，则将中间这两个点构成的相对较小的载荷循环记作一次计…

Python 2023年6月11日
0097
工作3年才8K，新招的测试一来就是14K，凭什么？

最近朋友给我分享了一个他公司发生的事，大概的内容呢：公司一位工作3年的测试工资还没有新人高，对此怨气不小，她来公司辛辛苦苦三年，三年内迟到次数都不超过5次，每天都是按时上下班，工作…

Python 2023年9月27日
0060
python kivy实例_Kivy:应用程序中的实例无效。

我对Python和Kivy都是新手，这是我的第一个小项目，不知道我做错了什么，下面是pydev(eclipse)的日志：[INFO ] Kivy v1.8.0 [INFO ] [L…

Python 2023年9月23日
0031
【性能测试】JMeter(二)–进阶篇（提取多个值并遍历使用）

JMeter性能测试–进阶篇一、简介二、准备测试接口三、需求四、jmeter使用 * 3.1、新增”线程组”，这里命名为flask应用 …

Python 2023年8月9日
10125
Flask学习笔记1——Flask简介

Flask学习笔记1——Flask简介 web是什么？什么是web框架？&为什么要用web 关于Flask 最近有web开发需求，虽然之前学了web基础（可以看我的专栏）…

Python 2023年8月11日
0044
OpenCV-Python实战（23）——将OpenCV计算机视觉项目部署到云端

[ _OpenCV_是一款非常强大的 _计算机视觉_库，其中包含了很多功能强大的图像处理和 _计算机视觉_算法。而在这个系列的第三篇文章中，我们将重点介绍如何在 _OpenCV_中…

Python 2023年8月14日
0058
Python之使用Matplotlib绘图小记——使用迭代器形式的子图对象

在使用 opencv 构建计算机视觉程序的时候，常会使用 matplotlib 来可视化中间的结果。因为直接为每一个中间结果进行一次单独的输出并不现实，因为如果窗口积累多了，关起来…

Python 2023年9月1日
0079
UI测试框架:playwright-python + pytest 模拟登陆后保持登录状态进行测试，避免重复登陆

playwright-python + pytest 模拟登陆后进行测试 playwright-python + pytest 模拟登陆后进行测试 * 1. 初始（遇到的问题） 2…

Python 2023年9月10日
0086
Python 批量推送微信公众号模板消息

目录 1. 依赖包 2. 消息推送的步骤 3. 功能描述 * 3.1. 注意事项 3.2. 消息推送模板的参数说明 3.3. 消息推送模块代码 3.4. 消息推送模块的调用依赖包…

Python 2023年8月6日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy mysql 词云_利用Scrapy爬取姓名大全作词云分析

大家都在看