python爬虫框架入门_Python爬虫Scrapy框架入门(1)

也许是很少接触python的原因,我觉得是Scrapy框架和以往Java框架很不一样:它真的是个框架。

从表层来看,与Java框架引入jar包、配置xml或.property文件不同,Scrapy的模式是先用Scrapy建立项目,然后对项目中部分文件进行编辑,从而达到爬取相应网页的目的。

控制台->进入目标目录->输入下面指令来建立Scrapy项目:

scrapy startproject projName

如此,我们建立了一个空的Scrapy项目。其目录如下:

projName/

scrapy.cfg

projName/

init.py

items.py

pipelines.py

settings.py

spiders/

init.py

之后我们需要做的,就是编辑其中的部分文件。其中,items.py文件如下:

importscrapyclassDmozItem(scrapy.Item):

title=scrapy.Field()

link=scrapy.Field()

desc= scrapy.Field()

projName/spiders.py如下:

importscrapyclassMySpider(scrapy.Spider):

name= “dmoz”allowed_domains= [“dmoz.org”]

start_urls=[“http://www.dmoz.org/Computers/Programming/Languages/Python/Books/”,”http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/”]defparse(self, response):

filename= response.url.split(“/”)[-2] + ‘.html’with open(filename,’wb’) as f:

f.write(response.body)

dmoz是官方文档的示例中爬取的网站。

之后,在控制台,进入projName目录,运行

scrapy crawl dmoz

爬取对应的页面。

Original: https://blog.csdn.net/weixin_36302350/article/details/113984648
Author: 某bit
Title: python爬虫框架入门_Python爬虫Scrapy框架入门(1)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/792837/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 飞船打外星人(python)

    之前写了一个小游戏,飞船发射子弹和外星人做斗争。 现在临近期末考试,可能没空写完这个游戏了。 这样,就当埋个坑,以后有空一定要回来把这个游戏写完。 半成品代码先贴上来: alien…

    Python 2023年9月19日
    060
  • Python实现阶跃函数、sigmoid函数、ReLU函数

    Python实现阶跃函数、sigmoid函数、ReLU函数 神经网络 阶跃函数实现 sigmoid函数的实现 ReLU函数的实现 神经网络 神经网络有三层,左边的为输入层,中间的是…

    Python 2023年8月28日
    098
  • 使用Python中的tkinter模块实现GUI界面的学生信息管理系统

    本文只有代码,介绍了有关GUI界面的学生信息管理系统的实现。 已经过调试没有很大问题。如有错误,还请批评指正。 1.导入tkinter模块 import tkinter as tk…

    Python 2023年7月31日
    043
  • 【django云服务器部署】django+uwsgi+nginx 部署的完整流程

    本篇博客完整地记录了我从购买服务器到完成部署的全过程,需要的朋友可以参考一下我的流程,看这一篇文章就能成功部署项目啦。 写这个的本意是为备忘( 保姆级步骤),同时由于我在最开始部署…

    Python 2023年8月3日
    047
  • dataframe小技巧

    一.基本操作篇 1.新建自己定义column_name: import pandas as pd df = pd.DataFrame(columns=[‘col1′,’col2’,…

    Python 2023年8月18日
    055
  • 详解视频中动作识别模型与代码实践

    摘要:本案例将为大家介绍视频动作识别领域的经典模型并进行代码实践。 本文分享自华为云社区《视频动作识别》,作者:HWCloudAI。实验目标 通过本案例的学习: 掌握 C3D 模型…

    Python 2023年10月12日
    056
  • 人工智能项目实战-使用OMR完成答题卡识别判卷

    😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介:⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉pyt…

    Python 2023年8月2日
    080
  • 秒懂 Golang 中的 条件变量(sync.Cond)

    本篇文章面向的读者: 已经基本掌握Go中的 协程(goroutine), 通道(channel), 互斥锁(sync.Mutex), 读写锁(sync.RWMutex) 这些知识。…

    Python 2023年10月12日
    046
  • Python中常见的模块

    为了解决维护问题,一般情况下,在一个完整的项目中,会将特定的功能分组,分别放到不同的 文件中,在使用的过程中,可以单独维护,各个不同的文件之间互不影响,每个.py 文件就被称为一个…

    Python 2023年8月9日
    052
  • python短文本相似度计算_预训练Bert句向量_flask

    1. 任务介绍(预训练模型sentence_transformers来做文本相似度匹配任务) 从一堆 候选短文本数据集中筛选出与输入问句最相似的短文本(即短文本相似度匹配) 候选文…

    Python 2023年8月10日
    058
  • 【python for finance】 Portfolio Optimization 投资组合优化

    选择了四支股票进行投资组合优化练习[‘智飞生物’,’伊利股份’,’贵州茅台’,’顺丰控股&#82…

    Python 2023年8月8日
    070
  • 带你体验给黑白照片上色

    摘要:借助人工智能技术,可以一定程度上帮助老照片还原原来色彩。还记得之前火热的”老北京视频上色”吗?就是采用类似的技术。 在智能手机越来越普及的今天,拍摄一…

    Python 2023年10月28日
    037
  • 我的Vue之旅、01 深入Flexbox布局完全指南

    花了几个小时整合的”A Complete Guide to Flexbox”最新版本,介绍了flexbox的所有属性,外带几个实用的例子。 传统布局、Fle…

    Python 2023年10月21日
    036
  • 深度学习损失函数numpy实现并与torch对比

    用numpy实现L1损失、MSE损失、KL损失、NLL损失、交叉熵损失、BCE损失、SmoothL1损失,并和torch的计算结果对比。 目录 一、L1损失 1、公式 2、实现及对…

    Python 2023年8月25日
    050
  • python 画图工具——matplotlib命令式函数

    1. 概述 Matplotlib是python的一个绘图库,是数据科学的的必备库,更是很多高级可视化库的底层基础,matplotlib与numpy、pandas被誉为数据科学三剑客…

    Python 2023年8月31日
    055
  • 数组还是HashSet?

    我记得大约在半年前,有个朋友问我一个问题,现在有一个选型: 一个性能敏感场景,有一个集合,需要确定某一个元素在不在这个集合中,我是用数组直接 Contains还是使用 HashSe…

    Python 2023年10月15日
    035
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球