股票数据Scrapy爬虫-Python网络爬虫与信息提取-北京理工大学嵩天教授

2023年10月2日下午2:54 • Python • 阅读 28

股票数据Scrapy爬虫

本文对中国大学慕课上《Python网络爬虫与信息提取》课程中的最后一个实例”股票数据Scrapy爬虫”给出了具体的更新后的实现步骤。

import re
import scrapy

class StocksSpider(scrapy.Spider):
    name = 'stocks'
    start_urls = ['http://quote.stockstar.com/stock/stock_index.htm']

    def parse(self, response):
        for href in response.css('a::attr(href)').extract():
            try:
                stock = re.search(r'/gs/sh_\d{6}.shtml', href).group(0).split('_')[1].split('.')[0]
                url = "http://quotes.money.163.com/" + '0' + stock + '.html'
                yield scrapy.Request(url=url, callback=self.parse_stock)
            except:
                continue

    def parse_stock(self, response):
        infoDict = {}
        script = response.xpath('//div[@class="relate_stock clearfix"]/script[1]').extract()
        info = script[0].strip().split(',')
        infoDict['股票名称'] = eval(re.search(r'name\: \'.*\'', info[0]).group(0).split(':')[1])
        infoDict['股票代码'] = eval(re.search(r'code\: \'\d{6}\'', info[1]).group(0).split(":")[1])
        infoDict['现价'] = eval(re.search(r'price\: \'.*\'', info[2]).group(0).split(":")[1])
        infoDict['涨跌幅'] = re.search(r'change\: \'.*%', info[3]).group(0).split("'")[1]
        infoDict['昨收'] = eval(re.search(r'yesteday\: \'.*\'', info[4]).group(0).split(":")[1])
        infoDict['今开'] = eval(re.search(r'today\: \'.*\'', info[5]).group(0).split(":")[1])
        infoDict['最高'] = eval(re.search(r'high\: \'.*\'', info[6]).group(0).split(":")[1])
        infoDict['最低'] = eval(re.search(r'low\: \'.*\'', info[7]).group(0).split(":")[1])
        yield infoDict

（2）打开”pipelines.py”文件,修改代码，如下所示：


class ScrapystocksPipeline(object):
    def process_item(self, item, spider):
        return item

class ScrapystocksInfoPipeline(object):
    def open_spider(self, spider):
        self.f = open('ScrapyStockInfo.txt', 'w')

    def close_spider(self, spider):
        self.f.close()

    def process_item(self, item, spider):
        try:
            line = str(dict(item)) + '\n'
            self.f.write(line)
        except:
            pass
        return item

（3）打开”settings.py”文件,修改部分代码，如下所示：

原代码：

修改后：去掉注释，修改pipeline类名称

ITEM_PIPELINES = {
    'Stocks.pipelines.ScrapystocksInfoPipeline': 300,
}

也可以直接在Pycharm中打卡整个项目，通过Terminal执行命令”scrapy crawl stocks”，如图所示：

到此，整个爬虫就结束了。

Original: https://blog.csdn.net/weixin_45773716/article/details/113727595
Author: 腻腻不腻
Title: 股票数据Scrapy爬虫-Python网络爬虫与信息提取-北京理工大学嵩天教授

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789531/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas 数据排序

文章目录 Pandas 数据排序 * 按索引排序 – 按行索引排序按列的名称排序按数值排序 – 按单个列的值排序按多个列的值排序 inplace Pa…

Python 2023年8月18日
0077
【pytest】pytest.ini执行时报错:UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xaa in position 15

报错：写好run.py文件和pytest.ini文件后，通过执行run.py的时候报错： UnicodeDecodeError: ‘gbk’ codec …

Python 2023年9月10日
0053
vscode_pytest_配置debug环境:增加和打印环境变量

daPython是一种解释性语言，它有一个非常好的好处，就是代码可以随调随改。这意味着什么？意味着，我们编写一个代码，在代码中打个断点，就可以在当前baseline的基础上，做很…

Python 2023年9月12日
0031
数据可视化chapter07_大数据2003_02

matplotlib绘制Axes3D的两种方法： Axes3D(fig，rect=None) 该方法的参数所属画布，rect表示确定三维坐标系为值的元组创建方式 add_subp…

Python 2023年9月4日
0043
Django的下载与基本操作

下载与基本操作 1,django的历史版本 ; 一，两种安装Django框架方式 1，用pycharm安装django框架 2，创建django项目文件二、安装django框架方…

Python 2023年8月5日
0028
python 绘图库Matplotlib总结

本节导图：https://www.processon.com/view/link/5fde0dbfe0b34d66b824203b 绘图库Matplotlib matplotib是…

Python 2023年9月1日
0053
【python技能树】python简介

1 Python定义 Python 是一种简单易学并且结合了解释性、编译性、互动性和面向对象的脚本语言。Python提供了高级数据结构，它的语法和动态类型以及解释性使它成为广大开…

Python 2023年7月31日
0047
沉痛悼念织梦创始人林学先生，他为网站开源系统打开了大门

12 月 4 日，突闻噩耗，国内流行的内容管理系统（CMS） DEDEBIZ 网站发布讣告，DedeCMS 创始人林学先生（IT 柏拉图）因罹患癌症于 2022 年 12 月 3 …

Python 2023年9月30日
0036
【基础知识】pandas入门

两种：一维数组型的Series对象+二维表格型的DataFrame对象 andas的索引对象index是不可变的，因此用户不能对其进行修改。但index中可以包含重复的标签。选择重…

Python 2023年8月17日
0052
MATLAB绘图函数fplot详解

MATLAB绘图函数fplot详解一、fplot基本语法fplot不同于plot，主要用来根据函数表达式和自变量所属区间来直接绘制函数曲线，不需要给出像plot需要给出的自变量和因…

Python 2023年8月1日
0054
路径分析—QGIS+PostgreSQL+PostGIS+pgRouting（一）

路径分析—QGIS+PostgreSQL+PostGIS+pgRouting（一）路径分析—PostgreSQL+GeoServer+Openlayers（二）前言因业务需求…

Python 2023年10月19日
10122
科研必会Python库之 Matplotlib库教程

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月31日
0048
Conda虚拟环境创建

Conda虚拟环境创建 1. 为什么要创建虚拟环境 2. 开始搭建虚拟环境 * 第一步：创建虚拟环境第二步：切换进入虚拟环境 – 2.1 安装python的各种模块 …

Python 2023年8月1日
0058
python项目报错无法安装 Django，启动报错 ImportError: cannot import name ‘six‘ from ‘django.urls‘

把python项目从gitlab上拉取下来之后，遇到了奇奇怪怪的问题。目录问题一：无法安装 Django django-crispy-forms django-formtool…

Python 2023年8月6日
0092
Python Pandas DataFrame

import pandas as pd 1. 新建DataFrame df = pd.DataFrame(data = [[‘Sisyphus’, ‘male’, ‘D’], [‘…

Python 2023年8月6日
0044
Django通过jt808协议接收GPS数据,实现百度地图定位【多边形围栏】

1、主要功能：自动接收gps数据实时定位；设置多个电子围栏,超出并报警(批量设置围栏) 多种模式可调 2. gps数据接收网络拓扑图(jt808/tcp协议) ; 3、图例展…

Python 2023年8月3日
0060

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

股票数据Scrapy爬虫-Python网络爬虫与信息提取-北京理工大学嵩天教授

股票数据Scrapy爬虫

大家都在看