新闻订阅及新闻内容展示系统（Python+Django+scrapy）

2023年10月3日上午11:15 • Python • 阅读 61

目录
摘要 1
Abstract 2
第一章引言 3
1.1 项目的背景和意义 3
1.2.1 个性化新闻服务现状 4
1.2.2 网络爬虫研究现状 4
1.2.3 项目的范围和预期结果 4
第二章技术与原理 5
2.1 技术选型 5
2.2 相关原理介绍 7
第三章系统需求分析 10
3. 1 新闻订阅系统用例析取 10
3.2 新闻订阅系统用例规约 10
第四章新闻采集与订阅系统的设计 15
4.1 系统架构及原理 15
4.2 系统模块设计 17
第五章新闻采集与订阅系统的实现 23
5.1 系统框架实现 23
5.2 爬虫采集模块实现 27
5.3 防反爬虫模块实现 28
5.4 爬虫存储模块实现 29
5.5 消息推送模块实现 30
5.6 消息订阅与展示模块实现 32
第六章系统部署 39
第七章总结与展望 42
7.1 总结 42
参考文献 44
致谢 45
本文描述了基于网络爬虫的新闻订阅系统的设计与实现的过程，主要工作如下：
编写一个网络爬虫，使其能够对网络中指定站点的新闻进行自动收集并存入数据库；数据的去重和网络爬虫的反爬虫策略应对；
提供一个新闻展示页面，把爬取到的新闻展示给用户；
提供新闻订阅页面，用户可以在页面输入指定订阅的关键词；编写微信推送服务，把用户订阅的新闻通过微信推送给用户；
本新闻采集与订阅系统的爬虫部分框架是利用Scrapy自带的命令行工具来初始化，初始化后已经创建好了Scrapy引擎所需的几个重要的文件，如中间件，数据管道，配置文件等，这样做的好处是能够快速搭建起框架，并且能够达到官方定义的最佳实践。接下来我们可以在这个目录下定义自己的一些模块文件，再在这些文件中实现自己的处理函数就可以了，最终实现的爬虫部分的目录结构如图5.1所示，其中items.py是用于定义数据储存模型的文件，middlewares.py是用于定义中间件的文件，pipelines.py是用于定义数据管道的文件，settings.py是本系统爬虫部分的配置内容，spiders文件夹中存放了不同爬虫的网络蜘蛛代码， utils.py则是一些通用的函数存放的地方，wechat_conﬁg.py和wechatpush.py分别是微信推送部分的配置和推送代码。
消息订阅与展示模块主要由前端静态文件部分和后端API部分组成。在开发方式上本系统选择了使用前后端分离的方式，本文转载自http://www.biyezuopin.vip/onews.asp?id=13348前端通过AJAX的方式来跟后端提供的API进行交互，后端API服务器收到请求后返回对应的JSON格式的数据给前端，前端根据数据来渲染出最终展示给用户的页面，这种前后端分离的方式有效地降低了代码之间的Wi合度。在前端实现方面，使用了jquery来对DOM元素进行操作以及进行异步请求等，另外使用了WeUI的样式库，WeUI 是一套提供同微信原生一致的视觉体验的基础样式库，由微信官方设计团队为微信内网页和微信小程序量身设计，令用户的使用感知更加统一。

-*- coding: utf-8 -*-

Define your item pipelines here
#
Don't forget to add your pipeline to the ITEM_PIPELINES setting
See: http:
import pymongo
import logging
from utils import redis_conn, redis_url_key
from scrapy.conf import settings
from scrapy.exceptions import DropItem
from wechat_push import send_msg
from wechat_config import default_openid
logger = logging.getLogger(__name__)

class MongoDBPipeline(object):

    def __init__(self):
        conn = pymongo.Connection(
            settings['MONGO_CONF']['host'],
            settings['MONGO_CONF']['port']
        )
        db = conn[settings['MONGO_CONF']['db']]
        self.news_collection = db[settings['MONGO_CONF']['collection']]

    def process_item(self, item, spider):
        valid = True
        for data in item:
            if not data:
                valid = False
                raise DropItem("Missing {0}!".format(data))
        if valid:
            object_id = self.news_collection.insert(dict(item))
            spider.object_id = str(object_id)
            logger.info("Question added to MongoDB database!")
        return item

class RedisPipeline(object):

    def process_item(self, item, spider):
        redis_conn.hset(redis_url_key, item['url'], 0)
        return item

class PushPipeline(object):

    def __init__(self):
        conn = pymongo.Connection(
            settings['MONGO_CONF']['host'],
            settings['MONGO_CONF']['port']
        )
        db = conn[settings['MONGO_CONF']['db']]
        self.subscription_collection = db[settings['MONGO_CONF']['subscription_collection']]

    def process_item(self, item, spider):
        subscription = self.subscription_collection.find_one(
            {
                'open_id': default_openid
            }
        )
        keywords = subscription.get('keywords', [])
        # 判断关键词
        keyword_in_title = any([keyword in item['title'] for keyword in keywords])
        keyword_in_content = any([keyword in item['content'] for keyword in keywords])
        if keyword_in_title or keyword_in_content:
            send_msg(
                title=item['title'],
                data=item['content'],
                object_id=spider.object_id,
                openid=default_openid
            )
        return item

Original: https://blog.csdn.net/newlw/article/details/127382573
Author: biyezuopinvip
Title: 新闻订阅及新闻内容展示系统（Python+Django+scrapy）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790205/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SimplePro日期选择器

SimplePro日期选择器 🚀simpleui 是django admin的一个主题是一个基于element-ui+vue开发，重写和优化90%以上的页面。与suit是同类产…

Python 2023年8月5日
0071
宝塔面板部署python项目

关闭项目管理器，重新打开，检查服务器是否正常运行，如状态显示已暂停，检查日志。如果日志中有No Module named xx的报错则在step5中添加相应的module。如果有…

Python 2023年8月9日
0044
包

模块的问题解决了代码过长不便维护的问题，但是如果不同的人编写的模块名相同怎么办？为了变量模块名冲突，python又引入了用目录来组织模块的方法，称为包。例如：为了避免 fibo…

Python 2023年6月11日
0067
ESP32与Xbox手柄的UART通信测试，基于Arduino框架和pyserial+pygame

ESP32与Xbox手柄的UART通信测试 * – 1. 说明 – 2. 环境 – 3. 手柄与PC之间的通信测试 – 4. pyt…

Python 2023年9月20日
00112
VH6501模板工程介绍（一）

VH6501硬件结构 1.式样 1.正向有5个灯，用来指示干扰的触发状态，干扰类型（数字或模拟），通道通信以及设备状态。 2.两个DB9接口（公头male和母头female），这是…

Python 2023年10月14日
0042
阿里技术官耗时半年总结出“满分”架构笔记，拿捏分布式到微服务

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年9月15日
0040
pandas查看属性和数据

10.2 查看其属性、概览 1.属性 df.shape # 查看形状，⾏数和列数df.dtypes # 查看数据类型df.index # ⾏标签df.columns # 列标签df…

Python 2023年8月16日
0092
如何使用Python处理Missing Data

Original: https://www.cnblogs.com/123456feng/p/16092678.htmlAuthor: 蚂蚁ailingTitle: 如何使用Pyt…

Python 2023年11月9日
0032
云服务器flask项目搭建

安装python环境步骤一：检查系统中是否有wget和pip(如果没有执行步骤二安装，如果已存在则执行步骤3) pip3 –version python3 –version …

Python 2023年8月11日
0041
Python每日一练（牛客数据分析篇新题库）——第37天：合并

文章目录 1. 去掉信息不全的用户 2. 修补缺失的用户数据 3. 解决牛客网用户重复的数据 4. 统一最后刷题日期的格式《100天精通Python》专栏推荐白嫖80g Pyth…

Python 2023年8月19日
0088
RabbitMQ 入门系列：10、扩展内容：延时队列：延时队列插件及其有限的适用场景（系列大结局）。

延迟队列用于事件发生后间隔一段时间后需要做特定处理的场景，如： 1、电商支付系统中，用户下单后N分钟不支付，自动取消订单。 2、用户浏览商品长时间后还没下单，后续推送相关产品和优惠…

Python 2023年10月23日
0043
python dataframe 替换_python – 在pandas dataframe列中有条件地替换值

假设我有一个prandas数据帧,其列值为年龄,如df.age = {25,35,76,21,23,30} 我想做一个像这样的inplace替换：如果df.age> = 2…

Python 2023年8月9日
0052
CentOS 7.7安装Erlang和Elixir

安装之前，先看一下它们的简要说明 Erlang Erlang是一种开源编程语言，用于构建对高可用性有要求的大规模可扩展的软实时系统。它通常用于电信，银行，电子商务，计算机电话和即时…

Python 2023年6月9日
00116
p6-day01 作业

看图完成如下作业创建workers应用，注册并定义模型类，参考图中的三张表；最后完成迁移，添加三条以上测试数据。使用serializers.Serializer定义三个模型类…

Python 2023年8月4日
0075
Django & Vue 项目踩坑记：‘Model‘ object is not iterable

功能期望根据前端用户选择的object名称，在数据库中查询对应模型，并将模型信息通过serialize方式转换为json格式数据返回至前端。问题描述 ‘model’ objec…

Python 2023年8月3日
0044
python飞机大战是什么水平_Python 版飞机大战

学过了类和对象之后急于体验一下面向对象编程，于是开始边纠边学pygame游戏模块第一个尝试上手的就是飞机大战，下面简单总结一下思路，也算是教学相长。话不多说先放预览操作环境：…

Python 2023年9月23日
0038

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

新闻订阅及新闻内容展示系统（Python+Django+scrapy）

大家都在看