基于Python实现的文章整合搜索引擎网站（Scrapy+Django+MySQL）

2023年10月2日下午12:49 • Python • 阅读 47

目录
摘要… 1
1 概述… 6
2 技术选型… 6
2.1 Scrapy-Redis 分布式爬虫 … 6
2.1.1 Redis… 6
2.1.2 Scrapy… 7
2.2 MySQL 数据存储 … 8
2.3 Django 搭建搜索网站 … 8
2.4 ElasticSearch 搜索引擎 … 9
2.4.1 Elasticsearch-RTF… 9
2.4.2 Elasticsearch-head… 10
2.4.3 Kibana… 10
3 实现细节… 10
3.1 处理反爬… 10
3.1.1 更换随机 User-Agent … 10
3.1.2 使用 IP 代理池… 11
3.1.3 访问频率限制… 12
3.1.4 Cookie 的禁用 … 13
3.1.5 验证码识别… 13
3.2 爬取数据… 14
3.2.1 先知社区… 14
3.2.2 安全客… 17
3.2.3 嘶吼… 19
3.3 重构分布式爬虫… 21
3.3.1 需要解决的问题… 21
3.3.2 分布式的原理… 22
3.3.3 分布式的实现… 23
3.4 搜索引擎… 24
3.4.1 倒排索引… 24
3.4.2 排序评分… 25
3.4.3 搜索提示… 26
3.4.4 模糊搜索… 27
3.5 网页搭建… 28
3.5.1 爬虫统计数据… 28
3.5.2 热门搜索… 28
3.6 其他技术… 29
3.6.1 URL 去重策略 … 29
3.6.2 Bloom Filter 使用 … 31
4 系统展示 … 34
4.1 分布式爬取… 34
4.2 搜索网站首页… 36
4.3 搜索提示展示… 36
4.4 搜索结果展示… 37
1概述
爬虫的应用领域非常广泛，目前利用爬虫技术市面上已经存在了比较成熟的搜索引擎产品，如百度、谷歌，以及其他垂直领域搜索引擎，这些都是非直接目的；还有一些推荐引擎，如今日头条，可以定向给用户推荐相关新闻；爬虫还可以用来作为机器学习的数据样本。
本项目的主要目的是为了更好的整合利用安全领域特有的社区资源优势。首先使用 Scrapy 爬虫框架结合 NoSQL 数据库 Redis 编写分布式爬虫，并对先知、安全客、嘶吼三个知名安全社区进行技术文章的爬取；然后选取 ElasticSearch 搭建搜索服务，同时提供了 RESTfulweb 接口；最后通过 Django 搭建可视化站点，供用户透明的对文章进行搜索。
最终通过本项目可以更加透彻的理解爬虫的相关知识；在熟练运用 Python 语言的基础上，更加深入的掌握开源的爬虫框架 Scrapy，为后续其他与爬虫相关的业务奠定理论基础和数据基础；进一步理解分布式的概念，为大数据的相关研究和硬件条件奠定基础；熟练掌握 Python 搭建网站的框架 Django，深入理解基于 Lucene 的搜索服务器 ElasticSearch。
2技术选型
2.1Scrapy-Redis 分布式爬虫
2.1.1Redis
Redis 是完全开源免费的，遵守 BSD 协议的，高性能的 key-value 数据库。
Redis 与其他 key-value 缓存产品有以下三个特点：
（1）Redis 支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。这样可以防止数据的丢失，在实际生产应用中数据的完整性是必须保证的。
（2）Redis 不仅仅支持简单的 key-value 类型的数据，同时还提供 list，set，
zset，hash 等数据结构的存储。这些功能更强大的数据存储方式极大地节约了存储空间，优化了查询的性能，大大提高了查询效率。存储的目的是为了后期更好的取出，Redis 很好地做到了这一点。
（3）Redis 支持数据的备份，即 master-slave 模式的数据备份。主从结构目前是大数据里面的主流结构，主从模式能保证数据的健壮性和高可用。当出现电脑宕机，硬盘损坏等重大自然原因时，本文转载自http://www.biyezuopin.vip/onews.asp?id=16995主从模式能很好的保证存储的数据不丢失，随时恢复到可用状态。
2.1.2Scrapy
Scrapy 的原理如下所示：

基于Python实现的文章整合搜索引擎网站（Scrapy+Django+MySQL）

<!DOCTYPE html >
<html xmlns="http://www.w3.org/1999/xhtml">
{% load staticfiles %}
<head>
    <meta http-equiv="X-UA-Compatible" content="IE=emulateIE7"/>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
    <title>ISA Search 搜索引擎</title>
    <link href="{% static 'css/style.css' %}" rel="stylesheet" type="text/css"/>
    <link href="{% static 'css/index.css' %}" rel="stylesheet" type="text/css"/>
</head>
<body>
<div id="container">
    <div id="bd">
        <div id="main">
            <h1 class="title">
                <div class="logo large"></div>
            </h1>
            <div class="inputArea">
                <input type="text" class="searchInput"/>
                <input type="button" class="searchButton" onclick="add_search()"/>
                <ul class="dataList"></ul>
            </div>
            <div class="historyArea">
                <p class="history">
                    <label>热门搜索：</label>
                    {% for search_word in topn_search %}
                        <a href="/search?q={{ search_word }}">{{ search_word }}</a>
                    {% endfor %}
                </p>
                <p class="history mysearch">
                    <label>我的搜索：</label>
                    <span class="all-search">
                        <a href="javascript:;"></a>
                    </span>

                </p>
            </div>
        </div><!-- End of main -->
    </div><!--End of bd-->

</div>
</body>
<script type="text/javascript" src="{% static 'js/jquery.js' %}"></script>
<script type="text/javascript" src="{% static 'js/global.js' %}"></script>
<script type="text/javascript">
    var suggest_url = "{% url 'suggest' %}"
    var search_url = "{% url 'search' %}"

    $('.searchList').on('click', '.searchItem', function () {
        $('.searchList .searchItem').removeClass('current');
        $(this).addClass('current');
    });

    function removeByValue(arr, val) {
        for (var i = 0; i < arr.length; i++) {
            if (arr[i] == val) {
                arr.splice(i, 1);
                break;
            }
        }
    }

    $(function () {
        $('.searchInput').bind(' input propertychange ', function () {
            var searchText = $(this).val();
            var tmpHtml = ""
            $.ajax({
                cache: false,
                type: 'get',
                dataType: 'json',
                url: suggest_url + "?s=" + searchText,
                async: true,
                success: function (data) {
                    for (var i = 0; i < data.length; i++) {
                        tmpHtml += '+ search_url + '?q=' + data[i] + '">' + data[i] + ''
                    }
                    $(".dataList").html("")
                    $(".dataList").append(tmpHtml);
                    if (data.length == 0) {
                        $('.dataList').hide()
                    } else {
                        $('.dataList').show()
                    }
                }
            });
        });
    })

    hideElement($('.dataList'), $('.searchInput'));

</script>
<script>
    function htmlSpecialChars(str) {
        var s = "";
        if (str.length == 0) return "";
        for (var i = 0; i < str.length; i++) {
            switch (str.substr(i, 1)) {
                case ":
                    s += "<";
                    break;
                case ">":
                    s += ">";
                    break;
                case "&":
                    s += "&";
                    break;
                case " ":
                    if (str.substr(i + 1, 1) == " ") {
                        s += "  ";
                        i++;
                    } else s += " ";
                    break;
                case "\"":
                    s += """;
                    break;
                case "\n":
                    s += "";
                    break;
                default:
                    s += str.substr(i, 1);
                    break;
            }
        }
        return s;
    }

    var searchArr;

    if (localStorage.search) {

        searchArr = localStorage.search.split(",")
    } else {

        searchArr = [];
    }

    MapSearchArr();

    function add_search() {
        var val = $(".searchInput").val();
        if (val.length >= 2) {

            KillRepeat(val);

            localStorage.search = searchArr;

            MapSearchArr();
        }

        window.location.href = search_url + '?q=' + val

    }

    function MapSearchArr() {
        var tmpHtml = "";
        var arrLen = 0
        if (searchArr.length >= 5) {
            arrLen = 5
        } else {
            arrLen = searchArr.length
        }
        for (var i = 0; i < arrLen; i++) {
            tmpHtml += '+ search_url + '?q=' + searchArr[i] + '">' + htmlSpecialChars(searchArr[i]) + ''
        }
        $(".mysearch .all-search").html(tmpHtml);
    }

    function KillRepeat(val) {
        var kill = 0;
        for (var i = 0; i < searchArr.length; i++) {
            if (val === searchArr[i]) {
                kill++;
            }
        }
        if (kill < 1) {
            searchArr.unshift(val);
        } else {
            removeByValue(searchArr, val)
            searchArr.unshift(val)
        }
    }

</script>
</html>

Original: https://blog.csdn.net/newlw/article/details/127683116
Author: biyezuopinvip
Title: 基于Python实现的文章整合搜索引擎网站（Scrapy+Django+MySQL）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789467/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python数据分析5-数据分组与聚合

目录 5.1数据分组 5.1.1GroupBy简介 5.1.2列名分组 5.1.3按列表或元组分组 5.1.4按字典分组 5.1.5按函数分组 5.2聚合运算 5.2.1聚合函数 …

Python 2023年8月8日
0048
Python名片管理系统彩色控制台版

Python名片管理系统彩色控制台版精选原创 lanxiaofang2022-08-11 14:16:01博主文章分类：Python ©著作权文章标签管理系统数据增删改…

Python 2023年5月24日
0056
基于Python+网络爬虫的兼职招聘就业信息数据可视化分析

🔥作者：雨晨源码🔥💖简介：java、微信小程序、安卓；定制开发，远程调试代码讲解，文档指导，ppt制作💖精彩专栏推荐订阅：在下方专栏👇🏻👇🏻👇🏻👇🏻Java精彩实战毕设项目案例小…

Python 2023年8月2日
00100
SA实战 · 《SpringCloud Alibaba实战》第02章-专栏设计

作者：冰河星球：http://m6z.cn/6aeFbs博客：https://binghe001.github.io文章汇总：https://binghe001.github.io…

Python 2023年10月8日
0044
PaddlePaddle通过pyinstaller打包出错

*1 找不到资源问题和matplotlib报错（1）matplotlib报错，通过 –exclude 屏蔽matplotlib –exclude matp…

Python 2023年9月6日
0053
输入法词库解析（七）微软用户自定义短语.dat

详细代码：https://github.com/cxcn/dtool 前言微软拼音和微软五笔通用的用户自定义短语 dat 格式。解析前 8 个字节标识文件格式 machxud…

Python 2023年10月21日
0051
这个dataframe，有没有好的方法，可以转化成这样一个dataframe

点击上方” Python爬虫与数据挖掘“，进行关注回复” 书籍“即可获赠Python从入门到进阶共10本电子书今日鸡汤高…

Python 2023年8月21日
0069
conda 安装虚拟环境失败

首先，看一下目前conda源都有哪些内容 conda info 然后，删除并恢复默认的conda源 conda config –remove-key channels …

Python 2023年9月7日
0062
python读取配置文件configparser模块

python读取配置文件configparser模块原创 CorwinPC2022-07-18 17:49:59博主文章分类：Python ©著作权文章标签配置文件读取配置…

Python 2023年5月25日
0094
Novelai 保姆级免费部署和最全使用教程（含资源与常见错误大全）（一）

目录一、Novelai选择方案二、部署步骤（Windows 系统）1.安装python3.10.6及环境2.安装stable-diffusion-webui方案一：安装git方案…

Python 2023年7月31日
00136
[Python]-numpy模块-机器学习Python入门《Python机器学习手册》-01-向量、矩阵和数组

《Python机器学习手册——从数据预处理到深度学习》这本书类似于工具书或者字典，对于python具体代码的调用和使用场景写的很清楚，感觉虽然是工具书，但是对照着做一遍应该可以对…

Python 2023年10月26日
0040
python飞机大战的开发和实现

提示：这是一个使用python语言编写的飞机大战的小游戏，使用的pycharm的编译器编译文章目录前言一、创建项目二、导入图片三、创建代码文件和编写代码 * 1、创建两个…

Python 2023年9月24日
0076
2. Anaconda下使用Pip或者conda安装库指南

### 回答1：要在Windows上安装 Python cv2库，可以使用 Anaconda_进行安装。以下是具体步骤： 1. 首先，确保已经下载并安装了适用于Windows的…

Python 2023年9月9日
0055
手写ROS程序控制ur5机械臂运动（Python）

最近想用ros来搭建ur机械臂的双臂平台，想先在gazebo中测试一下如何用自己手写的程序来控制ur机械臂运动，但网上的教程都局限在用moveit控制gazebo仿真环境下的ur运…

Python 2023年8月9日
0051
哈希表题目：公平的糖果交换

标题：公平的糖果交换 3 级 Alice 和 Bob 有不同数量的糖果。给你两个整数数组 aliceSizes \texttt{aliceSizes}aliceSizes 和 bo…

Python 2023年11月6日
0039
wordcloud库详解

wordcloud库是优秀的词云展示第三方库，可以将一段文本变成词云（词云以词语为基本单位，更加直观和艺术的展示文本） cmd命令行 pip install wordcloud 示…

Python 2023年8月1日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于Python实现的文章整合搜索引擎网站（Scrapy+Django+MySQL）

大家都在看