布隆过滤器

2023年10月24日上午7:27 • Python • 阅读 32

1.概念

布隆过滤器是由布隆（Burton Howard Bloom）在1970年提出的一种紧凑型的、比较巧妙的概率型数据结构，特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”，它是用多个哈希函数，将一个数据映射到位图结构中。此种方式不仅可以提升查询效率，也可以节省大量的内存空间。

2.演示一下布隆过滤器的插入

插入baidu

插入tenxun

3.具体实现

package test;

import java.util.BitSet;

class Hash {
    public int cap;//容量
    public int seed;//种子

    public Hash(int cap, int seed) {
        this.cap = cap;
        this.seed = seed;
    }

    //把当前字符串变成一个hash值
    public int hash(String key) {
        int h;
        return (key == null) ? 0 : (seed * (cap - 1)) & ((h = key.hashCode()) ^ (h >>> 16));
    }
}

public class MyBloomFilter {
    public static final int DEFAULT_SIZE = 1 << 20;
    public BitSet bitSet;
    public int usedSize;
    public static final int[] seeds = {5, 7, 11, 13, 27, 33};
    public Hash[] hashes;

    public MyBloomFilter() {
        bitSet = new BitSet(DEFAULT_SIZE);
        hashes = new Hash[seeds.length];
        for (int i = 0; i < hashes.length; i++) {
            hashes[i] = new Hash(DEFAULT_SIZE, seeds[i]);
        }
    }

    public void add(String val) {
        for (Hash hash : hashes) {
            int index = hash.hash(val);
            bitSet.set(index);
        }
        usedSize++;
    }

    public boolean contains(String val) {
        for (Hash hash : hashes) {
            int index = hash.hash(val);
            boolean flag = bitSet.get(index);
            if (!flag) {
                return false;
            }
        }
        return true;//会误判
    }

    public static void main(String[] args) {
        MyBloomFilter myBloomFilter = new MyBloomFilter();
        myBloomFilter.add("hello");
        myBloomFilter.add("hello1");
        myBloomFilter.add("haha");
        System.out.println(myBloomFilter.contains("hello"));
        System.out.println(myBloomFilter.contains("hello1"));
        System.out.println(myBloomFilter.contains("hello2"));
    }
}

4.应用场景：

1.网页爬虫对URL的去重，避免爬去相同的URL地址。

2.垃圾邮件过滤，从数十亿个垃圾邮件列表中判断某邮箱是否是垃圾邮箱。

3.解决数据库缓存击穿，黑客攻击服务器时，会构建大量不存在于缓存中的key向服务器发起请求，在数据量足够大的时候，频繁的数据库查询会导致挂机。

秒杀系统，查看用户是否重复购买。
google的guava包中有对Bloom Filter的实现

5.优点

增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数，一般比较小)，与数据量大小无关
哈希函数相互之间没有关系，方便硬件并行运算
布隆过滤器不需要存储元素本身，在某些对保密要求比较严格的场合有很大优势
在能够承受一定的误判时，布隆过滤器比其他数据结构有这很大的空间优势
数据量很大时，布隆过滤器可以表示全集（节省空间），其他数据结构不能
使用同一组散列函数的布隆过滤器可以进行交、并、差运算

6.缺点

有误判率，即存在假阳性(False Position)，即不能准确判断元素是否在集合中(补救方法：再建立一个白
名单，存储可能会误判的数据)
不能获取元素本身
一般情况下不能从布隆过滤器中删除元素
如果采用计数方式删除，可能会存在计数回绕问题

7.误判率

布隆过滤器的误判是指多个输入经过哈希之后在相同的bit位置1了，这样就无法判断究竟是哪个输入产生的，因此误判的根源在于相同的 bit 位被多次映射且置 1。这种情况也造成了布隆过滤器的删除问题，因为布隆过滤器的每一个 bit 并不是独占的，很有可能多个元素共享了某一位。如果我们直接删除这一位的话，会影响其他的元素。

Original: https://blog.csdn.net/qq_56444564/article/details/128412637
Author: 阿瞒有我良计15
Title: 布隆过滤器

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/804190/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

全网最全python实现数据挖掘，数据分析（matlablib，pandas，numpy，量化分析）（附源代码）

全网最全python实现数据挖掘，数据分析（matlablib，pandas，numpy，量化分析）（附源代码） ; 1.横直方图电影票房 2.散点图3月与10月每天的天气 3.条…

Python 2023年8月24日
0037
Python数据可视化第三节

第三章；图表辅助元素的定制 3.1 认识图表常用的辅助元素图表的辅助元素是指除根据数据绘制的图形之外的元素，常用的辅助元素包括坐标轴、标题、图例、网格、参考线、注释文本和表格，他…

Python 2023年9月3日
0041
p6-三天的作业

三天的作业，必须（录屏+水印）完成，逐一检查！！点击登录按钮，实现POST请求到django后端，验证用户、密码通过后，生成token! 生成的jwt token必须自己使用ba…

Python 2023年8月4日
0043
IIC信号为什么要加上拉电阻

IIC是一个两线串行通信总线，包含一个SCL信号和SDA信号，SCL是时钟信号，从主设备发出，SDA是数据信号，是一个双向的，设备发送数据和接收数据都是通过SDA信号。在设计II…

Python 2023年10月8日
0047
知识图谱实体对齐1：基于平移（translation）嵌入的方法

在知识图谱领域，最重要的任务之一就是实体对齐 [1]（entity alignment, EA）。实体对齐旨在从不同的知识图谱中识别出表示同一个现实对象的实体。如下图所示，知识图…

Python 2023年10月29日
0036
【网络安全】——文件上传之安全狗bypass

作者名：Demo不是emo主页面链接：主页传送门创作初心：一切为了她座右铭：不要让时代的悲哀成为你的悲哀专研方向：网络安全，数据结构每日emo：保持心脏震荡，等有人与我共鸣 …

Python 2023年9月15日
0033
Prometheus学习记录【一】

Prometheus学习记录【一】 1 写在前面 * 1.1 缘起何处？ 1.2 现有技能 1.3 学习目标 2 正文 * 2.1 从了解监控开始 – 2.1.1 监控…

Python 2023年6月11日
0051
Python tkinter 一个Music download software的界面

前言本次案例最终实现效果 ; 开发环境 python 3.8: 解释器 pycharm: 代码编辑器界面代码实现先导入所需模块 import tkinter as tk fr…

Python 2023年10月31日
0045
pandas处理Excel基本方法

学习总结主要参考了视频内容 https://www.bilibili.com/video/BV1hk4y1C73S?p=2&vd_source=7771577bd8c0c6…

Python 2023年8月2日
0047
python实现学员管理系统

学员管理系统 """ 1.学员管理系统系统功能界面 1-添加学员 2-删除学员 3-修改学员信息 4-查询学员信息 5-退出系统 6-显示全部学员信…

Python 2023年10月30日
0034
性能测试基本流程

本文主要介绍下性能测试的基本流程，性能测试从执行层面来看，测试的过程主要分为以下几个阶段，如下图：一、性能测试需求分析 1、获取有效需求 a) 根据历史数据分析：应用监控、日志分…

Python 2023年10月23日
0044
Django admin实现TextField字段changelist页面换行、空格正常显示

问题背景在Django后台的使用admin view绑定model后，可以很方便的通过网页对底层的数据表进行增删查改操作。在实际工作中有一些数据字段会存储了json或者其他包含换…

Python 2023年5月24日
0094
pytorch神经网络对Excel数据集进行处理（读取，转为tensor格式，归一化），并且以鸢尾花（iris）数据集为例，实现BP神经网络

最近跟导师做的项目是关于BP，LSTN神经网络的，数据集对象是一些Excel表格类型的，我使用pytorch进行训练，读取Excel表格数据的时候统一进行一些处理，所以我想把它封装…

Python 2023年8月2日
0049
关于卷积神经网络的案例以及ReLU函数

案例1——简单黑白边界检测下面是使用Conv2D算子完成一个图像边界检测的任务。图像左边为光亮部分，右边为黑暗部分，需要检测出光亮跟黑暗的分界处。设置宽度方向的卷积核为[1,0…

Python 2023年8月29日
0073
VScode开发STM32/GD32单片机-环境搭建

1、软件下载 1.1、安装VSCode 1.2、下载安装VisualGDB 1.3、下载安装mingwin64 1.4、下载安装OpenOCD 1.5、下载GNU Arm Embe…

Python 2023年10月19日
0032
Django 4.0.6源码分析：自动重启机制

之前分析了一波Flask的源码,其实DEBUG模式下，也有自动重启的功能，不过没有深究。最近在研究Django框架，同样也有自动重启的功能，这次我们就来研究一下吧。 Ps：Pyth…

Python 2023年8月6日
0051

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

布隆过滤器

大家都在看