Pyrami

2024年1月1日上午11:27 • 人工智能 • 阅读 36

问题介绍

Pyrami是一种常见的数据挖掘算法，用于在大规模数据集中查找重复记录。该算法可以高效地处理大型数据集，并且可以准确地找到重复的数据。

算法原理

Pyrami算法基于Minhashing和局部敏感哈希（Locality Sensitive Hashing）原理。Minhashing是一种用于度量集合间相似度的技术，而局部敏感哈希则允许我们高效地定位相似数据。

算法的核心思想是通过将数据集拆分成多个子数据集并生成特征集合来查找重复记录。特征集合由数据的哈希值构成，哈希函数的选择是重复查找的关键。Pyrami使用了多轮的随机哈希函数生成不同的特征集合，然后利用局部敏感哈希技术对这些特征集合进行索引，以便在查询时能够快速定位到相似的数据。

公式推导

Pyrami算法中使用了两个主要的公式：Minhashing公式和局部敏感哈希（LSH）公式。

Minhashing公式

假设有一个数据集$D$，其中包含$n$个记录，每个记录用一个ID表示。假设有一个哈希函数集合$H$，其中包含$k$个哈希函数$h_1, h_2, …, h_k$。

对于每个记录$r$，我们计算它的特征集合$S_r$，特征集合的大小为$k$。特征集合中的元素由记录$r$的哈希值$h_i(r)$组成，其中$h_i$是哈希函数集合$H$中的一个函数。

Minhashing公式用于计算两个记录$r_1$和$r_2$的相似度$S(r_1, r_2)$：

$$S(r_1, r_2) = \frac{1}{k} \sum_{i=1}^{k} I(h_i(r_1) = h_i(r_2))$$

其中，$I(\cdot)$是指示函数，如果$h_i(r_1) = h_i(r_2)$，则$I(h_i(r_1) = h_i(r_2)) = 1$，否则$I(h_i(r_1) = h_i(r_2)) = 0$。

局部敏感哈希（LSH）公式

局部敏感哈希公式用于将特征集合映射到哈希表中，以便在查询时能够快速定位到相似的数据。

假设有一个特征集合$S$，它由记录$r$的哈希值组成。我们使用一个局部敏感哈希函数$L$将特征集合$S$映射到桶$B$：

$$L(S) = B$$

将所有特征集合映射到不同的桶，从而构成了局部敏感哈希索引。

计算步骤

Pyrami算法的计算步骤如下：

预处理阶段：
选择哈希函数集合$H$，其中包含$k$个哈希函数。
对于每个记录$r$，计算它的特征集合$S_r$，特征集合的大小为$k$，其中每个元素由记录$r$的哈希值$h_i(r)$组成。
索引构建阶段：
使用局部敏感哈希函数将特征集合映射到不同的桶，构建局部敏感哈希索引。
查询阶段：
对于每个查询记录$q$，计算它的特征集合$S_q$。
使用局部敏感哈希函数将特征集合$S_q$映射到桶，找到相似的数据。

复杂Python代码示例

下面是一个实现Pyrami算法的复杂Python代码示例：

import random
import numpy as np

def minhashing(data, k):
 hash_functions = generate_hash_functions(k)
 signature_matrix = np.inf artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls np.ones((k, len(data)))

 for i in range(len(data)):
 for j in range(k):
 for element in data[i]:
 if hash_functions[j](element) < signature_matrix[j, i]:
 signature_matrix[j, i] = hash_functions[j](element)

 return signature_matrix

def lsh(signature_matrix, b):
 bucket_map = {}
 for i in range(signature_matrix.shape[1]):
 bucket = tuple(signature_matrix[:, i] // b)
 if bucket not in bucket_map:
 bucket_map[bucket] = []
 bucket_map[bucket].append(i)

 return bucket_map

def pyrami(data, k, b):
 signature_matrix = minhashing(data, k)
 bucket_map = lsh(signature_matrix, b)
 return bucket_map

def generate_hash_functions(k):
 hash_functions = []
 for _ in range(k):
 a = random.randint(1, 100)
 b = random.randint(1, 100)
 hash_functions.append(lambda x: (a artical cgpt2md_gpt.sh cgpt2md_johngo.log cgpt2md_johngo.sh cgpt2md.sh _content1.txt _content.txt current_url.txt history_url history_urls log nohup.out online pic.txt seo test.py topic_gpt.txt topic_johngo.txt topic.txt upload-markdown-to-wordpress.py urls x + b) % 100)
 return hash_functions

# 测试数据
data = [
 [1, 2, 3],
 [3, 4, 5],
 [1, 2, 3, 4],
 [5, 6, 7]
]

k = 10 # 特征集合大小
b = 2 # 桶的大小

bucket_map = pyrami(data, k, b)
print(bucket_map)

代码细节解释

上述代码实现了Pyrami算法的主要功能。具体解释如下：

minhashing函数用于计算数据集的特征集合，它将数据集中的每个记录分别与$k$个哈希函数进行计算，并选择最小的哈希值作为特征集合的元素。
lsh函数将特征集合映射到不同的桶，构建局部敏感哈希索引。
generate_hash_functions函数用于生成$k$个随机的哈希函数。
pyrami函数是整个算法的主要入口，它调用minhashing和lsh函数来进行计算。
在测试数据中，我们使用了一个包含4个记录的虚拟数据集。
在打印结果时，我们可以看到每个桶对应的记录索引。

通过上述Python代码示例，我们可以更好地理解Pyrami算法的原理和计算过程。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822597/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用Python可视化实现循环作图

点击上方” Python共享之家“，进行关注回复” 资源“即可获赠Python学习资料今日鸡汤与君离别意，同是宦游人。 …

人工智能 2023年7月15日
0072
多模态数据融合

1.多模态数据含义：狭义：多媒体数据，如文本，音频，视频广义：对原始数据集采用不同的特征提取方法得到的不同特征组合 2.数据融合：整合从多模态数据中得到的补充信息，以提升模型分类性…

人工智能 2023年6月15日
00106
以python项目为例的Pyinstaller打包详细教程

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月6日
0091
Python计算股票收益率、Alpha和Beta系数

一、收益率转化对日期进行处理，分别将日对数收益率转化为月和年收益率。 #计算的时候第一个数为缺失值，删掉 import numpy as np lograte=np.log(df…

人工智能 2023年6月19日
0092
微信小程序如何测试？

不需要安装，只要在微信里找到这个小程序打开即可使用，由于小程序的便捷，如今越来越多的平台开发方都纷纷推出自身的小程序应用。那我们该如何进行微信小程序测试呢？功能测试以需求文档…

人工智能 2023年5月30日
00116
计算机视觉教程0-3：为何拍照会有死亡视角？详解相机矩阵与畸变

目录 0 拍照的死亡角度 1 透视相机模型 2 相机矩阵 3 镜头畸变 0 拍照的死亡角度拍照死亡角度一般指的是将自己脸盆子拍得特别大，拍出用鼻孔看人的狰狞面目，比如下面这张照片…

人工智能 2023年6月18日
0085
Failed to convert a array to a Tensor

（遇到此error，看这篇就对了）运行代码：model.fit(in_fe, labels, validation_split=0.25, epochs=10, batch_si…

人工智能 2023年5月24日
0075
如何利用gretna软件计算脑网络全局属性(聚类系数，小世界属性，最短路径)，局部属性指标（度，度分布，节点效率），如何理解网络稀疏度

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
00151
【机器学习项目实战】随机森林(random forest)回归(RandomForestRegressor)模型Python实现

说明：这是一个机器学习实战项目（附带数据+代码），如需数据+完整代码可以直接到文章最后获取。 1.定义问题在电子商务领域，现在越来越多的基于历史采购数据、订单数据等，进行销量的预…

人工智能 2023年6月15日
0070
数学建模学习笔记（清风）——聚类模型

目录基础部分：适用范围：聚类算法的分类：步骤：选择聚类算法优先级： DBSCAN算法的步骤：系统聚类步骤： K-mean聚类步骤：注意事项 Spss实现系统聚类和K…

人工智能 2023年5月31日
0077
吃透这25个技术栈，面试官绝对另眼相看

我分享的这份 Java 后端开发面试总结包含了 JavaOOP、Java 集合容器、Java 异常、并发编程、Java 反射、Java 序列化、JVM、Redis、Spring M…

人工智能 2023年6月27日
0082
一文速学-时间序列分析算法之一次移动平均法和二次移动平均法详解+实例代码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月12日
0056
Unity接入TopOn聚合广告平台SDK【聚合了穿山甲，优量汇(腾讯广告)，快手，Mintegral，sigmob等各大广告平台SDK】

TopOn聚合穿山甲，优量汇，快手，Mintegral各大广告SDK教程接了好几家SDK，都有亿点点蛋疼，直到遇到了TopOn。TopOn的文档和SDK相当齐全，包括Androi…

人工智能 2023年7月30日
0088
PMP第6版每日工具

文章目录 * – 工具列表 – |1|焦点小组|4.1 4.2 5.2 – |2|访谈|4.1 4.2 5.2 8.1 11.2 11.3 11…

人工智能 2023年6月11日
0079
【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE

背景了解知识图谱的友友应该都知道，知识图谱的构建可以从已有的非结构化、半结构化以及结构化的数据进行构建。对于结构化的数据，通常是数据库中的表，可以使用一些工具如R2RML语言。对…

人工智能 2023年7月28日
00147
支线任务1 opencv学习(最后一次更新于2022.10.2，已完结)

目录 0 前言 1.opencv入门 2 图像处理基础 3.图像运算 3.1图像加法 3.2 按位逻辑运算 3.3 位平面分解 4.色彩空间类型转换 4.1颜色提取 5. 几何变换…

人工智能 2023年7月18日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31