数据分析-PageRank-案例

2023年7月17日上午6:10 • 人工智能 • 阅读 73

某网页被指向的次数越多，则它的重要性越高；越是重要的网页，所链接的网页的重要性也越高。

PageRank 就是基于”从 许多优质的网页链接过来的网页，必定还是优质网页”的回归关系，来判定所有网页的重要性。

把互联网上的各网页之间的链接关系看成一个有向图。对于任意网页Pi，它的PageRank值可表示为如下：其中Bi为所有链接到网页i的网页集合，Lj为网页j的对外链接数（出度）。

如图 11‑1，A的初始值是1，A有两个出链指向C和B，C、B分别分得A的1/2。

D的初始PR值为1，链出有三个， C、B和F分别分得D的0.3333C、B各有两个入链，此轮后，C、D的PR值为0.8333；F只有一个入链，F的PR值为0.3333。

初始所有网页都具有相同的PR值，经过多次循环传递，收敛后的网页的PR值为最终值进行排名。

案列1

针对以下连接关系

创建有向图

import networkx as nx
import numpy as np
&#x521B;&#x5EFA;&#x6709;&#x5411;&#x56FE;
G = nx.DiGraph()
&#x6709;&#x5411;&#x56FE;&#x4E4B;&#x95F4;&#x8FB9;&#x7684;&#x5173;&#x7CFB;
edges = [("A", "B"), ("A", "C"), ("A", "D"), ("B", "A"),
         ("B", "D"), ("C", "A"), ("D", "B"), ("D", "C"),
         ("D","A"),("F","A"),("C","F")]
&#x6DFB;&#x52A0;&#x8282;&#x70B9;&#x3001;&#x8FB9;&#x5230;&#x6709;&#x5411;&#x56FE;
for edge in edges:
    G.add_edge(edge[0], edge[1])

#&#x8BA1;&#x7B97;PageRank
pagerank = nx.pagerank(G, alpha=1)
print("pagerank &#x503C;&#x662F;&#xFF1A;", pagerank)

#&#x8BBE;&#x7F6E;&#x8FB9;&#x6743;&#x91CD;
ep=[[i,j,1] for i,j in edges]

&#x753B;&#x7F51;&#x7EDC;&#x56FE;
def draw_graph(graph, layout='circular_layout'):
    # &#x4F7F;&#x7528; Spring Layout &#x5E03;&#x5C40;&#xFF0C;&#x7C7B;&#x4F3C;&#x4E2D;&#x5FC3;&#x653E;&#x5C04;&#x72B6;
    if layout == 'circular_layout':
        positions=nx.circular_layout(graph)
    else:
        positions=nx.spring_layout(graph)
    # &#x8BBE;&#x7F6E;&#x7F51;&#x7EDC;&#x56FE;&#x4E2D;&#x7684;&#x8282;&#x70B9;&#x5927;&#x5C0F;&#xFF0C;&#x5927;&#x5C0F;&#x4E0E; pagerank &#x503C;&#x76F8;&#x5173;&#xFF0C;&#x56E0;&#x4E3A; pagerank &#x503C;&#x5F88;&#x5C0F;&#x6240;&#x4EE5;&#x9700;&#x8981; *2000
    nodesize = [x['pagerank']*9000 for v,x in graph.nodes(data=True)]
    # &#x8BBE;&#x7F6E;&#x7F51;&#x7EDC;&#x56FE;&#x4E2D;&#x7684;&#x8FB9;&#x957F;&#x5EA6;
    #edgesize = [np.sqrt(e[2]['weight']) for e in graph.edges(data=True)]
    # &#x7ED8;&#x5236;&#x8282;&#x70B9;
    nx.draw(graph, positions, node_size=nodesize, alpha=0.4)
    # &#x7ED8;&#x5236;&#x8FB9;
    nx.draw_networkx_edges(graph, positions, alpha=0.5)
    # &#x7ED8;&#x5236;&#x8282;&#x70B9;&#x7684; label
    nx.draw_networkx_labels(graph, positions, font_size=10)

nx.set_node_attributes(G, name = 'pagerank', values=pagerank)
nx.set_edge_attributes(G, name = 'weight', values=2)
G.edges(data=True)
draw_graph(G)

但PageRank会面临两个问题

•Rank leak （一般是因为存在网页没有出度）

•Rank sink（整个网页图中的一组紧密链接成环的网页如果没有外出的链接就产生Rank sink）

应用

学术论文的重要性排序
学术论文的作者的重要性排序
某作者引用了其它作者的文献，则该作者认为其它作者是”重要”的。
机场的重要性排名
城市的重要性排名
人物的重要性排名
关键词与句子的抽取（节点与边）

案例2

希拉里邮件门的人物关系（代码来源于网络）

import pandas as pd
import networkx as nx
import numpy as np
from collections import defaultdict
import matplotlib.pyplot as plt

&#x6570;&#x636E;&#x52A0;&#x8F7D;
emails = pd.read_csv("d:/datasets/PageRank/input/Emails.csv")
&#x8BFB;&#x53D6;&#x522B;&#x540D;&#x6587;&#x4EF6;
file = pd.read_csv("d:/datasets/PageRank/input/Aliases.csv")
aliases = {}
for index, row in file.iterrows():
    aliases[row['Alias']] = row['PersonId']
&#x8BFB;&#x53D6;&#x4EBA;&#x540D;&#x6587;&#x4EF6;
file = pd.read_csv("d:/datasets/PageRank/input/Persons.csv")
persons = {}
for index, row in file.iterrows():
    persons[row['Id']] = row['Name']

&#x753B;&#x7F51;&#x7EDC;&#x56FE;
def show_graph(graph, layout='spring_layout'):
    # &#x7F3A;&#x7701;Spring Layout &#x5E03;&#x5C40;&#xFF0C;&#x661F;&#x578B;
    # circular_layout &#x5E03;&#x5C40;&#xFF0C;&#x73AF;&#x578B;
    if layout == 'circular_layout':
        positions=nx.circular_layout(graph)
    else:
        positions=nx.spring_layout(graph)
    # &#x8BBE;&#x7F6E;&#x7F51;&#x7EDC;&#x56FE;&#x4E2D;&#x7684;&#x8282;&#x70B9;&#x5927;&#x5C0F;&#xFF0C;&#x5927;&#x5C0F;&#x4E0E; pagerank &#x503C;&#x76F8;&#x5173;&#xFF0C;&#x8003;&#x8651;&#x6B64;&#x5904; pagerank &#x503C;&#x5F88;&#x5C0F;&#x6240;&#x4EE5; *20000&#xFF0C;&#x6839;&#x636E;&#x5B9E;    &#x9645;&#x60C5;&#x51B5;&#x8C03;&#x6574;&#x3002;
    nodesize = [x['pagerank']*20000 for v,x in graph.nodes(data=True)]
    # &#x8BBE;&#x7F6E;&#x7F51;&#x7EDC;&#x56FE;&#x4E2D;&#x7684;&#x8FB9;&#x957F;&#x5EA6;
    edgesize = [np.sqrt(e[2]['weight']) for e in graph.edges(data=True)]
    # &#x7ED8;&#x5236;&#x8282;&#x70B9;
    nx.draw_networkx_nodes(graph, positions, node_size=nodesize, alpha=0.4)
    # &#x7ED8;&#x5236;&#x8FB9;
    nx.draw_networkx_edges(graph, positions,  alpha=0.5)
    # &#x7ED8;&#x5236;&#x8282;&#x70B9;&#x7684; label
    nx.draw_networkx_labels(graph, positions, font_size=10)

&#x9488;&#x5BF9;&#x522B;&#x540D;&#x8FDB;&#x884C;&#x8F6C;&#x6362;
def unify_name(name):
    # &#x59D3;&#x540D;&#x7EDF;&#x4E00;&#x5C0F;&#x5199;
    name = str(name).lower()
    # &#x53BB;&#x6389;, &#x548C; @&#x540E;&#x9762;&#x7684;&#x5185;&#x5BB9;
    name = name.replace(",","").split("@")[0]
    # &#x522B;&#x540D;&#x8F6C;&#x6362;
    if name in aliases.keys():
        return persons[aliases[name]]
    return name

&#x5C06;&#x5BC4;&#x4EF6;&#x4EBA;&#x548C;&#x6536;&#x4EF6;&#x4EBA;&#x7684;&#x59D3;&#x540D;&#x8FDB;&#x884C;&#x89C4;&#x8303;&#x5316;
emails.MetadataFrom = emails.MetadataFrom.apply(unify_name)
emails.MetadataTo = emails.MetadataTo.apply(unify_name)
&#x8BBE;&#x7F6E;&#x8FB9;&#x7684;&#x6743;&#x91CD;&#x7B49;&#x4E8E;&#x53D1;&#x90AE;&#x4EF6;&#x7684;&#x6B21;&#x6570;
edges_weights_temp = defaultdict(list)
for row in zip(emails.MetadataFrom, emails.MetadataTo, emails.RawText):
    temp = (row[0], row[1])
    if temp not in edges_weights_temp:
        edges_weights_temp[temp] = 1
    else:
        edges_weights_temp[temp] = edges_weights_temp[temp] + 1
&#x8F6C;&#x5316;&#x683C;&#x5F0F; (from, to), weight => from, to, weight
edges_weights = [(key[0], key[1], val) for key, val in edges_weights_temp.items()]
&#x521B;&#x5EFA;&#x4E00;&#x4E2A;&#x6709;&#x5411;&#x56FE;
graph = nx.DiGraph()
&#x8BBE;&#x7F6E;&#x6709;&#x5411;&#x56FE;&#x4E2D;&#x7684;&#x8DEF;&#x5F84;&#x53CA;&#x6743;&#x91CD; (from, to, weight)
graph.add_weighted_edges_from(edges_weights)
&#x8BA1;&#x7B97;&#x6BCF;&#x4E2A;&#x8282;&#x70B9;&#xFF08;&#x4EBA;&#xFF09;&#x7684; PR &#x503C;&#xFF0C;&#x5E76;&#x4F5C;&#x4E3A;&#x8282;&#x70B9;&#x7684; pagerank &#x5C5E;&#x6027;
pagerank = nx.pagerank(graph)
&#x5C06; pagerank &#x6570;&#x503C;&#x4F5C;&#x4E3A;&#x8282;&#x70B9;&#x7684;&#x5C5E;&#x6027;
nx.set_node_attributes(graph, name = 'pagerank', values=pagerank)
&#x753B;&#x7F51;&#x7EDC;&#x56FE;
show_graph(graph)

#&#x5C06;&#x5B8C;&#x6574;&#x7684;&#x56FE;&#x8C31;&#x8FDB;&#x884C;&#x7CBE;&#x7B80;
&#x8BBE;&#x7F6E; PR &#x503C;&#x7684;&#x9608;&#x503C;&#xFF0C;&#x7B5B;&#x9009;&#x5927;&#x4E8E;&#x9608;&#x503C;&#x7684;&#x91CD;&#x8981;&#x6838;&#x5FC3;&#x8282;&#x70B9;
pagerank_threshold = 0.005
&#x590D;&#x5236;&#x4E00;&#x4EFD;&#x8BA1;&#x7B97;&#x597D;&#x7684;&#x7F51;&#x7EDC;&#x56FE;
small_graph = graph.copy()
&#x526A;&#x6389; PR &#x503C;&#x5C0F;&#x4E8E; pagerank_threshold &#x7684;&#x8282;&#x70B9;
for n, p_rank in graph.nodes(data=True):
    if p_rank['pagerank'] < pagerank_threshold:
        small_graph.remove_node(n)
&#x753B;&#x7F51;&#x7EDC;&#x56FE;, &#x91C7;&#x7528; circular_layout &#x5E03;&#x5C40;&#x8BA9;&#x7B5B;&#x9009;&#x51FA;&#x6765;&#x7684;&#x70B9;&#x7EC4;&#x6210;&#x4E00;&#x4E2A;&#x5706;
show_graph(small_graph) #, 'circular_layout')

show_graph(small_graph, 'circular_layout')

Original: https://blog.csdn.net/it_liujh/article/details/123682492
Author: ITLiu_JH
Title: 数据分析-PageRank-案例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698036/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ADASIS V3浅析

ADASIS V3浅析 ADASIS简介 ADASIS V3应用意义 ADASIS V3基本概念 * path profile 可选预测树 ADASIS V3消息类型 * Posi…

人工智能 2023年6月2日
0096
【OpenCV 例程200篇】79. 频率域图像滤波的基本步骤

【OpenCV 例程200篇】79. 频率域图像滤波的基本步骤欢迎关注『OpenCV 例程200篇』系列，持续更新中欢迎关注『Python小白的OpenCV学习课』系列，持续…

人工智能 2023年6月18日
0095
Apollo规划模块：EM planner算法原理解析（EM论文研读）

### 回答1： Apollo P lan_ning决策 _规划算法_在无人驾驶领域中被广泛应用，在 _自动驾驶_车辆中起着至关重要的作用。该 _算法_主要通过对车辆周围环境的感…

人工智能 2023年6月24日
00111
机器学习数据预处理之缺失值：预测填充（回归模型填充、分类模型填充）

garbage in, garbage out. 没有高质量的数据，就没有高质量的数据挖掘结果，数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时，可直接对缺失记录进行舍弃…

人工智能 2023年7月3日
00151
数据结构与算法字谜游戏问题

八个方向搜索 // wordpuzzle.jswindow.onload = entry; var keyword = ‘fuck’; var words …

人工智能 2023年6月4日
0079
onnx转TensorRT使用的三种方式（最终在Python运行）

背景记录下onnx转成TensorRT加速的三种方式 1. 直接使用onnxruntime 在onnxruntime的session初始化的时候第一个provider加入Tens…

人工智能 2023年7月5日
00135
Python函数调用

函数被定义后，本身是不会自动执行的，只有在被调用后，函数才会被执行，得到相应的结果。但是在 Python 中我们要注意一个关键点，就是Python不允许前向引用，即在函数定义之前，…

人工智能 2023年7月4日
0085
Python 机器学习实战 —— 无监督学习（下）

前言在上篇《 Python 机器学习实战 —— 无监督学习（上）》介绍了数据集变换中最常见的 PCA 主成分分析、NMF 非负矩阵分解等无监督模型，举例说明使用使用非监督模型对多…

人工智能 2023年6月2日
0066
Pytorch-模型参数：named_parameters()、parameters()、state_dict()区别

torch中存在3个功能极其类似的方法，它们分别是model.parameters()、model.named_parameters()、model.state_dict()，下面…

人工智能 2023年7月23日
0043
计算机视觉与机器学习之6σ问题

前言本文章基于MATLAB的数字图像处理，结合概率论中的正态分布，可应用于工程实践中工件的筛选，拓展功能有基础的机器学习知识。因为没有工程现场及零件，所以本例的零件用冰糖来替代…

人工智能 2023年6月20日
0071
浙大Python程序设计（MOOC）习题答案

章节第一章 * 7-1 从键盘输入两个数，求它们的和并输出 7-2 从键盘输入三个数到a,b,c中，按公式值输出 7-3 输出”人生苦短，我学Python&#8221…

人工智能 2023年7月4日
00113
树莓派4B部署YOLOv5目标检测模型部署（包含加速方法以及模型训练方法总结）

树莓派4B部署YOLOv5目标检测模型部署 1.工作内容简介：（1）训练鱼类目标识别模型。首先建立水下鱼类目标数据集，由于目前国内暂时并没有可用红鳍东方鲀标注数据集，本文利用La…

人工智能 2023年6月17日
00132
HTML期末作业蛋糕bootstrap响应式网站html+css+javascript+jquery+bootstarp

🎀 精彩专栏推荐👇🏻👇🏻👇🏻 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月26日
0073
分享76网络科技&88教育教学&47公司企业PPT模板

下面是文件的名字，我放了一些图片，文章里不是所有的图主要是放不下…，大家下载后可以看到。科技风AI人工智能PPT模板科技风网络大数据云计算PPT模板科技风创业融资计划…

人工智能 2023年7月17日
0099
多元线性解释性回归分析

多元线性回归分析数据类型不同选择的不通预测模型数据获取方式模型预测存在内生性回归系数的解释 * 四种回归数据的解释 box-cox变换虚拟变量的解释多变量虚拟变量的设置…

人工智能 2023年6月17日
0082
本科生学深度学习-史上最容易懂的RNN文章

好的，这是一个文本分类的任务，我们可以使用 RNN_来实现。首先，我们需要下载Reuters –21578数据集，可以从这个链接下载：https://archive….

人工智能 2023年7月13日
0052

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据分析-PageRank-案例

大家都在看