一键查询明星个人信息，并以知识图谱可视化展示

2023年6月1日上午9:59 • 人工智能 • 阅读 287

前言

最近想搞一点好玩的事情（技术），今天打算做一个小程序：一键查询明星个人信息。（从 数据抓取到 知识图谱展示，全程代码完成原创，不涉及调用api包）

思路：从爬取网页数据（某度百科），进行数据处理，最后通过知识图谱图进行展示。

最后会将代码开源出来： 获取方式在下方

下面先看演示：

图片版

动图版

采集数据

1.分析链接

https://baike.baidu.com/item/刘德华/114923?fr=aladdin

链接上中有 两个参数：

明星名字：刘德华
编号：114923

编号是通过另外一个链接获取（我们希望是直接输入明星名字就可以获取网页），因此我们需要去根据明星获取编号！

2.获取编号

url="https://baike.baidu.com/search/word?word=刘德华"
s = requests.Session()
response = s.get(url, headers=headers)
text = response.text

可以看到这个链接中获取的数据包含编号

t_split = text.split('id="J-vars" data-lemmaid="')[1].split('" data-lemmatitle="')[0]
print(text)

这样就可以获取到编号（根据明星名称就可以获取到编号）

3.解析网页数据

F12查看网页源代码，可以看到左边信息在class=basicInfo-block basicInfo-left，右边的信息在class=basicInfo-block basicInfo-right

其中属性在dt标签，值在dd标签。

basicInfo_left = selector.xpath('//*[@class="basicInfo-block basicInfo-left"]')[0]
dt.append(basicInfo_left.xpath('.//dt'))
dd.append(basicInfo_left.xpath('.//dd'))

basicInfo_right = selector.xpath('//*[@class="basicInfo-block basicInfo-right"]')[0]
dt.append(basicInfo_right.xpath('.//dt'))
dd.append(basicInfo_right.xpath('.//dd'))

代码部分：

url="https://baike.baidu.com/item/刘德华/114923?fr=aladdin"
res = requests.get(url,headers=headers)
res.encoding = 'utf-8'
text = res.text
selector = etree.HTML(text)
#属性
key = []
#值
value = []

dt =[]
dd =[]
basicInfo_left = selector.xpath('//*[@class="basicInfo-block basicInfo-left"]')[0]
dt.append(basicInfo_left.xpath('.//dt'))
dd.append(basicInfo_left.xpath('.//dd'))

basicInfo_right = selector.xpath('//*[@class="basicInfo-block basicInfo-right"]')[0]
dt.append(basicInfo_right.xpath('.//dt'))
dd.append(basicInfo_right.xpath('.//dd'))

for j in dt:
    for i in j:
        text = i.xpath('.//text()')
        if len(text)==1:
            text = text[0].replace(" ","").replace("\n","").replace("\xa0","")
        else:
            text = "-".join(text)
            text = text.replace(" ", "").replace("\n", "").replace("\xa0", "")
        key.append(text)
for j in dd:
    for i in j:
        text = i.xpath('.//text()')
        if len(text) == 1:
            text = text[0].replace(" ", "").replace("\n", "").replace("\xa0", "")
        else:
            text = "-".join(text)
            text = text.replace(" ", "").replace("\n", "").replace("\xa0", "").replace("-", " ")
        value.append(text)

for k in range(0,len(key)):
    print(key[k]+":"+value[k])

处理数据

1.换行处理

爬取的文本中含有 \xa0、换行 \n、空格等，需要进行处理

text = i.xpath('.//text()')
if len(text)==1:
    text = text[0].replace(" ","").replace("\n","").replace("\xa0","")
else:
    text = "-".join(text)
    text = text.replace(" ", "").replace("\n", "").replace("\xa0", "")

2.多值处理

像 代表作品， 主要成就这些有很多值，为了方便 绘制知识图谱图，保留其中一个值就可以。

if key[k]=="代表作品"  or key[k]=="主要成就":
    v = value[k].split(" ")
    dict = {'source': str(name_i), 'target': str(v[0]+v[1]), 'rela': str(key[k]), 'type': 'resolved'}
    links.append(dict)
else:
    dict= {'source': str(name_i), 'target': str(value[k]), 'rela': str(key[k]), 'type': 'resolved'}
    links.append(dict)

3.数据格式处理

这个是知识图谱要求数据格式

source表示明星，比如刘德华

target表示value，比如中国

rela表示key，比如国籍

for k in range(0,len(key)):
    if key[k]=="代表作品"  or key[k]=="主要成就":
        v = value[k].split(" ")
        dict = {'source': str(name_i), 'target': str(v[0]+v[1]), 'rela': str(key[k]), 'type': 'resolved'}
        links.append(dict)
    else:
        dict= {'source': str(name_i), 'target': str(value[k]), 'rela': str(key[k]), 'type': 'resolved'}
        links.append(dict)

绘制知识图

1.后端部分

这里通过Flask框架来制作网页展示

#获取数据
@app.route('/getdata')
def getdata():
    name_i = request.args.get('name')
    # 采集数据
    links = getlist(name_i)

    #return Response(json.dumps(links), mimetype='application/json')
    return render_template('index.html', linkss=json.dumps(links))

if __name__ == "__main__":    
    """初始化"""

    app.run(host=''+ip, port=5000,threaded=True)

其中的getlist，是爬虫代码封装的函数（ 完整代码下方获取）

用户访问一下链接，并传过来明星的名字

http://localhost:5000/getdata?name=刘德华

flask就调用爬虫程序getlist，获取到数据，然后携带数据linkss跳转到index.html，展示数据。

2.网页部分

var links=eval('{{linkss|safe }}');
var nodes = {};
links.forEach(function(link)
{
  link.source = nodes[link.source] || (nodes[link.source] = {name: link.source});
  link.target = nodes[link.target] || (nodes[link.target] = {name: link.target});
});

links接收到数据后，在进行forEach取出进行展示。

这里就只贴了修改改动的部分代码，其他的都是不需要改动，完整的html可以在 下方获取。

3.效果

总结

1.教大家如何爬取某度百科，其中难点就是如何获取编号！

2.对爬取的数据进行相应的处理和格式转化！

3.Flask的简单使用（ 小白入门非常适用）。

4.可视化方面，如何 制作知识结构图（知识图谱）.

5.本文全是干货（涉及爬虫、数据处理、Flask网页、知识结构图的绘制）， 推荐收藏！！！

如果大家对本文代码源码感兴趣，扫码关注『 Python爬虫数据分析挖掘』后台回复： 明星可视化 ，获取完整代码！

————- 推荐阅读 ————-

爬虫入门篇

今天只分享python、爬虫入门级学习资料

以某乎为实战案例，教你用Python爬取手机App数据

教你用python爬取『京东』商品数据，原来这么简单！

以『赘婿』为实战案例，手把手教会你用python爬取『爱奇艺』视频弹幕

python爬取44130条用户观影数据，分析挖掘用户与电影之间的隐藏信息！

基金这么赚钱！！编程实现基金从采集到分析通用模板！（白酒为例）

我爬取了爬虫岗位薪资，分析后发现爬虫真香

竟然如此简单！输入明星名字就可以直接爬取高清图片

pyhton爬取爱豆（李易峰）微博评论（附源码）

快手解析视频真实链接（爬取快手视频）

爬虫框架篇

以『B站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』

爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐

爬虫反爬篇

爬虫遇到反爬机制怎么办? 看看我是如何解决的！

python实战破解『梨视频』反爬机制，轻松实现批量视频下载！

『异步反爬』别再说自己不会爬取『抖音』视频了！

可视化篇

爬取3w条『各种品牌』笔记本电脑数据，统计分析并进行可视化展示！真好看~

python爬取7w+『赘婿』弹幕，发现弹幕比剧还精彩！

爬取1907条『课程学习』数据，分析哪类学习资源最受大学生青睐

python爬取各类基金数据，以『动图可视化』方式展示基金的涨跌情况

python爬取『大年初一』热映电影，以『可视化及词云秀』方式带你了解热映电影

python爬取淘宝全部『螺蛳粉』数据，看看你真的了解螺蛳粉吗？

爬取淘宝热卖商品并可视化分析，看看大家都喜欢买什么！

王者荣耀白晶晶皮肤1小时销量突破千万！分析网友评论我发现了原因

分析各类基金近一年『日涨幅』流水线动态图！哭了，真是跌妈不认！

分析B站《送你一朵小红花》弹幕评论

我爬取了爬虫岗位薪资，分析后发现爬虫真香

python实现在线微博数据可视化

python工具篇

教你用python爬虫下载1w+『ppt模板』,再也不用付费去购买啦！

python爬取下载m3u8加密视频，原来这么简单！

详细实战教程！部署Flask网站+域名访问+免费https证书

花一天时间做了一个福利资源网站！免费分享给大家

python实现四种出行路线规划（公交、步行、驾车、骑行）

35行代码下载任意网页的图片

python窃取摄像头照片（摄像头拍照+邮箱发送+打包exe）

30行爬虫代码实现中英互译

教你搭建一个花卉识别系统(超级简单)

Original: https://blog.csdn.net/lyc2016012170/article/details/115107436
Author: Python研究者
Title: 一键查询明星个人信息，并以知识图谱可视化展示

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/556183/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

视觉/视觉惯性SLAM最新综述：领域进展、方法分类与实验对比

Visual and Visual-Inertial SLAM: State of the Art, Classification,and Experimental Benchma…

人工智能 2023年7月2日
0085
Batch Normalization的原理和作用

机器学习高频面试问题—Batch Normalization 论文链接 Batch Normalization: Accelerating Deep Network Trainin…

人工智能 2023年6月16日
00103
在vscode中使用opencv

在vscode中使用opencv2.4.12，在已安装opencv3.x的情况下之前我们讲了如何编译opencv2.4.12的方法，本文讲如何在vscode中使用opencv24…

人工智能 2023年7月20日
0064
python pandas处理数据的优点_Python pandas之数据处理

数据写入我们可以将数据写入到文件中进行永久性的保存，支持的文件格式有HTML、CSV、JSON、Excel。 csv是最为常见的以纯文本文件存储数据文件的格式，它的优点是通用性很…

人工智能 2023年7月7日
0053
【论文精读】NeRF详解

最近阅读了开启三维重建新纪元的经典文章《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis…

人工智能 2023年5月26日
00123
从TensorFlow到DL4J——主流深度学习框架对比分析

从TensorFlow到DL4J——主流深度学习框架对比分析 2022年2月22日极链AI云官网地址点击注册更多AI小知识，关注《极链AI云》公众号文章目录从TensorF…

人工智能 2023年5月23日
00106
深度学习-LeNet（第一个卷积神经网络）

文章目录简介数据集模型搭建模型训练模型测试前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。简介 LeNet模型是在1…

人工智能 2023年7月31日
0099
【radar】毫米波雷达动态障碍物检测相关论文汇总（聚类、分类、稀疏2D点、4D点、雷达成像、原始数据处理）（4）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0080
层次分析法、网络层次分析法、模煳层次分析法、双基点法

一、层次分析法层次分析法AHP，就是将指标分层次，根据问题的性质和要达到的总目标，把复杂问题分解成一系列的指标，并按照 逻辑关系分为不…

人工智能 2023年7月15日
0065
AGX Xaiver部署TensorRT对Yolo加速

原版darknet在Xaiver上面的检测帧率只有8～10帧左右，使用tensorRT加速之后，帧率可达到21～23帧。以下记录TensorRT的部署过程。1.下载环境 git c…

人工智能 2023年7月10日
0069
课程1 第2周具有神经网络思维的Logistic回归—识别猫的简单神经网络

课程1 神经网络和深度学习第2周具有神经网络思维的Logistic回归 L1W2 我是参考此博文，完成该作业。 https://www.heywhale.com/mw/proj…

人工智能 2023年6月18日
00122
【定量分析、量化金融与统计学】纵向数据分析（1）——截面数据、时间序列数据和纵向数据

一、截面数据（Cross-sectional Data）截面数据就是固定时间来分析其他变量同一时间内的关系。例如：比较2022年的全国20个省市的GDP与人口，那么我们就是限定…

人工智能 2023年6月11日
0084
卡尔曼滤波算法的五大核心公式含义

卡尔曼滤波算法中的五大核心公式含义在SLAM中经常会用的卡尔曼滤波算法，这里简单的记录一下卡尔曼滤波算法的五大核心公式，以便后续查询，公式的推导不在作赘述，直接放出卡尔曼滤波算法…

人工智能 2023年6月29日
0072
pandas plot绘图详解：一文教会你各种绘图

pandas.DataFrame.plot绘图详解一、介绍 * 1.1 参数介绍 1.2 其他常用说明二、举例说明 * 2.1 折线图 line 2.2 条型图 bar 2.3…

人工智能 2023年7月14日
0081
openCV第一篇

文章目录前言：计算机眼中的图片 1. 图片的读取与显示 1.1 图片的读取 1.2 显示的图片 1.2.1 显示原始图片 1.2.2 灰度图 1.3 BGR转换成灰度图、RGB …

人工智能 2023年5月26日
0077
JEB反编译器crack版功能和选项

JEB反编译器crack版功能和选项 JEB Decompiler是一个强大的反编译器软件，由安全工程师构建，并为其服务。JEB是一个专有的工程平台，用于手动拆卸、演示、调试和分析…

人工智能 2023年6月26日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31