python爬取博客圆首页文章链接+标题

2023年6月11日上午8:02 • 数据库 • 阅读 114

新人一枚，初来乍到，请多关照

来到博客园，不知道写点啥，那就去瞄一瞄大家都在干什么好了。

使用python 爬取博客园首页文章链接和标题。

首先当然是环境了，爬虫在window10系统下，python3.6.5环境中运行。使用python中的requests模块和BeautifulSoup模块。

通过包管理工具pip3安装requests和BeautifulSoup：

pip3 install requests

pip3 install bs4

贴代码：

python;gutter:true; import requests from bs4 import BeautifulSoupimport time</p> <p>def getlinktitle(): counts=0 index=0 f=open('down.txt','w',encoding='utf-8') postData={ "CategoryType":"SiteHome", "ParentCategoryId":0, "CategoryId":808, "PageIndex":1,#pageIndex确定是第几页，博客园首页共有200页 "TotalPostCount":4000, "ItemListActionName":"PostList" }#博客园请求页面使用post请求的请求数据 try: for i in range(0,200): #博客园首页内容只有200页 time.sleep(0.2) r=requests.post('https://www.cnblogs.com/mvc/AggSite/PostList.aspx',data=postData) index+=1 postData['PageIndex']=index#通过改变PageIndex的值改变请求页 if r.status_code==200: html='自定义标题'+r.content.decode()+''#将页面补充完整 soup=BeautifulSoup(html,'lxml') links=soup.select('.post_item_body h3 a') #xpath 路径是 //*[@id="post_list"]/div[1]/div[2]/h3 for i in range(0,len(links)): f.write(links[i].get_text()) else: print(r.status_code) r.close() except Exception as e: print(e) finally: f.close()</p> <pre><code> 我们将结果保存在文本中了，打开文本可以看到内容都被保存了下来. 能不能让结果更直观一点呢?当然可以，我们可以用词云工具制作一个词云图片。本次使用wordcloud词云制作工具和jieba分词首先当然是安装了工具了： pip3 install wordcloud pip3 install jieba pip3 install opencv-python（也可以使用matplotlib的pyplot ）最后贴代码：;gutter:true;
import jieba
from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS
import cv2
def feci():
img=cv2.imread(‘bky.jpg’)
with open(‘down.txt’,’r’,encoding=’utf-8′) as f:
fctxt=’ ‘.join(jieba.cut(f.read()))
wd=WordCloud(background_color=’white’,width=480,height=480,mask=img,stopwords=STOPWORDS,font_path="C:/windows/字体管家方萌.ttf")
wd.generate(fctxt)
imgcolor=ImageColorGenerator(img)
wd.recolor(color_func=imgcolor)
wd.to_file(‘final.jpg’)

掩模使用一张博客园的logo（图片来自百度，侵删）

最终效果

我们可以看到近两个月python,ASP.NET,.NET Core这几个词出现的频率最高（别问我为什么是两个月，因为博客园首页只有200页),感觉自己也是其中的一员呢，感觉以后自己可以放心写了，需要说明一点就是博客园的每一页是psot请求，请求拿到的数据是被标签包围的，并不是完整的html页面，使用beautifulSoup的同学要注意，给得到的数据加上html页面的头部。这样BeautifulSoup才能正常解析。博客园没有反爬虫机制是真的好啊。

最后贴完整代码：

python;gutter:true;</p> <h1>coding:utf-8</h1> <h1>date:2018-12-27</h1> <h1>author:零度热冰</h1> <h1>content:爬取博客圆首页文章标题</h1> <p>import requests import time from bs4 import BeautifulSoup import jieba from wordcloud import WordCloud,ImageColorGenerator,STOPWORDS import cv2</p> <p>def getlinktitle(): counts=0 index=0 f=open('down.txt','w',encoding='utf-8') postData={ "CategoryType":"SiteHome", "ParentCategoryId":0, "CategoryId":808, "PageIndex":1, "TotalPostCount":4000, "ItemListActionName":"PostList" }#博客园请求页面使用post请求的请求数据 try: for i in range(0,200): #博客园首页内容只有200页 time.sleep(0.2) r=requests.post('https://www.cnblogs.com/mvc/AggSite/PostList.aspx',data=postData) index+=1 postData['PageIndex']=index#通过改变PageIndex的值改变请求页 if r.status_code==200: html='自定义标题'+r.content.decode()+'' soup=BeautifulSoup(html,'lxml') links=soup.select('.post_item_body h3 a') #xpath is //*[@id="post_list"]/div[1]/div[2]/h3 for i in range(0,len(links)): f.write(links[i].get_text()) else: print(r.status_code) r.close() except Exception as e: print(e) finally: f.close()</p> <p>def feci(): img=cv2.imread('bky.jpg')#使用opencv读取图片 with open('down.txt','r',encoding='utf-8') as f: fctxt=' '.join(jieba.cut(f.read())) wd=WordCloud(background_color='white',width=480,height=480,mask=img,stopwords=STOPWORDS,font_path="C:/windows/fonts/字体管家方萌.ttf") wd.generate(fctxt) imgcolor=ImageColorGenerator(img) wd.recolor(color_func=imgcolor) wd.to_file('final.jpg') if <strong>name</strong>=="<strong>main</strong>": getlinktitle() feci()

Original: https://www.cnblogs.com/lingdurebing/p/10271056.html
Author: 零度热冰
Title: python爬取博客圆首页文章链接+标题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/599305/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MySQL之连接查询和子查询

多表连接的基本语法多表连接，即将多个表拼接成一个表，然后进行查询 [En] Multi-table join, that is, several tables are splic…

数据库 2023年5月24日
00141
【转】Windows安装运行Kafka

一、安装JAVA JDK 1、下载安装包注意：根据32/64位操作系统下载对应的安装包 2、添加系统变量：JAVA_HOME=C:\Program Files (x86)\Jav…

数据库 2023年6月6日
0067
MySQL实战45讲 4,5

04 | 深入浅出索引（上）索引的出现实际上是为了提高数据查询的效率，就像一本书的目录一样。 [En] The emergence of the index is actuall…

数据库 2023年5月24日
00100
datatable 转化成xml以及json

datatable dt=xxx获取赋值给应用的字段 var pp=dt.row[0][“datatable里面的字段”].tostring() var …

数据库 2023年6月9日
0081
Asp.Net Core 发布和部署（ MacOS + Linux + Nginx ）

在上篇文章中，主要介绍了 Dotnet Core Run 命令，这篇文章主要是讲解如何在Linux中，对 Asp.Net Core 的程序进行发布和部署。有关如何在 Jexus …

数据库 2023年6月11日
00110
报错One record is expected, but the query result is multiple records

总结：出现这种情况，显而易见，就是查询的数据在数据库中不止一条，而我调用的selectOne方法，返回值是一个User对象，导致报错点击查看错误代码 LambdaQueryWra…

数据库 2023年6月11日
00899
mysql解压版简洁式本地配置方式

1. 设置全局变量解压mysql压缩包到指定位置, 然后配置全局变量, 在 path 中添加全局变量, 值为 mysql 根目录下 bin 目录路径, 比如: D:\code_s…

数据库 2023年5月24日
00129
【Java基础】 — Java遍历List四种方法的效率对比【转载】

1.遍历方法简介 Java遍历List的方法主要有四种： *for each *Iterator *loop without size *loop with size 注：这里我们…

数据库 2023年6月6日
00128
Hibernate 学习笔记

hibernate（持久化） Hibernate 是数据访问层（Dao层），就是把数据存入到数据库中，称为持久化。Hibernate 对 JDBC 进行了封装，针对数据访问层提出面…

数据库 2023年6月11日
0073
linux常用命令(持续更新中…)

查看所有开机启动服务：systemctl list-unit-files # 按Enter翻页查看所有开机启动服务：systemctl list-unit-files | gre…

数据库 2023年6月14日
0080
C++学习笔记（5）–STL

void test03() { for (size_t i = 0; i < 100; ++i, cout << i << " "…

数据库 2023年6月14日
00103
InnoDB 中不同SQL语句设置的锁

锁定读、UPDATE 或 DELETE 通常会给在SQL语句处理过程扫描到的每个索引记录上设置记录锁。语句中是否存在排除该行的WHERE条件并不重要。InnoDB不记得确切的WHE…

数据库 2023年5月24日
0079
zabbix 报表动作日志报错”503“

本文来自博客园，作者：xiao智，转载请注明原文链接：https://www.cnblogs.com/yuwen01/p/16216868.html Original: https…

数据库 2023年6月14日
0081
开源之夏 2022 与您相约

活动简介 “开源之夏（英文简称 OSPP）”是中科院软件所”开源软件供应链点亮计划”指导下的一项面向高校学生的暑期活动，由中国科学院…

数据库 2023年5月24日
00117
Mybatis-Plus一键生成代码

Mybatis-Plus一键生成代码一、闲言碎语闲来无事看了看了MP的官网看到一键生成的代码更新了！整个Ui风格都变了，遂决定瞅一眼新的代码生成器官网地址~~ 二、引入依赖…

数据库 2023年5月24日
0069
计算字符串中指定字符最大连续出现的次数

//连中次数public static int LzNum(String str) { // 分&#x5272…

数据库 2023年6月11日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python爬取博客圆首页文章链接+标题

大家都在看