【python爬虫】 python 爬取知乎的公开收藏夹

2023年10月31日下午1:20 • Python • 阅读 54

前言

看看如何用 python 爬取知乎的公开收藏夹

内容

尝试

第一个方法
开始的时候用 python ，request 库进行的网页请求，在请求你的收藏夹总界面的时候还可以返回信息，这个 url,https://www.zhihu.com/people/xxx/collections,,xxx 部分可以查看自己知乎账号那儿是长怎么样的。再进入了具体的收藏夹页面的时候https://www.zhihu.com/collection/3341994xx request 就返回不了内容。这应该是因为知乎这个页面是 js 动态加载的 (需要 js 逆向)，request 这个链接返回不了，你要的内容。。
第二个方法
用 selenium 模拟浏览器进行爬虫，selenium 是 python 一个用来控制浏览器的库 (pip 下载)，可以用来做关于浏览器的自动化，也可以用来爬虫。它需要搭配浏览器的驱动进行使用。火狐，chrome，edge 都有自己的驱动。火狐驱动地址，谷歌驱动地址，edge驱动地址。

selenium

登录知乎

下好库和驱动后，开始写一下，发现在用 selenium 操作浏览器打开知乎，输入密码登录时会出现 10001 错误，一个博客上写是因为 js 判断识别出来这是机器在操作，网上有一些解决方法，这里选取了用浏览器 debug 模式，新建了一个用户文件夹，每次打开浏览器直接控制这个新的浏览器。

如何新建浏览器用户文件
找到浏览器 exe 文件目录，在这里进入 cmd 命令行模式。
输入以下代码 chrome.exe --remote-debugging-port=9222 --user-data-dir="E:\data_info\selenium_data 。chrome. exe 就是对于浏览器的 exe 文件 (edge 就是 msedge. exe) , 9222 自己选一个端口号等下在代码中要写一下，最后那个是生成的新的用户目录自己写一个。
对浏览器创建一个新的快捷方式放到桌面，然后右键属性，在目标这一栏填上 2 中的代码，点击就会打开一个新的浏览器，然后在这里先登录好知乎。

具体代码

from requests import options
from selenium import webdriver  # 用来驱动浏览器的
import time
import selenium
from selenium.webdriver.edge.options import Options
from selenium.webdriver.edge.service import Service
from selenium.webdriver.common.by import By
import os
os.startfile("C:\\Users\\Administrator\\Desktop\\Microsoft Edge (1).lnk") # 打开设置好的浏览器快捷方式
options = Options() # 得到edge的设置
options.add_experimental_option("debuggerAddress", "127.0.0.1:6001") # 配置浏览器的端口地址
#options.add_experimental_option('excudeSwitches',['enable-automation'])
driver=webdriver.Edge(service =Service("D:\\BaiduNetdiskWorkspace\\Lite Code\\python脚本\\firefox_selenium\\msedgedriver.exe"),options=options) # 浏览器驱动的放置地址
time.sleep(3)
write = ""

def get_all_folder(url):
    driver.get(url)
    time.sleep(2)
    href=[]
    title = driver.find_elements(By.XPATH,'(//a[@class="SelfCollectionItem-title"])')
    for ind,i in enumerate(title):
        href.append(title[ind].get_attribute('href'))
    return href

def pythonpazhihu(url,write):
    driver.get(url)
    time.sleep(3)
    #h2 = driver.find_elements(By.CLASS_NAME,"ContentItem-title")
    title = driver.find_elements(By.XPATH,'(//h2[@class="ContentItem-title"]//a)')
    h3 = driver.find_elements(By.XPATH,'(//h2[@class="ContentItem-title"]//a[@href])')
    for ind,i in enumerate(h3):
        content = str(title[ind].text)+" , "+str(h3[ind].get_attribute('href'))
        write=write+content+"\n"
        print(title[ind].text,h3[ind].get_attribute('href'))
    #print(h3.text)
    time.sleep(2)
    return write
try:    
    url_all1 = "https://www.zhihu.com/collections/mine?page=1" # 总收藏也有两页，得到这两页每个收藏夹的具体链接
    url_all2 = "https://www.zhihu.com/collections/mine?page=2"
    href1 = get_all_folder(url_all1)
    href2 = get_all_folder(url_all2)
    href2 = href1+href2
    #print(href2)
    for url_son in href2:
        for i in range(5):
            #url = 'https://www.zhihu.com/collection/7179314xx?page=%s'%(i+1)
            url = url_son+'?page=%s'%(i+1) # 对每个收藏夹链接进行5页的循环
            write = pythonpazhihu(url,write) # 把读到的标题和链接写到write变量中
finally:
    driver.close()
    with open("./zhihu.txt","w",encoding="utf-8") as fp:
        fp.write(write)

小结

代码思路就是，先打开浏览器快捷方式，访问总的收藏夹页面，得到每个的收藏夹链接，再访问每个具体链接获取收藏的标题和地址。
注意的，1. 浏览器驱动地址填写用的 service 的方式，这是 selenium 更新后新的写法。2. selenium 新的定位变成了 find_elements 有两个参数，By. xxx ，用来表示用什么方式定位，例如 By. xpath, 注意 xpath 内容要用 () 括起来。

Original: https://www.cnblogs.com/shucode/p/16760214.html
Author: 师怀
Title: 【python爬虫】 python 爬取知乎的公开收藏夹

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/808895/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

scrapy获取a标签的连接_Scrapy：获取某个标记后面的所有标记

更新：您可以使用以sel.xpath(‘.//a[@name=”summaries”]’)开头的xpath。。。我在这台mac电脑…

Python 2023年10月4日
0034
IntelliJ IDEA 激活码，真的绝绝子，21秒飞速激活IDEA！

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Python 2023年6月10日
0074
Python_爬虫系列_5.Pandas,Matplotlib,Pyecharts和Echarts

Pandas,Matplotlib,Pyecharts和Echarts Python_爬虫系列文章目录 * Python_爬虫系列_1.BeautifulSoup Python_爬…

Python 2023年9月3日
0065
DataFrame——基于jupyter

DataFrame表示一个长方形表格，并包含排好序的列，每一列都可以是不同的数值类型（数字，字符串，布尔值）。DataFrame有行索引和列索引（row index, column…

Python 2023年8月22日
0033
【python技能树】Windows/Linux系统下python的安装与环境配置

1 Windows系统下python安装此次安装主要针对windows开发，因此是在windows 10系统下进行安装。 1.1 python下载安装 Python官网：Pyth…

Python 2023年8月1日
0070
《吐血整理》高级系列教程-吃透Fiddler抓包教程(31)-Fiddler如何抓取Android系统中Flutter应用程序的包

1.简介 Flutter是谷歌的移动UI框架，可以快速在iOS和Android上构建高质量的原生用户界面。Flutter应用程序是用Dart编写的，这是一种由Google在7年多前…

Python 2023年10月17日
0040
np array 存储 json格式文件的写入与读取

Python中提供了list容器，可以当作数组使用。但列表中的元素可以是任何对象，因此列表中保存的是对象的指针，这样一来，为了保存一个简单的列表[1,2,3]。就需要三个指针和三个…

Python 2023年8月26日
0036
js之数据类型（1）

可以返回number，string，Boolean，object，undefined，function 运行结果如下：注意如下几个数据类型的输出显示数据类型转换和隐式数据类型转…

Python 2023年6月12日
0062
Python爬虫—scrapy框架配置及实用案例

1、搭建scrapy爬虫框架下载 Twisted pip install Twisted -i https://pypi.douban.com/simple 下载 pywin32…

Python 2023年10月1日
0039
【python】高并发【报错】pymysql AttributeError: ‘NoneType‘ object has no attribute ‘settimeout‘

场景： python服务 flask+mysql 一开始的时候每次都重新建立连接，返回耗时比较长就改为用连接池用连接池读取mysql数据再客户端批量或者多线程的大量调用报错…

Python 2023年8月10日
0045
Linux部署Django项目(nginx+uwsgi+django)

文章目录一、部署架构二、用pycharm导出项目依赖包三、将项目打成zip包，并上传到Linux服务器四、Linux服务器安装python3 五、安装项目依赖包六、修改配…

Python 2023年8月5日
0038
Scrapy 源码分析 3 middlewares

1 简介 Scrapy中有三种类型的middlewares，是Downloader middlewares，Spider middlewares，Extensions。 Downl…

Python 2023年10月4日
0028
【Python】关于 Pandas 常用语法合集

【Python】关于 Pandas 常用语法合集仅个人常用且常忘记不断更新中 1、合并/连接数据框 df1=pd.DataFrame([[1,2,3],[2,3,4]],co…

Python 2023年8月9日
0058
【无标题】

水果机美化版来了 提示：这里可&#x4E…

Python 2023年9月18日
0047
12. Python3 使用matplotlib绘制图表

matplotlib 是一个数学绘图库, 可用来制作简单的图表, 如折线图和散点图等等. mac pip3 install –user matplotlib -i https:/…

Python 2023年9月2日
0054
Python 用3D引擎写一个Pong游戏

之前，我们用pygame做了一个2D的Pong游戏，今天我们做一个3D的，游戏画面如下：用ad和←→操作，双人对战实现该效果我们使用Python强大的3D引擎Ursina，基础…

Python 2023年9月18日
0040

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【python爬虫】 python 爬取知乎的公开收藏夹

前言

内容

尝试

selenium

登录知乎

具体代码

小结

大家都在看