Python_scrapy(知乎问答爬取

2023年10月2日上午3:44 • Python • 阅读 38

本文章为个人记录

一、模拟登录知乎

(第一次运行程序)先模拟登录->保存cookie

(其次运行程序)->运行已保存的cookie

模拟登录时没有做验证码处理，所以延时10秒手动通过验证码进行登录。登录后再将知乎账号数据cookie保存起来，为下次爬取浏览器直接使用(下次使用时不需要再进行模拟登录

第一次运行程序：

方法覆盖 每次启动spider前,都启动模拟登录
def start_requests(self):
    from selenium.webdriver.chrome.options import Options
    url = "https://www.zhihu.com/signin?next=%2F"
    chrome_options = Options()
    chrome_options.add_argument("--disable-extensions")
    chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")
    browser = webdriver.Chrome(executable_path='C:/Users/86135/MySpider/chromedriver.exe',chrome_options=chrome_options)

   # 模拟登录知乎
   browser.get('https://www.zhihu.com/signin?next=%2F')
   browser.find_element(By.XPATH,'//*[@id="root"]/div/main/div/div/div/div/div[1]/div/div[1]/form/div[1]/div[2]').click()
   browser.find_element(By.CSS_SELECTOR,".SignFlow-account input[name='username']").send_keys("你的账号")
   browser.find_element(By.CSS_SELECTOR,".SignFlow-password input[name='password']").send_keys("你的密码")
   time.sleep(1)
   move(700,500)
   click()
   browser.find_element(By.XPATH,'//*[@id="root"]/div/main/div/div/div/div/div[1]/div/div[1]/form/button').click()
   time.sleep(10) # 手动通过验证码

   # cookies保存浏览器数据,为下次打开浏览器做准备
   browser.get("https://www.zhihu.com/")
   cookies = browser.get_cookies()
   pickle.dump(cookies,open("C:/Users/86135/MySpider/cookies/zhihu.cookie","wb"))
   cookie_dict = {}
   for cookie in cookies:
       cookie_dict[cookie["name"]] = cookie["value"]
   return [scrapy.Request(url=self.start_urls[0],dont_filter=True,cookies=cookie_dict)]

其次运行程序：

方法覆盖 每次启动spider前,都启动模拟登录
def start_requests(self):
    # cookies读取已保存的浏览器数据,继续爬取
    cookies = pickle.load(open("C:/Users/86135/MySpider/cookies/zhihu.cookie","rb"))
    cookie_dict={}
    for cookie in cookies:
        cookie_dict[cookie["name"]] = cookie["value"]
    return [scrapy.Request(url=self.start_urls[0],dont_filter=True,cookies=cookie_dict)]

保存的cookies路径

二、提取知乎question页面url

如果提取到question相关的url则下载后交由parse_question函数进行提取

def parse(self, response):
"""
    提取出html页面中的所有url 并跟踪url进一步爬取
    如果提取的url格式为 /question/xxx 下载之后直接进入解析函数
"""
    all_urls = response.css("a::attr(href)").extract()
    all_urls = [parse.urljoin(response.url, url) for url in all_urls]
    all_urls = filter(lambda x: True if x.startswith("https") else False, all_urls)
    for url in all_urls:
        match_obj = re.match("(.*zhihu.com/question/(\d+))(/|$).*", url)  # 提取url以'/'或者结束符结尾的内容
        if match_obj:
            # 如果提取到question相关的也url则下载后交由提取函数进行提取
            request_url = match_obj.group(1)  # question_url
            # scrapy通过yield提交到下载器
            yield scrapy.Request(request_url, headers=self.headers, callback=self.parse_question)
            # break
        else:
            # 如果不是question页面则直接进一步跟踪
            yield scrapy.Request(url, headers=self.headers, callback=self.parse) # 不符合继续提取
            # pass

三、提取question页面具体数据

通过items.py编写ZhihuQuestionItem()，定义item_loader对象加载想要提取的question页面各个具体数据，然后提交到下载器进行数据保存。同时将页面answer(json数据)提交格式输出到parse_answer函数进行提取相关回答数据。

question的第一页answer的请求url
    start_answer_url = 'https://www.zhihu.com//api/v4/questions/{}/answers?include=data%5B*%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cattachment%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquestion%2Cexcerpt%2Cis_labeled%2Cpaid_info%2Cpaid_info_content%2Creaction_instruction%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cis_recognized%3Bdata%5B*%5D.mark_infos%5B*%5D.url%3Bdata%5B*%5D.author.follower_count%2Cvip_info%2Cbadge%5B*%5D.topics%3Bdata%5B*%5D.settings.table_of_content.enabled&offset=3&limit=5&sort_by=default&platform=desktop/api/v4/questions/39684414/answers?include=data%5B*%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cattachment%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquestion%2Cexcerpt%2Cis_labeled%2Cpaid_info%2Cpaid_info_content%2Creaction_instruction%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cis_recognized%3Bdata%5B*%5D.mark_infos%5B*%5D.url%3Bdata%5B*%5D.author.follower_count%2Cvip_info%2Cbadge%5B*%5D.topics%3Bdata%5B*%5D.settings.table_of_content.enabled&offset={}&limit={}'

def parse_question(self, response):
    # 处理question页面，从页面中提取具体的question item
    match_obj = re.match("(.*zhihu.com/question/(\d+))(/|$).*", response.url)  # 提取question_id
    if match_obj:
        question_id = match_obj.group(2)  # question_url-Id

    item_loader = ItemLoader(item=ZhihuQuestionItem(), response=response)
    item_loader.add_css("title", "h1.QuestionHeader-title::text")
    item_loader.add_css("content", ".QuestionRichText")
    item_loader.add_value("url", response.url)
    item_loader.add_value("zhihu_id", question_id)
    item_loader.add_css("answer_num", ".List-headerText span::text")
    item_loader.add_css("comments_num", ".QuestionHeader-Comment button::text")
    item_loader.add_css("watch_user_num", ".NumberBoard-itemValue::text")
    item_loader.add_css("click_num",".NumberBoard-itemValue::text")
    item_loader.add_css("topics", '.QuestionHeader-topics .Popover div::text')
    item_loader.add_value("crawl_time", datetime.datetime.now().strftime(SQL_DATETIME_FORMAT))
    question_item = item_loader.load_item()
    # 起始0 每页20个数据
    yield scrapy.Request(self.start_answer_url.format(question_id, 0, 20), headers=self.headers,
                         callback=self.parse_answer)
    # 提交到下载器
    yield question_item

四、提取answer页面具体数据

加载由parse_question函数提交的json数据，提取出具体字段后提交到下载器进行数据保存。

def parse_answer(self, response):
    ans_json = json.loads(response.text)
    is_end = ans_json["paging"]["is_end"]
    next_url = ans_json["paging"]["next"]
    # 提取answer的具体字段
    for answer in ans_json["data"]:
        answer_item = ZhihuAnswerItem()
        answer_item["zhihu_id"] = answer["id"]
        answer_item["url"] = answer["url"]
        answer_item["question_id"] = answer["question"]["id"]
        answer_item["author_id"] = answer["author"]["id"] if "id" in answer["author"] else None
        answer_item["content"] = answer["content"] if "content" in answer else None
        answer_item["parise_num"] = answer["voteup_count"]
        answer_item["comments_num"] = answer["comment_count"]
        answer_item["create_time"] = answer["created_time"]
        answer_item["update_time"] = answer["updated_time"]
        # answer_item["crawl_time"] = datetime.datetime.now()
        yield answer_item
        pass

    if not is_end:
        yield scrapy.Request(next_url, headers=self.headers, callback=self.parse_answer)

五、items.py的编写

编写question_item和answer_item类，并定义插入数据库函数，将Mysql插入语句及提取的数据params返回到pipelines进行数据库保存。

class ZhihuQuestionItem(scrapy.Item):
    # 知乎的问题 item
    zhihu_id = scrapy.Field()
    topics = scrapy.Field()
    url = scrapy.Field()
    title = scrapy.Field()
    content = scrapy.Field()
    answer_num = scrapy.Field()
    comments_num = scrapy.Field()
    watch_user_num = scrapy.Field()
    click_num = scrapy.Field()
    crawl_time = scrapy.Field()

    def get_insert_sql(self):
        insert_sql="""
            insert into zhihu_question(zhihu_id,topics,url,title,content,answer_num,
                                        comments_num,watch_user_num,crawl_time,click_num)
            values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)ON DUPLICATE KEY UPDATE title=VALUES(title)
"""
        zhihu_id=self["zhihu_id"][0]
        topics=",".join(self["topics"])
        url=self["url"][0]
        title="".join(self["title"])
        content="".join(self["content"])
        answer_num=extract_num("".join(self["answer_num"]))
        comments_num=extract_num("".join(self["comments_num"]))
        watch_user_num="".join(self["watch_user_num"][0])
        click_num="".join(self["click_num"][1])
        crawl_time=datetime.datetime.now().strftime(SQL_DATETIME_FORMAT)

        params = (zhihu_id,topics,url,title,content,answer_num,comments_num,watch_user_num,crawl_time,click_num)

        return insert_sql,params

class ZhihuAnswerItem(scrapy.Item):
    # 知乎的回答 item
    zhihu_id = scrapy.Field()
    url = scrapy.Field()
    question_id = scrapy.Field()
    author_id = scrapy.Field()
    content = scrapy.Field()
    parise_num = scrapy.Field()
    comments_num = scrapy.Field()
    create_time = scrapy.Field()
    update_time =scrapy.Field()
    # crawl_time = scrapy.Field()

    def get_insert_sql(self):
        # 插入知乎question表的sql语句
        insert_sql="""
        insert into zhihu_answer(zhihu_id,url,question_id,author_id,content,praise_num,
                                    comments_num,create_time,update_time)
        values(%s,%s,%s,%s,%s,%s,%s,%s,%s)ON DUPLICATE KEY UPDATE zhihu_id=VALUES(zhihu_id)
"""
        create_time=datetime.datetime.fromtimestamp(self['create_time'])
        update_time=datetime.datetime.fromtimestamp(self['update_time'])
        params = (
            self["zhihu_id"],self["url"],self['question_id'],
            self['author_id'],self['content'],self['parise_num'],
            self['comments_num'],create_time,update_time,
            # self['crawl_time']
        )
        return insert_sql,params

六、pipelines的编写

由items中的get_insert_sql函数返回的两个参数inset_sql、params，在Mysql异步入库中的do_insert函数中提取两个参数，执行SQL语句，将数据存储到数据库。

异步入Mysql库
class MysqlTwistedPipline(object):
    def __init__(self, dbpool):
        self.dbpool = dbpool

    @classmethod
    def from_settings(cls,settings):
        # 登录参数在settings中
        dbparms = dict(
            host = settings['MYSQL_HOST'],
            db = settings['MYSQL_DBNAME'],
            user = settings['MYSQL_USER'],
            passwd = settings['MYSQL_PASSWORD'],
            charset = 'utf8',
            cursorclass = DictCursor,
            use_unicode = True,
        )
        dbpool = adbapi.ConnectionPool("MySQLdb", **dbparms)
        return cls(dbpool)

    def process_item(self, item, spider):
        query = self.dbpool.runInteraction(self.do_insert, item)
        query.addErrback(self.handle_error, item, spider)

    def handle_error(self,failure,item,spider):
        print(failure)

    def do_insert(self,cursor,item):
        insert_sql,params = item.get_insert_sql()
        cursor.execute(insert_sql, params) # 执行数据库语句,将数据存入SQL数据库中
        pass

七、Mysql数据库存储结果

question表

answer表

Original: https://blog.csdn.net/m0_65592409/article/details/125562783
Author: 小枫编程日记
Title: Python_scrapy(知乎问答爬取

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789198/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用numpy实现pytorch式的深度学习框架similartorch

按照torch的风格写的基于numpy的深度学习框架，其实无论是tensorflow还是pytorch，框架的原理都是相近的，只不过说静态图和动态图的设计上有差异，但是反向传播这些…

Python 2023年8月26日
0037
coco数据集解析及读取方法

1.coco数据集格式 MC COCO2017年主要包含以下四个任务：目标检测与分割、图像描述、人体关键点检测，如下所示： annotations: 对&am…

Python 2023年8月2日
0064
flask请求生命周期

-请求上下文ctx:-request-session-应用上下文:app_ctx:-g-current_app -ctx=RequestContext(envion)-ctx对象中…

Python 2023年8月15日
0034
把两个毫不相关dataframe中的字段合并在一起

df_target = pd.DataFrame(df_pct[(df_pct.ts_code == code)].sort_values(by=[‘date&#821…

Python 2023年8月8日
0030
使用Python分析餐厅订单数据

相信很多小伙伴都多少了解过Python爬虫，如果没了解爬虫，建议你先去看我的爬虫入门，一片博客带你简单爬虫入门，但是不知道小伙伴们是否思考过我们爬取数据的目的，简单来说，我们通过网…

Python 2023年8月20日
0043
按日更新股票数据——从零到实盘13

前文介绍了多进程创建股票数据的过程，整个创建过程大概约10几分钟。在实盘时，每个交易日都有新数据生成，我们没有必要对全面历史时间都进行重新创建计算，只需要下载新产生的日线数据，每次…

Python 2023年8月20日
0064
基于Matlab模拟用于海况海洋学研究的 X 波段雷达系统（附源码）

海事雷达系统在充满挑战的动态环境中运行。为了改进对感兴趣目标的检测并评估系统性能，必须了解海面返回的性质。在本例中，将模拟用于海况海洋学研究的 X 波段雷达系统。雷达系统是一个固…

Python 2023年9月15日
0042
Allure的简单使用

Allure的简单使用 1.Allure简介简单的理解下，可以把Allure当成一个用于生成美观测试报告的开源工具，配合Pytest测试框架使用更佳。也就是说，Allure是在…

Python 2023年5月23日
0066
pygame精灵组有哪些方法_资料员如何利用【送检精灵】制作自己的送检计划

很久没有来知乎，好多小伙伴留言没能及时回复，工作比较忙没能及时回复。这里说声抱歉了。我们在做房建资料的时候，需要送检哪些材料、需要做哪些试验，作为一名新手或者半熟手资料员，并不能…

Python 2023年9月24日
0038
大数据之Spark案例实操完整使用(第六章)

大数据之Spark案例实操完整使用一、案例一 * 1、准备数据 2、需求 1：Top10 热门品类 3、需求说明 – 方案一、实现方案二实现方案三二、需求实现…

Python 2023年11月7日
0032
Docker 镜像构建可以分享的快乐

通过上一篇 Dockerfile 语法与指令的学习，本节就开始使用Dockerfile 来制作自己的 Docker 镜像啦。 Docker 镜像构建新建 app.py 文件 fr…

Python 2023年8月10日
0039
NISP证书的含金量有多高，是否能够实现2023年月薪过万呢？

nisp一级证书含金量 NISP证书是面向各个行业人员的信息安全意识普及化和网络信息安全基础培训。持NISP证书可以从信息安全保密较高的单位得到加分。证书由中国信息安全测评中心授予…

Python 2023年11月7日
0064
python实现接口自动化（requests+pytest+pymysql+xrl+ allure）

一、python+requests 1.1：下载安装request pip3 install request -i https://pypi.doubanio.com/simple…

Python 2023年9月13日
0048
获取字典中values值中最大的数，返回对应的keys

1.字典中键值对的获取 print（data.values()） # 查看字典的值 print（data.keys()） # 查看字典的key 2.对字典中的值进行排序 sorte…

Python 2023年11月2日
0030
Jinja2渲染HTML模板-python发送邮件html格式正文

背景有用过Flask的同学应该都知道，flask创建上下文之后就可以使用render_template（基于Jinja2模板引擎）去渲染HTML页面了。看这个函数的源码我们可以发…

Python 2023年8月15日
0081
第一章 Numpy

numpy是学习数据分析和人工智能必不可少的库，大量的计算方法在numpy中都有现成的方法，下面介绍其常用的方法 numpy替换值如下：替换矩阵中的空字符串 #!usr/bin/…

Python 2023年8月25日
0036

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python_scrapy(知乎问答爬取

一、模拟登录知乎

二、提取知乎question页面url

三、提取question页面具体数据

四、提取answer页面具体数据

五、items.py的编写

六、pipelines的编写

七、Mysql数据库存储结果

大家都在看