❤️爬虫截热榜长屏不方便阅读！推荐dominate直接生成报告❤️

2023年7月15日上午4:59 • 人工智能 • 阅读 66

之前学委之前写了一篇热榜长榜单爬虫截屏的文章和快速优雅HTML报表开发

这次玩大一点，我们把热榜直接爬下来存为报告查看。

先看看效果：

搞起来！

; 第一步生成报告

没听错，爬虫先放着，无中生有，随便搞点数据先把报告生成了。

保存下面代码为report.py，后面会用这个名字引入。

from dominate.tags import *

"""
雷学委特制的生成html报告的函数
"""
def generate_html(tuples):
    _html = html()
    _head = head()
    _head.add(title("雷学委整理的CSDN热榜报告"))
    _head.add(meta(charset="utf-8"))
    _html.add(_head)
    _body = _html.add(body())
    _table = table(border=1)
    with _table.add(tbody()):
        index = 0
        for tp in tuples:
            index += 1
            leiXW = tr()
            leiXW += td(str(index))
            leiXW += td(a(tp[1],href=tp[0]))
    with _body.add(div(cls="leixuewei")):
        h3("雷学委整理的CSDN热榜")
    _body.add(_table)
    return _html.render()

"""
雷学委特制的直接生成保存报告的函数
"""
def lei_report(leixuewei_tuples, path):
    data = generate_html(leixuewei_tuples)
    with open(path, "w") as f:
        f.write(data)

if __name__ == "__main__":
    lxw_tuples = []
    lxw_tuples.append(("https://blog.csdn.net/geeklevin/article/details/119594295","雷学委Python生成Html报表"))
    lxw_tuples.append(("https://blog.csdn.net/geeklevin/article/details/116771659","Docker玩腻了，不妨试试用Vagrant"))
    path = "./csdn_rank.html"
    lei_report(lxw_tuples, path)

代码解析

上的代码生成一个html网页，并保存到path变量指定路径。

准备一个二元组的数组
传入generate_html函数，这个函数构建带head和body。其中body再迭代输入的数组，生成一个表格。
将表格内容输出写入到文件中

效果如下：

; 第二步改造之前的爬虫代码

也就是这篇热榜长榜单爬虫截屏的文章里面的核心代码，下面直接改造。

'''
雷学委应对流式页面的爬虫解决秘诀
截屏的核心代码：
'''
def resolve_height(driver, pageh_factor=5):
    js = "return action=document.body.scrollHeight"
    height = 0
    page_height = driver.execute_script(js)
    ref_pageh = int(page_height * pageh_factor)
    step = 150
    max_count = 15
    count = 0
    while count < max_count and height < page_height:

        for i in range(height, ref_pageh, step):
            count+=1
            vh = i
            slowjs='window.scrollTo(0, {})'.format(vh)
            print('[雷学委 Demo]exec js: %s' % slowjs)
            driver.execute_script(slowjs)
            sleep(0.3)
        if i >= ref_pageh- step:
            print('[雷学委 Demo]not fully read')
            break
        height = page_height
        sleep(2)
        page_height = driver.execute_script(js)
    print("finish scroll")
    return page_height

page_height = resolve_height(driver)
print("[雷学委 Demo]page height : %s"%page_height)
sleep(5)
driver.execute_script('document.documentElement.scrollTop=0')
sleep(1)
driver.save_screenshot(img_path)
page_height = driver.execute_script('return document.documentElement.scrollHeight')
print("get accurate height : %s" % page_height)

from report import lei_report

driver.execute_script(f'document.documentElement.scrollTop={page_height};')
sleep(1)
driver.save_screenshot(f'./leixuewei_rank_end.png')
blogs = driver.find_elements_by_xpath("//div[@class='hosetitem-title']/a")

articles = []
for blog in blogs:
    link = blog.get_attribute("href")
    title = blog.text
    articles.append((link,title))

print('get %s articles' % len(articles))
print('articles : %s ' % str(articles))

path = "./leixuewei_csdn_rank.html"
lei_report(articles, path)
print("保存热榜到路径:%s" %path)

"""LeiXueWei Demo代码，白嫖这么多了，关注三连支持一下吧！"""

代码解析

前篇的流式处理的爬虫代码删去了截屏合并代码段。

然后，重点来了。如下步骤：

爬虫直接拉到底部，获取链接，生成数组
接着截图页面尾部，以后可以留作纪念
导入调用lei_report 函数，生成页面

比较简单的，不一行一行解读了。

效果如下：

报表太长了截图截了个头尾，看看。

; 总结：这篇多看看

本文仅作展示目的，对于演示网站有任何异议，请告知修改。

最后使用爬虫必须谨慎，不要当做儿戏去爬机构网站。你学习也不能拿严肃的网络来刷，这个行为会让你吃上LAO饭！

对了，学委还有这个可以关注长期阅读 =>雷学委趣味编程故事汇编
或者=> 雷学委NodeJS系列

持续学习持续开发，我是雷学委！
编程很有趣，关键是把技术搞透彻讲明白。
创作不易，请多多支持，点赞收藏支持学委吧！

Original: https://blog.csdn.net/geeklevin/article/details/119657231
Author: 雷学委
Title: ❤️爬虫截热榜长屏不方便阅读！推荐dominate直接生成报告❤️

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/693585/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Windows 10 下安装pycrypto时出错的解决问题

错误信息如下： Collecting pycryptoUsing cached pycrypto-2.6.1.tar.gz (446 kB)Preparing metadata (…

人工智能 2023年7月5日
0073
单像素相机（single pixel camera，SPC）

回答1： ABAP语言中的SELECT 语句用于从数据库中选择一行数据，并将其赋值给一个特定的内部表或结构。如果查询返回多行数据，则只返回第一行，并忽略其余的数据。此语句的语法如下…

人工智能 2023年7月10日
0076
NVIDIA Jetson Xavier NX developer kit 系统安装与deepstream部署预备

系统烧录硬件准备：sd卡（推荐64GB），读卡器板子：NVIDIA Jetson Xavier NX developer kit 下载官方SD卡格式化软件，将插有sd卡的读卡器…

人工智能 2023年7月10日
0077
使用BERT+BiGRU对京东手机评论进行情感分析

1. 设置参数，使模型结果具有可重现性（非必须）确定性操作通常比非确定性操作慢，因此您的模型的单次运行性能可能会降低。但是，确定性可以通过促进实验、调试和回归测试来节省开发时间。…

人工智能 2023年7月22日
0075
xgboost回归预测1-商品销量预测

任务背景：预测未来一周各个城市各个品类商品的销量 Rawdata： Brazilian E-Commerce(2017.4-2018.10) 目前已有销量数据： 2016/10（…

人工智能 2023年6月17日
0097
CNN对时间序列数据进行分类【Keras】

项目结构如上所示tsv_cnnfile.py为训练的代码inference.py为模型推理的代码注意调用训练代码时候可以通过python tsv_cnnfile.py &#8212…

人工智能 2023年7月1日
00133
【NeRF】背景、改进、应用与发展

推荐阅读：主要参考文献：https://zhuanlan.zhihu.com/p/512538748GIRAFFE[12]再次凭借隐式表示中的物体编辑和组合获得CVPR2021年…

人工智能 2023年6月16日
0082
ICCV 2021 | 低质图像化军师：让 IR测评摆脱高清依赖

图像质量评估是一个”古老”而重要的课题，有着广泛的应用和深远的影响。一些非常经典的图像质量评估方法，比如PSNR, SSIM，包括新兴的LPIPS，已经被广…

人工智能 2023年6月22日
0069
NVIDIA支持CUDA的显卡选型简述

** NVIDIA支持CUDA的显卡选型简述 ** 目录 * – NVIDIA支持CUDA的显卡选型简述 – + 一、概述 + * 1、为什么选这三款 + …

人工智能 2023年7月14日
00106
雷达图-高效数据解读

雷达图又被叫做蜘蛛网图，适用于显示三个或更多的维度的变量。大家最熟悉的莫过于游戏中的数据分析（如下图）。雷达图是以在同一点开始的轴上显示三个或更多个变量的二维图表形式来显示多元…

人工智能 2023年7月16日
0076
RNA 20. SCI 文章中单样本免疫浸润分析（ssGSEA）

点击关注，桓峰基因桓峰基因生物信息分析，SCI文章撰写及生物信息基础知识学习：R语言学习，perl基础编程，linux系统命令，Python遇见更好的你 85篇原创内容公众号…

人工智能 2023年6月11日
0086
Dataloader的使用

本文主要使用CIFAR10数据集来讲解Dataloader的使用方法，并写入tensorboard中，可以更好的去查看。在pytorch中如何读取数据主要有两个类，分别是Data…

人工智能 2023年7月21日
0090
Colab使用教程（超级详细版）及Colab Pro/Colab Pro+评测

大家好，我是温柔的玉米🌽～在下半年选修了机器学习的关键课程Machine learning and deep learning，但由于Macbook Pro显卡不支持cuda，因…

人工智能 2023年6月23日
00102
为什么越来越多的程序员选择了Golang？

人工智能以令人难以置信的应用为 21 世纪增光添彩，让人们的生活更轻松。无论是生活方式、人际关系，还是我们的工作和经营方式，人工智能已经改变了一切，例如规划、互动、医疗健康等。在…

人工智能 2023年6月10日
0069
MATLAB图像处理边缘检测

最近正好在做APMCM2019的A题，发现了matlab一些比较好用的函数，做一个学习笔记的作用如果大家有去了解这道题目的话，会发现它其实是需要你通过图像处理等方式，将114张SI…

人工智能 2023年6月17日
00115
[TI TDA4 J721E] Sensor 鱼眼摄像头 LDC畸变校正模块LUT的创建和生成——详解

首先感谢阅读，如果您也对TDA4相关的开发感兴趣，我们这边有个学习交流微信群，可以入群和大家一起交流学习。资历较浅，水平有限，如遇错误，请大家多指正！保持开源精神，共同分享、进…

人工智能 2023年6月18日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

❤️爬虫截热榜长屏不方便阅读！推荐dominate直接生成报告❤️

代码解析

效果如下：

代码解析

效果如下：

大家都在看