一款开源且超好用的网站克隆机 HTTrack

0x00 前言

我们在学习前端的时候,总是会想着去学习其他人网站是如何制作的,或者我们遇到一些比较有用的知识点的时候,我们可能会选择通过 Ctrl + C / Ctrl + V 去扒下内容,然而我并非是鼓励这种扒网站的行为,不过只要是开源的,不用于商业用途,我觉得大家都可以相互借鉴一下的啦,毕竟重复造轮子的事情就是在浪费时间。而通过 Ctrl + C / Ctrl + V 这种方式过于麻烦,并且现在的图片基本上都有防盗链了,或者路径由图床改成了本地的相对路径,单纯的复制粘贴很难把网站的相关内容扒的干净,于是我们有了如下的思考:如何才能将一个网站的内容完整的 clone 下来呢?

初学的时候,我们通过 view-source:https://xxx.xxx.xxx 这种方式查看网页的源代码,新建一个 index.html 文件,然后将内容复制粘贴到 index.html 内容中,或者直接 wget 下来也是可以的。但就像我上面说的那样,没有办法完整的拷贝网页上的全部内容。随着学习的深入,了解到了 python 爬虫的时候,有过这种实例,但是在实现效果上并不是那么友好。

随着学习的进一步深入,有了专门针对网站克隆的软件,如 WebZipawwwb.com 等等,据说挺好用的,咱也没试过,咱也不确定啊(多年不用 Windows )。今天我给大家介绍一款开源且超好用的网站克隆机 httrack

0x01 什么是 HTTrack?

HTTrack 是一个免费并易于使用的线下浏览器工具,全称是 HTTrack Website Copier for Windows,它能够让你从互联网上下载指定的网站进行线下浏览(离线浏览),也可以用来收集信息(甚至有网站使用隐藏的密码文件),一些仿真度极高的伪网站(为了骗取用户密码),也是使用类似工具做的。浏览线下站点和线上并没有什么不同。

HTTrack 同样可以进行线下线上站点同步,支持断点续传。HTTrack 是一个可全面配置并包括全面的帮助系统的工具。对于传统的像存在 Robots.txt 的网站,如果程序运行的时候不做限制,在默认的环境下程序不会把网站镜像,简单来说 HTTPrack 跟随基本的 JavaScript 或者 APPLet、flash 中的链接,对于复杂的链接(使用函数和表达式创建的链接)或者服务器端的 ImageMap 则不能镜像。一般不用挖的太深就能获取目标信息比如网站的物理地址,电话号码,电子邮箱地址,运营时间,商业关系,员工的姓名,与社会关系,以及公开的一些花絮。做渗透测试时新闻其实也很重要,公司时常会公开一些自己感到骄傲的事情,这些报到中可能会泄露有用的信息,企业兼并服务器运转的情况等等。

用 Httrack 可以将一个网站拷贝下来,以此进行下线的探测发现,以此减少对目标网站的直接交互。Httrack 的使用很简单,只需要根据其向导按步骤进行就好了。

HTTrack 已经被预安装在以下 Linux 系统中:

如没有可以自行参考以下的安装方式进行下载安装。

0x02 HTTrack 的安装和使用

HTTrack 支持 Windows、Linux 和 MacOS 等主流的操作系统,且针对 Windows 而言,HTTrack 有可视化界面的支持,效果如下:

一款开源且超好用的网站克隆机 HTTrack

最新版的 HTTrack 可以通过以下方式进行下载使用。

Windows 下安装:

通过 http://www.httrack.com/page/2/en/index.html,Download 下载对应的版本即可。

Linux 下安装:

Debian/Ubuntu下安装
sudo apt install httrack
CentOS/Fedora下安装
sudo yum install httrack
Gentoo下安装
sudo emerge httrack

Mac OSX 下安装:

sudo port install httrack
或者
brew install httrack

直接通过源码编译下安装:

git clone https://github.com/xroche/httrack.git --recurse
cd httrack
./configure --prefix=$HOME/usr && make -j8 && make install

具体参考:http://www.httrack.com/page/2/en/index.html

常用的参数选项可以通过 httrack --help 查看。

0x03 克隆网站站点演示

环境准备

  • Mac OSX 10.11
  • httrack 工具

下面我以某一测试站点 https://progit.bootcss.com/ 为例,来演示其操作过程。

克隆过程

1、httrack 进入操作界面

在安装好 httrack 的 Mac OSX 10.11 的系统中,打开 shell 终端,直接输入 httrack 即可。

2、输入必要的信息

接下来我们要填入如下相关信息:

`shell
Welcome to HTTrack Website Copier (Offline Browser) 3.49-2
Copyright (C) 1998-2017 Xavier Roche and other contributors
To see the option list, enter a blank line or try httrack –help
1. 输入待生成的项目名称
Enter project name :progit
2. 输入待保存的项目所在的路径
Base path (return=/Users/apple/websites/) :/Users/apple/Desktop
3. 输入需要克隆的网站的 url
Enter URLs (separated by commas or blank spaces) :https://progit.bootcss.com/

Action:
(enter) 1 Mirror Web Site(s)
2 Mirror Web Site(s) with Wizard
3 Just Get Files Indicated
4 Mirror ALL links in URLs (Multiple Mirror)
5 Test Links In URLs (Bookmark Test)
0 Quit
:
4. 没有特别要求直接回车即可
Proxy (return=none) :

You can define wildcards, like: –.gif +www..com/.zip –img_*.zip
5. 没有特别要求直接回车即可
Wildcards (return=none) :

You can define additional options, such as recurse level (-r), separated by blank spaces
To see the option list, type help
6. 没有特别要求直接回车即可
Additional options (return=none) :

Original: https://www.cnblogs.com/ECJTUACM-873284962/p/11366672.html
Author: Angel_Kitty
Title: 一款开源且超好用的网站克隆机 HTTrack

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/551700/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • Effective Java 3 读后感

    Effective Java 3 读后感 最近学习了一下Effectvie Java,这是一本非常适合有一定经验的Java后端人员阅读的书。书中总结许多编码经验对开发很有帮助,比如…

    技术杂谈 2023年7月24日
    090
  • HDU 2295 Radar (重复覆盖)

    Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Subm…

    技术杂谈 2023年5月30日
    091
  • CSS 埋点统计

    原文地址: https://my.oschina.net/u/1778933/blog/1608904 CSS 埋点统计 当一个网站或者 App 的规模达到一定程度,需要分析用户在…

    技术杂谈 2023年5月31日
    0112
  • IntelliJ隐藏特定后缀文件

    preference- Original: https://www.cnblogs.com/pengyingh/p/10521234.htmlAuthor: pengyinghTi…

    技术杂谈 2023年5月30日
    0112
  • 人工智能起步-反向回馈神经网路算法(BP算法)

    本文出处 人工智能分为强人工,弱人工。 弱人工智能就包括我们常用的语音识别,图像识别等,或者为了某一个固定目标实现的人工算法,如:下围棋,游戏的AI,聊天机器人,阿尔法狗等。 强人…

    技术杂谈 2023年6月21日
    0119
  • 傅里叶级数

    中学时学习了三角函数,下面这类图象天天看也没啥特别感觉,但是对于数学大咖而言就不一样了: 傅里叶大神看到这些图象后,提出了一个重要思想:任何一个周期性的函数,都可以用一系列三角函数…

    技术杂谈 2023年5月31日
    0103
  • FPGA学习-2,一点理解

    1、Wire只能赋一次值,Reg可以多次改变2、#100这种是在仿真系统下有效。3、同一个文件下也可以写多个module. 本博客是个人工作中记录,遇到问题可以互相探讨,没有遇到的…

    技术杂谈 2023年6月1日
    096
  • 利用kubernetes中的leader选举机制来完成自己的HA应用

    404. 抱歉,您访问的资源不存在。 可能是网址有误,或者对应的内容被删除,或者处于私有状态。 代码改变世界,联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

    技术杂谈 2023年7月25日
    082
  • MySQL-sql_mode=only_full_group_by解决方式

    报错问题: SQLSyntaxErrorException: Expression #1 of SELECT list is not in GROUP BY clause and …

    技术杂谈 2023年6月21日
    0112
  • 混沌工程之混沌测试平台

    https://www.jianshu.com/p/4bd4f88e24e4 一款用于测试kubernetes环境的工具。通过人为地在集群中注入故障来检测集群对故障的处理以及恢复能…

    技术杂谈 2023年5月31日
    099
  • css height属性中的calc方法

    例如父盒子是100%的高度 盒子里面的head部分固定位140px 内容部分始终为剩余的全部高度 height: calc(100% – 140px); “…

    技术杂谈 2023年7月24日
    0104
  • 关于随机森林进行多分类的一个思考

    机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别输出的类别的众树而定,它有着许多的有点,能很好地处理多分类问题。 基本算法 简要描述 随机森林,是用随机的…

    技术杂谈 2023年5月31日
    0123
  • 四、初识Java

    JavaSE:标准版(桌面程序,控制台开发……) JavaME:嵌入式开发(手机,小家电……)[了解就行] JavaEE:E企业级开…

    技术杂谈 2023年6月21日
    081
  • 前端调用突然都是406

    maven依赖飘红,没有正确导入jackson的依赖,删除idea相关文件,重新打开项目,重新加载依赖即可 Original: https://www.cnblogs.com/bi…

    技术杂谈 2023年7月11日
    082
  • bilibili弹幕爬虫

    import random import requests import jieba import numpy as np from lxml import etree class…

    技术杂谈 2023年7月24日
    0112
  • 和身边的人搭伴学

    互为磨刀石 互相挑毛病。前提是双方都非常信任彼此,因为搞软件大多容易沉浸在自己的问题里,又不太善于做高情商的表达。一遇到沟通问题,一句话说不好就会引发误会。 有了信任的伙伴,你就不…

    技术杂谈 2023年7月25日
    086
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球