wget是Linux下一个下载文件的工具。

wget支持HTTP,HTTPS和FTP协议,可以使用HTTP代理。wget可以在用户退出系统的之后在后台执行。 也就是说启用了wget命令,就算你退出了系统也会在后台一直执行,直到完成下载任务。

wget 可以跟踪HTML页面上的链接依次下载来创建远程服务器的本地版本,完全重建原始站点的目录结构。这又常被称作”递归下载”。

命令格式

wget 参数  url

主要功能

1. 支持断点续传
2. 同时支持FTP和HTTP下载方式
3. 支持代理服务器
4. 设置方便简单

参数命令详解可以通过wget -h命令来查看,这边介绍下使用wget命令来扒站哈哈哈。

示例代码

wget -r -p -np -k https://www.nuxtv.com

-r 递归的下载
-p 下载页面必须元素(图片等)
-np 不追溯至父级
-k 转换链接(也就是把页面上所有的动态链接转换成下载到本地之后的相对链接)

使用这个就可以差不多把整个站点完整的扒下来了。会在本地生产一个扒站的域名目录。

还可以模拟浏览器访问,新增参数

wget -r -p -np -k --user-agent="Mozilla/5.0"  https://www.nuxtv.com

如果css等是引入非下载站的域名无法下载下来。`。