wget
是Linux下一个下载文件的工具。
wget
支持HTTP,HTTPS和FTP协议,可以使用HTTP代理。wget可以在用户退出系统的之后在后台执行。
也就是说启用了wget命令,就算你退出了系统也会在后台一直执行,直到完成下载任务。
wget 可以跟踪HTML页面上的链接依次下载来创建远程服务器的本地版本,完全重建原始站点的目录结构。这又常被称作”递归下载”。
命令格式
wget 参数 url
主要功能
1. 支持断点续传
2. 同时支持FTP和HTTP下载方式
3. 支持代理服务器
4. 设置方便简单
参数命令详解可以通过wget -h
命令来查看,这边介绍下使用wget命令来扒站哈哈哈。
示例代码
wget -r -p -np -k https://www.nuxtv.com
-r 递归的下载
-p 下载页面必须元素(图片等)
-np 不追溯至父级
-k 转换链接(也就是把页面上所有的动态链接转换成下载到本地之后的相对链接)
使用这个就可以差不多把整个站点完整的扒下来了。会在本地生产一个扒站的域名目录。
还可以模拟浏览器访问,新增参数
wget -r -p -np -k --user-agent="Mozilla/5.0" https://www.nuxtv.com
如果css等是引入非下载站的域名无法下载下来
。`。