常见场景分析
-
网页提供压缩包链接(推荐方式)
大多数网站会将文件夹打包为.zip
、.tar.gz
等格式,直接点击链接即可下载,解压命令:unzip 文件名.zip # 解压zip tar -xzvf 文件名.tar.gz # 解压tar.gz
-
网页未提供压缩包,但有目录结构
若网页支持目录浏览(如Apache目录索引),可通过工具递归下载。
使用 wget
递归下载(最常用)
步骤:
-
安装 wget(通常已预装):
sudo apt install wget # Debian/Ubuntu sudo yum install wget # CentOS/RHEL
-
递归下载整个目录:
wget -r -np -nH --cut-dirs=2 -R "index.html*" http://example.com/path/to/folder/
-r
:递归下载-np
:不追溯父目录-nH
:不创建主机名前缀的目录--cut-dirs=N
:忽略URL中前N级目录(根据路径调整)-R "index.html*"
:排除自动生成的索引文件
-
示例:
下载http://example.com/data/project/files/
下的所有内容,保存到当前目录的files/
中:wget -r -np -nH --cut-dirs=3 -R "index.html*" http://example.com/data/project/files/
使用 curl
下载(适合API或脚本)
若需从API或验证页面下载:
curl -L -o 文件夹名.zip "https://example.com/download?fileid=123"
-L
:跟随重定向-o
:指定输出文件名
图形界面下载(适合新手)
-
浏览器直接下载:
在网页中找到压缩包链接(如Download Folder
按钮),右键复制链接,在终端用wget
或curl
下载。 -
使用下载管理器:
安装扩展(如DownThemAll!
),但Linux环境下推荐命令行工具更高效。
注意事项
-
版权与合规:
- 仅下载允许公开访问的内容,遵守
robots.txt
(检查http://example.com/robots.txt
)。 - 避免下载受版权保护的资源。
- 仅下载允许公开访问的内容,遵守
-
安全警告:
- 验证链接来源,防止恶意软件:
wget --secure-protocol=TLSv1_2 https://trusted-site.com/folder/
- 优先使用HTTPS链接。
- 验证链接来源,防止恶意软件:
-
网站政策:
- 频繁递归下载可能触发IP封禁,添加等待时间:
wget -r -w 5 --limit-rate=100k http://example.com/folder/ # 限速100KB/s,每文件间隔5秒
- 查看网站是否有下载频率限制。
- 频繁递归下载可能触发IP封禁,添加等待时间:
-
存储空间:
- 大文件夹可能占用大量磁盘,用
df -h
检查空间。
- 大文件夹可能占用大量磁盘,用
替代方案
- rsync:若服务器支持(常见于开源项目):
rsync -avz user@example.com:/remote/path/ /local/path/
- Git:下载代码仓库:
git clone https://github.com/user/project.git
总结建议
- 首选:网页提供的压缩包链接(安全便捷)。
- 技术用户:用
wget -r
递归下载(灵活高效)。 - 敏感数据:始终验证来源和协议(HTTPS > HTTP)。
引用说明:本文方法参考GNU wget官方文档、Linux命令行工具手册及网络安全最佳实践,递归下载需遵守目标网站条款,合理使用资源。
原创文章,发布者:酷番叔,转转请注明出处:https://cloud.kd.cn/ask/9052.html