命令行工具(高效/无图形界面)
适用于服务器环境或快速文本提取,无需打开浏览器。
-
curl
获取网页源码
基础用法:curl https://example.com
- 保存到文件:
curl -o page.html https://example.com
- 跟随重定向:
curl -L https://example.com
- 仅显示HTTP头:
curl -I https://example.com
- 保存到文件:
-
wget
下载完整网页
基础下载:wget https://example.com
- 递归下载整个网站(慎用):
wget -r https://example.com
- 限速下载:
wget --limit-rate=100k https://example.com
- 递归下载整个网站(慎用):
-
文本浏览器查看渲染内容
lynx
(支持基础JS):lynx https://example.com # 方向键导航,Q键退出
links
或elinks
(轻量级):links -dump https://example.com # 以纯文本输出
-
过滤特定内容
结合grep
/awk
提取关键信息:curl -s https://example.com | grep -oP '<title>\K.*?(?=</title>)' # 提取标题
图形界面浏览器(直观访问)
-
主流浏览器
- Firefox:预装于多数发行版,终端启动命令:
firefox
- Chromium/Chrome:
sudo apt install chromium-browser # Debian/Ubuntu chromium https://example.com
- Firefox:预装于多数发行版,终端启动命令:
-
轻量级浏览器
Midori
:适合低配置设备sudo apt install midori && midori https://example.com
Epiphany
(GNOME默认):epiphany https://example.com
高级技巧
-
查看动态加载内容
使用curl
模拟浏览器请求:curl -H "User-Agent: Mozilla/5.0" https://example.com
-
API数据获取
直接解析JSON响应(需jq
工具):curl -s https://api.example.com/data | jq '.key'
-
监控网页更新
定时检查内容变化:watch -n 60 "curl -s https://example.com | grep 'New Content'" # 每60秒检测一次
安全注意事项
- 验证来源可信度:避免访问未加密(HTTP)或可疑链接,优先使用HTTPS。
- 防范恶意脚本:命令行工具不执行JavaScript,但下载文件需扫描:
clamscan downloaded_file.html # 使用ClamAV扫描
- 权限最小化:勿用
root
用户访问网页,降低风险。
方法选择建议
场景 | 推荐工具 |
---|---|
快速查看文本内容 | lynx 或 curl |
下载完整页面/资源 | wget |
提取特定数据 | curl + grep/jq |
日常浏览(带图形界面) | Firefox/Chromium |
引用说明基于Linux核心工具(GNU Bash, cURL 7.68+, Wget 1.20+)及Mozilla开发者文档,实践环境为Ubuntu 22.04 LTS,安全建议参考OWASP Web安全指南,命令示例经实测有效,用户需根据自身发行版调整安装命令(如
apt
/yum
/dnf
)。
原创文章,发布者:酷番叔,转转请注明出处:https://cloud.kd.cn/ask/5983.html