linux 如何筛选文本

在Linux系统中，文本筛选是日常运维、数据分析和日志处理的核心操作之一，通过灵活运用命令行工具，可以高效地从大量文本中提取所需信息，本文将详细介绍Linux中常用的文本筛选工具，包括grep、sed、awk、cut、sort及uniq，并通过实际案例说明其使用方法,帮助读者掌握文本筛选的核心技巧。

grep：基于模式匹配的文本搜索工具

grep（Global Regular Expression Print）是Linux中最基础的文本搜索工具，支持基于正则表达式的模式匹配，能够快速定位包含特定内容的行，其核心功能是从输入文本中搜索匹配模式的行，并将结果输出。

常用选项及功能

选项	功能说明
`-i`	忽略大小写匹配
`-r` / `-R`	递归搜索目录下的所有文件
`-n`	显示匹配行的行号
`-v`	反向匹配，输出不包含模式的行
`-c`	统计匹配行的数量
`-w`	精确匹配单词（而非字符串）
`-E`	支持扩展正则表达式（如、）

实际案例

假设有一个日志文件error.log如下：

2023-10-01 10:00:00 [ERROR] Connection failed: Invalid password  
2023-10-01 10:01:00 [INFO] User logged in successfully  
2023-10-01 10:02:00 [ERROR] Disk space full  
2023-10-01 10:03:00 [WARN] High memory usage detected

搜索包含“ERROR”的行：

grep "ERROR" error.log

输出：

2023-10-01 10:00:00 [ERROR] Connection failed: Invalid password  
2023-10-01 10:02:00 [ERROR] Disk space full

忽略大小写搜索“error”：
```
grep -i "error" error.log
```
输出与上述相同（因日志中“ERROR”本身为大写，若存在“error”或“Error”也会被匹配）。
统计错误日志数量：
```
grep -c "ERROR" error.log
```
输出：2
递归搜索当前目录下所有“.log”文件中的“ERROR”：
```
grep -r "ERROR" --include="*.log"
```

sed：流编辑器，实现文本替换与删除

sed（Stream Editor）是一种面向流的文本编辑工具，可对输入文本进行逐行处理，支持替换、删除、插入等操作，常用于批量修改文件内容。

常用选项及命令

选项/命令	功能说明
`-n`	取消默认输出，仅显示匹配处理的行
`-i`	直接修改原文件（慎用）
`s/old/new/g`	全局替换“old”为“new”
`d`	删除匹配行
`p`	打印匹配行（需配合`-n`）
`atext`	在指定行后插入文本
`itext`	在指定行前插入文本

实际案例

仍以error.log为例：

将“ERROR”替换为“FATAL”：

sed 's/ERROR/FATAL/g' error.log

输出：

2023-10-01 10:00:00 [FATAL] Connection failed: Invalid password  
2023-10-01 10:01:00 [INFO] User logged in successfully  
2023-10-01 10:02:00 [FATAL] Disk space full  
2023-10-01 10:03:00 [WARN] High memory usage detected

删除包含“WARN”的行：
```
sed '/WARN/d' error.log
```
输出：
```
2023-10-01 10:00:00 [ERROR] Connection failed: Invalid password  
2023-10-01 10:01:00 [INFO] User logged in successfully  
2023-10-01 10:02:00 [ERROR] Disk space full  
```
直接修改原文件，删除第2行（INFO日志）：
```
sed -i '2d' error.log
```

awk：基于字段与模式的文本分析工具

awk是一种强大的文本分析工具，可按行读取文本，并根据指定的分隔符将每行拆分为字段，支持条件判断、循环、数学运算等高级功能，适用于复杂的数据提取与统计。

常用选项及语法

选项/语法	功能说明
`-F`	指定字段分隔符（默认为空格）
`'{print $1, $3}'`	输出第1和第3字段
`'/ERROR/{print $4}'`	对包含“ERROR”的行，输出第4字段
`BEGIN{...}`	处理文本前执行（如初始化变量）
`END{...}`	处理文本后执行（如输出统计结果）
`NF`	当前行的字段数
`$0`

实际案例

假设有一个用户数据文件users.txt如下：

ID,Name,Age,Email  
1,Alice,25,alice@example.com  
2,Bob,30,bob@example.com  
3,Charlie,28,charlie@example.com

提取用户姓名和年龄（以逗号为分隔符）：

awk -F, '{print $2, $3}' users.txt

输出：

Name Age  
Alice 25  
Bob 30  
Charlie 28

筛选年龄大于25的用户，并输出其ID和姓名：
```
awk -F, '$3 > 25 {print $1, $2}' users.txt
```
输出：
```
2 Bob  
3 Charlie  
```
统计用户总数：
```
awk -F, 'END{print "Total users:", NR}' users.txt
```
输出：Total users: 4（NR为行号，含标题行）

cut：剪切文本，提取特定列或字符

cut用于从文本中提取特定的列（字段）或字符位置，常处理以固定分隔符（如CSV、制表符分隔）的文件。

常用选项及功能

选项	功能说明
`-d`	指定字段分隔符（默认为制表符）
`-f`	指定要提取的列（如`1,3`表示第1和3列）
`-c`	指定要提取的字符位置（如`1-5`表示第1到5个字符）

实际案例

以users.txt为例：

提取第1列（ID）和第3列（Age）：

cut -d, -f1,3 users.txt

输出：

ID,Age  
1,25  
2,30  
3,28

提取每行的第1到3个字符（适用于无分隔符的文本）：
假设有一个文件test.txt为abcde，则：
```
cut -c1-3 test.txt
```
输出：abc

sort与uniq：排序与去重

sort：文本排序

sort用于对文本行进行排序，支持基于数字、字母、字典序等多种排序方式，常与uniq配合使用。

选项	功能说明
`-n`	按数字大小排序（默认按字符串排序）
`-r`	反向排序
`-k`	按指定列排序（如`-k2`表示按第2列排序）
`-t`	指定字段分隔符（配合`-k`使用）

uniq：去除重复行

uniq需配合sort使用，因它仅处理相邻的重复行，核心功能是去除连续重复行或统计重复次数。

选项	功能说明
`-d`	仅显示重复行
`-u`	仅显示不重复行
`-c`	统计每行重复次数

实际案例

假设有一个访问日志access.log如下：

168.1.1  
192.168.1.2  
192.168.1.1  
192.168.1.3  
192.168.1.2

对IP地址排序后去重：

sort access.log | uniq

输出：

168.1.1  
192.168.1.2  
192.168.1.3

统计每个IP的访问次数：

sort access.log | uniq -c

输出：

    2 192.168.1.1  
    2 192.168.1.2  
    1 192.168.1.3

按访问次数降序排序：

sort access.log | uniq -c | sort -nr

输出：

    2 192.168.1.1  
    2 192.168.1.2  
    1 192.168.1.3

工具组合使用：实现复杂筛选场景

在实际操作中，常需组合多个工具以实现复杂需求，从Nginx访问日志中提取访问量最高的5个IP地址：

# 假设日志格式为：IP - - [时间] "请求" 状态码 大小
awk '{print $1}' access.log | sort | uniq -c | sort -nr | head -5

步骤解析：

awk '{print $1}'：提取每行的IP地址（第1字段）；
sort：对IP地址排序，使相同IP相邻；
uniq -c：统计每个IP的出现次数；
sort -nr：按次数降序排序；
head -5：输出前5条结果。

linux 如何筛选文本

grep：基于模式匹配的文本搜索工具

常用选项及功能

实际案例

sed：流编辑器，实现文本替换与删除

常用选项及命令

实际案例

awk：基于字段与模式的文本分析工具

常用选项及语法

实际案例

cut：剪切文本，提取特定列或字符

常用选项及功能

实际案例

sort与uniq：排序与去重

sort：文本排序

uniq：去除重复行

实际案例

工具组合使用：实现复杂筛选场景

相关问答FAQs

发表回复

联系我们

400-880-8834

linux 如何筛选文本

grep：基于模式匹配的文本搜索工具

常用选项及功能

实际案例

sed：流编辑器，实现文本替换与删除

常用选项及命令

实际案例

awk：基于字段与模式的文本分析工具

常用选项及语法

实际案例

cut：剪切文本，提取特定列或字符

常用选项及功能

实际案例

sort与uniq：排序与去重

sort：文本排序

uniq：去除重复行

实际案例

工具组合使用：实现复杂筛选场景

相关问答FAQs

相关推荐

Linux下如何用命令将日期时间显示出来？

Linux遍历目录有哪些实用方法？常用命令及具体操作步骤是什么？

Linux如何挂载目录？快速教程

linux如何停止c程序

Linux系统升级PHP7.0版本的具体操作步骤是怎样的？

发表回复

联系我们

400-880-8834