Linux下面有很多经典的非常有用的命令,其中处理文本的命令就有很多。这些小工具经过了几十年时间的洗礼,现在已经变成了经典,已经变成了Linux下面的标准,其实它们一直是遵循着Linux的标准。而在做日志分析时或者配置分析时,通常会遇到查找出符合某一条件的行,并统计,主要应用的就是grep、awk、sort、uniq、wc五个命令 。
1 、awk-对日志内容做统计
awk 是一种处理文本文件的语言,是一个强大的文本分析工具。awk命令通常是将所列出的行,根据条件打印出某一列或几列。
常用形式为:awk [options ] 'cmd' file
作用:
一次读取一行文本,按输入分隔符进行切片,切成多个组成部分;
将每个切片直接保存在内键的变量中,$1$2…($0表示行的全部);
支持对单个切片的判断,支持循环判断,默认分隔符为空格。
1)打印特定位置字段
如:打印每行的第一个和第四个字段(默认按空格和tab 为分隔):
$ awk '{print $1,$4}' log.txt
2)指定分隔符:-F
默认是tab 和空白分隔每行,如果要指定分隔符,带上-F 参数,比如想通过冒号分隔:
$ awk -F: '{print $1,$4}' log.txt
3)通过BEGIN和END 设定执行前后语句
例子:计算文件夹内文件大小:
$ ls -l *.txt | awk '{sum+=$5} END {print sum}'
2 、grep-检索文件内容
grep是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。
作用:用户查找文件里符合条件的字符串,可使用正则表达式查找
语法格式:
grep [option] pattern file //pattern 通常可以为正则表达式
grep用法:
grep一般有两种用法,一种是从文件查找,一种是从管道的输入查找,
grep 'word'
cat |grep 'word'
grep的常用参数:
实例
(1)grep'test'd*#显示所有以d开头的文件中包含 test的行
(2)grep ‘test’ aa bb cc#显示在aa,bb,cc文件中包含test的行
(3)grep ‘[a-z]\{5\}’ aa#显示所有包含每行字符串至少有5个连续小写字符的字符串的行
(4)grep magic /usr/src#显示/usr/src目录下的文件(不含子目录)包含magic的行
(5)grep -r magic /usr/src#显示/usr/src目录下的文件(包含子目录)包含magic的行
(6)grep -w pattern files :只匹配整个单词,而不是字符串的一部分(如匹配’magic’,而不是’magical’),
3 、sort -排序输出
sort排序原则:sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出。
语法格式:sort [optional] filename
常用参数:
-u:去除重复行
-r:默认是升序排序,-r是改为降序
-o:将排序结果写入到源文件
-n:默认是通过ASCII码值排序,但是这时会出现10比2小的情况,-n就是说要以数值进行排序
-k和-t:-k是指定以哪一列进行排序,-t是指定分隔符
举例:
(1)sort -n -t " " -k 2 -k 3 //人数相同的按照员工平均工资升序排序
(2)sort -n -t ' ' -k 3r -k 2 //按照员工工资降序排序,如果员工人数相同的,则按照公司人数升序排序
(3)sort -t ‘ ‘ -k 1.2 //从公司英文名称的第二个字母开始进行排序
(4)sort -t ‘ ‘ -k 1.2,1.2 -k 3,3nr //只针对公司英文名称的第二个字母进行排序,如果相同的按照员工工资进行降序排序
4 、uniq- 消除重复行
uniq命令可以去除排序过的文件中的重复行,因此uniq经常和sort合用。也就是说,为了使uniq起作用,所有的重复行必须是相邻的。
常用参数:
-i :忽略大小写字符的不同;
-c :进行计数,即统计该行的重复次数
-u :显示不存在的行
-d:显示存在重复的行
uniq 可检查文本文件中重复出现的行列,但其只是去除相邻的重复行,内容的不相邻,并没有合并,所以多与 sort 命令结合使用。
5 wc-统计行和字符的工具
wc统计指定文件中的字节数、字数、行数,并将统计结果显示输出。如果没有给出文件名,则从标准输入读取。wc同时也给出所指定文件的总统计数。
作用:用于统计文件内容信息(包含行数、单词数、字节数)
语法:# wc [参数选项] 文件名
常用参数:
-c 统计字节数。
-l 统计行数。
-m 统计字符数。这个标志不能与 -c 标志一起使用。
-w 统计字数。一个字被定义为由空白、跳格或换行字符分隔的字符串。
-L 打印最长行的长度。
-help 显示帮助信息
--version 显示版本信息
-m 和-c 的差别, echo -n “中国” | wc -c 输出为6,echo -n “中国” | wc -m 为2
实例:
#wc -lwc /var/log
含义:统计/var/log文件的行数,单词数,字节数
注意:wc命令选项可以混在一起搭配使用,但选项的顺序不影响输出结果,第一个是行数,第二个是单词数,第三个数字节数。
好了,今天的分享就到这里了。看到这里,你是不是对“Linux”又有了一点新的认知呢~如果你喜欢这篇文章的话,动动小指,加个关注哦~
最后,如果你也想成为程序员,想要快速掌握编程,这里为你分享一个学习企鹅圈子!
里面有资深专业软件开发工程师,在线解答你的所有疑惑~编程语言入门“so easy”
资料包含:编程入门、游戏编程、课程设计、黑客等。
编程学习书籍:
编程学习视频: