处理一下文件内容,将域名取出并根据域名进行计数排序处理(百度、sohu面试题)
http://www.etiantian.org/index.html
http://www.etiantian.org/1.html
http://post.etiantian.org/index.html
http://mp3.etiantian.org/index.html
http://www.etiantian.org/3.html
http://post.etiantian.org/2.html
#uniq 去重复命令 -c 计数重复数 [root@B-host ~]# uniq -c test.txt 1 10.10.0.7 1 10.10.0.8 4 10.10.0.9 2 10.10.0.8 #sort 排序命令 -nr 倒序(小到大) [root@B-host ~]# sort -t " " -k 2 1.txt // 按空格分隔符的第2列排序 10.10.0.8 a 10.10.0.8 b 10.10.0.7 c 10.10.0.8 d 10.10.0.8 h 10.10.0.8 j
[root@B-host ~]# awk -F "/" '{print $3}' 1.txt www.etiantian.org www.etiantian.org post.etiantian.org mp3.etiantian.org www.etiantian.org post.etiantian.org [root@B-host ~]# awk -F "/" '{print $3}' 1.txt|sort mp3.etiantian.org post.etiantian.org post.etiantian.org www.etiantian.org www.etiantian.org www.etiantian.org [root@B-host ~]# awk -F "/" '{print $3}' 1.txt|sort|uniq -c 1 mp3.etiantian.org 2 post.etiantian.org 3 www.etiantian.org [root@B-host ~]# awk -F "/" '{print $3}' 1.txt|sort|uniq -c|sort -nr -k1 3 www.etiantian.org 2 post.etiantian.org 1 mp3.etiantian.org [root@B-host ~]# [root@B-host ~]# awk -F "/" '{++S[$3]} END {for (a in S) print S[a],a}' 1.txt|sort -nr -k1 3 www.etiantian.org 2 post.etiantian.org 1 mp3.etiantian.org http://blog.51cto.com/oldboy/1184165
停留在世界边缘,与之惜别