1. 处理一下文件内容,将域名取出并根据域名进行计数排序处理(百度、sohu面试题)

    http://www.etiantian.org/index.html

    http://www.etiantian.org/1.html

    http://post.etiantian.org/index.html

    http://mp3.etiantian.org/index.html

    http://www.etiantian.org/3.html

    http://post.etiantian.org/2.html            


#uniq 去重复命令 -c 计数重复数

[root@B-host ~]# uniq -c test.txt
      1 10.10.0.7
      1 10.10.0.8
      4 10.10.0.9
      2 10.10.0.8
      
      
#sort 排序命令    -nr 倒序(小到大)   

[root@B-host ~]# sort -t " " -k 2 1.txt  //  按空格分隔符的第2列排序
10.10.0.8 a
10.10.0.8 b
10.10.0.7 c
10.10.0.8 d
10.10.0.8 h
10.10.0.8 j
[root@B-host ~]# awk -F "/" '{print $3}' 1.txt
www.etiantian.org
www.etiantian.org
post.etiantian.org
mp3.etiantian.org
www.etiantian.org
post.etiantian.org
[root@B-host ~]# awk -F "/" '{print $3}' 1.txt|sort
mp3.etiantian.org
post.etiantian.org
post.etiantian.org
www.etiantian.org
www.etiantian.org
www.etiantian.org
[root@B-host ~]# awk -F "/" '{print $3}' 1.txt|sort|uniq -c
      1 mp3.etiantian.org
      2 post.etiantian.org
      3 www.etiantian.org
[root@B-host ~]# awk -F "/" '{print $3}' 1.txt|sort|uniq -c|sort -nr -k1
      3 www.etiantian.org
      2 post.etiantian.org
      1 mp3.etiantian.org
[root@B-host ~]# 

[root@B-host ~]# awk -F "/" '{++S[$3]} END {for (a in S) print  S[a],a}' 1.txt|sort -nr -k1
3 www.etiantian.org
2 post.etiantian.org
1 mp3.etiantian.org

http://blog.51cto.com/oldboy/1184165