今天听P哥说写了个爬虫抓我网站玩,所以就比较好奇分析了一下P哥来抓我网站的一个行为。
其实听着分析很高端的样子,本来我打算用python写个脚本的,后来一想干脆就用awk算了,也就简单分析一下,等以后有时间部署个分析平台。
这是日志格式:
|
|
简单的分析直接用grep, wc, tr, sort, awk这些就行了,awk可以默认使用空格分隔文本并输入,或者用-F “***“来执行分隔符,然后我们可以sort并用uniq统计出现的次数,最后再sort看看哪个ip的访问次数最多就行了,我们没必要对整个日志进行分析,可以先使用grep过滤。
|
|