如何去分析网站的日志文件

这个问题,被大家问过无数遍。我也回答了不下百遍。 

下面是解决方案:
1、查下你的网络日志,在日志里搜索这几个:“Baiduspider”,“google”,“yahoo”,”360Spider” ;
2、从最近的日志里开始找,如果没有,再往前找一个;

3、日志中有这几个结果:

网站seo优化

1)如果日志里,从来没有出现过这几位老大的机器人(Robot),那说明你没有提交成功或者是因为你发了太多spam(垃圾)链接被搜索引擎直接放入垃圾桶检索库了。 如果你的域名不是“一手的”,则不在此列。

办法是:再提交,然后是等待,可能是一年之后。如果你发了太多spam,你可以考虑换一个域名了。


2)找到baidu们了,看看昨天的日志里还有:”Baiduspider”吗?还有的话,说明百度已经收录你了,只是还没展示出来。过几天吧。如果已经过了快2个月,还没展示出来,需要看看baiduspider的那行代码了。


3)如果以前的日志里有,后来的没有,最大的可能是你的内容不符合规则。你的站将一直不展示。(那为什么有些站点内容和我一样,却可以搜索到?搜索引擎一般都会给一个时间,对于已经被收录的站点,不会一出现禁词就封掉,而是再观察一段时间。当然,也可能是搜索引擎糊涂了。) 这个情况也有一点可能是你的站点做得不是很好。

也许各位常常看到别人在群里聊天,某某人的网站出现什么问题了。。。别人建议查看网站的日志文件,分析蜘蛛的爬取情况。可是如何去分析日志文件却很少有人去提,接下来我会大概介绍一下,如何去分析网站的日志文件,找出网站可能出现的问题等等。

一般我们的服务器是可以开启蜘蛛爬取记录文件的,如果没有开启这功能,可联系空间商要求开通此功能,通过分析web log,找出自己站的问题所在。

日志文件一般是log为扩展名的文件,有的是GZ压缩后的文件,没有关系,我们下载下来,可以直接用记事本打开log文件,可看到里面的爬取记录。

格式大致都是如下这种:

220.181.108.175 – – [25/Jul/2012:11:54:58 -0700] “GET /sitemap.xml HTTP/1.1” 304 0 “-” “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

说明:第一个IP是蜘蛛的IP地址,依次为抓取时间,get的文件名,协议,状态码,百度蜘蛛。

请特别注意一下,状态码,如果网站出现很多404,需要在robots里屏蔽或者汇总提交给站长工具至搜索引擎,否则网站在搜索引擎眼里就是个很不正常的站点,而且网站的抓取也很有问题,需要正视这个问题,因为不少人的站点都是这个原因引起的,而自己却浑然不知。

当然状态码只是一个方面,我们可以分析,蜘蛛每次来的时间大概是什么时候,每次蜘蛛来网站后共抓取多少个页面,每次在网站上停留多少时间。通过汇总一个时间段的web log,可以分析出自己页面的哪些目录还没有被搜索引擎抓取到,自己是否可以在适当的位置展示这些页面,或者通过站长工具的sitemap提交,多做些高质量的外链来达到收录效果。

相信我,利用好网站日志会让你受益无穷!

除非注明,否则均为未来可期SEO原创文章,转载必须以链接形式标明本文链接

本文链接:https://www.szsinotech.com/seo_944.html

© 版权声明
THE END
喜欢就支持一下吧
点赞12赞赏 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片