SEO分析实例:用测试站访问日志来了解百度-云下载官方博客推荐

云下载官方博客推荐

不进行搜索引擎提交,不进行外链建设,网站从发布之日起到被百度收录放出页面,到底需要多少时间呢?网站发布后站长紧锣密鼓的外推活动,增加了不可控因素,量度时间长短变得困难。急于求成的心态,让我们忽略了很多,只是盼望被收录越快越好,越多越好。

我一直想把新站发布到百度收录的时间具体化,现在机会来了。6月1日,一个备案好的新注册域名被我解析,又把中国景观网网园林植物数据同以前制作的被领导否定的模版紧密结合起来,制作了一个代码自己写的全新的园林植物网。

不足10个小时的模版应用、站内优化,至于外链我都没有去想过。因此网站在最初的一个月里,它只是死气沉沉的挂着,这符合了“不进行提交,不进行推广”的前提条件。那么百度会访问我的网站吗?访问的话又是什么时间、什么手段呢?

一、网站访问日志里那些有意思的数据

  1. 2012-06-01 17:45:08 +Baiduspider/2.0读取robots.txt返回404错误
  2. 2012-06-10 00:44:29 +Baiduspider/2.0读取robots.txt返回404错误
  3. 2012-06-15 19:35:49 +Baiduspider/2.0读取robots.txt返回404错误
  4. 2012-06-17 20:43:09 +Baiduspider/2.0读取robots.txt返回404错误
  5. 2012-06-17 20:44:12 +Baiduspider/2.0读取index.asp 返回200正常
  6. 2012-06-17 20:44:17 +Baiduspider/2.0读取其他文件 返回200正常
  7. 每日凌晨左右光顾,访问页面有多有少,数据省略
  8. 2012-06-20 16:45:15 Baiduspider-image+ 访问图片 返回200正常
  9. 每日都有光顾,访问页面逐渐增多
  10. 2012-06-17 凌晨一点;上午八点;晚上10点三次光顾
  11. 2012-06-18至今,凌晨一点光顾,访问次数大体趋于平稳

有了详细的访问数据之后,经过简单归纳总结,很容易得出一些规律。我把百度访问分为四个过程:试探访问、尝试抓取、图片抓抓取、趋于平稳。为什么用“抓取”而不用“收录”?此时此刻的百度抓取和收录是两码事。

试探访问:6月1日发现网站访问robots.txt,隔9天,隔5天访问robots.txt。只读取robots.txt,来了就走,访问频率开始变短。
尝试抓取:6月17日,时隔10日,百度开始访问首页index.asp和其他页面。百度蜘蛛终于活了,访问持续半小时以上。
图片抓取:6月20日,百度访问首页后第3天,开始抓取图片,访问比较活跃,今天访问超过两小时。
趋于平稳:6月30日至截稿,平稳收录。凌晨访问,持续半小时。

二、一个相当重要的截图

7月6日是值得注意的一天,百度放出了6月20日的非首页快照。打开此页的百度快照。发现三个不同:几个链接地址是错误的;下面的友情链接多余的;头部粉色区域导航条和现在不同。——确确实实证明,页面是老的而不是现在的。

换句话说:百度20日访问的页面,在过了半月之后放出来了。

百度放出了6月20日的园林植物网

我以截图地址为关键字进行日志分析时,发现一个有意思的现象。截至7月6日发博文为止,百度只访问过一次此页面,发生在6月19日。网站我使用的Rewrite伪静态,/daohang/zhiwushu.html被映射到/zhiwuku/shu.asp上了。

2012-06-19 16:32:10 W3SVC1316350199 203.171.236.109 GET /zhiwuku/shu.asp – 80 – 123.125.71.25 Mozilla/5.0+(compatible;+Baiduspider/2.0;++http://www.baidu.com/search/spider.html) 200 0 64

百度发现网站到抓取,用了16天(6月1日到6月17);百度放出页面用了16天(6月19到7月6);百度放出了15天前的快照(7月6日放出6月20的)。这个15天,也可以称为半月;也可以认为两周。那么这能不能算新站发布到百度收录的时间?

Related Posts Plugin for WordPress, Blogger...