如何删除百度快照-提高百度快照更新频率-屏蔽百度快照

什么是百度快照

如果无法打开某个搜索结果,或者打开速度特别慢,该怎么办?“百度快照”能帮您解决问题。每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。百度速度较快,您可以通过“快照”快速浏览页面内容。 不过,百度只保留文本内容,所以,那些图片、音乐等非文本信息,快照页面还是直接从原网页调用。如果您无法连接原网页,那么快照上的图片等非文本内容,会无法显示。

为什么要删除百度快照

很多站长会遇到百度旧的快照问题, 由于站点版块转移,或者在域名商那里购买的老域名,都会出现百度收录的旧数据,而这些数据并不是我们想要的,可能和新启动的网站牛马不相和。 所以在这两种情况下,我们都要要求百度删除以前收录的死链接【现在而言】 

如果不及时删除百度旧的快照收录,会造成大量的404的产生,这对网站是负面的。  在程序方面而言,如果一个目录用一个动态程序,被百度收录后,你将程序删除,重新启动的这个目录采用一个HTML页面的话,会导致所有被百度收录的动态地址指向这个静态页面。这里不会产生错误页面,而是能够正常访问,这一结果就是重复。

不管基于对旧版块的依依不舍【比如建立一个baidu的目录,由于这个目录外链发的质量很好,删除后非常后悔了,如果重新启用就会促使百度放出旧的快照收录,百度会认为你这个目录又存在了。】 还是在域名商购买的老域名。我们都应该要求百度删除旧快照收录,以方便我们进行网站布局和优化。不然你会收到这些旧照的影响产生不必要的麻烦。

如何删除百度快照

百度快照存在的期限:可能要保存几个月-1年。如果不及时删除目录或者不申请百度删除快照,百度会根据数据库里面的地址,或者网站在外部留的外链对网站进行爬去,抓一次返回的HTTP状态码 就是404 0 64 ,这对网站影响是非常大的。

想了解百度蜘蛛来访IP和HTTP返回状态码请浏览这里 http://liumangpang.com/?post=84

 

 

 

如果发现搜索结果中有涉及个人隐私或者不良信息的网页需要处理时,请先和原网站取得联系,待网站删除或修改相关页面后,在百度投诉平台进行快照删除或更新的提交。

http://tousu.baidu.com/webmaster/add

 

 为什么百度快照不更新 [以下内容采集网络]


        很多站长朋友都烦恼的问题,为什么网站快照停止更新或更新慢,甚至抱怨:“怎么百度还不更新我的网站啊?怎么百度还不收录我的网站?”等等。  不知道在抱怨同时,是否自己有从自身找原因呢?程序方面,原创发布,更新频率,内外链接等,都做到最好了吗?现在的采集站遍布网络,而搜索引擎对这些站点及其敏感,你觉得搜索引擎有必要给你常更新吗?

对于百度的快照更新问题,很多朋友都在苦恼中!其实当网站建立后,可能搜索引擎就已经关注着你(这点可以从IIS日志观查),并且它很勤快地在你网站与百度之间来回穿梭,可能很多时候因为数据服务器没有同步或早已经收录了只是没有放出。

 

那如何来提高百度快照

 

我们先来引用两段话:

 

通常在下一次爬的的数据要跟上一次进行比较,如果连续5次都没有变化,那么将爬这个网页的时间间隔扩大1倍,如果一个网页在连续5次爬取的时候都有更新,那么将设置的爬取时间缩短为原来的1/2。

网页更新频度严重影响着搜索引擎蜘蛛程度对网站的爬行,爬取次数越多意味着网页收录几率会越大、收录数量越多,收录是SEO最基础的一个环节。

 也就是说,假定它会在系统更新周期内发生变化。随着信息更新过程的不断进行,将根据文档的实际变化情况,不断地调整它们的变化周期。如果一个文档的索引信息在一次信息更新过程需要予以更新,也就是说,文档的内容发生了变化,我们认为它很可能会在近期内再发生变化,因此,把它的变化周期缩短为原来的一半。如果在预计的变化周期内文档没有改变,那么就认为它在近期是比较稳定的,因此把它的变化周期扩展为原来的两倍

 


        很多朋友对SITE后百度快照时间还是比较关注,但在这里小向提醒下大家,百度在百度站长里面就说过,这个时间只可以参考,不一定正确,而相信大家也许都知道! 在百度中,同一个URL将会有很多不同时间的快照,这里也可能是一个百度机制的缺陷吧或其它。

 

上面两段话都是研究蜘蛛爬取分析:

说明了什么,网站蜘蛛爬取的速度与数量是受文章更新频率的时间影响的,而网站蜘蛛的爬取也影响着网站收录,网站没有收录那来快照时间

 

当然,内容只是影响快照时间更新的一部分,外链、内布结构、等等! 都将影响着!   可以说影响快照更新时间最关键就是收录、如果没有收录,那么何来索引数据后放出的快照时间,那么我们如何来加速快照更新时间了:

1、外部链接数量与质量

2、内部结构合理布局

3、内容文章更新频率与质量

屏蔽百度快照

 

有时候,因为内容的更改或者隐私问题,我们往往不希望别人通过“百度快照”的方法查看自己网站的某一些网页,对于网站管理员来说,百度快照也分流了大量本属于网站的流量,为了增加网站的流量或者增强内容隐私,我以前曾经提供过一段将百度快照重定向到自己网站的方法。不过后来百度改变的快照算法,不从远端服务器获取Javascript文件,因此先前介绍的那个屏蔽方法目前已经失效。

原理很简单,百度快照里面只有抓取了当前页面的文字信息,而图片和JAVAscript代码还是调用远端服务器上的代码,如果你的网页里有通过.js文件的方式嵌入javascript代码,那么修改这个.js文件,在文件中加入以下代码,即可阻止别人通过百度快照查看你当前页面:

var page_url = window.location.href;

if ( page_url.indexOf(“cache.baidu.com”) != -1) {

top.location=” http://liumangpang.com  /”;  //此处地址修改为你希望转向的地址

}

 

更新:由于百度改变的快照算法,不从远端服务器获取Javascript文件,因此这个屏蔽方法目前已经失效。

现在我介绍一个新方法,原理也是大致相同,我们知道目前百度网页快照虽然不从远端服务器抓取Javascript文件,还是依旧会从远端服务器抓起CSS文件,而通过一个技巧可以在CSS文件中实现网页重定向,从而控制百度快照中的网页,完全由我们控制该快照重定向到我们制定的任何网页地址。

 

例如,如果百度快照中缓存的文件为style.css,那么我们在服务器上编辑这个文件,在CSS文件中加入以下语句,即可控制百度缓存快照重定向,从而实现屏蔽百度网页快照内容的功能。

body {onload:expression(location.href=’ http://liumangpang.com ‘);}

以上语句在IE浏览器下测试通过。理论上,根据这个方法,我们可以控制百度网页快照的内容重定向到任何一个我们指定的网址,甚至是第三方网站。为了实现网页的正常显示,百度快照屏蔽CSS的可能性会非常小。

 

这个方法也可用于屏蔽Google等其他搜索引擎的网页快照。

版权持有者:流氓胖
官方博客域名:http://liumangpang.com/

Related Posts Plugin for WordPress, Blogger...