全國服務(wù)熱線:400-080-4418

您現(xiàn)在的位置是:首頁 > 新聞資訊 > 網(wǎng)站建設(shè)常識

識別搜索引擎爬蟲真?zhèn)蔚姆椒\析2010/2/25 11:11:32 瀏覽:30

  相信不少網(wǎng)站對搜索引擎爬蟲都是又愛又恨,因為其中不僅有些爬蟲不守規(guī)矩,還有人冒充爬蟲對網(wǎng)站進行瘋狂的掃描。

  做的比較好的爬蟲抓取頻率都比較合理,對網(wǎng)站資源消耗比較少,Google Spider會根據(jù)網(wǎng)頁的下載速度等因素進行抓取速度的動態(tài)調(diào)整,你可以通過Webmaster Tools來調(diào)整Spider的抓取速度。

  Google_Webmaster_Tools_Settings

  很多糟糕的網(wǎng)絡(luò)爬蟲,經(jīng)常并發(fā)幾十上百個請求循環(huán)重復(fù)抓取。一個“爬蟲”先是將PageNo遞增到無窮大——被封,過了4個小時,“爬蟲”又回來了,這次程序倒是改進了不少,通過分析網(wǎng)頁內(nèi)部的鏈接進行抓取,可是沒過多久發(fā)現(xiàn)總是抓取那幾個特定的頁面,原來被網(wǎng)頁內(nèi)部鏈接套住,程序進入了死循環(huán),只能封殺。

  網(wǎng)上也出現(xiàn)了很多如何封殺惡意爬蟲的方法。常見的就是根據(jù)UserAgent中的標識進行識別封殺,但是道高一尺魔高一丈,接下來就有人偽造User-Agent,偽裝成各大搜索引擎的爬蟲進行抓取。

  目前的做法是根據(jù)UserAgent進行判斷,如果是真正的搜索引擎爬蟲,那么就放過;如果發(fā)現(xiàn)是偽造的就堅決封殺。剩余的正常UserAgent的訪問則通過限制IP并發(fā)請求次數(shù)來限制。

  那么問題就出現(xiàn)了,如何才能正確識別搜索引擎爬蟲的真?zhèn)危鋵嵰恍┐笮偷乃阉饕嫔潭家呀?jīng)提供了相關(guān)的方法,那就是反向DNS驗證。

  拿Google Spider舉個例子:

  Google:www.google.com/support/webmasters/bin/answer.py?answer=80553

  Yahoo:http://www.ysearchblog.com/2007/06/05/yahoo-search-crawler-slurp-has-a-new-address-and-signature-card/

  Bing:cn.bing.com/community/blogs/search/archive/2006/11/29/search-robots-in-disguise.aspx

  可喜可賀的是baidu的2個月前爬蟲也開始遵守這一“潛規(guī)則”,雖然沒有在任何網(wǎng)頁公開此消息,但經(jīng)過測試,實際上是可行的。

 

服務(wù)網(wǎng)絡(luò)

關(guān)于我們

網(wǎng)至普專注于網(wǎng)站建設(shè)/網(wǎng)站優(yōu)化,始終追求 “您的滿意,我的追求!”。懂您所需、做您所想!我們一直在思考如何為客戶創(chuàng)造更大的價值,讓客戶更省心!立足上海,服務(wù)全國。服務(wù):上海,北京,廣州,深圳,成都,杭州,南京,蘇州,無錫等地

查看更多 >>

聯(lián)系我們

Copyright 2008 © 上海網(wǎng)至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13 滬公網(wǎng)安備 31011402007386號


關(guān)于我們 | 聯(lián)系我們 | 網(wǎng)站建設(shè)

返回頂部