全國(guó)服務(wù)熱線:400-080-4418

您現(xiàn)在的位置是:首頁(yè) > 新聞資訊 > 網(wǎng)站建設(shè)常識(shí)

怎樣避免網(wǎng)站頁(yè)面被蜘蛛重復(fù)的抓取2011/12/25 14:10:27 瀏覽:63

我們要如何避免網(wǎng)站頁(yè)面被蜘蛛重復(fù)的抓取呢?下面上海網(wǎng)站建設(shè)給大家介紹幾點(diǎn)。

   一、通過(guò)robots文件來(lái)把這個(gè)頁(yè)面來(lái)屏蔽掉,具體做法語(yǔ)法格式:

  Disallow: /page/ #限制抓取Wordpress分頁(yè)如查你的網(wǎng)站有需要也可以把下面的語(yǔ)句一并寫(xiě)上,避免出現(xiàn)過(guò)多的重復(fù)頁(yè)面。 * Disallow: /category/*/page/* #限制抓取分類的分頁(yè) * Disallow:/tag/ #限制抓取標(biāo)簽頁(yè)面 * Disallow: */trackback/ #限制抓取Trackback內(nèi)容 * Disallow:/category/* #限制抓取所有分類列表 什么是蜘蛛,也叫爬蟲(chóng),其實(shí)是一段程序。這個(gè)程序的功能是,沿著你的網(wǎng)站的URL一層層的讀取一些信息,做簡(jiǎn)單處理后,然后返饋給后臺(tái)服務(wù)器進(jìn)行集中處理。我們必需了解蜘蛛的喜好,對(duì)上海網(wǎng)站優(yōu)化才能做到更好。接下來(lái)我們談?wù)勚┲氲墓ぷ鬟^(guò)程。

  二、蜘蛛的時(shí)間

  網(wǎng)站的內(nèi)容經(jīng)常變化的,不是更新就是改模板。蜘蛛也是不斷地更新和抓取網(wǎng)頁(yè)的內(nèi)容,蜘蛛的開(kāi)發(fā)者會(huì)為爬蟲(chóng)設(shè)定一個(gè)更新周期,讓其按照指定的時(shí)間去掃描網(wǎng)站,查看對(duì)比出哪些頁(yè)面是需要進(jìn)行更新工作的,諸如:主頁(yè)的標(biāo)題是否有更改,哪些頁(yè)面是網(wǎng)站新增頁(yè)面,哪些頁(yè)面是已經(jīng)過(guò)期失效的死鏈接等等。一個(gè)功能強(qiáng)太的搜索引擎的更新周期是不斷優(yōu)化的,因?yàn)樗阉饕娴母轮芷趯?duì)搜索引擎搜索的查全率有很大影響。不過(guò)如果更新周期過(guò)長(zhǎng),便會(huì)使搜索引擎的搜索精確性和完整性降低,會(huì)有一些新生成的網(wǎng)頁(yè)搜索不到;若更新周期太過(guò)于短,則技術(shù)實(shí)現(xiàn)難度加大,而且會(huì)對(duì)帶寬、服務(wù)器的資源造成浪費(fèi),所以網(wǎng)站做好后期的網(wǎng)站維護(hù)很重要。

  三、蜘蛛遇到動(dòng)態(tài)頁(yè)面

  蜘蛛在處理動(dòng)態(tài)網(wǎng)頁(yè)信息是面臨的難題。動(dòng)態(tài)網(wǎng)頁(yè),是指由程序自動(dòng)生成的頁(yè)面,F(xiàn)在互聯(lián)網(wǎng)發(fā)達(dá)程序開(kāi)發(fā)腳本語(yǔ)言越來(lái)越多,自然開(kāi)發(fā)出來(lái)的動(dòng)態(tài)網(wǎng)頁(yè)類型也越來(lái)越多,如jsp、aspphp等等一些語(yǔ)言。蜘蛛很難處理這些腳本語(yǔ)言生成的網(wǎng)頁(yè)。優(yōu)化人員在優(yōu)化的時(shí)候,總是強(qiáng)調(diào)盡量不要采用JS代碼,蜘蛛要完善處理這些語(yǔ)言,需要有自己的腳本程序。在進(jìn)行網(wǎng)站優(yōu)化,減少一些不必要的腳本代碼,以便蜘蛛爬行抓取,少導(dǎo)致page頁(yè)面的重復(fù)抓取!

  四、蜘蛛不重復(fù)抓取策略

  網(wǎng)站的網(wǎng)頁(yè)數(shù)量非常大,蜘蛛進(jìn)行抓取是一個(gè)很大的工程,網(wǎng)頁(yè)的抓取需要費(fèi)非常多線路帶寬、硬件資源、時(shí)間資源等等。如果經(jīng)常對(duì)同一個(gè)網(wǎng)頁(yè)重復(fù)抓取不但會(huì)大大的降低了系統(tǒng)的效率,還造成精確度不高等問(wèn)題。通常的搜索引擎系統(tǒng)都設(shè)計(jì)了不重復(fù)進(jìn)行上海網(wǎng)頁(yè)設(shè)計(jì)抓取的策略,這是為了保證在一定時(shí)間段內(nèi)只對(duì)同一個(gè)網(wǎng)頁(yè)進(jìn)行一次抓取。

服務(wù)網(wǎng)絡(luò)

關(guān)于我們

網(wǎng)至普專注于網(wǎng)站建設(shè)/網(wǎng)站優(yōu)化,始終追求 “您的滿意,我的追求!”。懂您所需、做您所想!我們一直在思考如何為客戶創(chuàng)造更大的價(jià)值,讓客戶更省心!立足上海,服務(wù)全國(guó)。服務(wù):上海,北京,廣州,深圳,成都,杭州,南京,蘇州,無(wú)錫等地

查看更多 >>

聯(lián)系我們

Copyright 2008 © 上海網(wǎng)至普信息科技有限公司 All rights reserved. 滬ICP備11006570號(hào)-13 滬公網(wǎng)安備 31011402007386號(hào)


關(guān)于我們 | 聯(lián)系我們 | 網(wǎng)站建設(shè)

返回頂部