全國服務(wù)熱線:400-080-4418

您現(xiàn)在的位置是:首頁 > 新聞資訊 > 網(wǎng)站建設(shè)常識

局域網(wǎng)FTP搜索引擎的建立分析2010/2/9 16:46:08 瀏覽:45

  摘 要 FTP服務(wù)是網(wǎng)絡(luò)服務(wù)的一種應(yīng)用廣泛的文件傳輸形式,本文擬構(gòu)建一個(gè)基于Web的FTP主機(jī)的文件搜索系統(tǒng),能夠以Web形式輕松的檢索FTP上的文件,并且可以直觀的以Web模式模擬FTP主機(jī)的文件結(jié)構(gòu)。

  關(guān)鍵詞 搜索引擎;FTP;Web

  1 背景

  當(dāng)前,計(jì)算機(jī)網(wǎng)絡(luò)已經(jīng)越來越普及,各個(gè)單位也已經(jīng)逐步建立自己的FTP服務(wù)器,用來管理存儲對于自己單位內(nèi)部共享的一些文件或者對外共享的一些文件。隨著被FTP管理的文件數(shù)量的不斷增長,達(dá)到上萬、上百萬,甚至更多的時(shí)候,如何在如此龐大數(shù)據(jù)里邊更快捷的找到自己所需的文件,將成為一個(gè)很重要的問題。

  目前出現(xiàn)了一些FTP搜索引擎,可以用來搜索整個(gè)互聯(lián)網(wǎng)內(nèi)處于匿名訪問的FTP上的文件信息,而需要權(quán)限才能訪問的FTP則無法直接建立索引,因此不能達(dá)到搜索效果。本文擬構(gòu)建的FTP搜索引擎是針對單位內(nèi)部,局域網(wǎng)內(nèi)的一個(gè)或者幾個(gè)FTP服務(wù)器建立的;使內(nèi)部用戶直接可以看到FTP上的目錄結(jié)構(gòu),并可以準(zhǔn)確的搜索文件位置,然后下載瀏覽,達(dá)到檢索高效、準(zhǔn)確。2 擬構(gòu)建系統(tǒng)之模型

  根據(jù)拓?fù)浣Y(jié)構(gòu),內(nèi)部網(wǎng)絡(luò)部署若干臺FTP服務(wù)器,根據(jù)需要,在每臺需要被查詢的FTP服務(wù)器上,建立掃描文件結(jié)構(gòu)發(fā)生變化的爬蟲程序,并在內(nèi)部網(wǎng)絡(luò)建立FTP文件索引數(shù)據(jù)庫服務(wù)器,用來存放FTP服務(wù)器上爬蟲程序獲取的索引數(shù)據(jù),另外還要建立Web服務(wù)器,用來做Web查詢。3系統(tǒng)模式分析

  本系統(tǒng)采用兩個(gè)模塊構(gòu)建,分別是部署于FTP服務(wù)器的爬蟲程序和部署于Web服務(wù)器的索引查詢引擎。

  部署于FTP服務(wù)器的爬蟲是一用來監(jiān)控FTP文件結(jié)構(gòu)變化的程序,它用來監(jiān)視FTP服務(wù)器的變化,當(dāng)FTP服務(wù)器有新的文件上傳或者有文件被刪除或者文件位置發(fā)生變化的時(shí)候,爬蟲程序會立即捕捉到此變化,然后將變化信息響應(yīng)到建立索引的數(shù)據(jù)庫服務(wù)器。

  部署于Web服務(wù)器的查詢引擎是主要用來做查詢服務(wù),以及針對用戶輸入的查詢關(guān)鍵字做模糊處理,直接以模糊方式查詢,當(dāng)搜索到結(jié)果以后,顯示時(shí)候?qū)⑽募嶧TP位置顯示,同時(shí)將對應(yīng)的超級連接做在上邊,可以方便直接下載。

  在訪問范圍上,擬構(gòu)建的搜索系統(tǒng)可以供內(nèi)網(wǎng)和外網(wǎng)同時(shí)檢索,訪問方式

  如圖一所示,將Web服務(wù)器發(fā)布在內(nèi)部網(wǎng)絡(luò),同時(shí)開放到Internet,可提供到Internet訪問。通過Web服務(wù)器來對內(nèi)和對外提供檢索服務(wù)。內(nèi)部用戶通過內(nèi)部網(wǎng)絡(luò)直接訪問Web服務(wù)器來訪問搜索引擎,外部用戶通過Internet來訪問Web搜索引擎。4 系統(tǒng)的實(shí)現(xiàn)

  FTP服務(wù)器爬蟲程序主要用來建立FTP文件的樹形結(jié)構(gòu),如圖2所表示,每獲得一個(gè)服務(wù)器就建立一個(gè)FTP根節(jié)點(diǎn),然后在遍歷根節(jié)點(diǎn)下邊的子節(jié)點(diǎn),直到將子節(jié)點(diǎn)遍歷完畢。FTP服務(wù)器爬蟲程序可以采用Java或者C++等程序來實(shí)現(xiàn),可以作為操作系統(tǒng)的一個(gè)服務(wù)來加載。此種爬蟲程序可以根據(jù)需求分為兩類,一類是實(shí)時(shí)記載服務(wù)器文件結(jié)構(gòu)變化的,一類是分周期的記載數(shù)據(jù)庫變化的。

  實(shí)時(shí)記載的爬蟲程序運(yùn)行過程是:當(dāng)初始加載到一個(gè)新的FTP服務(wù)器,爬蟲程序首先遍歷該服務(wù)器,獲得該服務(wù)器的文件結(jié)構(gòu),同時(shí)將此結(jié)構(gòu)記載到數(shù)據(jù)庫服務(wù)器,當(dāng)遍歷完整個(gè)服務(wù)器后,然后就進(jìn)入監(jiān)控狀態(tài),實(shí)時(shí)記載服務(wù)器變化,當(dāng)文件增加時(shí)在原數(shù)據(jù)基礎(chǔ)上追加數(shù)據(jù),當(dāng)文件更改位置后,修改對應(yīng)記錄的數(shù)據(jù),當(dāng)文件被刪除時(shí)清除數(shù)據(jù)庫中的對應(yīng)記錄。

  分周期記載的爬蟲程序的運(yùn)行過程是:當(dāng)加載到一個(gè)新的FTP服務(wù)器,程序遍歷該服務(wù)器,獲得服務(wù)器的文件結(jié)構(gòu),同時(shí)也將此結(jié)構(gòu)記載到數(shù)據(jù)庫服務(wù)器,當(dāng)過一定周期后,重新遍歷服務(wù)器文件結(jié)構(gòu),將結(jié)果再記載到數(shù)據(jù)庫,并刪除原有的遍歷結(jié)果,如此反復(fù)。

  兩類程序有各自的優(yōu)缺點(diǎn),第一類實(shí)時(shí)性比較強(qiáng),當(dāng)服務(wù)器文件結(jié)構(gòu)發(fā)生變化后,立即可以體現(xiàn)到檢索結(jié)構(gòu)中,但缺點(diǎn)是占用FTP系統(tǒng)資源太多,可能會影響FTP服務(wù)性能;第二類正好與相反,因?yàn)樗侵芷谛缘谋闅v,因此可選擇FTP比較空閑的時(shí)候來遍歷,不會太多影響FTP服務(wù)性能,但實(shí)時(shí)性就比較差,不能將FTP的文件變化立刻體現(xiàn)到檢索結(jié)果中去。兩類程序可根據(jù)服務(wù)器性能來選擇合適的類型。[Page]

  搜索引擎Web端可以采用J2EE+AJAX來實(shí)現(xiàn),用戶檢索時(shí)可選擇精確檢索和模糊檢索,精確檢索查詢完全匹配的,模糊查詢檢索可以用相似性來檢索。此外,針對每個(gè)獨(dú)立的FTP主機(jī),遍歷其上爬蟲程序建立于數(shù)據(jù)庫的索引樹結(jié)構(gòu),就可以建立起虛擬的FTP文件結(jié)構(gòu),從而可以在WEB程序上顯示FTP的文件結(jié)構(gòu)。

     5 結(jié)束語

  本文討論建立基于局域網(wǎng)的單個(gè)FTP和多個(gè)FTP的搜索,根據(jù)FTP服務(wù)器的實(shí)際情況,選擇適合的爬蟲程序類型,建立索引樹。對于本文設(shè)計(jì)構(gòu)建的結(jié)果,可以將本系統(tǒng)推廣于Internet,將爬蟲程序置入需要索引的FTP上,或者通過外部間接獲取索引,從而達(dá)到FTP的文件搜索效果,使得用戶更加高效的找到所需要的文件。

    參考文獻(xiàn)

     [1]陳華,王繼民,韓近強(qiáng),謝欣.《互聯(lián)網(wǎng)上FTP文件的分布特征與啟示》

    [2]陳華,李曉明.高級文件搜索引擎核心功能的實(shí)現(xiàn)技術(shù).《搜索引擎與Web挖掘進(jìn)展》,高等教育出版社,2003

 

服務(wù)網(wǎng)絡(luò)

關(guān)于我們

網(wǎng)至普專注于網(wǎng)站建設(shè)/網(wǎng)站優(yōu)化,始終追求 “您的滿意,我的追求!”。懂您所需、做您所想!我們一直在思考如何為客戶創(chuàng)造更大的價(jià)值,讓客戶更省心!立足上海,服務(wù)全國。服務(wù):上海,北京,廣州,深圳,成都,杭州,南京,蘇州,無錫等地

查看更多 >>

聯(lián)系我們

Copyright 2008 © 上海網(wǎng)至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13 滬公網(wǎng)安備 31011402007386號


關(guān)于我們 | 聯(lián)系我們 | 網(wǎng)站建設(shè)

返回頂部