全國服務(wù)熱線:400-080-4418

您現(xiàn)在的位置是:首頁 > 新聞資訊 > 網(wǎng)站建設(shè)常識

商業(yè)主題搜索引擎研究2010/2/9 16:50:22 瀏覽:39

  一、引言

  互聯(lián)網(wǎng)對商業(yè)發(fā)展產(chǎn)生了巨大的推動作用,我國商業(yè)信息網(wǎng)站已經(jīng)發(fā)展到成千上萬家,在傳播商業(yè)政策和信息方面發(fā)揮了顯著作用。隨著網(wǎng)絡(luò)信息數(shù)量的迅猛增長,“信息過載”、“信息超載”現(xiàn)象引起了人們的重視。如何高效、準(zhǔn)確的獲得包含用戶所需的信息的網(wǎng)頁,日益成為需要迫切解決的問題。

  垂直搜索引擎是解決這一問題的一個有效方法。面向商業(yè)的中文專題垂直搜索引擎有針對性的搜索網(wǎng)上商業(yè)專題信息,從而使商務(wù)人員高效檢索所需的信息。而隨著萬維網(wǎng)上的信息數(shù)量呈指數(shù)增長,大量信息垃圾也混雜其中。如何向商業(yè)用戶提供質(zhì)量好且數(shù)量適當(dāng)?shù)臋z索結(jié)果成為垂直搜索引擎關(guān)注的方向之一。

  二、國內(nèi)外現(xiàn)狀與發(fā)展趨勢

  垂直搜索引擎大都處于研究和試驗階段,利用其搜索的結(jié)果再加上專業(yè)人士的加工而形成的面向某一學(xué)科、領(lǐng)域的垂直門戶網(wǎng)站也已經(jīng)出現(xiàn)。目前在國外,對有關(guān)主題搜索引擎的研究已經(jīng)成為一大熱點,我國主題搜索引擎的研究則剛剛起步。

  目前面向主題的網(wǎng)絡(luò)搜索主要有兩種技術(shù):

  一是基于內(nèi)容的搜索,這種搜索方式是傳統(tǒng)的信息檢索技術(shù)的延伸。它的主要方式就是在搜索引擎內(nèi)部建立一個針對主題的詞表,搜索引擎的爬行器根據(jù)其內(nèi)設(shè)的詞表對網(wǎng)上的信息進行索引。各個不同的系統(tǒng)詞表建設(shè)的復(fù)雜度也大不相同。

  二是基于鏈接分析的搜索。網(wǎng)頁之間的鏈接指引關(guān)系與傳統(tǒng)的引文索引非常相似,通過對鏈接進行分析,可以找出各個網(wǎng)頁之間的引用關(guān)系。由于引用網(wǎng)頁與被引用網(wǎng)頁之間內(nèi)容上一般都比較相關(guān),所以就可以很容易地按照引用關(guān)系對大量網(wǎng)頁分類。

  三、技術(shù)關(guān)鍵

  基于面向商業(yè)的垂直搜索引擎服務(wù)具有其自身的特性,下面列舉出實現(xiàn)商業(yè)信息垂直搜索引擎的四大關(guān)鍵技術(shù)。

  1.針對性、實時性和易于管理的網(wǎng)頁采集技術(shù):面向商業(yè)的垂直搜索帶有專業(yè)性或行業(yè)性的需求和目標(biāo),所以只對局部來源的網(wǎng)頁進行采集,采集的網(wǎng)頁數(shù)量適中,但其要求采集的網(wǎng)頁全面,必須達到更深的層級,采集動態(tài)網(wǎng)頁的優(yōu)先級也相對較高。在實際應(yīng)用中,垂直搜索的網(wǎng)頁采集技術(shù)應(yīng)能夠按需控制采集目標(biāo)和范圍、按需支持深度采集及按需支持復(fù)雜的動態(tài)網(wǎng)頁采集,即采集技術(shù)要能達到更加針對性、實時性和易于管理,并且網(wǎng)頁信息更新周期也更短,獲取信息更及時。

  2.結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)頁解析技術(shù):由于面向商業(yè)的垂直搜索引擎服務(wù)的特殊性,往往要求按需提供時間、來源、作者及其他元數(shù)據(jù)解析,包括對網(wǎng)頁中特定內(nèi)容的提取。在商業(yè)垂直搜索服務(wù)中,要求對于作者、主題、地區(qū)、機構(gòu)名稱、產(chǎn)品名稱以及特定行業(yè)用語進行提取,才能進一步提供更有價值的搜索服務(wù)。

  3.全文索引和聯(lián)合檢索技術(shù):面向商業(yè)的垂直搜索由于在信息的專業(yè)性和使用價值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結(jié)果排序方式。另外,還要求按需支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合檢索,比如結(jié)合作者、內(nèi)容、分類進行組合檢索等。

  4.智能化的文本挖掘技術(shù):面向商業(yè)的垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為小單位;诮Y(jié)構(gòu)化數(shù)據(jù)和全文數(shù)據(jù)的結(jié)合,垂直搜索才能為用戶提供更加到位、更有價值的服務(wù)。整個結(jié)構(gòu)化信息提取貫穿從網(wǎng)頁解析到網(wǎng)頁加工處理的過程。同時面對上述要求,垂直搜索還能夠按需提供智能化處理功能,比如自動分類、自動聚類、自動標(biāo)引、自動重排,文本挖掘等等。這部分是垂直搜索乃至信息處理的前沿技術(shù)。

  四、設(shè)計方案

  1.技術(shù)路線。采用如下的研究開發(fā)路線:

  (1)針對商業(yè)信息的分布特點以及用戶的實際需求,在充分調(diào)研的基礎(chǔ)上,詳細(xì)了解和比較其他研究人員在類似領(lǐng)域取得的一些重要而有一定創(chuàng)新性的成果,在此基礎(chǔ)上初步提出平臺的整體架構(gòu)。

  (2)結(jié)合面向?qū)ο笤O(shè)計技術(shù),對上一步設(shè)計出的平臺進一步細(xì)化,從而明確對該項目所采用的具體設(shè)計模式。[Page]

  (3)根據(jù)設(shè)計模式所面臨的具體問題(例如,如何提高爬行速度問題、系統(tǒng)資源限制問題、網(wǎng)頁分類器問題、HTML文檔解析問題等)給出有效的解決方案。

  (4)將以上的方案付諸實施,形成一個面向商業(yè)的信息查詢與共享平臺;同時對系統(tǒng)的各種參數(shù)進行進一步測試,不斷地完善和優(yōu)化,終形成一個界面友好、響應(yīng)速度/查全率/查準(zhǔn)率均符合用戶要求的面向商業(yè)的垂直搜索引擎。

  2.創(chuàng)新點。為達到商業(yè)信息搜索引擎預(yù)期的響應(yīng)速度、查全率和查準(zhǔn)率,在系統(tǒng)的開發(fā)中有如下創(chuàng)新點:

  (1)系統(tǒng)總體為模塊化結(jié)構(gòu),各個模塊之間高內(nèi)聚,低耦合。

  (2)系統(tǒng)使用面向?qū)ο笳Z言開發(fā),能夠有效地重用系統(tǒng)部分代碼。

  (3)在設(shè)計過程中,使用面向?qū)ο蟮乃枷胱鲋笇?dǎo),建立系統(tǒng)類圖,便于開發(fā)人員之間的交流。在編碼過程中,不斷重構(gòu)代碼,使得代碼具有很高的運行效率,大大提高其重用性。

  (4)系統(tǒng)集成時,使用XML文檔作為模塊間傳遞信息的工具。

  (5)大量采用散列表來提高數(shù)據(jù)的查找速度,優(yōu)化系統(tǒng)性能。

  目前,對于搜索引擎的首要關(guān)注點已經(jīng)從如何找到更多的信息轉(zhuǎn)移到如何找到準(zhǔn)確、有用的信息,查準(zhǔn)率已經(jīng)成為眾多搜索引擎的首要目標(biāo)。垂直搜索引擎從商業(yè)專題出發(fā),有針對性的搜索網(wǎng)上商業(yè)專題信息,從而使商務(wù)用戶高效檢索所需的信息。這項研究可以方便商業(yè)用戶更有效的挖掘網(wǎng)上信息資源,提高信息查詢效率。從商業(yè)搜索引擎入手,這種以點帶面的新構(gòu)想必將使商業(yè)用戶上網(wǎng)獲得所需專題信息,并且對搜索引擎的發(fā)展產(chǎn)生不可低估的影響。

 

服務(wù)網(wǎng)絡(luò)

關(guān)于我們

網(wǎng)至普專注于網(wǎng)站建設(shè)/網(wǎng)站優(yōu)化,始終追求 “您的滿意,我的追求!”。懂您所需、做您所想!我們一直在思考如何為客戶創(chuàng)造更大的價值,讓客戶更省心!立足上海,服務(wù)全國。服務(wù):上海,北京,廣州,深圳,成都,杭州,南京,蘇州,無錫等地

查看更多 >>

聯(lián)系我們

Copyright 2008 © 上海網(wǎng)至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13 滬公網(wǎng)安備 31011402007386號


關(guān)于我們 | 聯(lián)系我們 | 網(wǎng)站建設(shè)

返回頂部