全國(guó)服務(wù)熱線:400-080-4418

您現(xiàn)在的位置是:首頁(yè) > 新聞資訊 > 網(wǎng)站建設(shè)常識(shí)

商業(yè)主題搜索引擎研究2010/2/8 16:23:58 瀏覽:42

  一、引言

  互聯(lián)網(wǎng)對(duì)商業(yè)發(fā)展產(chǎn)生了巨大的推動(dòng)作用,我國(guó)商業(yè)信息網(wǎng)站已經(jīng)發(fā)展到成千上萬(wàn)家,在傳播商業(yè)政策和信息方面發(fā)揮了顯著作用。隨著網(wǎng)絡(luò)信息數(shù)量的迅猛增長(zhǎng),“信息過(guò)載”、“信息超載”現(xiàn)象引起了人們的重視。如何高效、準(zhǔn)確的獲得包含用戶所需的信息的網(wǎng)頁(yè),日益成為需要迫切解決的問(wèn)題。

  垂直搜索引擎是解決這一問(wèn)題的一個(gè)有效方法。面向商業(yè)的中文專題垂直搜索引擎有針對(duì)性的搜索網(wǎng)上商業(yè)專題信息,從而使商務(wù)人員高效檢索所需的信息。而隨著萬(wàn)維網(wǎng)上的信息數(shù)量呈指數(shù)增長(zhǎng),大量信息垃圾也混雜其中。如何向商業(yè)用戶提供質(zhì)量好且數(shù)量適當(dāng)?shù)臋z索結(jié)果成為垂直搜索引擎關(guān)注的方向之一。

  二、國(guó)內(nèi)外現(xiàn)狀與發(fā)展趨勢(shì)

  垂直搜索引擎大都處于研究和試驗(yàn)階段,利用其搜索的結(jié)果再加上專業(yè)人士的加工而形成的面向某一學(xué)科、領(lǐng)域的垂直門戶網(wǎng)站也已經(jīng)出現(xiàn)。目前在國(guó)外,對(duì)有關(guān)主題搜索引擎的研究已經(jīng)成為一大熱點(diǎn),我國(guó)主題搜索引擎的研究則剛剛起步。

  目前面向主題的網(wǎng)絡(luò)搜索主要有兩種技術(shù):

  一是基于內(nèi)容的搜索,這種搜索方式是傳統(tǒng)的信息檢索技術(shù)的延伸。它的主要方式就是在搜索引擎內(nèi)部建立一個(gè)針對(duì)主題的詞表,搜索引擎的爬行器根據(jù)其內(nèi)設(shè)的詞表對(duì)網(wǎng)上的信息進(jìn)行索引。各個(gè)不同的系統(tǒng)詞表建設(shè)的復(fù)雜度也大不相同。

  二是基于鏈接分析的搜索。網(wǎng)頁(yè)之間的鏈接指引關(guān)系與傳統(tǒng)的引文索引非常相似,通過(guò)對(duì)鏈接進(jìn)行分析,可以找出各個(gè)網(wǎng)頁(yè)之間的引用關(guān)系。由于引用網(wǎng)頁(yè)與被引用網(wǎng)頁(yè)之間內(nèi)容上一般都比較相關(guān),所以就可以很容易地按照引用關(guān)系對(duì)大量網(wǎng)頁(yè)分類。

  三、技術(shù)關(guān)鍵

  基于面向商業(yè)的垂直搜索引擎服務(wù)具有其自身的特性,下面列舉出實(shí)現(xiàn)商業(yè)信息垂直搜索引擎的四大關(guān)鍵技術(shù)。

  1.針對(duì)性、實(shí)時(shí)性和易于管理的網(wǎng)頁(yè)采集技術(shù):面向商業(yè)的垂直搜索帶有專業(yè)性或行業(yè)性的需求和目標(biāo),所以只對(duì)局部來(lái)源的網(wǎng)頁(yè)進(jìn)行采集,采集的網(wǎng)頁(yè)數(shù)量適中,但其要求采集的網(wǎng)頁(yè)全面,必須達(dá)到更深的層級(jí),采集動(dòng)態(tài)網(wǎng)頁(yè)的優(yōu)先級(jí)也相對(duì)較高。在實(shí)際應(yīng)用中,垂直搜索的網(wǎng)頁(yè)采集技術(shù)應(yīng)能夠按需控制采集目標(biāo)和范圍、按需支持深度采集及按需支持復(fù)雜的動(dòng)態(tài)網(wǎng)頁(yè)采集,即采集技術(shù)要能達(dá)到更加針對(duì)性、實(shí)時(shí)性和易于管理,并且網(wǎng)頁(yè)信息更新周期也更短,獲取信息更及時(shí)。

  2.結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)頁(yè)解析技術(shù):由于面向商業(yè)的垂直搜索引擎服務(wù)的特殊性,往往要求按需提供時(shí)間、來(lái)源、作者及其他元數(shù)據(jù)解析,包括對(duì)網(wǎng)頁(yè)中特定內(nèi)容的提取。在商業(yè)垂直搜索服務(wù)中,要求對(duì)于作者、主題、地區(qū)、機(jī)構(gòu)名稱、產(chǎn)品名稱以及特定行業(yè)用語(yǔ)進(jìn)行提取,才能進(jìn)一步提供更有價(jià)值的搜索服務(wù)。

  3.全文索引和聯(lián)合檢索技術(shù):面向商業(yè)的垂直搜索由于在信息的專業(yè)性和使用價(jià)值方面有更高的要求,因此能夠支持全文檢索和精確檢索,并按需提供多種結(jié)果排序方式。另外,還要求按需支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)聯(lián)合檢索,比如結(jié)合作者、內(nèi)容、分類進(jìn)行組合檢索等。

  4.智能化的文本挖掘技術(shù):面向商業(yè)的垂直搜索是以結(jié)構(gòu)化數(shù)據(jù)為小單位;诮Y(jié)構(gòu)化數(shù)據(jù)和全文數(shù)據(jù)的結(jié)合,垂直搜索才能為用戶提供更加到位、更有價(jià)值的服務(wù)。整個(gè)結(jié)構(gòu)化信息提取貫穿從網(wǎng)頁(yè)解析到網(wǎng)頁(yè)加工處理的過(guò)程。同時(shí)面對(duì)上述要求,垂直搜索還能夠按需提供智能化處理功能,比如自動(dòng)分類、自動(dòng)聚類、自動(dòng)標(biāo)引、自動(dòng)重排,文本挖掘等等。這部分是垂直搜索乃至信息處理的前沿技術(shù)。

  四、設(shè)計(jì)方案

  1.技術(shù)路線。采用如下的研究開(kāi)發(fā)路線:

  (1)針對(duì)商業(yè)信息的分布特點(diǎn)以及用戶的實(shí)際需求,在充分調(diào)研的基礎(chǔ)上,詳細(xì)了解和比較其他研究人員在類似領(lǐng)域取得的一些重要而有一定創(chuàng)新性的成果,在此基礎(chǔ)上初步提出平臺(tái)的整體架構(gòu)。

  (2)結(jié)合面向?qū)ο笤O(shè)計(jì)技術(shù),對(duì)上一步設(shè)計(jì)出的平臺(tái)進(jìn)一步細(xì)化,從而明確對(duì)該項(xiàng)目所采用的具體設(shè)計(jì)模式。[Page]

  (3)根據(jù)設(shè)計(jì)模式所面臨的具體問(wèn)題給出有效的解決方案。

  (4)將以上的方案付諸實(shí)施,形成一個(gè)面向商業(yè)的信息查詢與共享平臺(tái);同時(shí)對(duì)系統(tǒng)的各種參數(shù)進(jìn)行進(jìn)一步測(cè)試,不斷地完善和優(yōu)化,終形成一個(gè)界面友好、響應(yīng)速度/查全率/查準(zhǔn)率均符合用戶要求的面向商業(yè)的垂直搜索引擎。

  2.創(chuàng)新點(diǎn)。為達(dá)到商業(yè)信息搜索引擎預(yù)期的響應(yīng)速度、查全率和查準(zhǔn)率,在系統(tǒng)的開(kāi)發(fā)中有如下創(chuàng)新點(diǎn):

  (1)系統(tǒng)總體為模塊化結(jié)構(gòu),各個(gè)模塊之間高內(nèi)聚,低耦合。

  (2)系統(tǒng)使用面向?qū)ο笳Z(yǔ)言開(kāi)發(fā),能夠有效地重用系統(tǒng)部分代碼。

  (3)在設(shè)計(jì)過(guò)程中,使用面向?qū)ο蟮乃枷胱鲋笇?dǎo),建立系統(tǒng)類圖,便于開(kāi)發(fā)人員之間的交流。在編碼過(guò)程中,不斷重構(gòu)代碼,使得代碼具有很高的運(yùn)行效率,大大提高其重用性。

  (4)系統(tǒng)集成時(shí),使用XML文檔作為模塊間傳遞信息的工具。

  (5)大量采用散列表來(lái)提高數(shù)據(jù)的查找速度,優(yōu)化系統(tǒng)性能。

  目前,對(duì)于搜索引擎的首要關(guān)注點(diǎn)已經(jīng)從如何找到更多的信息轉(zhuǎn)移到如何找到準(zhǔn)確、有用的信息,查準(zhǔn)率已經(jīng)成為眾多搜索引擎的首要目標(biāo)。垂直搜索引擎從商業(yè)專題出發(fā),有針對(duì)性的搜索網(wǎng)上商業(yè)專題信息,從而使商務(wù)用戶高效檢索所需的信息。這項(xiàng)研究可以方便商業(yè)用戶更有效的挖掘網(wǎng)上信息資源,提高信息查詢效率。從商業(yè)搜索引擎入手,這種以點(diǎn)帶面的新構(gòu)想必將使商業(yè)用戶上網(wǎng)獲得所需專題信息,并且對(duì)搜索引擎的發(fā)展產(chǎn)生不可低估的影響。

 

服務(wù)網(wǎng)絡(luò)

關(guān)于我們

網(wǎng)至普專注于網(wǎng)站建設(shè)/網(wǎng)站優(yōu)化,始終追求 “您的滿意,我的追求!”。懂您所需、做您所想!我們一直在思考如何為客戶創(chuàng)造更大的價(jià)值,讓客戶更省心!立足上海,服務(wù)全國(guó)。服務(wù):上海,北京,廣州,深圳,成都,杭州,南京,蘇州,無(wú)錫等地

查看更多 >>

聯(lián)系我們

Copyright 2008 © 上海網(wǎng)至普信息科技有限公司 All rights reserved. 滬ICP備11006570號(hào)-13 滬公網(wǎng)安備 31011402007386號(hào)


關(guān)于我們 | 聯(lián)系我們 | 網(wǎng)站建設(shè)

返回頂部