全國服務熱線:400-080-4418

您現(xiàn)在的位置是:首頁 > 新聞資訊 > 網(wǎng)站建設常識

搜狗云輸入的“腦容量”:200億本《新華字典》2010/7/20 17:24:24 瀏覽:51

  “敲入mantiandaxue,出來的正是‘漫天大雪’,為什么不是‘滿天大雪’,或者‘漫天大學’?”網(wǎng)民小姚在網(wǎng)上提出了這樣的問題。上海企業(yè)網(wǎng)站建設

  小姚不知道的是,輸入法如此“善解人意”的背后,決定性因素是一種名為“語料”的東西。日前,搜狗輸入法宣布,其語料庫容量已超1TB,是其他中文輸入法的數(shù)十倍,對于韓文、日文等語系,這更是“天文數(shù)字”。

  “享受輸入”之謎上海網(wǎng)絡優(yōu)化

  小姚是搜狗輸入法的忠實粉絲,“平時用習慣了倒沒覺得什么,一次重裝系統(tǒng)無法上網(wǎng),只用系統(tǒng)自帶的智能ABC,那種感覺太痛苦了,一夜回到了解放前!

  在中國上網(wǎng)的計算機中,有80%安裝了搜狗,他們與小姚一樣,已經(jīng)習慣了“享受輸入”。上海網(wǎng)站建設

  “語料”正是重要的幕后功臣之一。據(jù)搜狗輸入法工程師介紹,很多人都知道“詞庫”,詞庫越大,則輸入法越聰明,不過“語料庫”的重要性有過之而無不及,它決定了詞庫中詞匯的組合,并且決定了哪一個詞被排在輸入結果的前面。

  一般來說,語料庫越大,則輸入效率越高。據(jù)統(tǒng)計,目前多數(shù)輸入法語料庫大約在40GB~150GB,搜狗輸入法的1TB,即約1000GB,多出數(shù)十倍。如此龐大的信息量相當于200億本《新華字典》收錄的字數(shù)。

  搜狗的自我挑戰(zhàn)上海做網(wǎng)站

  雖然已遠比對手“聰明”,但搜狗還在“自己跟自己較勁”。按照搜狗語料庫目前的容量,它的輸入準確率可以接近90%,而其他輸入法只有50%~80%,但當這個容量再擴大,它對輸入效率的提升將越來越難。

  對此,搜狗做了兩方面的工作,力圖讓語料庫爆炸增長:其一,發(fā)揮“人肉”的優(yōu)勢,讓用戶貢獻;其二,通過搜索引擎抓取互聯(lián)網(wǎng)上的詞匯。

  顯然,圍繞“語料”,搜狗已率先找到了一條可讓其無限、爆炸增長的路,這也是過去幾年里,它能引領輸入體驗潮流,不斷推高文字錄入效率水準的原因。

  中文輸入的未來上海網(wǎng)站推廣

  回首輸入法的發(fā)展歷程,它已從過去的“單機軟件”變成了今天來自云端的“互聯(lián)網(wǎng)服務”,集搜索引擎、大規(guī)模數(shù)據(jù)處理、自然語言處理、大規(guī)模網(wǎng)絡并發(fā)處理等多項技術于一身。

  業(yè)內(nèi)人士指出,搜狗對文字輸入的大貢獻在于,它既給出了輸入法的宏觀方向,又形成了自己體系化的方法論。企業(yè)網(wǎng)站建設

 

服務網(wǎng)絡

關于我們

網(wǎng)至普專注于網(wǎng)站建設/網(wǎng)站優(yōu)化,始終追求 “您的滿意,我的追求!”。懂您所需、做您所想!我們一直在思考如何為客戶創(chuàng)造更大的價值,讓客戶更省心!立足上海,服務全國。服務:上海,北京,廣州,深圳,成都,杭州,南京,蘇州,無錫等地

查看更多 >>

聯(lián)系我們

Copyright 2008 © 上海網(wǎng)至普信息科技有限公司 All rights reserved. 滬ICP備11006570號-13 滬公網(wǎng)安備 31011402007386號


關于我們 | 聯(lián)系我們 | 網(wǎng)站建設

返回頂部