Google新版網頁索引系統:咖啡因(Caffeine)
Lawrence Lin
10 June 2010
Google搜尋引擎改變了許多人的工作方式、生活習慣,相信不少人都非常依賴Google所提供的搜尋結果,無論是找參考資料、美食評論、人肉搜索,Google都可以幫上非常多的忙。
過去搜尋引擎在處理使用者的搜尋請求時,都是透過已經事先建立好的網頁索引來提供相關的搜尋結果給使用者參考;然而,面對著與日俱增的各種內容,包括新聞、部落格文章,或是現在最熱門的社群媒體內容,像是Twitter、Plurk上的微網誌內容,以及Youtube上的最新影音內容、Flickr上的最新照片內容,幾乎都是每分每秒以瘋狂的速度在持續增加的,過去以「事先建立好的網頁索引」來提供搜尋結果的方式,顯然已經無法因應每天瘋狂增加的內容,因為使用者根本沒辦法找到最近幾分鐘才發表的內容
有鑑於此,Google從去年對外宣稱他們已經開始進行版本代號為「咖啡因」新一代網頁索引系統的開發工程,開發Caffeine的最主要目標就是縮短網頁索引的時間,讓使用者每次搜尋都有機會找到最新、最即時的內容。實際的作法是透過技術架構的調整,讓每一次發現新的網頁或是網頁上出現新的內容時,就即時將新發現的內容直接加入既有的索引來縮短索引頁面的週期,而非像過去是將所有的網頁內容都依新、舊存放在不同層的資料庫,每一層更新的週期又不一致,某些內容甚至要數週才會更新一次,使用者自然沒機會搜尋到最新的內容。
歷時將近一年,Google正式公開了新版的網頁索引系統,文中有幾個重點如下:
- Caffeine可以提供比起過去多了50%更新鮮的內容,而且目前這個版本是Google開始提供搜尋引擎以來,最大的網頁資料庫
- 每一秒鐘Caffeine可以同時處理成千上萬個網頁,如果將這些網頁都印出來的話,每秒都可以堆出三英哩高的紙堆
- Caffeine在單一資料庫中有將近1億GB的新資料,每天的資料成長量則是幾萬GB的資料
- 對上述數字沒概念的話,簡單來說就是你會需要62.5萬台最大容量的iPod來儲存這些資料,把這些iPod連起來放在地上的話,可以拉到40英哩長。

