Google新版網頁索引系統:咖啡因(Caffeine)

Google從去年對外宣稱他們已經開始進行版本代號為「咖啡因」新一代網頁索引系統的開發工程,開發Caffeine的最主要目標就是縮短網頁索引的時間,讓使用者每次搜尋都有機會找到最新、最即時的內容。實際的作法是透過技術架構的調整,讓每一次發現新的網頁或是網頁上出現新的內容時,就即時將新發現的內容直接加入既有的索引來縮短索引頁面的週期,而非像過去是將所有的網頁內容都依新、舊存放在不同層的資料庫,每一層更新的週期又不一致,某些內容甚至要數週才會更新一次,使用者自然沒機會搜尋到最新的內容。
評論
評論

Google 搜尋引擎改變了許多人的工作方式、生活習慣,相信不少人都非常依賴 Google 所提供的搜尋結果,無論是找參考資料、美食評論、人肉搜索,Google 都可以幫上非常多的忙。

過去搜尋引擎在處理使用者的搜尋請求時,都是透過已經事先建立好的網頁索引來提供相關的搜尋結果給使用者參考;然而,面對著與日俱增的各種內容,包括新聞、部落格文章,或是現在最熱門的社群媒體內容,像是 Twitter、Plurk 上的微網誌內容,以及 Youtube 上的最新影音內容、Flickr 上的最新照片內容,幾乎都是每分每秒以瘋狂的速度在持續增加的,過去以「事先建立好的網頁索引」來提供搜尋結果的方式,顯然已經無法因應每天瘋狂增加的內容,因為使用者根本沒辦法找到最近幾分鐘才發表的內容

有鑑於此,Google 從去年對外宣稱他們已經開始進行版本代號為「咖啡因」新一代網頁索引系統的開發工程,開發 Caffeine 的最主要目標就是縮短網頁索引的時間,讓使用者每次搜尋都有機會找到最新、最即時的內容。實際的作法是透過技術架構的調整,讓每一次發現新的網頁或是網頁上出現新的內容時,就即時將新發現的內容直接加入既有的索引來縮短索引頁面的週期,而非像過去是將所有的網頁內容都依新、舊存放在不同層的資料庫,每一層更新的週期又不一致,某些內容甚至要數週才會更新一次,使用者自然沒機會搜尋到最新的內容。

歷時將近一年,Google 正式公開 了新版的網頁索引系統,文中有幾個重點如下:

  • Caffeine 可以提供比起過去多了 50% 更新鮮的內容,而且目前這個版本是 Google 開始提供搜尋引擎以來,最大的網頁資料庫
  • 每一秒鐘 Caffeine 可以 同時處理 成千上萬個網頁,如果將這些網頁都印出來的話,每秒都可以堆出三英哩高的紙堆
  • Caffeine 在單一資料庫中有將近 1 億 GB 的新資料,每天的資料成長量則是幾萬 GB 的資料
  • 對上述數字沒概念的話,簡單來說就是你會需要 62.5 萬台最大容量的 iPod 來儲存這些資料,把這些 iPod 連起來放在地上的話,可以拉到 40 英哩長。

【AWS 新創系列】QUICKSTART 開發者示範工作坊

專為初步瞭解雲端以及 AWS 初學者舉辦的手把手示範教學課程,內容將涵蓋對 AWS 的簡單介紹和 AWS 核心服務的使用,資源和服務的訪問權限管理服務 ,並實機展示如何利用這些基礎服務在虛擬機、備份和恢復數據等等。
評論
Photo Credit:TNL Brand Studio
評論

立即報名工作坊

本課程為期一天,專為初步瞭解雲端以及 AWS 初學者舉辦的手把手示範教學課程,內容將涵蓋對 AWS 的簡單介紹和 AWS 核心服務(例如 Amazon S3,Amazon EC2)的使用,資源和服務的訪問權限管理服務 AWS Identity and Access Management(IAM),並實機展示如何利用這些基礎服務在虛擬機、備份和恢復數據等等。

此課程適合剛註冊 AWS 帳戶的開發者,您將從此活動學習到以下示範的實作內容:
· 如何建立 AWS 帳號及安全的設定存取權限
· 如何將網站從 On-premise 上雲後,架設簡單, 安全的三層式架構(Web, Application, Database)
· 如何妥善管理雲端環境和追蹤存取狀況
· 利用 Billing Alarm 有效配置雲端服務容量

適合對象:
此課程適合各種程度的聽眾,推薦參加對象為: AWS 開發者、DevOps 管理人員、系統管理者及對 AWS 架構欲深入了解的新創團隊。

活動講師:
AWS 架構師團隊

活動資訊:
日期:2021.5.18(二)
時間:10:00-17:00

立即報名工作坊