從新一代 TPU 到 Google.ai,詳解 Google I/O 首日人工智慧五大亮點

評論
評論

本文獲合作媒體 36kr 授權轉載,作者為 機器之心

Google 在山景城開啟了今年度的 Google I/O 開發者大會。從大會主題演講可以看出,Google 人工智慧主要體現在以下五大方面:

  1. AI First 的整體戰略;
  2. TPU 的升級與雲服務;
  3. 集研究、工具、應用於一體的 Google.ai ;
  4. 人工智慧技術的產品落地;
  5. 基於 Android 和 TensorFlow 的行動開發者生態。

重申 AI First

去年 10 月的 Google 新品發布會期間,Google 執行長 Sundar Pichai 曾撰文解讀 Google 從 Mobile First 向 AI First 的戰略轉變。他認為在接下來 10 年中,Google 將轉向建立 AI First 的世界。

Pichai 在本屆大會上再次強調了 AI First 戰略的重要性。他表示,機器學習已經在 Google 的諸多產品中得到了廣泛應用,其中包括搜尋排序、街景、圖片搜尋、智慧回覆、YouTube 推薦等。

在具體技術方面,Pichai 說:「聲音和視覺是一種新的計算形式。我們正在見證電腦視覺和語音領域的許多偉大進步。」

Google 的語音辨識技術的錯誤率逐年下降,僅從去年 7 月到現在就實現了 8.5% 到 4.9% 的極大改進;而且即使在有噪音存在的情況下也能表現良好。在 Google Home 剛發佈時,原本需要 8 個麥克風才能準確定位周圍的說話人,「藉助深度學習,我們最後能夠推出僅有 2 個麥克風的產品,而且達到了同樣品質。」現在 Google Home 已經能辨識 6 個不同的說話人並為他們設定客製化體驗。

在處理某些任務時,圖像辨識的準確度也超過了人類水準,並且應用到了 Pixel 系列手機的相機 App 中,來自動清除圖像中的噪點,實現高品質的夜間成像效果;不久之後甚至還可以自動移除照片上的遮擋物,比如擋在相機前的棒球場圍網。

在這些電腦視覺技術的基礎上,Google 又發布了 Google Lens 。這個功能將首先出現在 Google Assistant 和 Photos 中,用戶可以使用 Google Lens 來辨識花的品種、掃描設置好的條碼來連接 WiFi 、在大街上掃描店面來了解網上評價。

TPU 雲服務

AI First 的戰略需要 AI First 的資料中心,為此 Google 打造了為機器學習訂製的硬體 TPU 。去年發佈時,TPU 的速度比當時 CPU 和 GPU 的速度快 15 到 30 倍,功耗效率高 30 到 80 倍。如今的 TPU 已經在為 Google 的各種機器學習應用提供支援,包括之前戰勝李世乭的 AlphaGo 。

Pichai 介紹道,深度學習分為兩個階段:訓練(training)和推理(inference)。其中訓練階段是非常計算密集型的。例如,Google 的一個機器翻譯模型每週就要處理至少 30 億詞的訓練資料,需要數百個 GPU,去年的 TPU 就是專門為推理階段優化的;而在今年的 I/O 大會上,Pichai 宣布了下一代 TPU——Cloud TPU——其既為推理階段進行了優化,也為訓練階段進行了優化。在現場展示的一塊 Cloud TPU 板圖片上有 4 塊晶片,其處理速度可達 180 teraflops(每秒萬億次浮點運算)。


此外,Cloud TPU 還可以輕鬆實現集成組合,你可以將 64 塊 TPU 組合成一個「超級電腦」,即一個 pod ,每個 pod 的速度可達 11.5 petaflops(每秒千萬億次浮點運算);另外,Pichai 還宣布將 Cloud TPU 應用到了 Google Compute Engine 中。

一個 Cloud TPU Pod 示意圖,包含 64 塊 Cloud TPU

正如 Pichai 所言,「我們希望 Google Cloud 是最好的機器學習雲,並為用戶提供 CPU 、GPU 和 TPU 等更廣泛的硬體支持。」

在下午的開發者 Keynote 中,Google Cloud 機器學習與人工智慧首席科學家李飛飛也表示,每個人都可通過 Google 的雲平台使用雲 TPU,不久之後將會開放租借。

李飛飛在下午的開發者 Keynote 演講

Google.ai 與 AutoML

為推動使用人工智慧解決實際問題,Pichai 宣布將 Google 人工智慧方面的工作綜合到 Google.ai 下。總體而言,Google.ai 將專注於三個領域:研究、工具和應用。

在研究方面,深度學習模型方面的進步令人振奮,但設計和開發卻很耗費時間,只有少量工程師和科學家願意去研究它們。為了讓更多開發者使用機器學習,Google 提出了 AutoML——讓神經網路來設計神經網路。


AutoML 是一種「learning to learn」的方法。在此方法中,一種控制器神經網路能夠提議一個「子」模型架構,然後針對特定任務進行訓練與質量評估;而回饋給控制器的資訊則會被用來改進下一輪的提議。Google 在技術部落格中表示,他們已經將此過程重複了上千次,從而來生成新架構,然後經過測試和回饋,讓控制器進行學習。最終,控制器將學會為好的架構分配高的概率。

AutoML 流程圖

AutoML 會產生什麼樣的神經網路?以循環架構為例(用來在 Penn Treebank 資料集上預測下一單詞),如下圖所示:

左邊為人類專家設計的神經網路,右邊為 AutoML 方法創造的循環架構,兩個架構有著共同的設計特徵。

Pichai 認為,AutoML 具有很大的潛力。並且,Google 已經在圖像辨識基準資料集 CIFAR-10 上取得了頂尖成果。雖然過程很難,但雲 TPU 的存在使這種方法成為了可能。

有了這些前沿的研究,接下來就是應用的問題。Pichai 列舉了 Google 應用機器學習的幾個案例:例如在醫療領域診斷癌症的應用和在基礎科學領域的應用(在生物學上,Google 通過訓練神經網路來改進 DNA 定序的準確率;在化學領域,Google 通過使用機器學習了預測分子性質)。

產品及應用

Google AI First 戰略不僅體現在研究上,還表現於眾多人工智慧技術的應用上——將 Google 的各項人工智慧技術在產品層面統一起來。Pichai 提到:「電腦仍在不斷地進化,從 Mobile First 的世界進化到 AI First 的世界。我們也在重新思考我們所有的產品。」

1. Google Assistant

Google 正將人工智慧應用於所有產品中,Pichai 表示,其中最重要的就是 Google 搜尋和 Google Assistant 。自去年 I/O 大會發布以來,Google Assistant 已經可以在上億台設備上使用。今天 Google Assistant 工程副總裁 Scott Huffman 又介紹了 Google Assistant 三大進步。

1)更自然的對話

Google Assistant 上 70% 的請求都是通過自然語言的方式進行的,而非鍵盤輸入。而 Google 要做的就是結合語音辨識、自然語言處理以及語境意義方面的技術來解放用戶雙手,實現更加自然的人機交流。「Google Assistant 可以通過聆聽學會區分不同家庭成員的聲音。」他說。除了語音辨識和自然語言處理,Google Assistant 還使用了 Google Lens 功能,通過圖像資訊來實現更加自然的「對話」。

2)更廣泛的應用

Huffman 表示,Google Assistant 正變得更加廣泛可用,除了之前的 Android 系統,Google Assistant 已經可以在 iPhone 上使用。而隨著 Google Assistant SDK 的發布,任何設備生產商都能簡單輕鬆地將 Google Assistant 部署在音響、玩具和機器人等設備上;此外,今年夏天,Google Assistant 也開始將支持法語、德語、葡萄牙語和日語,並將在年底新增意大利語、韓語和西班牙語等語言。

3)更觸手可及的服務

用戶使用 Google Assistant 不僅僅是搜尋資訊,還希望獲取所有服務,比如 Gmail 、Google Photos 、Google 地圖和 YouTube 等。因此,Google 將 Google Assistant 開放給了第三方開發者,以實現產品間更加有用的融合。據 Google Assistant 產品經理 Valerie Nygaard 介紹,Google Assistant 將支援交易,從而為第三方提供端到端的完整解決方案。

Google Assistant 的進步也使得智慧家居產品 Google Home 新增了 50 項新功能——用戶可以通過語音去調用各種服務,包括免費電話、免費聽音樂,以及在電視上觀看影片等。

同時,基於本次大會上多次提及的「語音加圖像」的多模態互動,之前缺乏視覺互動的 Google Home 現在也可以藉助手機和電視的螢幕與用戶進行更好的互動,比如,用戶可以通過語音命令讓 Google Home 把你的日程在電視上顯示。就像 Nygaard 所說的那樣,用戶可以 hands-free 的做任何事情。如今 Google Assistant 已經開始支持交易並集成到智慧家居設備中,目前擁有超過 70 家智慧家居合作者。

2. Google Photos

Google Photos 目前擁有十億月度活躍用戶,每天上傳的照片和影片達到 12 億次。借助於 Google 的核心人工智慧技術,如今 Google Photos 使用了全新的圖像處理方法。這從此次發布的三個新功能可以看出:

  • Suggest Sharing 可以藉助機器學習將照片中的人物和場景辨識出來,然後給用戶提供分享建議——是否應該分享以及分享給誰。
  • Shared Libraries 基於用戶辨識的相片庫分享。
  • Photo Books 自動幫助用戶篩選出某一場景下的高質量照片並生成相簿。

另外,除了 Google Assistant ,Google Lens 也被集成到了 Google Photos 中。通過這個功能,你可以辨識相簿裡面的地標建築、檢索藝術作品背後的故事、辨識照片內的文本內容和資訊,這項功能將於今年晚些時候發布。

用 TensorFlowLite 構建行動開發者生態

機器學習在行動端的應用至關重要,而在討論 Android 的未來時,Google 工程副總裁 Dave Burke 宣布了一個為行動端優化的 TensorFlow 版本——TensorFlowLite 。TensorFlowLite 能讓更多的開發者建立在 Android 手機上運行的深度學習模型。

而 TensorFlowLite 就是 Google 在行動端部署人工智慧的一個著力點。首先,TensorFlowLite 很小很快,但依然可以使用最先進的技術,包括卷積神經網路、LSTM 等;其次,Dave Burke 還宣佈在 Android 上推出了一個新的框架來進行硬體加速,期待看到為神經網路的訓練和推理特別定制的 DSP 。這些新能力將促進新一代設備上(on-device)語音辨識、視覺搜尋和增強現實的發展。


去年,Facebook 公開了 Caffe2Go ,今年更是開源了可在手機與樹莓派電腦上訓練和部署神經網路模型的 Caffe2 。在行動端部署機器學習成為了一項新的挑戰。但不幸的是,手機上訓練神經網路仍是計算密集型任務。即便忽略訓練,預訓練模型仍舊艱難。但如果能在邊緣設備運行模型,就能避免雲和網路,在任何環境中有更可靠的表現。

Google 表示他們會開源該項工作,併計劃在今年晚些時候發布 API 。

Google 首日 Keynote ,讓我們看到了 Google 圍繞機器學習研究、開源工具、基礎設施和人工智慧應用開發的 AI First 戰略。Cloud TPU 是加速人工智慧部署的基礎設施;AutoML 代表著機器學習研究層面的前沿方向;TensorFlowLite 將促進人工智慧在行動端的部署;語音和圖像的結合代表著對多模態人機交互的探索;而應用了各種人工智慧技術的產品更新則是極大推動了將 AI 真正融入生活的進程。

相關文章

評論