VR 普及化曙光!AI 把 2D 畫面變 3D 全景,DeepMind 再登《科學》期刊

評論
評論
Photo Credit: DeepMind

DeepStack 之後,Google 旗下 DeepMind 又再度登上 《科學》 期刊,這次的論文是 用 GQN (Generative Query Network) 神經網路,把 2D 畫面重建成 3D 場景 ,而且可以利用「想像力」從各個視角呈現該場景。更進一步來說,若將這項技術成功普及並應用於 VR 內容製作,可望一舉解決 VR 360 度環境大量建模所耗費的成本。

▲應用與目的解說

根據 DeepMind 官方部落格,人類理解虛擬場景背後可不只是看一眼這麼簡單,我們的大腦利用過去的經驗來延伸解讀,最後建構並超越了視網膜接收到的視覺資訊。舉例來說,就算你只在圖片中看到一張三隻腳的桌子,也會腦補第四支腳剛好被擋住;就算你只看到房間一隅,也能描繪並想像出整個房間的格局,甚至從不同角度看起來會是怎樣。

隨著科技進步,我們更需要機器看懂周遭環境,讓機器人能夠找到地方坐、判斷產品材質,或者找到電燈開關。但是對人類來說很簡單的這些環境資訊,卻很難讓 AI 學會,現在訓練 AI 需要靠人工針對人類一個空間的每個角度照相並「貼標籤」讓機器去記憶與學習,非常曠日費時。

而這項 GQN 技術,讓機器自己在環境中收集資訊,並且自己去理解,就像動物和嬰兒一樣自己透過探索來學習,不再需要一個口令一個動作。

▲GQN 原理解說

GQN 模型分為兩大部分,分別為代表網路(representation network)及生成網路(generation network),代表網路將觀察到的輸入資料製作成向量幾何物件,並且再由生成網路去想像表面上沒看見的視角看起來會是怎樣。

雖然目前 GQN 和傳統方法相比也是存有不少限制,而且只有用於虛擬場景,不過 DeepMind 的團隊已經準備要導入更高解析的真實場景訓練,甚至導入時間元素,讓 AI 理解時間與空間的關係,進一步判斷物理運動狀態,因此不只是建模,還能讓它動起來。對於建構 VR 虛擬實境內容方面可望有更多幫助。

更多技術細節與應用可以參考 DeepMind 部落格及論文。

延伸閱讀:

相關文章

評論