電腦視覺、深度學習、感應器:不用排隊結帳的超市 Amazon Go 背後用了哪些科技?

就官方公布的影片來看,技術亮點有三個:機器視覺、深度學習演算法和感應器融合。
評論
REUTERS/Jason
REUTERS/Jason
評論

原文刊載於 雷鋒網 ,INSIDE 獲授權轉載。

昨天的 Amazon Go 紅遍了國內外的社群媒體。

Amazon Go 令人驚艷的地方,就是你可以直接走進超市,選好貨品之後立馬離開,不用在收銀台前排長長的隊伍,等待結帳。

甚至還莫名有一種從商店「搶劫」的快感。

我們說,行動支付顛覆了既有的商品交易方式,那麼這種「搶劫式」的 Amazon Go 連「交易感」都消滅了。

總之,人們被這種新奇的似乎隱含了某種神秘科技的新型購物方式所吸引。不僅是普通人,就連史丹佛教授李飛飛、著名科技出版公司 O'reilly 創辦人 Tim O'Reilly 都特地發文。

李飛飛:電腦視覺十分顯著又絕妙的應用!

Tim O'Reilly:零售業的未來,我對此已經期待很多年了。

Amazon Go 的亮點

用戶進入商店,穿過閘門的時候打開手機讓其識別,這時手機裡的系統就會啓動,並隨時準備更新物品清單。 令人驚艷的部分就是,在用戶拿走或放回物品的一瞬間,手機裡的系統會自動更新清單 。最後,用戶拿著物品滿意地離開,手機自動扣款。

這裡面到底有什麼黑科技呢?就官方公布的影片來看,技術亮點有三個: 電腦視覺、深度學習演算法和感應器融合

但僅有這幾個關鍵詞還是不夠的,雷鋒網遂向亞馬遜在職員工進行採訪,但是對方表示 Amazon Go 還屬於保密專案,公司要求不能對外透露任何細節。

不過在 Quora 上,有一位名為 Brian Roemmele 的網友挖出了幾年前亞馬遜提出的兩份專利文件,裡面描繪的系統跟如今的 Amazon Go 非常相似。這兩份文件名稱為:「偵測物體互動和行動」(Detecting item interaction and movement)和「物品從置物設備上的轉移」(Transitioning items from the materials handling facility),兩文件分別於 2013 年和 2014 年申請。

這兩份專利文件都描繪了十分龐雜的應用場景,包括:貨倉、船運、零售市場等,所以很多人當初在看到這份文件時,都以為這是亞馬遜為自己的倉儲系統量身訂制的,不過今天一切真相大白。

這兩份專利分別講了什麼?

「偵測物體互動和行動」(Detecting item interaction and movement)這份專利的摘要是:

用戶從一個貨架上拿起或放下一個物品,貨物管理系統可以偵測到這個動作,並且更新用戶行動設備裡的清單。

「物品從置物設備上的轉移」(Transitioning items from the materials handling facility)這份專利的摘要是:

物品被識別,並且當用戶正在拿起物品時,物品自動與用戶發生關聯。 當用戶進入或穿過一個「轉移區」(Transition Area),被拿起的物品將自動轉移給用戶,而不需要用戶做任何的輸入。

總而言之就是,被識別的物體與用戶發生關聯,能自動更新清單,並在「轉移區」進行自動交易(「轉移區」在 Amazon Go 裡指的就是商店的出口)。

我們可以從下面一張圖裡,一窺 Amazon Go 的基本原型。

 

pastedgraphic_4

圖中代號為 208 的物體都是鏡頭,大約有 10 多個(有一些被人體擋住)。208 鏡頭分別置於天花板(如圖左右兩邊各有一個比較大的鏡頭)、貨架兩側和貨架內部。文件裡描述到,天花板上的 208 用來採集用戶和貨品的位置、貨架兩側的 208 用來捕捉用戶的圖像和周圍的環境,貨架內的 208 用來確定貨品的位置或用戶手的行動(進入和離開貨架)。

而從影片裡,我們隱約能夠看到安置在貨架內部的鏡頭。

pastedgraphic_5
另外,專利文件裡還補充道:這裡的鏡頭可以是多種類型的,可以是 RGB 鏡頭,或深度感知鏡頭。除了鏡頭之外,也可以有其他輸入設備,比如壓力感應器、紅外感應器、體積位移感應器、光幕等等。壓力感應器可以偵測物品移出和進入的時間,紅外感應器可以用來區分用戶的手和物品。

我們具體並不清楚 Amazon Go 到底使用了多少電腦視覺技術。比如說,當用戶進出商店時,都需要對用戶進行識別,文件裡反覆提到可以用 人臉識別 技術實現,但是又會繼續補充說明可以通過手機等行動設備來偵測。

Quora 網友 Anurag Ranjan 是一位電腦視覺和深度學習領域的準 PhD,他分析稱:

Amazon Go 使用商店裡的鏡頭識別出了用戶,可能針對用戶拍了幾張照片,依靠一些標準的深度學習網路形成了一幅特徵側寫,比如 Resnet,、GoogLeNet 或者 VGG 這樣的。總之,當用戶踏進店裡的那一刻起,Amazon Go 就知道用戶長什麼樣了。

但是根據專利和既有經驗來看,在整個過程中用電腦視覺來追蹤用戶,代價太高了。我們大致可以確定的是,貨架上的一排排鏡頭應該就是對用戶進行「動作識別」,並且識別出物體是否被拿走(這裡也或許是用感應器完成)。

不過整個過程中的難點是,如何將物品與用戶進行唯一綁定?

雲從科技資深演算法工程師周翔告訴雷鋒網,Amazon Go 具體用到哪些技術,目前我們只能夠猜測,他提到可能的實現機制是:

通過手機做到了精準定位人,然後物體的具體位置可以大概確定,一旦人附近的物品離開,同時最近的人的 ID 就會關聯這個物品 ID。

置物架一定用了壓力感應器,一旦物品離開,就會明確知道什麼物品在什麼地點離開,一旦物品回來,壓力感應器同樣會感應到。

深度學習可能是學習了人的購物習慣,可能用到電腦視覺做了人的動作識別,然後根據物品與人的 ID 進行關聯,也就是二次確認。同時分析一個人的購物喜好,推測他會買的東西,提前做一些預判。

周翔提出, 可能 Amazon Go 根本沒有用到人臉識別的技術 ,「國外對人臉的隱私權是比較高的,未經允許採集他人的人臉會被起訴的」。雷鋒網也關注到,在李飛飛的那篇推文下,有網友對此持抵觸態度,認為如果是人臉採集,侵犯了自己的隱私。

Amazon Go 的出現驚艷了很多人,不過並不是所有人對此表示歡迎,除了上文提到的隱私問題外,有不少人擔憂,如果這種技術大量普及(我們都知道亞馬遜有多喜歡 2B 業務),大量超市收銀員將會失去工作,畢竟亞馬遜在影片裡承諾要在 2017 年初,於西雅圖上線第一家 Amazon Go。

不過這種技術究竟有多少「實用性」,還是存在很多的疑惑的,例如:

  • 如果好幾個人擠在一起買同一類東西(比如商場打折搶貨,這是經常發生的),那麼物品與人的 ID 關聯還能保持精準嗎?
  • 如果用戶把商品放回的位置是錯的呢,這樣也會被收費嗎?
  • 如果有人搞怪,將自己家空果汁瓶取代商店裡的新鮮果汁,那麼 Amazon Go 識別的出來嗎?

「所以,這裡要求購物的人得非常有素質才行」,周翔對雷鋒網說道。總之我們對 Amazon Go 的諸多疑惑,或許過幾個月就能在西雅圖見分曉。


精選熱門好工作

樂趣買Web Designer(Rakuma)

台灣樂天市場
臺北市.台灣

獎勵 NT$15,000

Software Manual Test 手動測試工程師

樂購蝦皮股份有限公司
臺北市.台灣

獎勵 NT$15,000

BD 商務開發

WeMo Scooter
臺北市.台灣

獎勵 NT$15,000

評論