
原文刊載於 雷鋒網 ,INSIDE 獲授權轉載。
昨天的 Amazon Go 紅遍了國內外的社群媒體。
Amazon Go 令人驚艷的地方,就是你可以直接走進超市,選好貨品之後立馬離開,不用在收銀台前排長長的隊伍,等待結帳。
甚至還莫名有一種從商店「搶劫」的快感。
我們說,行動支付顛覆了既有的商品交易方式,那麼這種「搶劫式」的 Amazon Go 連「交易感」都消滅了。
總之,人們被這種新奇的似乎隱含了某種神秘科技的新型購物方式所吸引。不僅是普通人,就連史丹佛教授李飛飛、著名科技出版公司 O'reilly 創辦人 Tim O'Reilly 都特地發文。
李飛飛:電腦視覺十分顯著又絕妙的應用!
An obvious yet brilliant application of computer vision! #AmazonGo is a new kind of store w/ no lines/checkout. https://t.co/XVI1mvkeZl
— Fei-Fei Li (@drfeifei) 2016 年 12 月 6 日
Tim O'Reilly:零售業的未來,我對此已經期待很多年了。
1. Amazon Go is the future of all retail. I’ve been expecting it for years. https://t.co/TtrCv3KCPG
— Tim O'Reilly (@timoreilly) 2016 年 12 月 5 日
Amazon Go 的亮點
用戶進入商店,穿過閘門的時候打開手機讓其識別,這時手機裡的系統就會啓動,並隨時準備更新物品清單。 令人驚艷的部分就是,在用戶拿走或放回物品的一瞬間,手機裡的系統會自動更新清單 。最後,用戶拿著物品滿意地離開,手機自動扣款。
這裡面到底有什麼黑科技呢?就官方公布的影片來看,技術亮點有三個: 電腦視覺、深度學習演算法和感應器融合 。
但僅有這幾個關鍵詞還是不夠的,雷鋒網遂向亞馬遜在職員工進行採訪,但是對方表示 Amazon Go 還屬於保密專案,公司要求不能對外透露任何細節。
不過在 Quora 上,有一位名為 Brian Roemmele 的網友挖出了幾年前亞馬遜提出的兩份專利文件,裡面描繪的系統跟如今的 Amazon Go 非常相似。這兩份文件名稱為:「偵測物體互動和行動」(Detecting item interaction and movement)和「物品從置物設備上的轉移」(Transitioning items from the materials handling facility),兩文件分別於 2013 年和 2014 年申請。
這兩份專利文件都描繪了十分龐雜的應用場景,包括:貨倉、船運、零售市場等,所以很多人當初在看到這份文件時,都以為這是亞馬遜為自己的倉儲系統量身訂制的,不過今天一切真相大白。
這兩份專利分別講了什麼?
「偵測物體互動和行動」(Detecting item interaction and movement)這份專利的摘要是:
用戶從一個貨架上拿起或放下一個物品,貨物管理系統可以偵測到這個動作,並且更新用戶行動設備裡的清單。
「物品從置物設備上的轉移」(Transitioning items from the materials handling facility)這份專利的摘要是:
物品被識別,並且當用戶正在拿起物品時,物品自動與用戶發生關聯。 當用戶進入或穿過一個「轉移區」(Transition Area),被拿起的物品將自動轉移給用戶,而不需要用戶做任何的輸入。
總而言之就是,被識別的物體與用戶發生關聯,能自動更新清單,並在「轉移區」進行自動交易(「轉移區」在 Amazon Go 裡指的就是商店的出口)。
我們可以從下面一張圖裡,一窺 Amazon Go 的基本原型。

圖中代號為 208 的物體都是鏡頭,大約有 10 多個(有一些被人體擋住)。208 鏡頭分別置於天花板(如圖左右兩邊各有一個比較大的鏡頭)、貨架兩側和貨架內部。文件裡描述到,天花板上的 208 用來採集用戶和貨品的位置、貨架兩側的 208 用來捕捉用戶的圖像和周圍的環境,貨架內的 208 用來確定貨品的位置或用戶手的行動(進入和離開貨架)。
而從影片裡,我們隱約能夠看到安置在貨架內部的鏡頭。

我們具體並不清楚 Amazon Go 到底使用了多少電腦視覺技術。比如說,當用戶進出商店時,都需要對用戶進行識別,文件裡反覆提到可以用 人臉識別 技術實現,但是又會繼續補充說明可以通過手機等行動設備來偵測。
Quora 網友 Anurag Ranjan 是一位電腦視覺和深度學習領域的準 PhD,他分析稱:
Amazon Go 使用商店裡的鏡頭識別出了用戶,可能針對用戶拍了幾張照片,依靠一些標準的深度學習網路形成了一幅特徵側寫,比如 Resnet,、GoogLeNet 或者 VGG 這樣的。總之,當用戶踏進店裡的那一刻起,Amazon Go 就知道用戶長什麼樣了。
但是根據專利和既有經驗來看,在整個過程中用電腦視覺來追蹤用戶,代價太高了。我們大致可以確定的是,貨架上的一排排鏡頭應該就是對用戶進行「動作識別」,並且識別出物體是否被拿走(這裡也或許是用感應器完成)。
不過整個過程中的難點是,如何將物品與用戶進行唯一綁定?
雲從科技資深演算法工程師周翔告訴雷鋒網,Amazon Go 具體用到哪些技術,目前我們只能夠猜測,他提到可能的實現機制是:
通過手機做到了精準定位人,然後物體的具體位置可以大概確定,一旦人附近的物品離開,同時最近的人的 ID 就會關聯這個物品 ID。
置物架一定用了壓力感應器,一旦物品離開,就會明確知道什麼物品在什麼地點離開,一旦物品回來,壓力感應器同樣會感應到。
深度學習可能是學習了人的購物習慣,可能用到電腦視覺做了人的動作識別,然後根據物品與人的 ID 進行關聯,也就是二次確認。同時分析一個人的購物喜好,推測他會買的東西,提前做一些預判。
周翔提出, 可能 Amazon Go 根本沒有用到人臉識別的技術 ,「國外對人臉的隱私權是比較高的,未經允許採集他人的人臉會被起訴的」。雷鋒網也關注到,在李飛飛的那篇推文下,有網友對此持抵觸態度,認為如果是人臉採集,侵犯了自己的隱私。
Amazon Go 的出現驚艷了很多人,不過並不是所有人對此表示歡迎,除了上文提到的隱私問題外,有不少人擔憂,如果這種技術大量普及(我們都知道亞馬遜有多喜歡 2B 業務),大量超市收銀員將會失去工作,畢竟亞馬遜在影片裡承諾要在 2017 年初,於西雅圖上線第一家 Amazon Go。
不過這種技術究竟有多少「實用性」,還是存在很多的疑惑的,例如:
- 如果好幾個人擠在一起買同一類東西(比如商場打折搶貨,這是經常發生的),那麼物品與人的 ID 關聯還能保持精準嗎?
- 如果用戶把商品放回的位置是錯的呢,這樣也會被收費嗎?
- 如果有人搞怪,將自己家空果汁瓶取代商店裡的新鮮果汁,那麼 Amazon Go 識別的出來嗎?
「所以,這裡要求購物的人得非常有素質才行」,周翔對雷鋒網說道。總之我們對 Amazon Go 的諸多疑惑,或許過幾個月就能在西雅圖見分曉。