核彈教父勢不可擋:NVIDIA 發表 8 萬核桌面級超級電腦

評論
評論

本文來自合作媒體 Pingwest,INSIDE授權轉載

在標準運算技術的時代,推動進步的是 Intel 和由它發揚光大的摩爾定律。但 2012 年之後,當運算技術進入了名為「深度學習」的全新時代,創辦於 1993 年的 NVIDIA 卻成為了強勢黑馬。

「NVIDIA 通過深度學習平台所取得的創新,許多都已成為世界標準。我們以 遠超摩爾定律的速度推動運算性能飛速成長,促進健康、交通、科學探索等無數領域的突破。」在一場演講中,創辦人兼 CEO 黃仁勳自豪地對數千名觀眾表示。

去年,站在同一個舞台,黃仁勳說他一直想要找到摩爾定律之後的路。而以神經網絡為基礎的人工智慧,其爆發式發展到了 2018 年已經過去了五年。而在這五年裡,GPGPU(通用圖形處理器)成為了人工智慧研發的利器,在運算密集型的深度學習任務上獨步天下。NVIDIA 指出,和五年前的 Ferml GPU 架構相比,最新一代的 Volta GPU 架構的浮點運算能力提升了 25 倍。

「摩爾定律 10 年 5 倍,」黃仁勳說,「這就是我們超越摩爾定律的證明。」

NVIDIA 開發者社群的擴張迅速,印證了黃仁勳大膽的聲明。該公司統計,GPU 開發者在今年將達到 82 萬人,比五年前成長了 5 倍;在 NVIDIA GPU 上開發必備的分散式運算架構工具包 CUDA,下載數量超過了 800 萬,其中約一半是在過去一年裡下載的。不僅如此,該公司提供的 GPU 加速技術還被世界上大量超級電腦協同採用,其 Volta GPU 為美國的 Summit 和 Sierra 兩大超級電腦增加了大約 100 PFLOPS(百萬兆次浮點運算能力)。

在美國時間 3 月 27 日的 NVIDIA GPU 技術大會 (GTC 2018) 上,該公司帶來了多個在深度學習、自動駕駛和機器人領域足以掀起巨浪的新產品。其中最為重頭的,則是一年一度的新核彈級顯卡 —— 這次,並不是 GTX 11 系列,也不是傳聞甚囂塵上的「礦卡」,而是一台被黃仁勳稱為「桌面超級電腦」的工作站:NVIDIA DGX-2。

DGX-2 是一台專門用於人工智慧訓練和 / 或推理任務的桌面電腦:

這是它的內部結構:

你可以看到,在圖中 1 和 2 的位置看起來是很多塊晶片。其實他們是 NVIDIA 的 Tesla V100 Volta 架構 GPGPU,單枚算力達到雙精度 7.8 TFLOPS(兆次浮點運算)、單精度 15.7TFLOPS、深度學習 125TFLOPS。

而 DGX-2 單機箱安裝了 16 枚 V100,總體性能達到了驚人的 2PFLOPS—— 業界第一台超過百萬兆次浮點運算能力的單機箱電腦 —— 稱它為超級電腦或許並不浮誇。

但 DGX-2 的算力並非靠堆疊出來,如果它們之間不能實現高頻寬的數據互通則無意義。

時間倒回兩年前,NVIDIA 有意在深度學習的設備市場上對 Intel 發起直接挑戰,推出了 Pascal 架構的 P100 GPGPU。在當時,主流伺服器 PCIe 總線接口的頻寬和時延,已經無法滿足 NVIDIA 的需求。於是它們開發出了一個新的設備內互聯標準,叫做 NVLink,使得頻寬達到了 300 GB/s。一個 8 枚 GPGPU 的系統裡,NVLink 大概長這樣:

然而 NVLink 的標準拓撲結構在理論上最多支援 8 枚 顯卡,仍不足以滿足 NVIDIA 對於新系統內置更多顯卡的需要。於是在 NVLink 的基礎上,NVIDIA 開發出了一個名專門在顯卡之間管理 NVLink 任務的協調處理器,命名為 NVSwitch。這個組建在 DGX-2 上,讓 16 枚 GPGPU 中兩兩之間實現 NVLink 互通,總頻寬超過了 14.4 TB。

這個數字創造了桌面級電腦內總線接口頻寬的新高,但實現它的目的並非跑分,而在於 DGX-2 可以 1)更快速地訓練一個高複 雜度的神經網絡,或 2)同時訓練大量不同結構的神經網絡。

NVIDIA CEO 黃仁勳,背景是 NVSwitch 示意圖

N 卡之所以被稱為核彈有一種另類的解釋方式:它的多核心架構在這個依核心數量論高下的時代顯得超凡脫俗 —— 動輒幾百、上千個 CUDA 核心,令人不明覺厲。而在 DGX-2 上,16 枚 V100 的 CUDA 核數達到了瘋狂的 81,920 核心。這個事實,結合 NVSwitch 技術、512GB 現存、30TB NVMe 固態硬盤、兩枚至強 Platimum CPU 和高達 1.5TB 的主機記憶體 ——

黃仁勳用 GPU 深度學習裡里碑式的傑作 AlexNet 來舉例。研究者 Alex Krizhevsk 用了 6 天,在 NVIDIA GPU 上訓練 AlexNet,這個研究首次利用梯度下降法和卷積神經網絡進行電腦圖像識別,顯著優於枝前的手調參數法,拿下了 ImageNet 圖像識別競賽冠軍。AlexNet 讓 Alex 世界聞名,這 6 天可以說值了。

然而,「同樣的 8 層卷積神經網絡,我用 DGX-2 跑了一下,只用 18 分鐘就達到了同樣的結果,」黃仁勳說,「五年,500 倍的進步。」

這說明很多東西。其中有一條:在這五年裡,NVIDIA 的技術進步節奏已經無法用摩爾定律來描述了。

DGX-2 主要的應用場景是顯著加速高端科研和商業人工智慧產品的研發和面市。它顯然不是一台消費級的產品 —— 高達 150 萬美元的售價 ……

開玩笑的,最終售價是 40 萬美元 ……

然而即便是 40 萬美元的未含稅價格,還是讓一些手頭緊張的工業使用者望而卻步。別擔心,DGX-2 只是今天 NVIDIA 在人工智慧領域的幾個新產品之一,其它還有:

1.DGX 機箱裡面的 V100 GPGPU 升級版,記憶體升級到了 32 GB,那些只需要單枚或者少量顯卡的研究者,生產力得到解放,可以訓練更複 雜的神經網絡了:

2. 面向包括電影視覺特效、建築設計等創意工業,推出的 Quadro GV100 顯卡產品。Quadro GV100 是一塊工作站顯卡,裡面是兩枚 V100 GPU。這塊顯卡支援 NVIDIA 最新的頂級光線追蹤 (Ray Tracing) 技術 NVIDIA RTX:

3.NVIDIA RTX:如前述,NVIDIA 開發的一種極其複 雜,且運算密集型的光效技術。簡單來說,像在真實世界裡那樣,摻雜的多光源、複雜的環境,導致光線照到不同材質的物品上所呈現出的散逸,以及物品對光源、對其它物品,在曲面、球面甚至不規則表面所產生的反射效果,或者光源照射到玻璃杯產生的不規則投影 ——這些光效和陰影在過去極難通過電腦完美呈現,但 NVIDIA 今天向著亦真亦幻往前走了一步。

4.TensorRT 4,新一代的 TensorFlow 推理工具;GPU 對美國科技公司在去年推出的深度學習兼容框架標準 ONNX 兼容;終於可以在 Kubernetes (K8S) 上管理 NVIDIA GPU 了,支援 AWS、Google Cloud Platform、阿里雲等。

5. 新的自動駕駛車載運算架構 ORIN。

6. 駕駛虛擬模擬技術 Drive SIM & Constellation。這是一個很有趣的技術,可以讓 NVIDIA 以及其它開放平台的科技公司在 GPU 上模擬自動駕駛汽車訓練,顯著降低開放道路真車訓練的危險性。這個技術還有一個獨特的用法:接入了該平台的汽車,在未來可以 遠程操控,黃仁勳演示了一個司機在會場,用 VR 頭盔和手把 遠程駕駛一輛汽車躲避障礙並成功停車。

7. 機器人開發開放平台 ISSAC,利用了 NVIDIA 在自動駕駛上積累的一些技術,比如高精度地圖繪制等。

8.Project CLARA,一個雲端醫療診斷的計畫。這個計畫非常有趣,簡單來說,NVIDIA 醫院提供基於雲端的醫療圖像識別超級電腦,一個場景是上傳心臟 B 超的即時視頻流,雲端的顯卡運行訓練好的神經網絡,可以將畫面變成 3D 的體積圖像,然後即時將器官顯示出來,從而生成一個更容易觀看的 3D 畫面。現場演示的畫面還給出了器官功能的即時數據,包括每次搏動的輸血量等,令人印象深刻。

矽谷是一個 T 恤帽衫和拖鞋統治的地方,而 NVIDIA 的創辦人黃仁勳在這裡是個相當明顯的另類:一身皮夾克的他,工程師出身又負責過市場,演講起來絲毫沒有許多其它科技大佬身上特有的「虛偽」氣息。

在 GTC 2018 上,可能覺得自己氣場還不夠強,他直接站在了椅子上接受記者的提問;他明顯接受過公關訓練,但在回答提問時的誠懇仍然在科技大佬中顯得獨特,甚至直接問旁邊的公關「你是不是想打斷我?但我已經說完了。」人稱「核彈教父」的黃仁勳,名副其實。

他吐槽常見的 x86 架構伺服器站,一個機櫃動輒數十台伺服器,十幾台機櫃總成本成百上千萬美元。而取得同樣的深度學習訓練效果,只需幾台或者十幾台 V100,或者一台 DGX-2,價格至多六位數。這也是為什麼他在演講時,不斷對台下的觀眾重復:多買更划算!(The more you buy, the more you save.) 幾乎將一場 GPU 技術演講變成了電視購物。

「Watch now ‘cause here I come.」 是黃仁勳上台前的暖場歌曲裡的一句歌詞。

至少在今天,將摩爾定律踩在腳下,黃仁勳和他的 NVIDIA 看起來勢不可擋。

評論