從雲端加速技術看台灣高階人才培育問題#12:GPU與深度學習/洪士灝
上一篇以及前幾篇談得比較多的是FPGA,因為我覺得這個是台灣產學仍可以嘗試把握的機會,而且知道的人不多,所以特別講。至於GPU,包括我們在內,目前有很多人都在研究,多年以來NVIDIA和AMD也大力推廣,而且在最近深度學習(Deep Learning)的推波助瀾下,非常多人已經開始用GPU來加速深度學習。
NVIDIA每年在矽谷舉辦GPU Technology Conference(GTC)會議,推廣General-Purpose GPU(GPGPU),重點擺在軟體的開發。每年都有來自全球產學界的研發團隊,在這個會議中展示以GPGPU加速應用的技術,非常熱鬧。我時常跟學生和業界人士說,不要只看你們耳熟能詳的那些應用,世界上還有很多高價值的應用,不妨參考GTC的展出項目,如下圖。
針對最火熱的深度學習和人工智慧市場,NVIDIA於2016的GTC會議中,發表了專門為深度學習打造的DGX-1;基本上是把八張最新Pascal架構的GPU晶片,整合進一台小小3U高(13cm)的伺服器,要價US$129,000(約415萬台幣)。
當時筆者被NVIDIA邀請坐在貴賓席,遇見幾位來自廣達(Quanta)的朋友;他們很驕傲地說,這台DGX-1是我們做的。後來我去展示間參觀,看到廣達的攤位上擺著一台3U伺服器T21W-3U,如下圖。
這台伺服器號稱很會跑深度學習(Execute Deep Learning Algorithms Like Never Before),廣達還親切地將外殼打開來給大家看,不像NVIDIA DGX-1那麼神神秘秘的。
問題是,NVIDIA DGX-1敢要價415萬台幣,廣達的T21W-3U要價多少?當然,這兩台伺服器雖然在硬體上有差別,但主要的差別,還是在於系統軟體和技術服務。
DGX-1宣稱搭載NVIDIA自家最佳化過的深度學習軟體,廣達是否有軟體技術授權?能否針對深度學習引擎做技術服務?
要全面發揮硬體的計算效能,還需要最佳化的軟體。
很多人自己在伺服器上加裝GPU卡來做深度學習。有些伺服器規格夠高,可搭載8張GPU卡;一台幾十萬的伺服器,加上8張最新的GTX1080顯卡(每張2萬元),拼湊起來一台頂多100萬。
不要懷疑,這就是買國產車來改裝、買原廠跑車(例如Mercedes Benz)和買原廠改裝好的車(例如AMG)之間的差別。
而這就是我所說的,系統軟硬體整合最佳化的價值之一例。比起國內其他多家業者,廣達的QCT部門算是走得快一點的,不過我曾當面對QCT的楊總經理說,你們還可以走得更快一點。
想自行最佳化GPU的軟硬體,雖然問題多多,但並非不可能;而且就連NVIDIA也還有很多懸而未決的問題,這都是商機。至於問題在哪裡?該如何解決?容筆者先賣個關子,之後再談。