長按識別二維碼,收看2018《麻省理工科技評論》區塊鏈商業峰會
作為幾乎所有智能移動終端及多數智能聯網設備的計算核心設計者,全球最為著名芯片架構設計公司 arm 在這兩年 AI 生態蓬勃發展的走勢中一反常態 ,沒有站在主導地位,甚至也沒什麼音量。
可以說,雖然 arm 的地位如今仍然重要,但卻已經不再是眾人眼光的焦點,當蘋果、華為、高通等客戶不斷在 AI 技術與應用上進行創新時, arm 基礎架構似乎還是維持自己的步調,沒有太多波瀾起伏。
3 月 6 日,arm 在北京舉辦了人工智能新品發布會。 面對市場的質疑,arm 通過這次發布會正式向市場宣布進軍 AI 方案,實際上 解答了這兩年來為何 arm 在 AI 領域沒有太多作為的具體原因。 在這次為期兩天的發布會中宣布了兩款針對中低端市場的GPU架構及多媒體方案, 但本次發布會的重點還是在第二天關於人工智能方案佈局的座談,ar m 資深市 場營銷總監 Ian Smythe 針對未來 arm 在 AI 應用領域的佈局進行深入的探討。
事實上,該行業巨頭早在 2016 年就已經把觸手伸進多個 AI 應用領域同時發展,包含號稱針對機器學習優化的 Bifrost GPU 架構,以及針對高端服務器芯片的 SVE 延伸指令集。 隨著相關方案陸續成熟,採用者也逐漸增加, arm 終於在今年 2 月底推出 Project Trillium,結合開發環境、算法與各大主流機器學習框架,要佈局從終端到雲端所有 AI 應用開發生態。
為什麼 arm 要在這個時間點推出他們自己的AI方案?
首先,各家使用的 AI 方案架構方面都有不小落差,且應用的兼容性可能也存在些問題,雖然都支持類似的框架,但畢竟沒有一個標準的AI 計算接口存在,在此情況下,應用開發商若要開發各 類行應用,就必須針對不同廠商的設備個別支持,如此曠日廢時,且可能會受限於不同架構的性能落差而使得應用的表現不如預期。
其次,開發獨家的 AI 加速架構代價並不低,且除了要考慮到所採用的IP 來源的可擴展性、框架支持廣度、是否提供標準接口,相關算法也不是朝夕之間就可研發出來,如果能夠提供一個可利用既 有架構便可達到接近完全硬件處理AI 算力,不需支出額外的授權成本,也不需要改變既有的芯片設計佈局,那麼對市場而言,其吸引力自然是不言可喻。
圖丨 Ian Smythe
arm 資深市場行銷總監 Ian Smythe 對此表示,他們正在做的就是提供業界更多的選擇,其他使用自有 AI 計算架構的客戶也同樣能夠得到好處。
但 DT 君認為這是個排他性很強的選擇 ,以包含軟硬件等大生態逼迫客戶放棄未來開發自有 AI 芯片的打算,確保能持續主導整體計算架構發展走勢,未來甚至要挑戰服務器等其他專業 AI 計算架構—— arm 這步棋將為整個 AI 計算生態,尤其是相關芯片產業帶來 另一波榮景,還是一次大滅絕? 恐怕是整個業界目前最關切的。
挑戰高端 AI 計算,直取 NVIDIA 主場,甚至 構築排他性生態
arm 要用 針對嵌入式市場的小 GPU 來挑戰 NVIDIA? 乍看之下不大可能,但 Ian 對 DT 君展示了其 AI 計算方案的能效表現,以類似規模的架構來比較, 其實 arm 的方案在能效方面都還是有一定的優勢存在 ,加上 arm 架構原生就支持高效率的推理工作,配合已經相當成熟的開發套件,可以支持大多數主流機器學習框架,相信對開發者可具相當的吸引力。
當然,要以絕對性能對抗 NVIDIA,DT 君認為短期間之內還不大現實,但若以能耗、配合 arm 在邊緣計算以及終端上的 AI 算佈局構成完整的生態鏈,那麼要在數據中心市場吃下一定的佔比,也不是不可能的事情。
在終端市場方面,前兩年AI熱潮中,各家新創產業紛紛推出自有的AI芯片,尤其是主流CV方案,市場上可說群雄並起,連過去止做低價主控的公司也 都陸續搶進,打造自己的AI方案。
不過,在關鍵的算法方面,多數公司其實都還是倚賴第三方,真正創造自有算法的比例其實很少,就連AI計算架構也可能都是直接取用現成的第三方方案,這些方案的支持 完整性不一,且因為技術來源分散,很難構成,或分享來自一套共通的生態環境的優點,基本上就是處於單打獨鬥的窘境。
然而,arm 這次的作法則是建立了一套從端到雲的完整體系,不論客戶在市場中的定位如何,都能從arm 拿到相對應的方案,且不只是硬件,就連開發工具 包以及算法都能提供。 DT 君認為 這將造成相當深遠的影響,個別的 AI 芯片架構 IP 或者是算法 IP 供貨商會先受到一定的衝擊,甚或可能會被逐步逼出市場 。
諸如寒武紀、深鑑等想要打進主流消費AI方案的供貨商恐怕將成為首波受害者,arm自家方案擁有強大的生態優勢, 即便絕對性能可能還稍微落後寒武紀或深鑑的方案,但憑藉極低的導入門坎,及對主流算法模型的完整支持,且額外增加的成本極低,客戶會如何選擇,其實已經不言 可喻。
arm 方面也在說明會上表示,其架構將可承載不同的算法來進行各種 AI 應用,算法來源不限定。 然而,arm 自己也在發展相關算法,表面上的說法是要提供客戶更多樣化的選擇,但真正的盤算, 恐怕是要對整個 AI 市場進行一次大清洗,並替換成自己的生態,藉此擴大 arm 的市場格局,走向真正的架構霸主之路。
畢竟從arm 生態的歷史發展中,以嵌入式GPU 為例,當初arm 和Imagination 兩家英國IP 公司關係緊密,相互提攜,但後來arm 決定要發展自有的GPU 架構後,沒錯,市場有了 更多的選擇,但事實上,arm 依靠包裝行銷與生態的優勢,將Imagination 打到落花流水。 除少數如高通的 Andreno 自有 GPU 架構較不受影響外,目前嵌入式 GPU 的 IP 授權產業幾乎也都被arm 通吃,不復見以往競爭激烈的局面。
後續 arm 也進入多媒體與顯示相關方案的 IP 市場,同樣對相關產業的技術供應商造成相當大的影響,雖然擴大產品佈局是 arm 避免在特定領域掉隊, 繼而維持其市場霸業的最有效方式,而被其策略佈局影響到的對手或客戶可能就不是那麼樂意了。
當然,arm 的客戶永遠都有得選擇,但依附在 arm生態之下的第三方 IP 供應商就未必了。
早期從固定功能軟件著手,後續補齊硬件與整體開發生態
實際上,如果從當年 arm 進入 GPU 市場對市場所帶來的影響觀察,上面所描述結果或許就不那麼讓人驚訝了。 “ 循序漸進 ”是 arm 近年來佈局 AI 生態時很重要的遵循方向,Ian 向 DT 君說道。
其實, arm 早在 NPU 等 AI 加速芯片概念出現之前,就已經搶先在手機以及其他聯網終端產品中引入 AI 計算概念,而且值得一提的是,雖然 arm 是提供計算架構硬件基礎核心的公司,算法與軟件生態環境通常都是跟著新架構發展,但是在AI 生態方面,卻反其道而行,算法和軟件先行,後續才逐漸補上硬件設計與開發 環境。
以華為公司的手機為例,其實雖然消費大眾被其在Kirin 970 中採用的NPU 設計抓住了眼光,認為此類硬件AI 計算架構算是開創了手機產品的另一個新時代,但事實上,早 在Kirin 960 時,ARM 就已經提供華為不少關於物件偵測、語音加速以及照相處理等算法與AI 軟件功能,妥善利用了當時 arm 芯片基於 GPU 與 CPU 合作而來的 AI 計算能力, 雖然沒有真正的硬體加速方案,但在效率上已經相當受肯定 。
圖丨Kirin 970
Ian 對 DT 君表示,早期移動終端對 AI 概念還不明顯,因此 arm 先提供功能有限的軟件方案讓市場嚐鮮,等到市場看出更多應用潛力,不滿於現有的軟硬件搭配時, arm 再推出更完整的硬件設計與開發環境,承接這些想要創造更多可性的客戶的需求。
市場的需求總是會一直前進,且應用也會越趨複雜,Mate 10 的AI 場景攝影功能由於進行了更多、更複雜的計算,華為因此選擇在芯片中集成了專屬的AI 計算芯片,也 就是NPU,期望在增加AI 計算複雜度的同時也要能改善性能表現,蘋果過去的AI 方案主要也是基於GPU 計算,但同樣在其A11 芯片中引入架構類似的神經網絡芯片。
由於 AI 技術的革新速度超乎預期,眾多芯片客戶心中也開始有了疑惑: arm 的 AI 方案呢? Ian 對 DT 君表示,其實 arm 早在2016 年發表基於Bifrsost 架構的Mali G-71 時,就已經希望藉由該架構來推動AI 在終端以及邊緣計算的應用場景,但當初可和主流AI、機器學習框架緊密結合的整套軟件開發 環境還不夠成熟,且 arm 也不希望揠苗助長,推出半生不熟的環境搞壞自己名聲,因此在 Project Trillium 發布前,基本上也都沒有太多動作。
這次雖然推出通用的 AI 開發平台,但首波針對的還是基於計算機視覺 (CV) 為主的 OD(object detection) 處理設計平台,以及機器學習等市場相對較成熟,且應用較廣的方。 Ian 進一步表示,基於Project Trillium 開發平台的AI 應用將可針對幾乎所有類型的AI 應用,小到IoT 設備,大至數據中心,只要是機器學習相關的應用開發需求,都可基於同一套可變規模 的架構發展出來。
以 GPU 算力為核心,結合 CPU 生態優勢,首波佈局邊緣計算
GPU 計算可說是 arm 未來要發展 AI 計算生態的主要角色, 從第一代 BiFrost 架構開始,就已經針對 AI 計算所需要的各種場景,包含機器學習中的訓練,以及推理加速等進行優化。
我們都知道,過去數據中心以及超算架構中所使用的GPU 架構,其實只能應對訓練,但是訓練完,要利用模型推理的工作處理上,效率非常差,這主要是因為傳統GPGPU 擅長計算32bit 甚至64bit 的高精度整數或浮點計算,但是在深度學習所需要的數據處理而言,其實不需要這麼高的精度,大部分場景下甚至只需要低精度的整數計算即可。 目前,包含 TPU、NPU 等各種專用計算硬件都把 8bit 精度計算當作標準的數據處理寬度,也因此其每秒操作性能都可達數個 TeraFlops。
arm 早在數年前投入研發機器學習架構時,就已經把 8bit 寬度數據處理能力列為標準,不只在 GPU,CPU 中的 NEON DSP 單元也同樣支持 8bit 寬度數據計算,因此基於 arm 機器學習平台,不僅可充分應對機器學習的訓練需求,推理能力也能充分獲得滿足。
圖丨arm推出面向機器學習和神經網絡的 Project Trillium
雖因這樣的設計,過去 arm 的 Mali GPU 在芯片面積及功耗表現稍弱,但隨著芯片工藝的改進,以及各種 AI 計算需求的帶動,其設計的價值也逐漸被顯現出來。
arm 的 AI 計算平台規劃同時也包括了數據中心等應用。 Ian 對此表示,由於數據中心等大型機器學習平台數據流通量極大,如果只是單純把目前針對移動平台開發的 arm 架構規模等比例放大,核心算力雖足夠與一線平台相提並論,但數據傳輸能力就會成為短板,即便核心算力再強大,數據來不及存取,那麼芯片也只能空轉,平白浪費能源。
因此, arm 初期還是會以數據需求量較小的終端和邊緣計算應用為主,著重在小規模的計算應用,2018 年稍晚就會推出新版架構,補足總線與帶寬方面的缺點,正式向目前主流的數據 中心應用挑戰。
-End-