歡迎光臨
我們一直在努力

“AI芯片大清洗”即將來臨:架構巨頭ARM終於出手,要一統人工智能生態丨獨家專訪

長按識別二維碼,收看2018《麻省理工科技評論》區塊鏈商業峰會

作為幾乎所有智能移動終端及多數智能聯網設備的計算核心設計者,全球最為著名芯片架構設計公司 arm 在這兩年 AI 生態蓬勃發展的走勢中一反常態 ,沒有站在主導地位,甚至也沒什麼音量。

可以說,雖然 arm 的地位如今仍然重要,但卻已經不再是眾人眼光的焦點,當蘋果、華為、高通等客戶不斷在 AI 技術與應用上進行創新時, arm 基礎架構似乎還是維持自己的步調,沒有太多波瀾起伏。

 

3 月 6 日,arm 在北京舉辦了人工智能新品發布會。 面對市場的質疑,arm 通過這次發布會正式向市場宣布進軍 AI 方案,實際上 解答了這兩年來為何 arm 在 AI 領域沒有太多作為的具體原因。 在這次為期兩天的發布會中宣布了兩款針對中低端市場的GPU架構及多媒體方案, 但本次發布會的重點還是在第二天關於人工智能方案佈局的座談,ar m 資深市 場營銷總監 Ian Smythe 針對未來 arm 在 AI 應用領域的佈局進行深入的探討。

事實上,該行業巨頭早在 2016 年就已經把觸手伸進多個 AI 應用領域同時發展,包含號稱針對機器學習優化的 Bifrost GPU 架構,以及針對高端服務器芯片的 SVE 延伸指令集。 隨著相關方案陸續成熟,採用者也逐漸增加, arm  終於在今年 2 月底推出 Project Trillium,結合開發環境、算法與各大主流機器學習框架,要佈局從終端到雲端所有 AI 應用開發生態。

為什麼 arm 要在這個時間點推出他們自己的AI方案?

首先,各家使用的 AI 方案架構方面都有不小落差,且應用的兼容性可能也存在些問題,雖然都支持類似的框架,但畢竟沒有一個標準的AI 計算接口存在,在此情況下,應用開發商若要開發各 類行應用,就必須針對不同廠商的設備個別支持,如此曠日廢時,且可能會受限於不同架構的性能落差而使得應用的表現不如預期。

 

其次,開發獨家的 AI 加速架構代價並不低,且除了要考慮到所採用的IP 來源的可擴展性、框架支持廣度、是否提供標準接口,相關算法也不是朝夕之間就可研發出來,如果能夠提供一個可利用既 有架構便可達到接近完全硬件處理AI 算力,不需支出額外的授權成本,也不需要改變既有的芯片設計佈局,那麼對市場而言,其吸引力自然是不言可喻。

 

圖丨 Ian Smythe

arm 資深市場行銷總監 Ian Smythe 對此表示,他們正在做的就是提供業界更多的選擇,其他使用自有 AI 計算架構的客戶也同樣能夠得到好處。

 

但 DT 君認為這是個排他性很強的選擇 ,以包含軟硬件等大生態逼迫客戶放棄未來開發自有 AI 芯片的打算,確保能持續主導整體計算架構發展走勢,未來甚至要挑戰服務器等其他專業 AI 計算架構—— arm 這步棋將為整個 AI 計算生態,尤其是相關芯片產業帶來 另一波榮景,還是一次大滅絕? 恐怕是整個業界目前最關切的。

挑戰高端  AI  計算,直取  NVIDIA  主場,甚至 構築排他性生態

 

arm 要用 針對嵌入式市場的小 GPU 來挑戰 NVIDIA? 乍看之下不大可能,但 Ian 對 DT 君展示了其 AI 計算方案的能效表現,以類似規模的架構來比較, 其實 arm 的方案在能效方面都還是有一定的優勢存在 ,加上 arm 架構原生就支持高效率的推理工作,配合已經相當成熟的開發套件,可以支持大多數主流機器學習框架,相信對開發者可具相當的吸引力。

 

當然,要以絕對性能對抗 NVIDIA,DT 君認為短期間之內還不大現實,但若以能耗、配合  arm  在邊緣計算以及終端上的 AI 算佈局構成完整的生態鏈,那麼要在數據中心市場吃下一定的佔比,也不是不可能的事情。

 

在終端市場方面,前兩年AI熱潮中,各家新創產業紛紛推出自有的AI芯片,尤其是主流CV方案,市場上可說群雄並起,連過去止做低價主控的公司也 都陸續搶進,打造自己的AI方案。

不過,在關鍵的算法方面,多數公司其實都還是倚賴第三方,真正創造自有算法的比例其實很少,就連AI計算架構也可能都是直接取用現成的第三方方案,這些方案的支持 完整性不一,且因為技術來源分散,很難構成,或分享來自一套共通的生態環境的優點,基本上就是處於單打獨鬥的窘境。

然而,arm 這次的作法則是建立了一套從端到雲的完整體系,不論客戶在市場中的定位如何,都能從arm 拿到相對應的方案,且不只是硬件,就連開發工具 包以及算法都能提供。 DT 君認為 這將造成相當深遠的影響,個別的 AI 芯片架構 IP 或者是算法 IP 供貨商會先受到一定的衝擊,甚或可能會被逐步逼出市場

諸如寒武紀、深鑑等想要打進主流消費AI方案的供貨商恐怕將成為首波受害者,arm自家方案擁有強大的生態優勢, 即便絕對性能可能還稍微落後寒武紀或深鑑的方案,但憑藉極低的導入門坎,及對主流算法模型的完整支持,且額外增加的成本極低,客戶會如何選擇,其實已經不言 可喻。

arm 方面也在說明會上表示,其架構將可承載不同的算法來進行各種 AI 應用,算法來源不限定。 然而,arm 自己也在發展相關算法,表面上的說法是要提供客戶更多樣化的選擇,但真正的盤算, 恐怕是要對整個 AI 市場進行一次大清洗,並替換成自己的生態,藉此擴大 arm 的市場格局,走向真正的架構霸主之路。

畢竟從arm 生態的歷史發展中,以嵌入式GPU 為例,當初arm 和Imagination 兩家英國IP 公司關係緊密,相互提攜,但後來arm 決定要發展自有的GPU 架構後,沒錯,市場有了 更多的選擇,但事實上,arm 依靠包裝行銷與生態的優勢,將Imagination 打到落花流水。 除少數如高通的 Andreno 自有 GPU 架構較不受影響外,目前嵌入式 GPU 的 IP 授權產業幾乎也都被arm 通吃,不復見以往競爭激烈的局面。  

後續 arm 也進入多媒體與顯示相關方案的 IP 市場,同樣對相關產業的技術供應商造成相當大的影響,雖然擴大產品佈局是 arm 避免在特定領域掉隊, 繼而維持其市場霸業的最有效方式,而被其策略佈局影響到的對手或客戶可能就不是那麼樂意了。  

當然,arm 的客戶永遠都有得選擇,但依附在 arm生態之下的第三方 IP 供應商就未必了。

早期從固定功能軟件著手,後續補齊硬件與整體開發生態

 

實際上,如果從當年  arm  進入 GPU 市場對市場所帶來的影響觀察,上面所描述結果或許就不那麼讓人驚訝了。 循序漸進 ”是   arm   近年來佈局 AI 生態時很重要的遵循方向,Ian 向 DT 君說道。

 

其實, arm 早在 NPU 等 AI 加速芯片概念出現之前,就已經搶先在手機以及其他聯網終端產品中引入 AI 計算概念,而且值得一提的是,雖然 arm 是提供計算架構硬件基礎核心的公司,算法與軟件生態環境通常都是跟著新架構發展,但是在AI 生態方面,卻反其道而行,算法和軟件先行,後續才逐漸補上硬件設計與開發 環境。

 

以華為公司的手機為例,其實雖然消費大眾被其在Kirin 970 中採用的NPU 設計抓住了眼光,認為此類硬件AI 計算架構算是開創了手機產品的另一個新時代,但事實上,早 在Kirin 960 時,ARM 就已經提供華為不少關於物件偵測、語音加速以及照相處理等算法與AI 軟件功能,妥善利用了當時 arm 芯片基於 GPU 與 CPU 合作而來的 AI 計算能力, 雖然沒有真正的硬體加速方案,但在效率上已經相當受肯定

 

圖丨Kirin 970

Ian 對 DT 君表示,早期移動終端對 AI 概念還不明顯,因此 arm 先提供功能有限的軟件方案讓市場嚐鮮,等到市場看出更多應用潛力,不滿於現有的軟硬件搭配時, arm 再推出更完整的硬件設計與開發環境,承接這些想要創造更多可性的客戶的需求。

 

市場的需求總是會一直前進,且應用也會越趨複雜,Mate 10 的AI 場景攝影功能由於進行了更多、更複雜的計算,華為因此選擇在芯片中集成了專屬的AI 計算芯片,也 就是NPU,期望在增加AI 計算複雜度的同時也要能改善性能表現,蘋果過去的AI 方案主要也是基於GPU 計算,但同樣在其A11 芯片中引入架構類似的神經網絡芯片。

 

由於 AI 技術的革新速度超乎預期,眾多芯片客戶心中也開始有了疑惑: arm 的 AI 方案呢? Ian 對 DT 君表示,其實 arm 早在2016 年發表基於Bifrsost 架構的Mali G-71 時,就已經希望藉由該架構來推動AI 在終端以及邊緣計算的應用場景,但當初可和主流AI、機器學習框架緊密結合的整套軟件開發 環境還不夠成熟,且 arm  也不希望揠苗助長,推出半生不熟的環境搞壞自己名聲,因此在 Project Trillium 發布前,基本上也都沒有太多動作。

 

這次雖然推出通用的 AI 開發平台,但首波針對的還是基於計算機視覺 (CV) 為主的 OD(object detection) 處理設計平台,以及機器學習等市場相對較成熟,且應用較廣的方。 Ian 進一步表示,基於Project Trillium 開發平台的AI 應用將可針對幾乎所有類型的AI 應用,小到IoT 設備,大至數據中心,只要是機器學習相關的應用開發需求,都可基於同一套可變規模 的架構發展出來。

GPU 算力為核心,結合 CPU 生態優勢,首波佈局邊緣計算

 

GPU 計算可說是 arm  未來要發展 AI 計算生態的主要角色, 從第一代 BiFrost 架構開始,就已經針對 AI 計算所需要的各種場景,包含機器學習中的訓練,以及推理加速等進行優化。

 

我們都知道,過去數據中心以及超算架構中所使用的GPU 架構,其實只能應對訓練,但是訓練完,要利用模型推理的工作處理上,效率非常差,這主要是因為傳統GPGPU 擅長計算32bit 甚至64bit 的高精度整數或浮點計算,但是在深度學習所需要的數據處理而言,其實不需要這麼高的精度,大部分場景下甚至只需要低精度的整數計算即可。 目前,包含 TPU、NPU 等各種專用計算硬件都把 8bit 精度計算當作標準的數據處理寬度,也因此其每秒操作性能都可達數個 TeraFlops。

 

arm 早在數年前投入研發機器學習架構時,就已經把 8bit 寬度數據處理能力列為標準,不只在 GPU,CPU 中的 NEON DSP 單元也同樣支持 8bit 寬度數據計算,因此基於 arm 機器學習平台,不僅可充分應對機器學習的訓練需求,推理能力也能充分獲得滿足。

 

圖丨arm推出面向機器學習和神經網絡的 Project Trillium

雖因這樣的設計,過去 arm 的 Mali GPU 在芯片面積及功耗表現稍弱,但隨著芯片工藝的改進,以及各種 AI 計算需求的帶動,其設計的價值也逐漸被顯現出來。

 

arm 的 AI 計算平台規劃同時也包括了數據中心等應用。 Ian 對此表示,由於數據中心等大型機器學習平台數據流通量極大,如果只是單純把目前針對移動平台開發的 arm 架構規模等比例放大,核心算力雖足夠與一線平台相提並論,但數據傳輸能力就會成為短板,即便核心算力再強大,數據來不及存取,那麼芯片也只能空轉,平白浪費能源。

因此, arm  初期還是會以數據需求量較小的終端和邊緣計算應用為主,著重在小規模的計算應用,2018 年稍晚就會推出新版架構,補足總線與帶寬方面的缺點,正式向目前主流的數據 中心應用挑戰。

 

-End-

未經允許不得轉載:頭條楓林網 » “AI芯片大清洗”即將來臨:架構巨頭ARM終於出手,要一統人工智能生態丨獨家專訪