美國西部時間3月14日,在美國圣何塞舉辦的2019 OCP全球峰會上,百度宣布與Facebook、微軟展開合作,聯合制定OAM (OCP Accelerator Module) 標準。該標準用于指導AI硬件加速模塊和系統設計。
不同于普通的CPU服務器,AI硬件系統是一個深度定制化的系統,需要通過AI硬件加速模塊之間的高速互聯通信來實現縱向擴展,通過多節點之間的高速互聯通信來實現橫向擴展,通過新的高速信號、供電和散熱技術來解決AI硬件加速模塊和系統設計中的硬件挑戰。
OAM標準,就是針對上述問題設計的一套指導AI硬件加速模塊和系統設計的標準,它集合定義了AI硬件加速模塊本身、主板、互聯拓撲、機箱、供電、散熱以及系統管理等系列設計規范,主要目標是通過模塊化、標準化來增強不同AI硬件加速模塊和系統的互操作性,加速新的AI硬件加速模塊的落地和應用。本次發布的標準,主要是AI硬件加速模塊本身、主板、互聯拓撲等相關的基礎規范。
隨著AI技術的快速發展,眾多AI芯片公司應運而生,AI芯片產業的格局正呈現多元化發展趨勢。由于AI硬件系統設計的技術難度和復雜性,其研發周期通常長達一年,并且需要投入大量的研發資源,這嚴重阻礙了新AI加速芯片的落地和應用。通過OAM標準,可以統一AI硬件加速模塊和系統,有效兼容多元化AI加速芯片,促進AI芯片多元化生態格局的健康持續發展。
當前公布的OAM標準,是由參與OCP開放計算項目的百度、微軟、Facebook三家國際AI領先企業聯合定義,已經得到包括Google、阿里、騰訊等互聯網企業,英偉達、英特爾、AMD、高通、賽靈思等AI芯片企業,Graphcore、Habana Labs等AI芯片及處理器初創企業,以及IBM、聯想、浪潮等ODM/OEM系統廠商的參與和支持。對此,百度副總裁侯震宇表示:“百度非常高興能夠與Facebook和微軟圍繞OAM標準的制定展開合作,該標準將極大提高不同AI硬件加速模塊的互操作性,加速新AI硬件加速模塊的大規模落地應用。我們相信,全球AI硬件生態系統都會從此中受益?!?/p>
OCP開放計算項目,是由Facebook攜手英特爾、Rackspace等公司于2011年成立的一個非營利組織,也是全球云計算基礎硬件技術領域覆蓋面最廣、最有影響力的開源組織。在人工智能行業蓬勃發展、全球AI科技巨頭對于AI技術的探索日趨多元的背景下,百度加入OCP項目,并攜手Facebook和微軟制定OAM標準,將能夠發揮自身在AI技術領域的優勢,與全球AI領袖一起,推動構建開放的AI硬件生態系統。
對于迅猛發展中的百度AI而言,作為世界上最大的超大規模數據中心運營商之一,百度擁有先進的數據中心、網絡和服務器技術,并通過百度智能云持續地將自身領先的AI技術能力提供給客戶。作為百度AI基礎架構的底層支撐,百度超級AI計算平臺X-MAN在統一的基礎架構之上,融合了硬件解耦、資源池化、液冷散熱、模塊標準化及靈活的互聯拓撲等前沿設計理念,OAM標準是助力這一理念落地的關鍵一環。自2016年誕生以來,X-MAN歷經三代發展、三次架構升級,創造了六項業界第一,同時期關鍵技術和性能保持領先,引領行業發展趨勢,并已在百度大規模應用,助力百度AI戰略快速落地。
此外,這不是百度第一次參與國際AI領域技術標準的制定了。2018年5月,在紐約人工智能大會上,百度、谷歌、斯坦福大學、哈佛大學等多家企業和高校聯合發布了一套用于測量和提高機器學習軟硬件性能的國際基準 MLPerf,旨在推動機器學習硬件+軟件相關技術創新。而此次百度加入OCP并參與制定OAM標準,不僅將又一次推動AI新硬件技術全球范圍內的創新與進步,還會進一步將自己在AI領域的最佳實踐、專業能力和創新能力,貢獻給國際AI社區,促進世界AI水平的進步。