隨着人工智能、雲計算等技術的快速發展,算力需求爆發,服務器設計呈現多元異構特徵,如何快速適配多種通用計算處理器、多種異構加速器和各類部件,實現服務器高效、穩定、可靠運行,對服務器管理的兼容性、精細度、定製化和快速迭代能力提出了一系列新的挑戰,BMC作爲服務器管理和監控的核心部件,相關技術和發展趨勢備受關注。

近日,在ODCC峯會“數據中心管理的開放之路”的圓桌對話上,來自英特爾、三星和浪潮信息的技術專家,從多元算力時代下管理固件面臨的挑戰、OpenBMC社區的發展現狀、管理固件未來發展趨勢等方向,暢聊數據中心固件管理開放之路,深度探討OpenBMC爲數據中心固件管理發展帶來的全新機遇與變革路徑。

數據中心規模化發展,點燃BMC管理固件開源開放

BMC是在服務器中嵌入的複雜而獨立SoC(System on Chip)系統,硬件上由BMC處理器、內存、Flash和外圍I/O組成,連接着服務器的處理器、存儲、傳感器等各類組件,軟件上基於Linux內核構建了嵌入式操作系統固件。BMC固件是服務器、整機櫃到數據中心it設備管理的關鍵核心, BMC不僅可以通過遠程控制、故障診斷、配置部署、固件升級等各類運維管理功能,保障服務器安全可靠運行,也可以爲整機櫃、數據中心管理平臺提供Redfish、IPMI、SNMP等API接口,實現海量服務器遠程集中運維管理和批量部署,是數據中心高效管理的核心組件。

英特爾雲計算系統架構師劉凌雲在回顧BMC的演進過程中表示,BMC固件以往依賴IBV(Independent BMC Vendor,獨立BMC固件提供商)設計的閉源商業方案。但隨着超大規模互聯網應用場景的增多,傳統BMC開發週期長、線上故障響應不及時、安全需求及功能固化等問題日益突出。2014年,meta(Facebook)面對傳統BMC開發週期長、問題處理響應慢、黑盒代碼不安全等問題,設計並開源了其管理固件解決方案,2015年META、谷歌、IBM、英特爾、微軟共同發起成立OpenBMC社區,點燃了管理固件開源開放的星星之火。

對此,浪潮信息服務器固件研發經理王興隆補充道:“服務器管理固件的產業生態是在數據中心規模不斷擴大的背景下逐漸成熟,而傳統BMC開發模式封閉、代碼閉源、架構陳舊,已無法滿足大規模數據中心更加精細化、深層次的管理需求,OpenBMC應運而生,OpenBMC通過先進的軟件架構讓各功能模塊深度解耦,甚至能夠按需加載功能模塊,提升了代碼的可移植性,顯著縮短了固件開發週期;開源開放讓上下游廠商能夠共同參與貢獻,促進了產業合作與發展。隨着2018年OpenBMC被Linux基金會接納,行業對其認可程度逐年提升。”

同時,藉助OpenBMC,服務器、部件等領域的固件創新也在加強,三星電子西安電子研究所資深高級工程師李寧分享了三星和浪潮信息合作的SSD帶外管理創新項目。三星通過優化SSD內部架構,設計獨立的帶外管理控制器監控SSD的主控部件,將SSD的管理和主控分離,管理控制器獨立供電,不僅帶來更強大的帶外管理能力,控制邏輯也更加可靠。同時浪潮信息基於OpenBMC實現BMC與SSD的帶外管理信息交互,實現了資產信息獲取、SSD健康狀態監控、運行日誌抓取、主動告警等功能特性,相比傳統BMC,明顯提升協同開發調試效率,縮短了開發週期,加快了產品落地進度。

智算崛起 數據中心管理固件開放成爲剛需

如果說數據中心的規模化發展點燃了BMC固件管理開源開放的“星星之火”,那麼數據中心算力的多元化將讓開放的BMC管理固件形成“燎原之勢”。劉凌雲指出,通用服務器BMC需管理的硬件主要有CPU、存儲、網絡、散熱風扇等,但在AIGC平臺上,BMC需要管理的硬件不但數量多,類型也百花齊放,從之前的單一的GPU卡到現在新興的GPGPU卡、AI加速卡、FPGA卡等各種異構加速器,以及其他的通用計算平臺。面對衆多的芯片,需要定義更加開放的BMC管理接口標準,以實現數據中心高效管理。

王興隆進一步解釋說:傳統BMC固件架構落後,可擴展性差,無法快速適配兼容不同的處理器、加速器。開放的OpenBMC固件基於分層解耦的軟件架構,功能模塊之間通過一致的系統總線接口協議進行交互,擴展性高,能夠實現靈活的模塊化開發,同一套OpenBMC固件代碼能夠同時兼容多種處理器平臺、多種異構加速器等關鍵部件,對於新增部件能夠快速適配兼容,大幅縮短迭代週期,提升開發效率。

除了多元算力對BMC固件擴展性、定製化的需求,劉凌雲還表示,高算力帶來的高功耗也在推動數據中心散熱體系變革,風冷式、冷板式、浸沒式液冷方案持續並存,這些都需要BMC的統一管理調度。面對超大型互聯網、人工智能等應用場景,新興服務器硬件種類繁多、快速迭代,OpenBMC已經不是錦上添花,而是“非你莫屬”了。

王興隆指出,在異構多元算力需求不斷提升的背景下,算力縱向擴展瓶頸越來越明顯,橫向擴展成爲趨勢,爲提升算力資源協同利用率,浪潮信息設計實現融合架構3.0原型系統,將通用計算、異構加速計算、內存、存儲、I/O等資源池化,實現硬件解耦,同時面向不同應用場景需要通過軟件定義進行硬件資源重構,形成適用於不同應用負載的服務器系統,而OpenBMC爲軟硬件協同承擔了更多軟件定義的角色。

傳統BMC or OpenBMC,企業何去何從

OpenBMC勢不可擋,但是否意味着傳統BMC走向末路了呢?對此,劉凌雲認爲傳統的BMC和OpenBMC當前是兩條技術路線,適應於不同的應用場景。中小規模的數據中心用戶關注業務穩定性,關注管理固件的兼容性,對定製化要求不高,固件管理的技術投入資源有限,對技術類別不敏感,傳統的BMC在這種場景仍然有着廣闊空間。而對於大型、超大型互聯網客戶,快速響應,更高性能、更精細化的管理、定製化等訴求則更適合採用OpenBMC。目前處理器廠商正在圍繞帶外管理,運用OpenBMC更精細的管理數據中心設備,在故障診斷、預警、安全等方面進行固件技術創新,以保證較高可用性、可靠性和可管理性。

OpenBMC經過近十年的發展,已經形成較爲穩定的基礎代碼,國內大型csp已發佈OpenBMC方案,服務器廠商也在持續開發OpenBMC相關產品和配套解決方案,在剛剛結束的ODCC開放數據中心產業峯會上,浪潮信息發佈了基於OpenBMC的最新服務器管理固件解決方案,面向通用客戶實現OpenBMC落地應用。

產業界上下游攜手,加速OpenBMC發展

出席“大咖來了”的三位嘉賓一致認爲OpenBMC是大勢所趨,數據中心管理固件的開源開放將推動和強化服務器、部件、處理器等多方面的協同,併爲數據中心高效管理提供更優的解決方案。從部件角度,三星未來將聚焦於存儲部件帶外管理,基於OpenBMC開源代碼進行固件創新,提供增強的帶外管理能力,比如產品內部各組件監控,設備壽命預測,智能化故障分析,異常恢復和設備認證數據加密等方面。同時,基於OpenBMC的設備帶外管理標準化對推動產業上下游協同至關重要,三星攜手浪潮信息在近期的ODCC峯會中發佈了《服務器插入式設備帶外管理白皮書》,希望通過定義部件管理的軟硬件接口,加速部件與主機BMC適配效率。

從英特爾角度來看,OpenBMC最重要的功能就是帶外監控和管理,未來管理會更加智能化、細粒度和更安全,從而提升數據中心SLA降低TCO。例如內存故障預測隔離,能顯著降低服務器故障率;在線無縫的固件升級,還有對CPU狀態性能監測功耗的優化管理會也更加精細,以及對硬件的保護提升安全性等等。此外OpenBMC做爲開源開放平臺,在GPU卡、節能散熱等方面建立標準化管理接口也是未來英特爾研究的方向。

浪潮信息則認爲OpenBMC的發展會更加開放,更廣泛的產品應用和更穩定的社區基礎代碼,將吸引更多的上下游廠商參與到社區的建設當中。同時OpenBMC將會更加標準化,當前面向用戶側的管理接口已通過Redfish規範進行了標準化,但在服務器內部的部件管理標準化程度還不夠,相信OpenBMC將推動內部管理接口標準化。目前,爲了滿足數據中心多元化的算力需求,浪潮信息開發了基於OpenBMC的服務器管理固件平臺InBry,並對接數據中心集羣管理平臺InManage,推動形成從部件到服務器到數據中心的全生命週期精細化管理。

未來,OpenBMC產品化應用更爲廣泛,更多用戶將會從OpenBMC受益,OpenBMC持續健康發展將爲數據中心產業的綠色高質量發展創造更大價值。

相關文章