本文共931字
AI伺服器大廠美超微Supermicro日前推出3款SuperCluster解決方案,加速生成式AI部署,此方案能為現今及未來大型語言模型(LLM)硬體基礎設施提供核心建構組件。
Supermicro的3款強大SuperCluster解決方案現已上市,並可被用於生成式AI工作運行,提供4U液冷系統或8U氣冷系統,專為強化LLM訓練性能,以及高度批次大小且大量的LLM推論所設計。配備1U氣冷Supermicro NVIDIA MGXTM系統的第三款SuperCluster超級叢集,則針對雲端級推論進行最佳化。
Supermicro 4U NVIDIA HGX H100/H200 8-GPU系統透過液冷技術,使8U氣冷系統運算密度加倍,同時降低能耗量與總體擁有成本,支援下一代NVIDIA的Blackwell架構GPU。Supermicro冷卻分配單元與冷卻分配分流管是主要冷卻液流動脈絡,可將冷卻液輸送至Supermicro定製的直達晶片冷板,使GPU和CPU處於最佳運行溫度,進而實現效能最大化。此散熱技術可使一整座資料中心電力成本降低最多40%,同時節省資料中心占地空間。
搭載NVIDIA HGX H100/H200 8-GPU的系統非常適合用於訓練生成式Al,透過NVIDIA NVLink技術高速互連的GPU,以及高GPU記憶體頻寬與容量,將成為符合成本效益運行LLM的核心關鍵。Supermicro的SuperCluster具備龐大GPU共用資源,能作為AI超級電腦進行運算作業。
無論是導入最初就以數兆級詞元資料集進行完整訓練的大型基礎模型,或開發雲端級LLM推論基礎架構,具有無阻式400Gb/s網路結構的主幹枝葉式架構,都能從32個運算節點順暢擴展至數千個節點。針對完全整合的液冷系統,Supermicro產品出廠前會經由認證的測試流程,徹底驗證及確保系統運行成效與效率。
至於採用NVIDIA GH200 Grace Hopper Superchip的Supermicro NVIDIA MGX系統設計,將能打造出未來AI運算叢集的架構樣式,以解決生成式AI的關鍵瓶頸:運行高推論批次大小的LLM所需的GPU記憶體頻寬及容量,進而降低營運成本。
※ 歡迎用「轉貼」或「分享」的方式轉傳文章連結;未經授權,請勿複製轉貼文章內容
留言