打開 App

  • 會員中心
  • 訂閱管理
  • 常見問題
  • 登出
bell icon

輝達 Blackwell 在 InferenceMAX 奪「效能+效率」雙冠

本文共1560字

經濟日報 記者朱子呈/台北即時報導

產業分析機構 SemiAnalysis 在近日新發布的 InferenceMAX v1 基準測試中,輝達(NVIDIA)最新一代 Blackwell 平台(B200、GB200 NVL72)同時拿下「跑得最快」與「最省成本」兩大關鍵指標。這套基準以「真實場景、算總成本(TCO)」為設計核心,不只比速度,還把每百萬詞元(token)成本、能效與互動延遲納入評比,更貼近企業營運 AI 的現實需求。

InferenceMAX v1 是產業研究機構 SemiAnalysis 推出的開源、廠商中立 AI 推論基準;它在真實工作負載下,同步衡量資訊輸送量(tokens/s per GPU)、互動性(TPS/user)與每百萬詞元成本(TCO),並以帕雷托前沿呈現效能與延遲的權衡。此基準採夜間持續跑測、跨多款熱門模型與多家硬體平台,程式碼與方法公開、可重現,近來已被多家科技媒體報導,且輝達、超微等業者亦公開回應與引用,使其在觀察「推論經濟學」上具有代表性與參考性。

輝達超大規模與高效能運算副總裁 Ian Buck 表示:「推論是 AI 每天創造價值的關鍵。這些結果證明,NVIDIA 的全端策略提供客戶在大規模部署 AI 時所需的效能與效率。」

NVIDIA 以示範情境強調,若投入 500 萬美元建置 GB200 NVL72,可望創造 7,500 萬美元的詞元收入,折算投報率約 15 倍。同時,透過軟體堆疊最佳化,B200 在開源模型 gpt-oss 上把每百萬詞元成本壓到約 0.02 美元;能效面也較前代每兆瓦輸送量提升 10 倍、整體每百萬詞元成本降低 15 倍。

在實測表現上,輝達舉出兩組代表數據:其一,採用 TensorRT-LLM 的 B200 在 gpt-oss 上,可達到每顆 GPU 每秒 60,000 個詞元、每位使用者每秒 1,000 個詞元的互動效能;其二,最新版 gpt-oss-120B-Eagle3-v2 導入推測式解碼(speculative decoding)後,每位使用者 TPS 較前版提升約 3 倍,達每用戶每秒100 詞元,而每顆 GPU 速度由約 6,000 拉高至 30,000 詞元/秒。此外,面對 Llama 3.3 70B 這類參數密集模型,B200 在「每 GPU 10,000 詞元/秒、每使用者 50 TPS」條件下,每 GPU 吞吐量較 H200 提升約 4 倍。簡單說,無論是大量並發或講求即時回應的場景,Blackwell 都把速度與互動性往上推。

為什麼能做到? 核心在「硬體+軟體」同時設計:硬體面導入 NVFP4 低精度格式,在不犧牲準確度的前提下提升效率;第 5 代 NVLink 與 NVLink Switch 將72 顆 Blackwell GPU 以雙向 1,800 GB/s高頻寬串成「一顆大 GPU」;軟體面以 TensorRT-LLM v1.0、NVIDIA Dynamo 搭配 vLLM、SGLang等開源推論框架做深度優化。NVIDIA 並表示自 Blackwell 發表以來,單靠軟體就把效能再拉高超過兩倍。

至於 InferenceMAX v1 本身,採用帕雷托前沿(Pareto frontier)呈現「資料中心輸送輛」與「回應性」的多目標權衡,強調 Blackwell 在多維度同時取得較佳位置,目的在避免只為單一測項「刷分」而犧牲實際經濟性。

整體來看,NVIDIA 想傳達的重點是:Blackwell 不只更快,還試圖把「更快」直接變成「更低的每百萬詞元成本」與「更高的 ROI」。不過,投報與成本數據仍取決於各企業的電價、上架率、SLA 與模型設定等差異,後續可持續觀察此基準在第三方重現、與其他供應商在相同條件下的對比結果。

輝達執行長黃仁勳主題演講。記者朱子呈/攝影
輝達執行長黃仁勳主題演講。記者朱子呈/攝影

※ 歡迎用「轉貼」或「分享」的方式轉傳文章連結;未經授權,請勿複製轉貼文章內容

猜你喜歡

上一篇
保瑞10月營收年減17.9% 看好美國製造提供業績動能
下一篇
鴻海領軍機器人聯盟成形 上銀、東元、和大等入列 力拚躋身亞洲製造中心

相關

熱門

看更多

看更多

留言

完成

成功收藏,前往會員中心查看!