打開 App

  • 會員中心
  • 訂閱管理
  • 常見問題
  • 登出

DeepSeek擬首度對外融資 V4徹底擺脫輝達

本文共1032字

聯合報 記者林宸誼/即時報導

打破「從不融資」鐵律的大陸人工智慧(AI)新創公司DeepSeek正尋求首輪外部融資,目標籌集至少3億美元(新台幣96億元),估值最少100億美元(新台幣3185億元)。

此外DeepSeek V4的發布時間一再推遲,跟模型本身關係不大,實際上是一場底層硬體的大遷移。以往DeepSeek之前所有模型都基於輝達達晶片訓練。但這次V4將運行在華為最新的昇騰晶片上。

The Information報導,DeepSeek這次選擇啟動融資,代表DeepSeek創始人梁文鋒終於做出巨大的轉變。先前作為技術理想主義者的他,一直希望保持DeepSeek的獨立性,不受商業壓力的干擾。

DeepSeek上一次發布新一代模型,還是在2025年 R1爆火時。如今DeepSeek已經讓全行業等了一年半。

如果此次融資成功,DeepSeek就可以擁有更多算力,同時還能開出更高薪酬,防止頂尖研究者流失。

不過,由於DeepSeek「大陸初創公司」的身分,一些美國風險投資人態度會比較謹慎。

V4原定今年2月亮相,但已跳票多次。路透在4月初給出的最新時間是「未來幾周內」。從目前已知資訊來看,V4的規模和野心遠超前代。參數量躍升至萬億級別。

V4採用MoE架構,總參數約1兆,但每個token僅啟動約370億參數,推理成本與V3持平。這個設計思路延續了DeepSeek一貫的效率優先哲學。

V4引入一套名為Engram的條件記憶架構,實現對超長上下文的恒定時間檢索。據內部測試,在100萬token長度下的資訊召回率達到97%,遠超V3在128K上下文時的表現。

金融時報報導,V4將是DeepSeek首個原生多模態模型,支持文本、圖像和影片生成。先前DeepSeek的模型一直以純文字為主,而其他旗艦模型早已擁抱多模態。

V4從立項之初就以代碼生成為核心目標。內部benchmark顯示SWE-bench成績超過80%,HumanEval達到90%。據稱V4能處理整個代碼倉庫級別的複雜bug修復,在長上下文代碼推理上的表現將超越Claude和GPT系列。

DeepSeek的工程師們花了大量時間解決V4對華為晶片的適配問題,重寫核心代碼,從輝達的CUDA生態遷移到華為的CANN架構。這是一個技術決策,也是一個戰略信號。

DeepSeek刻意沒有給輝達和AMD提前提供V4做優化適配,而是將早期存取權限獨家給了國產晶片廠商。

如果V4在華為晶片上跑出有競爭力的性能,將是全球第一個不依賴輝達的前沿AI模型。

DeepSeek即將推出的新一代模型V4,傳將捨棄輝達改採華為設計的最新晶片。路...
DeepSeek即將推出的新一代模型V4,傳將捨棄輝達改採華為設計的最新晶片。路透

※ 歡迎用「轉貼」或「分享」的方式轉傳文章連結;未經授權,請勿複製轉貼文章內容

猜你喜歡

上一篇
陸新能源車滲透率衝破60% 市場消費主力地位確立
下一篇
美伊戰爭引發囤貨潮 陸上月出口意外大增14%

相關

熱門

看更多

看更多

留言

前往頁面