螞蟻推AI技術大模型訓練提高33%GPU顯存推理提速2倍

本文共901字

2024/01/17 21:13:35

聯合報記者黃雅慧／即時報導

螞蟻集團在整改之外，在AI大模型領域上仍邁開技術自研步伐。近期新浪科技報導，螞蟻集團推出技術框架「GMLake」，該框架能夠解決大模型訓練中的顯存問題，最多提高33%的GPU可用顯存；同時近期螞蟻也開源新算法「Lookahead推理加速框架」，降低推理耗時。

和訊網報導，在ChatGPT浪潮下，生成式大模型正引領當前AI發展。而為了訓練得到高效大模型，需要強大和昂貴的基礎算力支撐。目前制約高效訓練的因素中，除了算力，顯存容量也非常關鍵，即「內存牆」問題。

一段時間以來，業界已有很多優化工作，包括模型、框架層的改造，甚至犧牲模型精度。目前業界廣泛使用的訓練框架如PyTorch存在顯存管理效率不高，顯存資源碎片化的現象，而當業界使用優化手段後，碎片化問題反而更突出。

因此螞蟻集團和上海交通大學合作GMLake技術研究。該框架採用虛擬、物理兩層指針，將碎片化的顯存靈活地拼接起來，從而實現了聚零為整。

值得一提的是，GMLake對典型大模型如GPT、GLM、Vicuna等進行了詳細評測，最高擴大了約33%的可用顯存，即在80GB的A100 GPU上節省約25GB的顯存，訓練吞吐提高最多4倍。

據了解，GMLake目前已在PyTorch框架上完成集成，對上層模型代碼和框架代碼完全透明，換言之模型不需要修改任何代碼便能使用。

此外，螞蟻集團還開源一套新算法「Lookahead推理加速框架」，能幫助大模型在推理時，提速2至6倍，效果無損，即插即用，該算法已在螞蟻大量場景進行了落地，大幅降低推理耗時。

據IT時報指出，原來詞元（token）生成過程，就像早期中文輸入法，只能一個字一個字「敲」出來，如採用螞蟻加速算法後，token生成就像聯想輸入法，有些整句可直接「蹦」出來。

螞蟻集團首席技術官何征宇近日通過科創板日報表示，大模型真正歷史性的突破是幫助行業生產力提升，而且有可能讓人類社會生產力劇增。「我們做大模型技術的最終目標還是會面向產業，也包括金融產業、醫療產業等專業服務場景，幫助他們去做產業升級。」而螞蟻集團發言人在去年11月表示，在獲得大陸官方批准後，集團AI大模型百靈大模型多款產品將向公眾開放。