經濟日報 App
  • 會員中心
  • 訂閱管理
  • 常見問題
  • 登出

阿里雲推出具備圖文理解能力的兩款大規模視覺語言模型

本文共915字

經濟日報 記者彭慧明/即時報導

國際大廠競爭大型語言模型(LLM)規模與理解能力,特別是圖文理解、多模態訊息理解與生成能力。阿里巴巴旗下阿里雲宣布推出兩款大規模視覺語言模型Qwen-VL及Qwen-VL-Chat,支持中英文圖文輸入,具備多模態訊息理解能力,在其開源社區魔搭(ModelScope)及AI協作平台Hugging Face上架,促進開源生態發展。

阿里雲指出,Qwen-VL和Qwen-VL-Chat是支持中英文語言的視覺語言模型,以阿里雲之前開源的通義千問70億參數模型Qwen-7B為基礎語言模型研發,具備中英文圖文識別、描述和問答對話能力,新增視覺定位和圖像文字理解能力。

Qwen-VL及基於這一模型微調的對話模型Qwen-VL-Chat可用於知識問答、圖像標題生成、圖像問答、文件問答、細粒度視覺定位等多種場景。例如用戶可拍下醫院樓層導覽圖,問Qwen-VL Chat:「外科在哪層?」、「耳鼻喉科去哪層?」,Qwen-VL會根據圖片訊息給出文字回覆。

為進一步助力AI技術普惠,全球學術、研究及商業機構均可免費獲取上述模型的代碼、模型權重和文件。對於商業應用需求,月活躍用戶少於1億的公司可免費使用模型,用戶數超過該量級的企業可向阿里雲申請許可證。

Qwen-VL和Qwen-VL-Chat以Qwen-7B為基座語言模型,在模型架構上引入視覺編碼器,使得模型支持視覺訊號輸入,並透過設計訓練過程,讓模型具備對視覺訊號的細粒度感知和理解能力。Qwen-VL支持的圖像輸入分辨率為448,此前開源的LVLM模型通常僅支持224分辨率。在Qwen-VL的基礎上,通義千問團隊使用對齊機制,打造基於LLM的視覺AI助手Qwen-VL-Chat,可讓開發者快速搭建具備多模態能力的對話應用。

為了測試模型的多模態對話能力,通義千問團隊構建一套基於GPT-4算分機制的測試集「試金石」,對Qwen-VL-Chat及其他模型進行對比測試,Qwen-VL-Chat在中英文的對齊評測中均取得開源LVLM最好結果。

8月初,阿里雲釋出通義千問70億參數通用模型Qwen-7B和對話模型Qwen-7B-Chat。不到一個月,兩個模型在開源社區的累計下載量已突破40萬。

※ 歡迎用「轉貼」或「分享」的方式轉傳文章連結;未經授權,請勿複製轉貼文章內容

延伸閱讀

上一篇
南亞科蟬聯公司治理評鑑排名前5%
下一篇
鴻海:今年營運將優於去年 董座劉揚偉看好 AI 帶動需求

相關

熱門

看更多

看更多

留言

完成

成功收藏,前往會員中心查看!