打開 App

  • 會員中心
  • 訂閱管理
  • 常見問題
  • 登出
bell icon

讓世界的 AI「懂台灣」 IMA 攜手文化人推動「Taiwan Tongues」

本文共2305字

經濟日報 記者黃晶琳/台北即時報導

在全球生成式 AI 蓬勃發展的時代,大型語言模型(LLM)已成為驅動智慧應用的關鍵引擎,但全球主流語言模型多數以「英文」或「簡體中文」為主,AI 難以理解台灣語言與文化,恐形成新一波數位落差與文化邊緣化。為讓世界的AI「懂台灣」,IMA資訊經理人協會攜手文化人,推動「Taiwan Tongues台灣通用與料庫」。

IMATaiwan Tongues 4日舉行「Taiwan Tongues」記者會,數發部次長林宜敬出席,已經授權其作品的文學作家胡長松、向陽、曾貴海代表人曾澤民,共同暢談語料釋出的文化初衷與願景,同時亦邀請文訊雜誌社社長兼總編輯封德屏代表文學界對本計畫的期待。

此外,交大教授廖元甫與群聯電子技術長林緯,也分享運用Taiwan Tongues語料進行LLM訓練的成果與未來潛力。各界齊聚,共同開啟台灣語言在 AI 時代的新篇章。

IMA資訊經理人協會理事長暨台灣大資訊長蔡祈岩表示,「我們不得不正視一個現實,當主流語言模型以英文及簡體中文為訓練基礎,台灣的通用語言在資料量與辨識度上嚴重不足,導致我們的語言、文化與價值觀在數位世界中逐漸被邊緣化」。

蔡祈岩指出,IMA攜手台灣作家及文化人,推動「Taiwan Tongues台灣通用與料庫」,目標要讓全世界的AI服務(ChatGPT、Perplexity等)可以「懂台灣」,目標是讓台灣語言不只是被保存,更成為全球 AI 模型學習的核心語料,讓世界真正「聽懂」與「理解」台灣。

蔡祈岩指出,語言是文化的根基,唯有打造自主、開放、可信的語料體系,台灣才能在全球 AI 發展中不缺席,讓世界不只看見台灣語言,更能理解台灣語言,懂台灣慣用華語、台語、客語、繁體字、思維及價值觀,透過搜集各種語料及發音,串起全世界AI,提供他們訓練材料,同時希望打造Taiwan Tongues AI評測以工具協助優化。

「Taiwan Tongues 台灣通用語料庫」計畫,要打造涵蓋台灣華語、台語、客語、原住民族語等多元語言的開放語料庫。不僅為台灣自主訓練語言模型奠定基礎,更期盼讓全球開源LLM模型真正學會台灣的語言、文化與價值觀,實踐語言平權與資料主體性。

在台語文學作家、吳三連獎得主同時也是 IMA委員的胡長松號召下,已有超過數十位作家無償授權珍貴文學作品,累積逾 500 萬字高品質語料,並已陸續上架至 Hugging Face 平台供各界開放使用。初步實測亦顯示,以「Taiwan Tongues」台語語料訓練的模型,其錯誤率有顯著下降。

IMA發起「Taiwan Tongues 台灣通用語料庫計畫」有三大核心計劃,包含三大步驟,打造AI的台灣老師;從作家到 AI,文化跨界串連;未來展望是讓世界不只看見,更能理解台灣語言。

IMA指出,要透過三大步驟,打造AI的台灣老師,第一步擴大台灣語料庫(包含台灣華語、台灣台語、台灣客語及原住民語),讓台灣的聲音被全球 AI所理解。目前已有數十位作家授權,累計超過 500 萬字高品質語料,並已陸續上架 Hugging Face 平台,開放各界非商業使用,支援語音助理、機器翻譯、語言教學與數位文化推廣等應用,邁向打造跨語種、可供 AI 訓練與研究使用的開放資料庫。

第二步則是「模型語境訓練框架」,群聯電子是AI時代驅動儲存與運算創新的關鍵推手,加上身為Taiwan Tongues計畫執行委員會一員,整合 Reward Model 及 RL 微調技術,開發一套具備多元觀點辨識與區域語意調適能力,可作為企業訓練本地化 AI 的訓練框架。透過此訓練框架,可避免單一模型觀點帶來的偏差風險,並加速模型落地應用,推動產業 AI 能力鏈的建立。

最後是「台灣語境評測」,「Taiwan Tongues」亦設計專屬測試集,由IMA提供語境與語言能力評測標準,並與陽明交通大學教授廖元甫合作,進行模型實證測試。廖教授團隊將 Taiwan Tongues 作家語料結合教育部台語辭典等公用語料庫,對模型進行持續預訓練(CPT)與監督式微調(SFT),結果顯示台語 AI 模型的正確率顯著提昇,顯著提升台語語意理解與書信生成能力,證實語料品質與語境評測對模型表現的關鍵影響。

台灣語境評測

現在「Taiwan Tongues」已經從作家到 AI,文化跨界串連,更獲得政府支持,更是主權AI與文化自主的戰略實踐。

IMA表示,未來要讓世界不只看見,更能理解台灣語言,「Taiwan Tongues」 未來將持續募集台灣華語、台語、客語與原住民族語等多語種語料,並與國際大型語言模型平台合作,讓台灣語言成為全球 AI 生態系中不可或缺的一部分。

同時,「Taiwan Tongues」並預計開啟Wiki Taiwan 工作項目,擴增台灣語言在網路世界的能見度。對於台灣華語,將號召有志人士優先補齊維基百科中「只有英文(或其他主流語言)但尚缺繁體中文」的條目,補足語言差集;而針對台語,第一階段則將先直接翻譯目前維基百科約 140 萬筆繁體中文條目為台語內容,第二階段再進行與英文條目的差集翻譯。此舉不僅可快速大幅增加台灣通用語言的數位內容與 AI 訓練語料,也將進一步實現數位平權與語言文化自主。

IMA 協會指出,AI 的發展不僅是科技力的展現,更是文化主體性的實踐。「Taiwan Tongues」計畫象徵著台灣在語言數位化上的自我覺醒,未來將持續結合作家、學界與產業界的力量,擴大語料庫建置與應用場域,推動語言成為 AI 世代中台灣最鮮明的文化印記,唯有集結更多跨界資源與社會參與,才能讓台灣語言在全球 AI 浪潮中,真正擁有被理解與被尊重的位置。

※ 歡迎用「轉貼」或「分享」的方式轉傳文章連結;未經授權,請勿複製轉貼文章內容

猜你喜歡

上一篇
2026年全球 AI 光收發模組市場估達260億美元 關鍵零組件吃緊成瓶頸
下一篇
Google 新 TPU 來了 帶旺聯發科、廣達、英業達等協力廠

相關

熱門

看更多

看更多

留言

前往頁面