國科會開發台版AI對話引擎初代模型 4大功能一次看

本文共1140字

2023/06/14 16:23:23

聯合報記者趙宥寧／台北即時報導

生成式AI迅速崛起，國科會今年初宣告將整合學研界的力量，研發台版可信任人工智慧對話引擎 (Trustworthy AI Dialogue Engine，簡稱TAIDE)。今天舉行第一階段成果記者會，團隊目前在LLaMA原型基礎上產出7B參數量的中模型，可應用於自動摘要、翻譯文本、寫信及寫文章，下半年若能取得H100的核心GPU，有望投入更大模型的訓練。但相較ChatGPT是175B超大模型，台版僅7B，商用需求也僅13B，有關研發預算，國科會主委吳政忠表示，目前投注約2至3億，其中很多義工，各界無私奉獻。

國科會科技政策諮詢專家室召集人、TAIDE計畫學界顧問李育杰表示，國科會年初開記者會，宣示開發台版可信任人工智慧對話引，計畫團隊就開始「用跑的」，四個月就有初步結果。而世界各國自2018年起開始研發語言模型，台灣也不能缺席，因此主委宣布以後，開始思考以台灣文化為基底，融入在地特有的語言、價值觀、風俗習慣等元素，專為台灣量身定做可信賴的對話引擎。

目前是計畫第一階段，李育杰說，7B（70億參數量）模型是TAIDE第一個產出的中模型，它是在LLaMA原型的基礎上，由學界專家進一步發展及訓練調校。截至目前為止，已可應用於自動摘要、翻譯文本、寫信及寫文章等，對繁體中文的處理能量及回答算穩定準確，不過若要應用在論文等長篇文章，仍待訓練及擴充。

不過，ChatGPT是175B，台灣僅7B，參數量越大，也代表複雜度高、資料量大、成本也越高。國科會主委吳政忠坦言，一直不想講經費，目前僅是開發台灣的基礎，約投入二至三億元，相信未來業界加碼會大很多，其中很多義工，各界無私奉獻，這的確是大家把有的資源都投入。

李育杰說，模型的訓練要由小到大，據他們向商界探詢，13B其實就已夠用，參數量太大反而有負擔。他表示，訓練過程中也持續累積經驗，國網中心預計下半年將增設新設備H100 GPU，預計今年10月過後，能取得比較大的算力，投入下一階段的研發，屆時也將會是經費使用高峰。

該計畫又分為四階段，第一階段是展示中模型，並包含四大功能；第二階段則要展示大模型，要能進行任務處理，包含認識台灣、台灣考試、事實查核等；第三階段則展示可信任模型，包含能考慮倫理因素的問題，以及具備阻絕產生不適當回應的能力，例如要能保全個資，以及合乎台灣現行法規的論述；第四階段則要能展示多輪問答，讓前三階段累積的成果，能達成更完整的水準。

吳政忠表示，國內優質資料的合法取得及整理，還需要一段時間，未來將推出更大的模型及更多元的功能。下一階段，預計下半年可展示特定任務，並利用中模型與TAIDE合作夥伴共同開發其他功能，並於年底展示大模型（13B）及其具備阻絕產生不適當回應的能力，並釋出大模型供TAIDE合作夥伴。