從合成資料與假訊息看生成式 AI 的自噬

合成語音的逼真程度越來越高，人們和AI自動化系統都愈來愈難以區分真實聲音和合成聲音。路透

本文共1393字

2023/10/26 15:30:44

MIC專欄朱南勲

生成式AI發展方興未艾，透過先進的文字轉語音技術或文字轉圖片、文字轉影音，以及大語言模型（LLM）朝向多模態發展趨勢下，創作者現在能夠製造出幾乎與真實照片或人聲難以區分的影音內容，在正值國際地緣政治衝突與各式動亂不安局勢下，更是被不肖份子或不知情者用來生成及傳播假訊息和製造混亂。聲音及圖片等內容偽造的出現不僅挑戰了民眾對「真相」的認知，也增加了公眾在分辨事實與虛假時的困難度，進而對民主程序和公共信任產生破壞性的影響。

就「合成資料（Synthetic Data）」本身而言，大致可以分為在模型預訓練（Pre-train）階段使用合成資料（由AI合成），以及在模型上線後供一般大眾使用生成式AI工具合成（由人類合成）真假難辨的內容。使用合成資料訓練大型語言模型有其優缺點，優點包括：

※ 歡迎用「轉貼」或「分享」的方式轉傳文章連結；未經授權，請勿複製轉貼文章內容