發現薇趨勢／生成式AI時代需要有人味的聲音

本文共1232字

2023/09/18 22:31:04

經濟日報王薇瑄（聲鮮時采科技營運長、科技媒體專欄作家）

今年年初，OpenAI推出ChatGPT應用程式，正式開啟了全球生成式AI（AI Gernative Content; AIGC）的序幕。

目前表現較出色的，文字生成有ChatGPT和文心一言，圖片生成有Midjourney，影片生成有DeepBrain和Kaiber，聲音生成則有Fliki和LOVO，這些都是科技創新的一大突破。

這項新技術悄悄進入我們的生活與工作場域，許多專欄與新聞開始關注使用者──「人」，未來究竟還有多少工作機會？科技將如何取代人類的工作？

前陣子跟一位公司創辦人聊天，他說公司裡的文字編輯相當抗拒使用ChatGPT，原因是擔心有朝一日被取代。創辦人苦口婆心告訴員工，若是擅長的專業，應當是親自撰寫文章；但碰到不熟悉的領域，生成式AI發揮的效力，也許比「人」還好。因此他鼓勵員工發揮自己的才華之外，也該讓生成式AI提高生產效率。

員工嘴上雖然說好，但產出的作品很明顯的沒有與這位敏捷的「助手」協作。最後，員工遭解雇，創辦人自己用生成式AI輔助，兼職當文字編輯。

生成式AI運用在影片場域，大致有兩種模式：一種是從文本變成影片，近期已有國內電視台使用AI虛擬主播播報新聞；另一種則是由AI讀取文本內容後，從資料庫抓取適合的圖片或影像。

那麼聲音呢？其實坊間有許多AI生成聲音的應用軟體，我也嘗試使用了目前比較流行的幾種。有意思的是，目前支援跨語言生成聲音內容已不成問題，若讀者常使用Youtube和抖音Tiktok，不難發現許多敘述電影故事的影片，搭配了「清新男聲」，就算是不同創作者上傳的影片，聲音也都如出一轍，其實那些都是利用生成式AI合成的聲音。

近期與另一好友聚會，他旗下的企業算是國內AI生成的佼佼者，透過錄音，能訓練語音模型，一旦訓練完成，就能讓專屬你的AI發出你的聲音。

既然聲音可以拷貝，那「人」的價值在哪裡呢？在情緒。

好友說目前他們製作的音檔，比較適合播報新聞或旁白，若要表現情緒，只能放慢語速或增加重音。他們的產品搭配AI生成影像，因此可以透過人的表情，加深聲音表情。

國外某些AI語音模型雖然可以選擇情緒，但假的AI語音跟真人在情感表達與傳遞能力上，確實有落差。

再者，情緒選擇需要批次處理，也就是一個故事如果出現的情緒有十種，不同段落的生成，需要批次處理再剪輯。目前比較受歡迎的幾種AI語音模型，也只有特定幾個聲音能選擇情緒。

在生成式AI席捲全球的同時，備受關注的議題，除了人的價值，就是AI內容產出的所有權與智慧財產權了。

智慧財產權，原則上歸屬於法人或自然人，而AI生成的內容顯然介於模糊地帶。若只是利用AI輔助生成，主要創作者是人，那麼權利自然歸人；但創作者若只是下指令，圖片產出由AI操刀，創作者使用AI究竟屬於輔助創作，還是獨立創作？

用自己的聲音訓練的模型，就算產出了熱呼呼的內容，聲音情緒卻是冷冰冰的，著實乏味；一篇感動五內的故事，變成不帶情緒的新聞播報，未免可惜。在AIGC盛行的年代，有人味的聲音，還是最容易凸顯人的價值。

※ 歡迎用「轉貼」或「分享」的方式轉傳文章連結；未經授權，請勿複製轉貼文章內容

熱門關鍵字

網站導覽

服務

發現薇趨勢／生成式AI時代需要有人味的聲音

延伸閱讀

商業興觀點／培育AI人才商研院扮推手

點子農場／擁抱新AI教育時代

Omdia：2028年生成式 AI 應用商機將達585億美元

經濟日報科技論壇林昭陽：中華電打造 AI 服務一站購足

美智庫：中國研究運用生成式AI 操控對台灣看法

新聞中的法律／AI管理須加速立法

熱門

看更多

留言

網群與速覽

發現薇趨勢／生成式AI時代 需要有人味的聲音

延伸閱讀

商業興觀點／培育AI人才 商研院扮推手

點子農場／擁抱新AI教育時代

Omdia：2028年生成式 AI 應用商機將達585億美元

經濟日報科技論壇 林昭陽：中華電打造 AI 服務一站購足

美智庫：中國研究運用生成式AI 操控對台灣看法

新聞中的法律／AI管理須加速立法

相關

熱門

看更多

看更多

留言

網群與速覽

發現薇趨勢／生成式AI時代需要有人味的聲音

商業興觀點／培育AI人才商研院扮推手

經濟日報科技論壇林昭陽：中華電打造 AI 服務一站購足