本文共2631字
編按:自從ChatGPT等功能強大的AI工具上市,人人都成為通才,無論醫學診斷、刑事司法、社會福利、貸款申請或藝術創作,似乎人人都能用AI提升做事效率、甚至讓AI做決策。企業家與投資人還聲稱AI最後能解決人類的所有問題。作者強調,無腦依賴AI工具不是好事,我們應該了解AI的機制,積極參與相關法律的制定。只有讓AI的發展更加透明與包容,真正以人為本,我們才能成為AI的主人,用AI打造美好的未來。
作者: 穆吉亞
隱藏在數據中的勞動力 揭開AI訓練的真相
機器中的靈魂
試圖打造出超乎常人的智慧機器並不是什麼新鮮事。在十九至二十世紀之交,猶太人的民間傳說描述過十六世紀末有「魔像」(golem)出現,它原本是泥偶,由布拉格的拉比勒夫(Rabbi Loew)賦予生命,保護當地猶太人不受反猶人士的攻擊。
故事的結局很好預測,魔像抓狂,最後毀在創造者手裡。這個故事和兩樣事物遙相呼應:一是雪萊(Mary Shelley)的創作《科學怪人》(Frankenstein),這部近代的作品協助催生了科幻小說文類;另一是最近新聞熱潮的AI論述,人們似乎愈來愈擔心惡意AI帶來的危險。
今天,真實世界的AI沒那麼有自主性,反而更像一種輔助技術。大概從2009年開始,我們密集使用連網設備和網際網路產生的大量資料,加上不斷增強的晶片運算能力,促成技術突飛猛進。值得一提的是,這導致了一個AI子類別的興起,那就是機器學習及衍生的深度學習(deep learning),兩者都在教電腦軟體從大量資料中找出統計的相關性,範圍涵蓋文字、影像、程式碼或數字。
找出模式的方法之一是讓AI模型看過數百萬個標記好的範例。這種方法需要人類費心標記所有的資料,這樣電腦才能夠進行分析。沒有這些負責標記的人,做為自動駕駛車和臉部辨識基礎的演算法就與目盲無異,它們沒辦法學習模式。
以這種方式打造的演算法,如今能在醫學、刑事司法、社會福利,以及抵押貸款申請等諸多領域,強化或替代人類的判斷。生成式AI是最新一代的AI軟體,可以產生文字、程式碼和影像。這讓它們能化身為創意助理,協助教師、財務顧問、律師、藝術家和程式設計師共同製作原創的作品。
為了打造AI,矽谷最有名的公司都在自家腹地爭取名額有限的資訊科學人才,支付數十萬美元給剛出爐的博士。但要利用真實世界的資料來訓練和配置AI,同樣的企業卻找上薩碼這類公司,這類公司擁有的一大票員工具備基本的數位素養,薪資卻不高,且就業狀況不穩定。
薩碼不是全球唯一提供AI訓練服務的公司。Scale AI、Mighty AI(現歸優步所有)、澳鵬(Appen)、蜂巢微(Hive Micro)和艾美瑞特(iMerit)等新創公司,以及埃森哲(Accenture)和威普羅(Wipro)等較傳統的資訊科技公司,都是這個不斷壯大產業的一部分,據估計到了2030年,這份產業的價值將達到一百七十億美元。
AI供應鏈中的寶貴人力
因為AI公司需要標記的資料量實在太大,多數新創公司都把服務外包給收入較低的國家,在這些地方有許多像寇利和恩吉托這樣的工人,能雇來篩選和詮釋資料,以便訓練AI系統。
逃離家園的敘利亞醫師訓練的醫療軟體能協助英國醫師診斷前列腺癌;在經濟衰退嚴重的委內瑞拉,失業的大學畢業生幫電子商務網站分類流行商品;在加爾各答貧窮的穆斯林社區梅蒂亞布魯茲(Metiabruz),赤貧的婦女幫亞馬遜智慧型喇叭的語音片段加上標記。他們的工作揭露了一個幾乎眾人皆知的祕密:所謂的人工智慧系統無法獨立「學習」,這項技術的驅動需要人類,而且是數百萬名的人類。在全球的AI供應鏈裡,資料處理員是寶貴的人力環節。
這股勞動力大部分是分散式的,而且組成分子多是社會中最脆弱的工人,包括弱勢青年、扶老攜幼的婦女、少數族群,以及移民和難民。AI公司及合作的外包廠商都說他們的目標是要把這些社群納入數位革命裡,無論這些人的生活有多麼不穩定,都會提供他們安全穩定和合乎倫理的工作。但我後來發現,資料處理員就跟工廠工人一樣不安穩,他們的勞力付出大多不為人知,目前仍是AI產業裡被低估的基礎。
隨著這群人從暗處現身,記者和學者開始了解這些分散在全球各地的工人如何影響我們的日常生活,從ChatGPT等AI聊天機器人產生的熱門內容,到我們滑抖音(TikTok)、Instagram和YouTube時看到的內容,以及線上購物時瀏覽到的物品、我們駕駛的車輛,甚至我們吃到的食物,都是藉由資料處理員的協助進行整理、標記和分類。
米切利是阿根廷的研究人員,目前在柏林以民族誌的角度研究開發中國家的資料工作。她剛開始做研究的時候,找不到任何有關AI勞工的親身經驗,也不知道這些人的真實身分和工作樣貌。她說:「身為社會學家,我覺得這道鴻溝很巨大,沒有多少人真正了解這些人。他們到底是誰、他們如何執行工作、他們的工作實務涉及哪些層面,還有他們處於什麼樣的勞動條件?」
米切利是對的,因為很難找到一家公司,能讓我在最少干預的情況下接觸他們的資料處理員。營業祕密通常會以保密協議的形式寫進合約裡,像是禁止員工直接聯絡客戶,以及公開揭露客戶的名稱。這些要求通常來自客戶而不是外包公司,例如薩碼公司的客戶Meta,它是臉書(Facebook)的母公司,就會要求資料處理員簽訂保密協議。通常,處理員可能根本不知道客戶是誰、不了解他們正在開發哪種演算法系統,也不清楚世界其他地方的同行從事同樣的工作能拿到多少報酬。
低薪、保密、從弱勢社群榨取勞力,像薩瑪這類公司的安排,其實是往不平等傾斜。畢竟,這終究是平價的勞動力。提供就業機會給少數族群和貧民窟青年,或許在某種程度上是一種賦權與提升,但這些資料處理員也相對廉價,而且幾乎沒有相關的談判能力,或是反抗的手段和資源。
甚至資料標記工作的目標也讓人感覺很壓榨,因為這份工作訓練了AI系統,但AI系統最終將取代訓練它的人類。然而在這兩年的時間裡,我採訪過數十名資料處理員,沒有人意識到訓練替代者的後果,他們領薪水所做的工作加速自己的淘汰。
米切利告訴我:「這群人太依賴這些工作,以致變得對客戶言聽計從。他們的心態已經轉變,不去想自己在做的事情是否有意義、是否在道德上有爭議,只會去想客戶可能要什麼。」AI研發是一項蓬勃發展的業務,資料標記產業裡的公司都爭相降價,以一份任務幾美分的價錢提供勞力給大型企業和當紅新創公司。「人們必須知道:科技業的發展受益於這些廉價勞力。」
本文摘自天下文化出版的《AI底層真相》
※ 歡迎用「轉貼」或「分享」的方式轉傳文章連結;未經授權,請勿複製轉貼文章內容
留言