OpenAI聊天機械人好到可以糊弄人類2022.12.30
全文共3201字,讀完約需11分鐘

ChatGPT模仿真實寫作的技巧熟練得令人驚訝,人們不禁疑惑讀者要如何分辨機械人與人類的差別。

自從OpenAI揭開了ChatGPT(一款聊天機械人,可以生成與真人寫的文章相仿的句子)的面紗,社交媒體用戶就一直在忙不迭地嘗試用這項技術做些無傷大雅的趣事。例如,他們要求這個機械人製作雞尾酒配方、作曲、並撰寫《蓋里甘的島》(Gilligan’s Island)的劇本,講述島上漂流者應對新冠病毒的故事。ChatGPT沒有掉進過去聊天機械人遇到的一些陷阱,例如種族主義或仇恨言論,所以人們對新版聊天機械人的興奮之情溢於言表。

ChatGPT能夠給出流暢、具權威性的答案,並以連貫的線索回答其他相關問題,這一切都證明了人工智能的進步。但它也帶來了一系列問題,即讀者能如何區分機械人輸出的內容和真實的人類書寫的文字。因為ChatGPT給出的文本可以達到喜劇演員科爾伯特(Stephen Colbert)說的某種程度的「真實」(truthiness)——哪怕不是基於事實,但看起來及感覺上是真實的。

ChatGPT已於近日推出。截至12月5日,電腦程式員問答網站Stack Overflow暫時禁用ChatGPT生成的答案,審查員稱他們看到了數千個這樣的帖文,裡面經常包含不準確的內容,對該網站造成了「實質性的傷害」。而且,即使答案是準確的,機械人生成的關於歷史或科學的材料也足以引發爭論:人們是否會用它在考試、論文或求職申請中作弊。不管事實是否如此,ChatGPT的答案都是對人類語言的近似回應,是真實語言的複製品,這些特點進一步表明,OpenAI可能必須要想辦法來標注這些內容是由軟件生成、而非由人類編寫的。

在該聊天機械人推出當天,普林斯頓大學電腦科學教授納拉亞南(Arvind Narayanan)就基本資訊安全問題對它進行了測試。他得出的結論是:除非你知道正確答案,否則你將無法判斷答案的真確性。

「我還沒看到任何證據表明ChatGPT有足夠的說服力,能說服專家。」他在一次採訪中說。「非專家人士可能會覺得它說的頭頭是道,有權威性和可信性,這當然是個問題。」他說,對於那些要求背誦而不是讓學生進行分析或批判性思考的老師來說,這也是一個問題。聊天機械人往往在第一部分(即背誦)做得很好,但後面通常會敗下陣來。

ChatGPT是OpenAI推出的最新人工智能語言技術,後者是一間人工智能研究工作室,成立於2015年,支持者包括馬斯克(Elon Musk)等。創業家阿爾特曼(Sam Altman)為該公司現任行政總裁,蘇特斯科娃(Ilya Sutskever)任首席科學家。2019年馬斯克終止了他對OpenAI的投資,如今該公司得到了微軟(Microsoft)的重金資助。它一直專注於GPT的幾個版本,即「大型語言模型」,這些模型可以掃描在互聯網上找到的大量內容,然後用這些內容來預測如何生成文本。ChatGPT是經過「訓練」的可以回答問題的新版本。

用這個人工智能工具來寫一篇基本的新聞報道,可同時彰顯出它的優點和潛在缺點。在被要求寫一篇關於微軟季度收益的文章後,它真的完成了一篇看似可靠、關於微軟2021年財務業績的文章。文章講述了微軟收入和利潤不斷上升,因為雲端計算應用和電子遊戲銷量強勁。ChatGPT沒有犯那些會讓人感覺是機械人編寫的明顯錯誤。但實際上那些資訊是錯的,只是錯得不離譜。

聊天機械人引用了微軟行政總裁納德拉(Satya Nadella)的言論來增強文章的可信性,這當中的問題令人擔憂。引文指納德拉稱讚微軟在疫情艱難時期的執行力,這句話實在太真實可信了,就連記者都不得不求證這句話是否真實。但實際上完全是它胡説的。

正如微軟人工智能倫理副總裁伯德(Sarah Bird)在今年稍早接受採訪時所解釋,GPT這樣的語言模型已經認識到,人類常借助別人的引述來支持自己的主張,所以它會模仿這種行為,但又缺乏人類對倫理和歸因理解的優勢。所以它會編造一段引文,或編造一個發言者,或引文和發言者都是編造出來的。

ChatGPT受到的熱烈追捧與最近另一種備受矚目的語言模型Meta Platforms的Galactica形成了鮮明對比,後者消化吸收了大量科學論文和教科書,原本應該利用這種「學習」來吐露科學真相。可是,用戶發現這個機械人夾雜著不準確和帶偏見的科學術語,Meta不得不將其下架。「我不知道怎麼會有人認為這是個好主意,」納拉亞南說,「在科學領域,準確就是一切。」

OpenAI在這項服務的免責聲明中明確表示,其聊天機械人無法「產生人類那樣的言語」。「像ChatGPT這樣的語言模型旨在類比人類的語言模式,生成與人類反應類似的反應,但它們不具備生成類似人類言語的能力。」

ChatGPT的設計也是為了避免一些較明顯的陷阱,並更好地預防犯錯的可能性。該軟件只利用了截止到去年的資料進行訓練。例如,若問他關於今年中期選舉的問題,該軟件會承認其有局限。「抱歉,我是由OpenAI訓練的大型語言模型,不了解任何關於當前事件或最近選舉結果的資訊,」它說,「我的訓練資料截止到2021年,而且我無法瀏覽互聯網或獲取任何更新的資訊。我還有什麼可以幫到你嗎?」

OpenAI擧的例子顯示,ChatGPT會拒絕回答有關霸淩的問題,也不會提供暴力內容。它沒有回答關於2021年1月6日美國國會大廈暴亂的問題,而且它有時會承認自己犯了錯。OpenAI表示,ChatGPT是作為「研究預覽版」發布的,為的是納入實際使用後的回饋,它認為要開發出安全的系統,這是一個重要途徑。

目前,ChatGPT在一些事情上錯得很明顯。紐約大學名譽教授馬庫斯(Gary Marcus)一直在Twitter上收集和分享這方面的例子,包括ChatGPT提出的從三藩市騎車到毛伊島的建議。ChatGPT還應加州大學博士生Rong-Ching Chang的要求談論起某抗議活動的吃人事件。這就是為什麼部分人工智能專家認為,某些科技業高層和用戶將這項技術用作替代互聯網搜索是令人擔憂的,特別是因為ChatGPT並不會披露其工作過程或列出資訊來源。

「如果你得到一個無法追溯的答案,不可以說出『它從哪裡來?代表什麼觀點?資訊來源是什麼?』,那麼你就非常容易受到編造出來的東西所影響,它或是平白無故地捏造,或是把資料庫中偏見最嚴重的東西展現給你,」華盛頓大學語言學教授、今年稍早一篇論文的作者本德爾(Emily Bender)說道。該論文論證了那些聲稱可以改善網絡搜索的AI聊天機械人所引發的擔憂,並在很大程度上回應了Google的想法。

「這種技術的殺手級應用造成了一種你不需要任何真實性的情況,」本德爾說,「沒有人能根據它來做決定。」

該軟件還可以用於發起「草根行銷」運動——會使某種意見看起來是大量草根評論員的想法,但實際上卻是由某人/某組織佈下的局。

隨著人工智能系統在模仿人類方面日臻完善,如何分辨某些內容的問題將成倍增加,例如一張圖片、一篇文章是否由電腦程式根據人類指示的幾句話來創作的,以及誰應當負責確保讀者或觀眾知道內容來源。2018年,Google發布了可以類比人類說話的人工智能系統Duplex,它可以代表用戶給公司打電話。在收到具有欺騙性的投訴後,Google最終不得不承認這些電話是由機械人打的。

OpenAI表示,它已在實踐一個想法——例如,其DALL-E系統根據文本提示生成的圖像上會出示一個簽名,說明圖像是由人工智能創建的——而且該公司仍在繼續研究可披露由GPT等系統創建的文本來源的技術。OpenAI的政策還包括,用戶在分享此類內容時,應明確指出它是由機器生成的。

「一般情況下,當某種工具可能被濫用但又有很多積極用途時,我們會把責任放在用戶那一邊,」納拉亞南說,「但這些都是非常強而有力的工具,開發工具的公司有著豐富的資源。或許他們應當在這裡承擔一部分道德責任。」——Dina Bass;譯 簡遠、王忠