本周,OpenAI公司的一款新型聊天機械人在互聯網上掀起軒然大波,它可以迅速寫出詩歌、劇本和具有一定篇幅的答案,Twitter上充斥著目瞪口呆的技術專家發布的這類作品的截圖。儘管GPT3的底層技術已經問世多年,但這卻是OpenAI首次將這個高性能的語言生成系統開放給大眾使用,並人們之間引發了一場向該系統發出最有創意指令的競賽。(我最偏愛的指令是「寫一段聖經經文,解釋如何把花生醬三文治從錄影機裡取出來。」)除了這些噱頭之外,有人已經發現了ChatGPT的實際用途,包括程式員可以用它起草代碼或查錯。然而,該系統的最大功能可能給Google帶來經濟災難,因為它可以為我們目前在世界最強大搜尋引擎上查詢的問題給出更好的答案。
Google的工作原理是抓取數十億個網頁,對內容進行索引,再將最具相關性的答案進行排序。然後給出一個可供點擊瀏覽的連結清單。ChatGPT則為困惑的互聯網用戶提供了他們更感興趣的東西:基於自身搜索和綜合性資訊給出的一個答案。ChatGPT已經在數百萬個網站上進行了訓練,不但可以收集進行類似人類對話的技能,還可以收集資訊本身,只要資訊是在2021年底前發布上互聯網的。(ChatGPT是OpenAI對GPT-3.5大型語言模型系列中的一個模型進行微調,並利用2021年第四季度之前的文本和代碼訓練而來。)
過去一個月,我找到了自己以往在Google上搜尋的資訊,將其中18個搜尋內容輸入ChatGPT,再把它們記錄下來。然後回過頭,再用Google搜尋,重新喚起我的記憶。在我看來,最終結果是:18個搜尋資料當中,ChapGPT有13個答案比Google更有用。
「有用」當然具有主觀性。這個詞的含義是什麼?在本例當中,指的是答案清晰全面。 ChatGPT在關於煉奶還是淡奶/蒸發乳更適合做感恩節南瓜派的問題上給出了詳細(可能也略顯冗長的)回答,解釋了煉奶可以讓南瓜派更甜。(當然,這樣更好。)Google主要提供了一個食譜連結的清單,必須點開才能查看,而且沒有明確答案。
這完全彰顯了ChatGPT對Google的主要威脅。它給出了單一的即時回應,無需進一步搜尋其他網站。用矽谷的話來說,這是一種「無摩擦」體驗,是在網上消費者一邊倒地青睞快捷易用服務之際的一種類似「聖杯」(用作尋求神明指示)的東西。
當然,對於一些搜尋內容,Google確實有自己的歸納性答案,但只是排名最靠前網頁的匯總,通常也很簡短。Google也有自己的專有語言模型,名為LaMDA,性能優異,以至於該公司的一位工程師認為這個系統擁有自主意識。
那麼,Google為什麼不像ChatGPT那樣,針對搜尋內容生成自己的單一答案呢?原因在於,任何阻止用戶翻找搜尋結果的東西都會損害Google那可以促使人們點擊廣告的事務性業務模式。彭博彙編的數據顯示,2021年,Alphabet公司2576億美元的收入中約81%來自廣告,這其中大部分是Google的按點擊付費廣告。
於2013年至2018年負責管理Google廣告和商務業務的拉馬斯瓦米(Sridhar Ramaswamy)表示:「這樣的設計全都是為了『讓你點開某個連結』。」他說,ChatGPT等系統的生成式搜尋將「嚴重」破壞Google的傳統搜尋業務。
「這的確是一種更好的體驗,」他補充說,「Google搜尋的目標是讓你點擊連結,最好是點廣告,頁面上的所有其他文本都只是用來湊數的東西。」2019年,拉馬斯瓦米與別人聯合創建了名為Neeva的訂閱式搜尋引擎,並準備在未來幾個月內推出該引擎自己的生成式搜尋功能,可以對網頁進行歸納總結並添加腳註。
ChatGPT不會顯示其資訊來源。事實上,它的創造者們很可能不知道它是如何生成答案的。這揭示了它的最大弱點之一:有時候,它給出的答案是完全錯誤的。
12月5日,面向程式員的問答網站Stack Overflow暫時關閉了平台用戶分享ChatGPT建議的功能,稱程式員利用該系統上傳的數千條答案經常會出錯。
我本人的經歷可以做證。當我把12歲女兒的英文作文題輸入系統時,它給出了一篇冗長、雄辯的分析,聽起來言之鑿鑿。但答案裡錯誤連連,例如稱一位文人的父母早已過世,但實際上他們還活著。
關於這個缺陷,最令人不安的是不準確的地方難以察覺,尤其是當ChatGPT聽上去信心十足的時候。Stack Overflow網站稱,該系統給出的答案「通常看上去很完美」。 OpenAI自己也承認,這些建議往往貌似可信。開始的時候,OpenAI是想把它的系統訓練得更為謹慎,但結果卻是,它拒絕回答它知道答案的問題。它反其道而行,給出的答案就像是某個不學無術的大學生用來蒙混過關的論文——胡言亂語還流利順暢。
目前還不清楚ChatGPT的錯誤有多大的普遍性。Twitter上流傳的一項估計是2%到5%。 或許更多。這將使互聯網用戶對利用ChatGPT獲取重要資訊保持謹慎。Google還有一個優勢:它主要通過對產品的事務性搜尋和對其他網站的導航式搜尋(例如有人會鍵入「Facebook」或「YouTube」)來賺取收入。Google在2022年的前100名搜尋中,這類搜尋佔據了多數。只要ChatGPT不提供其他網站的連結,就不會太深入地侵佔Google的地盤。
但這兩個問題會隨時間推移而演變。 隨著OpenAI將其模型的訓練內容擴展到更接近當前的時間段,ChatGPT的準確度可能會提高。為此,OpenAI正在開發一個名為WebGPT的系統,希望能針對搜尋提供更準確的答案,其中也將包括對資訊來源的引用。 ChatGPT和WebGPT的搭配使用,可能是對Google的有效替代方案。ChatGPT答案的準確性已經高於OpenAI早期的系統了。
ChatGPT在五天內就聚集了100萬使用者。這是非凡的成就:Instagram用兩個半月才達到這個數字,Facebook用了10個月。對於其未來應用,OpenAI並沒有公開給出推測,但如果它的新聊天機械人開始分享其他網站的連結,尤其是那些售賣商品的網站連結,就可能會對Google造成真正的威脅了。——Parmy Olson;譯 王忠