ChatGPT需要上大學,OpenAI肯付學費嗎?
用於訓練人工智慧的數據可能為一些公司帶來更多財富。這可能讓下一代ChatGPT變得更昂貴,也更有主導優勢。
ChatGPT要上學 (攝影:JOEL SAGET/AFP)
在我們所津津樂道的所有關於ChatGPT的智慧功能當中,聊天機器人本質上是在家自學。其建立者OpenAI在公共互聯網上對它進行了訓練,這個廣闊的燦爛空間其實並不完美,這也正是ChatGPT犯下這麼多尷尬錯誤的原因之一。最近,一位律師利用這個聊天機器人來撰寫法庭摘要,當它援引了六宗並不存在的案例時,他意識到自己犯了個愚蠢的錯誤。
怎樣才能讓ChatGPT變得更準確呢?把它送進大學,用品質更高的數據來訓練它。
ChatGPT可以利用有價值的、準確的文本來訓練語言模型,對於擁有這些文本的出版社和其他任何公司來說,這有可能為它們帶來一項誘人的新收入來源。這對ChatGPT來說代價高昂,但此舉可能會增強薩姆·阿爾特曼(Sam Altman)領導的這家公司和其他科技巨頭的主導地位,比如Google、Meta Platforms以及其他少數開發所謂的基礎模型的大公司。它們可能成為有能力為人工智慧支付高等教育費的少數金主。
OpenAI一直對其GPT-4的訓練數據保密。但就之前的版本而言,它使用的是一個由數千本自行出版的書籍組成的文獻庫,其中很多內容都傾向於言情和吸血鬼小說。學者們發現,許多在網上流行的暢銷書也可能對GPT-4產生重要影響,例如《哈利·波特》(Harry Potter )系列,這讓圖書出版界議論紛紛,不知道他們龐大的文獻庫能否作為下一個訓練場——如果人工智慧公司願意付費的話。
學術著作和期刊凝聚了商業、醫學、經濟及其他各個領域的專業知識,對於求知若渴的ChatGPT來說,還有比它們更理想的教授嗎?
幾個月來,人工智慧領域一直傳言GPT-4的很大一部分訓練數據來自Reddit。然後到了上個月,這個人氣頗高的互聯網論壇表示,它將開始對使用其對話寶藏的公司收費。 據英國出版商協會(UK Publishers Association)首席執行官丹·康韋(Dan Conway)說,這讓一些書籍出版商產生疑問,他們能否也對過去的作品收費。他說:「這是一場非常活躍的對話,需要討論的話題之一是內容許可要如何運作。」
這不單是一廂情願的想法,因為OpenAI為了教授下一代ChatGPT,可能不得不將目光投向公共互聯網之外。它用來訓練的網上數據集一直擁有相當可靠的數據。但現在ChatGPT已經產生轟動效應,這些數據集面臨垃圾數據的威脅,這些垃圾數據旨在扭曲聊天機器人給出的結果——就像SEO垃圾郵件扭曲谷歌搜尋結果一樣。OpenAI可能需要把眼光放得更長遠,開始為下一輪訓練付費。
該公司並不是唯一的潛在買家。其他想要打造自己語言模型的公司現在也需要更多的數據。網上數據市場Nomad首席執行官布拉德·施奈德(Brad Schneider)說,投資銀行尤其有這方面的需求,他們希望幫助客戶做更明智的投資研究,一直在建構複雜的聊天機器人,並利用來自保險、貨運、電訊和零售行業公司的數據來訓練它們。
除了像OpenAI和谷歌這樣的大型科技公司之外,幾乎沒有人真正從頭開始建構底層語言模型,但是,許多公司會購買GPT-4這類模型的訪問許可權,然後根據自己的目的使用專業數據來對其進行調整。(披露:彭博宣佈推出自己的金融語言模型,它可能與OpenAI的GPT-4展開競爭。 )
施奈德表示,三個月前,幾乎沒有人購買數據來對語言模型進行這種方式的訓練。現在,這些交易大約佔其平台總交易量的15%,價格從數萬美元到數百萬美元不等。他補充說,有些數據的需求很高,比如可以幫助人工智慧工具進行軟體程式設計的數據,擁有這些獨特數據的公司往往佔據更有利的銷售地位。
從某種意義上說,這一切都表明數據市場正在蓬勃發展。在一兩年內,我們可能會看到一系列保險公司、銀行和醫療公司買賣數據,以建構可以替ChatGPT的專業人工智慧工具。
但是,這個市場也可能朝著更黑暗的方向發展——被老牌科技公司統治。具體走向將取決於OpenAI和Google是否會建構可以為任何人做任何事情的語言模型——這是一種瑞士軍刀版本ChatGPT,具備各種主題的專業知識。換句話說,通用機器人可能取代小眾機器人,而且如果數據價格變得過高,也會增加這些小眾機器人的建構難度。
用於生成故事的人工智慧工Tome的聯合創始人兼首席執行官基思·佩里斯(Keith Peiris)說,大型科技公司「在計算和數據方面總是比我們財大氣粗。它們很有可能因為資本雄厚而勝出,而未必是因為創新。」
多年來,這一直是大型科技公司的劇情走向,現在也不大可能改變。--譯 楊飛