人工智能ChatGPT 接受大學教育OpenAI 打造更強大的語言模型

ChatGPT需要上大學，OpenAI肯付學費嗎？ 
用於訓練人工智慧的數據可能為一些公司帶來更多財富。這可能讓下一代ChatGPT變得更昂貴，也更有主導優勢。 
ChatGPT要上學 （攝影：JOEL SAGET/AFP）
在我們所津津樂道的所有關於ChatGPT的智慧功能當中，聊天機器人本質上是在家自學。其建立者OpenAI在公共互聯網上對它進行了訓練，這個廣闊的燦爛空間其實並不完美，這也正是ChatGPT犯下這麼多尷尬錯誤的原因之一。最近，一位律師利用這個聊天機器人來撰寫法庭摘要，當它援引了六宗並不存在的案例時，他意識到自己犯了個愚蠢的錯誤。 
怎樣才能讓ChatGPT變得更準確呢？把它送進大學，用品質更高的數據來訓練它。 
ChatGPT可以利用有價值的、準確的文本來訓練語言模型，對於擁有這些文本的出版社和其他任何公司來說，這有可能為它們帶來一項誘人的新收入來源。這對ChatGPT來說代價高昂，但此舉可能會增強薩姆·阿爾特曼（Sam Altman）領導的這家公司和其他科技巨頭的主導地位，比如Google、Meta Platforms以及其他少數開發所謂的基礎模型的大公司。它們可能成為有能力為人工智慧支付高等教育費的少數金主。 
OpenAI一直對其GPT-4的訓練數據保密。但就之前的版本而言，它使用的是一個由數千本自行出版的書籍組成的文獻庫，其中很多內容都傾向於言情和吸血鬼小說。學者們發現，許多在網上流行的暢銷書也可能對GPT-4產生重要影響，例如《哈利·波特》（Harry Potter ）系列，這讓圖書出版界議論紛紛，不知道他們龐大的文獻庫能否作為下一個訓練場——如果人工智慧公司願意付費的話。 
學術著作和期刊凝聚了商業、醫學、經濟及其他各個領域的專業知識，對於求知若渴的ChatGPT來說，還有比它們更理想的教授嗎？ 
幾個月來，人工智慧領域一直傳言GPT-4的很大一部分訓練數據來自Reddit。然後到了上個月，這個人氣頗高的互聯網論壇表示，它將開始對使用其對話寶藏的公司收費。 據英國出版商協會（UK Publishers Association）首席執行官丹·康韋（Dan Conway）說，這讓一些書籍出版商產生疑問，他們能否也對過去的作品收費。他說：「這是一場非常活躍的對話，需要討論的話題之一是內容許可要如何運作。」
這不單是一廂情願的想法，因為OpenAI為了教授下一代ChatGPT，可能不得不將目光投向公共互聯網之外。它用來訓練的網上數據集一直擁有相當可靠的數據。但現在ChatGPT已經產生轟動效應，這些數據集面臨垃圾數據的威脅，這些垃圾數據旨在扭曲聊天機器人給出的結果——就像SEO垃圾郵件扭曲谷歌搜尋結果一樣。OpenAI可能需要把眼光放得更長遠，開始為下一輪訓練付費。 
該公司並不是唯一的潛在買家。其他想要打造自己語言模型的公司現在也需要更多的數據。網上數據市場Nomad首席執行官布拉德·施奈德（Brad Schneider）說，投資銀行尤其有這方面的需求，他們希望幫助客戶做更明智的投資研究，一直在建構複雜的聊天機器人，並利用來自保險、貨運、電訊和零售行業公司的數據來訓練它們。 
除了像OpenAI和谷歌這樣的大型科技公司之外，幾乎沒有人真正從頭開始建構底層語言模型，但是，許多公司會購買GPT-4這類模型的訪問許可權，然後根據自己的目的使用專業數據來對其進行調整。（披露：彭博宣佈推出自己的金融語言模型，它可能與OpenAI的GPT-4展開競爭。 ）
施奈德表示，三個月前，幾乎沒有人購買數據來對語言模型進行這種方式的訓練。現在，這些交易大約佔其平台總交易量的15%，價格從數萬美元到數百萬美元不等。他補充說，有些數據的需求很高，比如可以幫助人工智慧工具進行軟體程式設計的數據，擁有這些獨特數據的公司往往佔據更有利的銷售地位。 
從某種意義上說，這一切都表明數據市場正在蓬勃發展。在一兩年內，我們可能會看到一系列保險公司、銀行和醫療公司買賣數據，以建構可以替ChatGPT的專業人工智慧工具。 
但是，這個市場也可能朝著更黑暗的方向發展——被老牌科技公司統治。具體走向將取決於OpenAI和Google是否會建構可以為任何人做任何事情的語言模型——這是一種瑞士軍刀版本ChatGPT，具備各種主題的專業知識。換句話說，通用機器人可能取代小眾機器人，而且如果數據價格變得過高，也會增加這些小眾機器人的建構難度。 
用於生成故事的人工智慧工Tome的聯合創始人兼首席執行官基思·佩里斯（Keith Peiris）說，大型科技公司「在計算和數據方面總是比我們財大氣粗。它們很有可能因為資本雄厚而勝出，而未必是因為創新。」
多年來，這一直是大型科技公司的劇情走向，現在也不大可能改變。--譯 楊飛