2020年,路人經過英國倫敦西區的《哈利 · 波特——被詛咒的孩子》(Harry Potter and the Cursed Child)演出劇場。攝影:Simon Dawson/Bloomberg

探索人工智能的神奇工具:哈利 · 波特2023.12.29
全文共1736字,讀完約需6分鐘

學者利用該暢銷書測試生成式人工智能系統如何學習和忘記特定資訊。

二十多年前,羅琳(J.K. Rowling)為世界揭示了一個由魔法生物、原始森林和少年巫師組成的世界。如今,《哈利波特》(Harry Potter)在一個截然不同的文體中找到了新的意義,即人工智能(AI)研究。

越來越多的研究人員利用《哈利波特》系列暢銷書進行生成式人工智能技術實驗,因為它在流行文化中歷久不衰,並提供了廣泛的語言數據和複雜的文字遊戲。透過查看提到《哈利波特》的研究和學術論文清單,我們能一窺目前AI研究現狀,以及該技術面臨的一些最棘手挑戰。

近期最引人注目的例子可能就是由哈利、妙麗和榮恩領銜「主演」的論文:「誰是哈利波特?」(Who's Harry Potter?)。該論文揭示了一種幫助大型語言模型選擇性地遺忘資訊的新技術。這對該行業至關重要:驅動AI聊天機械人的大型語言模型建立在海量網絡資料之上,其中包括受版權保護的資料和其他有問題的內容。這導致一些AI公司面臨訴訟風險和嚴厲的公眾監督。

論文作者、微軟研究人員魯西諾維奇(Mark Russinovich)和埃爾丹(Ronen Eldan)稱他們已經證明AI模型可以被修改或編輯,以消除關於《哈利波特》圖書存在的任何知識,包括人物和情節,並且不會犧牲AI系統的整體決策和分析能力。

兩人說選擇這套書的原因是它們在全球家傳戶曉。「我們相信研究人員更容易評估我們的技術產生的模型,親自確認那些內容的確被『遺忘了』,」微軟Azure首席技術官魯西諾維奇說,「幾乎任何人都能想出針對這一模型的提示語(prompt),以檢測它是否『知道』這些書。哪怕沒讀過也了解其中一些情節元素和人物。」

在另一項研究中,來自西雅圖華盛頓大學、加州大學柏克萊分校和艾倫人工智能研究所的研究人員開發了名為Silo的新語言模型,它能刪除資料以降低法律風險。不過,他們在今年稍早發表的論文中指出,如果只使用無版權書籍或政府文件等低風險文本來訓練模型,會顯著降低模型表現。

研究人員也更進一步,利用《哈利波特》圖書來檢視具體書冊是否會影響AI系統的表現。他們創建了兩個資料庫,即網站和文件集。第一個包含除第一冊外的所有已出版《哈利波特》;另一個包含除第二冊外的所有圖書,以此類推。「當《哈利波特》系列從資料庫中移除時,困惑度會加重,」研究人員表示,困惑度是反映AI模型是否精確的指標。

至少從10年前起,AI研究開始引用《哈利波特》,而隨著學者和技術專家聚焦於能處理和回應自然語言並提供解答的AI工具,此類引用愈發常見。《哈利波特》中「有豐富的場景、對話和展露情感的橋段,非常契合自然語言處理的特定領域」,卡內基梅隆大學研究人員韋伯(Leila Wehbe)說。她在2014年進行了一系列實驗,收集閱讀《哈利波特》的人的大腦核磁共振數據,以深入理解語言機制。

開源科研資料庫arXiv上的近期論文包括「用於霍格華茲藥劑開發的機器學習」(Machine learning for potion development at Hogwarts)、「當大型語言模型遇見哈利波特」(Large Language Models Meet Harry Potter)及「以基於Transformer的人工智能探測奇幻文學中的咒語」(Detecting Spells in Fantasy Literature with a Transformer Based Artificial Intelligence)等。

《哈利波特》有時不是研究的重心,但仍是研究者偏好的文學參考。例如,一項研究使用羅琳的作品來檢測人工智能系統的智商,例如最近引起熱議的聊天機械人ChatGPT背後的系統。塞諾斯基(Terrence Sejnowski)是索爾克生物研究所(Salk Institute for Biological Studies)計算神經生物學實驗室的負責人,他在論文中指出,聊天機械人只會反映使用者的智商和偏見,就像第一冊《哈利波特》中能照出人們內心渴望的厄里斯魔鏡一樣。

「《哈利波特》在年輕研究者中頗受歡迎,」韋伯說,「他們幼年或青少年時期讀過這些書,因此挑選書面或口頭語料庫時會想到它們。」

—— 撰文:Saritha Rai;譯 程璽