Google在搜尋領域的霸主地位(美國司法部稱之為非法壟斷)賦予了其在AI戰爭中無可匹敵的優勢。攝影:Gabby Jones/Bloomberg

Google AI搜尋讓網站進退兩難:交出數據或者死掉2024.08.20
全文共3847字,讀完約需13分鐘

內容發布者稱封鎖Google AI的機械人也會導致他們的網站在搜尋結果中消失

現在Google會在搜尋頁面頂部顯示基於人工智能的便捷答案,這意味著用戶可能永遠無需點擊那些被用來支撐這些答案的網站。但許多網站擁有者坦言,他們承受不起封鎖Google AI來阻止它總結其內容的後果。

根據內容發布者的說法,這是因為Google生成的AI答案和在搜尋結果中追蹤網頁採用的是同一個工具。部分網站封鎖了Google的某些AI競爭對手,但如果對Google採取相同措施勢必會增加網站被發現的難度。

Google在搜尋領域的霸主地位(聯邦法院上周裁定屬於非法壟斷)使其在日益激烈的AI戰爭中獲得了無可匹敵的優勢。而隨著行業的發展,搜尋後輩和內容發布者指出這種優勢並不公平。內容發布者尤其進退兩難:要麼默許人工智能模型使用其內容,這可能導致網站被邊緣化;要麼從Google搜尋結果中消失,放棄這個主要的流量入口。

「對這些公司來說,這無異於一場生存危機,」新聞網站Talking Points Memo的出版人拉加佐(Joe Ragazzo)說,「兩種選擇都是死路。不接受,立刻死;合作,可能慢慢死,因為終有一天他們不再需要你。」

Google將搜尋頁面頂部的總結稱為AI Overviews(人工智能概覽),並強調此舉旨在貫徹其提高資訊質素和為內容發布者及其他企業提供更多機會的長期承諾。「Google每日為全球網站貢獻數十億次點擊,我們致力於延續這種長期與網站的價值交換模式,」Google發言人在聲明中表示,「借助AI Overviews,用戶回饋搜尋更有幫助了,這會激發更多搜尋行為,創造更多的內容發現機會。」

自誕生之初,Google就部署了一款名為Googlebot的軟件來訪問或「爬取」數百萬個網站,藉此為全球互聯網構建了一個鉅細靡遺的資料庫。多年來,這個索引體系儼然成為一道難以逾越的壁壘,阻礙了嘗試打造搜尋競爭品的公司,哪怕是微軟(Microsoft Corp.)這樣財力雄厚的龍頭。

生成式人工智能的興起引發了新一波搜尋創業浪潮。新興產品依賴於AI模型,能為用戶提供精煉的答案。然而,聊天機械人的風靡引發了Google內部的恐慌,促使這個搜尋界的長期霸主開始審視其核心業務的未來。儘管如此,那些初創公司要想對Google構成實質挑戰,必須先爬取網絡,而這絕非一朝一夕之功。

網站被爬蟲時會消耗擁有者的金錢、算力和儲存資源,因此許多內容發布者會部署一個文件,設定機械人訪問網站的規則。而Google和微軟的Bing往往能獲得最大權限,因為這些搜尋引擎能為網站引流。

然而,AI初創公司Tako Inc.行政總裁羅森堡(Alex Rosenberg)表示,新興的搜尋平台在攻城掠地前無法給出這樣的流量保證,因此,這些初創公司開始向內容發布者付費,以獲取內容使用權。

「現在有許多科技公司在為內容付費,如果沒有這些內容,他們無法參與任何實質性的競爭,」羅森堡說,「相比之下,Google不必這樣做。」

在媒體公司和AI初創公司之間的交易浪潮中,Google一直是引人注目的例外。據兩位知情人士透露,除了與社交平台Reddit價值6000萬美元的交易外,Google私下向內容發布者釋放了無意談判的信號。由於資訊未公開,知情人要求匿名。

在這些對話中,媒體公司幾乎毫無籌碼。今年早些時候,Google推出了AI Overviews,在搜尋頁面頂部用AI對用戶的一些問題給出簡明扼要的回答。這立刻引發了內容發布者的憂慮,他們擔心這些答案會侵蝕他們的網站流量,但他們並無明確的應對策略。

Google為旗下某些AI產品(如其聊天機器人Gemini)使用了單獨的爬蟲程式。而其主力爬蟲工具Googlebot同時服務於AI Overviews和Google搜尋。公司發言人稱Googlebot之所以兼顧AI Overviews,是因為AI與其搜尋引擎已經密不可分。發言人進一步指出,Google的搜尋結果頁面以多種格式顯示資訊,包括圖像和圖表。Google還表示內容發布者有權阻止特定頁面或頁面的部分內容出現在搜尋結果的AI Overviews中,但這也會導致這些片段在Google的其他搜尋功能中消失,包括網頁連結列表。

許多內容發布者通常有至少一半流量依賴於搜尋引擎,因此他們不願冒減少曝光的風險。

Google的立場「低估了這對內容創作者、尤其是依靠搜尋流量謀生的人造成的重大風險」,代理內容發行商和網紅的公司Raptive的創新總監麥科勒姆(Marc McCollum)表示,「如果拒絕爬取,創作者可能會不經意間降低整體搜尋的曝光度,這會損害他們觸及受眾和創造收入的能力。」

在網上發布免費的消費電子產品維修指南網站iFixit的行政總裁威恩斯(Kyle Wiens)表示,其網站與Google的關係比與其他AI公司的關係「微妙得多」。「我可以阻止ClaudeBot將我們納入索引,這不會傷害到我們的業務,」維恩斯在電子郵件中寫道,他指的是生成式AI初創公司Anthropic的爬蟲機械人,「但如果將Googlebot拒之門外,我們會失去流量和客戶。」

海量用戶在Reddit上就五花八門的小眾話題展開熱烈討論,而Google與Reddit的協議為其AI模型提供了豐富的資訊。此番合作適逢Google調整演算法提升了Reddit等論壇的搜尋排名之際,大大增進了這個社交平台的訪問量。Reddit發言人表示產品質素和加載速度的改進也推動了流量增長。

據知情人士透露,搜尋初創公司Perplexity也在與Reddit洽談內容許可協議,但Google的交易設定了一個令初創公司望塵莫及的門檻。Google則強調其與Reddit的協議遠超單純的數據訓練範疇,並涉及更廣泛的合作領域。Reddit發言人對商業談判不予置評。Perplexity也不予置評。

其他搜尋初創公司則已認清現實:這些數據遙不可及。

「我們20年的收入才夠支付Reddit的費用,」搜尋初創公司Kagi的創始人普雷洛瓦茨(Vladimir Prelovac)說,「我根本想都不用想。」

遭遇挑戰的不止小型初創企業。OpenAI最近推出了SearchGPT,這是其廣受歡迎的聊天機械人的搜尋引擎測試版。但據公開文件,亞馬遜(Amazon)、Goodreads和Uniqlo等熱門網站均阻止了這款GPT爬蟲的訪問,這或會給OpenAI的搜尋雄心蒙上陰影。儘管如此,OpenAI強調即使網站選擇將其內容排除在AI訓練之外,它們仍可能出現在搜尋結果當中。

普雷洛瓦茨透露Kagi至少有一半成本投入在爬蟲和其他搜尋數據來源方面。一個詳盡的網絡索引是搜尋引擎幫助用戶深入探索互聯網內容的基礎。而對於希望利用AI直接回答用戶問題(由ChatGPT開始推廣的模式)的公司,數據的重要性又上了一個台階。

「生成式AI模型本身並不是十分聰明,」普雷洛瓦茨說,「想要促成高質素的AI生成內容,同樣的搜尋索引資源不可或缺。」

搜尋初創公司You.com的創始人索赫爾(Richard Socher)表示,無處不在的robots.txt文件(該文件設置了爬取規則)迫使初創公司做出複雜的決策。他說這些文件未被認定為具有法律約束力,因此公司可以在不要求登錄或會員資格的情況下採集公共數據。

「執行爬取任務時,我們會盡量不給任何網站帶來過大負擔,」他說,「任何網站,如果其robots.txt文件只允許Google而不允許其他機構爬取,實際上都是在助長Google在搜尋領域的壟斷地位。」

Neeva是一間由前Google員工創立的初創搜尋公司,去年被Snowflake Inc.收購,該公司主張「爬取中立原則」,以降低初創公司構建搜尋索引的難度。彭博早前報道,在法院作出歷史性判決,認定Google非法壟斷在線搜尋市場後,美國司法部正積極探索補救方案,包括強制這個搜尋龍頭向競爭對手分享更多數據,甚至考慮分拆該公司。一項備受關注的提議是要求Google分享通過Googlebot採集的數據,或向競爭對手開放其著名的搜尋索引。歐盟的《數碼市場法》已經要求Google分享部分搜尋查詢數據。

在iFixit的CEO威恩斯看來,Google在搜尋領域的霸主地位讓其在AI賽道更具優勢,這是該公司壟斷爭議的癥結所在。「將Google搜尋與其AI業務分開,」他說,「將能化解這個矛盾。」

搜尋引擎DuckDuckGo表示,搜尋領域正在發生的技術變革使得「原本就備受壟斷爭議的Google索引問題變得更加突出與棘手。」

「在生成式人工智能時代,搜尋索引極其重要,」DuckDuckGo公共事務高級副總裁巴茲巴茲(Kamyl Bazbaz)說。

Talking Points Memo的拉加佐表示,不論反壟斷案件的結果如何,搜尋領域正在發生的變化都凸顯了內容發布者掌控自己命運的重要性,他們不應過度依賴任何單一科技平台,包括Google。

「我們的信念是,內容發布者必須與讀者建立真正的關係,」拉加佐說,「這才是打造能經受住不同時代考驗的內容的方式。」

——Leah Nylen和Shirin Ghaffary對本文亦有貢獻

——譯 程璽