Meta在AI發展的道路上,最近遇到了一些版權方面的挑戰,這也讓我們看到了AI模型訓練背後的一些複雜現實。簡單來說,Meta似乎暫停了授權書籍用於AI訓練的相關計畫,這背後的原因值得我們深入探討。 **授權談判為何停滯?** 起因是Meta在一次AI版權訴訟中提交的法庭文件,間接證實了之前關於Meta暫停與圖書出版商討論授權協議的報導。這些協議本來是為了給Meta的生成式AI模型提供訓練數據。 AI公司與作者及其他智慧財產權持有人之間的訴訟現在是越來越常見。AI公司普遍認為,使用受版權保護的內容進行訓練屬於「合理使用」,但版權持有者們對此強烈反對,認為這侵犯了他們的權益。 根據法庭文件顯示,Meta內部其實很早就意識到,為書籍洽談AI訓練數據授權可能不划算。Meta的AI合作夥伴負責人Sy Choudhury提到,他們向各家出版商發出合作邀約後,得到的參與和興趣並不如預期。最初,Meta嘗試在網路上搜尋頂級出版商,但許多「cold call outreaches」都沒有得到回應,只有少數出版商願意參與。由於「時間安排」和其他後勤問題,Meta在2023年4月初就暫停了與AI相關的書籍授權工作。 Choudhury還指出,一些出版商(特別是小說類書籍出版商)表示,他們實際上沒有授權數據給Meta的權利,因此需要花費大量時間與作者接洽。這種種因素都增加了授權的難度。 **另闢蹊徑:自建數據集** 當外部授權難以達成時,Meta開始考慮建立自己的解決方案。Choudhury在證詞中提到,Meta至少有一次暫停了與AI開發相關的授權工作。例如,Meta曾嘗試從不同的遊戲引擎和遊戲製造商那裡授權3D世界,用於AI研究團隊。但與小說和教科書數據的情況類似,Meta幾乎沒有得到任何回應,因此決定建立自己的解決方案。 這個經驗告訴我們,當外部授權困難重重時,像Meta這樣的科技巨頭可能會轉向內部開發,以滿足其AI訓練的需求。這也意味著,AI公司可能會投入更多資源來創建自己的數據集,以減少對外部授權的依賴。 **版權訴訟與數據來源爭議** 這起事件也牽涉到更廣泛的版權訴訟和數據來源爭議。原告(包括暢銷書作家Sarah Silverman和Ta-Nehisi Coates)的律師多次修改了訴狀,指控Meta將某些盜版書籍與可授權的版權書籍進行交叉比對,以確定與出版商達成授權協議是否合理。 訴狀還指控Meta使用包含盜版電子書的「shadow libraries」來訓練其多個AI模型,包括Llama系列。據稱,Meta可能透過torrenting獲取了部分shadow libraries。原告聲稱,torrenting需要torrenters同時「seed」(上傳)他們試圖獲取的文件,這是一種侵犯版權的形式。 這些指控突顯了AI公司在獲取訓練數據時面臨的法律和倫理挑戰。如何確保數據來源的合法性,以及如何在版權法規的框架下進行AI開發,是所有AI公司都需要面對的問題。 **前瞻與影響:AI發展的新方向** Meta暫停授權書籍用於AI訓練的舉動,反映了AI公司在獲取訓練數據時所面臨的實際困難和挑戰。儘管授權是解決版權問題的一種方式,但高昂的成本、複雜的版權歸屬以及出版商的保守態度,都使得授權之路充滿了不確定性。 未來,AI公司可能會更加依賴自建數據集、合成數據或開源數據,以降低對外部授權的依賴。例如,生成式AI本身就可以用於創建合成數據,這或許能成為一種新的解決方案。 版權持有人和AI公司之間的博弈還會持續下去,相關法律法規的完善也至關重要。這不僅影響AI技術的發展方向,也將重塑內容創作和版權保護的生態。我們可以預見,未來AI公司在數據獲取方面會更加謹慎,同時也會更加積極地尋找合規、可持續的數據來源。這對於整個AI產業的健康發展至關重要。

原始連結:https://techcrunch.com/2025/02/14/court-filings-show-meta-paused-efforts-to-license-books-for-ai-training/