AI訓練素材哪裡找？Meta：授權之路不好走啊！

Meta在AI發展的道路上，最近遇到了一些版權方面的挑戰，這也讓我們看到了AI模型訓練背後的一些複雜現實。簡單來說，Meta似乎暫停了授權書籍用於AI訓練的相關計畫，這背後的原因值得我們深入探討。 **授權談判為何停滯？** 起因是Meta在一次AI版權訴訟中提交的法庭文件，間接證實了之前關於Meta暫停與圖書出版商討論授權協議的報導。這些協議本來是為了給Meta的生成式AI模型提供訓練數據。 AI公司與作者及其他智慧財產權持有人之間的訴訟現在是越來越常見。AI公司普遍認為，使用受版權保護的內容進行訓練屬於「合理使用」，但版權持有者們對此強烈反對，認為這侵犯了他們的權益。根據法庭文件顯示，Meta內部其實很早就意識到，為書籍洽談AI訓練數據授權可能不划算。Meta的AI合作夥伴負責人Sy Choudhury提到，他們向各家出版商發出合作邀約後，得到的參與和興趣並不如預期。最初，Meta嘗試在網路上搜尋頂級出版商，但許多「cold call outreaches」都沒有得到回應，只有少數出版商願意參與。由於「時間安排」和其他後勤問題，Meta在2023年4月初就暫停了與AI相關的書籍授權工作。 Choudhury還指出，一些出版商（特別是小說類書籍出版商）表示，他們實際上沒有授權數據給Meta的權利，因此需要花費大量時間與作者接洽。這種種因素都增加了授權的難度。 **另闢蹊徑：自建數據集** 當外部授權難以達成時，Meta開始考慮建立自己的解決方案。Choudhury在證詞中提到，Meta至少有一次暫停了與AI開發相關的授權工作。例如，Meta曾嘗試從不同的遊戲引擎和遊戲製造商那裡授權3D世界，用於AI研究團隊。但與小說和教科書數據的情況類似，Meta幾乎沒有得到任何回應，因此決定建立自己的解決方案。這個經驗告訴我們，當外部授權困難重重時，像Meta這樣的科技巨頭可能會轉向內部開發，以滿足其AI訓練的需求。這也意味著，AI公司可能會投入更多資源來創建自己的數據集，以減少對外部授權的依賴。 **版權訴訟與數據來源爭議** 這起事件也牽涉到更廣泛的版權訴訟和數據來源爭議。原告（包括暢銷書作家Sarah Silverman和Ta-Nehisi Coates）的律師多次修改了訴狀，指控Meta將某些盜版書籍與可授權的版權書籍進行交叉比對，以確定與出版商達成授權協議是否合理。訴狀還指控Meta使用包含盜版電子書的「shadow libraries」來訓練其多個AI模型，包括Llama系列。據稱，Meta可能透過torrenting獲取了部分shadow libraries。原告聲稱，torrenting需要torrenters同時「seed」（上傳）他們試圖獲取的文件，這是一種侵犯版權的形式。這些指控突顯了AI公司在獲取訓練數據時面臨的法律和倫理挑戰。如何確保數據來源的合法性，以及如何在版權法規的框架下進行AI開發，是所有AI公司都需要面對的問題。 **前瞻與影響：AI發展的新方向** Meta暫停授權書籍用於AI訓練的舉動，反映了AI公司在獲取訓練數據時所面臨的實際困難和挑戰。儘管授權是解決版權問題的一種方式，但高昂的成本、複雜的版權歸屬以及出版商的保守態度，都使得授權之路充滿了不確定性。未來，AI公司可能會更加依賴自建數據集、合成數據或開源數據，以降低對外部授權的依賴。例如，生成式AI本身就可以用於創建合成數據，這或許能成為一種新的解決方案。版權持有人和AI公司之間的博弈還會持續下去，相關法律法規的完善也至關重要。這不僅影響AI技術的發展方向，也將重塑內容創作和版權保護的生態。我們可以預見，未來AI公司在數據獲取方面會更加謹慎，同時也會更加積極地尋找合規、可持續的數據來源。這對於整個AI產業的健康發展至關重要。

原始連結：https://techcrunch.com/2025/02/14/court-filings-show-meta-paused-efforts-to-license-books-for-ai-training/

AI訓練素材哪裡找？Meta：授權之路不好走啊！

Written by:

Ken