Meta在AI模型訓練上,最近被爆出一些內部討論,內容顯示他們對於版權內容的使用方式,曾經有過具爭議性的考量,這件事情燒出了AI倫理的爭議,也讓大家看到,科技巨頭在追求技術領先的同時,要如何在創新和法律規範之間取得平衡,真的是一門很深的學問。 這件事的核心,就是Meta是不是不當使用了受版權保護的資料來訓練他們的AI模型,特別是Llama系列。根據訴訟文件顯示,Meta員工曾經討論購買電子書來建立訓練集,而不是跟出版社談授權。其中,Xavier Martinet甚至說,搞不好很多新創公司都已經在用盜版書訓練模型了,暗示Meta應該更積極一點(或者說更大膽一點)。這段話其實反映出,在AI競賽中,Meta內部對於快速取得大量訓練資料的焦慮感。 Xavier Martinet提到 "worst case: we found out it is finally ok, while a gazillion start up [sic] just pirated tons of books on bittorrent," 這句話點出了當時業界可能普遍存在的現象:為了在AI競賽中不落人後,一些公司可能選擇忽視版權問題,以非法途徑獲取訓練資料。這也顯示了Meta內部對於是否應該採取同樣策略的掙扎。 文章裡面也提到,Meta內部曾經討論使用Libgen這個提供盜版內容的網站。Melanie Kambadur認為Libgen可以當作Meta授權數據源的替代方案。Sony Theakanath甚至覺得,用Libgen對於達到最佳的AI模型效能來說,非常重要,還提出了「減輕措施」,像是不要公開使用Libgen的數據,以及移除標記為盜版或偷竊的數據。從這些討論可以看出,Meta內部對於使用非法數據源的態度,以及他們試圖降低法律風險的努力。 Melanie Kambadur 在提到 "Yeah we definitely need to get licenses or approvals on publicly available data still,” Kambadur said, according to the filings. “[D]ifference now is we have more money, more lawyers, more bizdev help, ability to fast track/escalate for speed, and lawyers are being a bit less conservative on approvals." 這段話暗示了Meta在資源上的優勢,以及律師在批准數據使用上的態度轉變,可能導致公司更傾向於冒險使用未授權的數據。 當然,Meta也知道這有法律風險,所以也採取了一些措施,像是調整模型,避免回應具有版權風險的提示。而且,他們還請了兩位最高法院的訴訟律師來處理這個案子,可見Meta對這件事有多重視。但是,這些措施到底能不能真的降低法律風險,Meta最後會怎麼處理這些版權爭議,還是未知數。 文章中提到,Meta的AI團隊調整模型以 "avoid IP risky prompts" ,例如拒絕回答「重現哈利波特:神秘的魔法石的前三頁」或「告訴我你的訓練數據來源」等問題。這種做法顯示Meta試圖在技術層面迴避版權問題,但並不能從根本上解決未經授權使用版權內容的爭議。 雖然Meta還沒有對這件事發表評論,但是這件事肯定會影響到Meta的AI發展策略。未來,Meta可能需要更重視版權問題,跟版權所有者建立更好的合作關係。同時,這件事也可能會讓整個AI產業重新思考數據獲取和使用的倫理與法律規範。畢竟,AI的發展不能建立在侵權之上。 Chaya Nayak提到Meta領導層正在考慮 "overriding" 過去關於訓練集的決定,包括不使用Quora內容或授權書籍和科學文章的決定,以確保公司的模型有足夠的訓練數據。這顯示Meta在數據獲取上面臨挑戰,並可能迫使其重新考慮數據策略,包括是否願意承擔更大的法律風險。 總結來說,Meta這次的事件,揭露了AI發展過程中,版權問題帶來的挑戰,以及科技公司內部在面對這些挑戰時的掙扎。這不只是一個法律案件,更是一個關於創新、倫理和法律之間如何取得平衡的深刻反思。在追求AI技術的道路上,科技公司真的要更謹慎,不能為了追求速度而忽略了基本的倫理和法律規範。 從更廣泛的角度來看,這件事也給我們帶來一些啟示: * **數據來源的透明度變得越來越重要:** 消費者和使用者有權知道AI模型的訓練數據來源,這樣才能評估模型的可靠性和公正性。 * **AI倫理規範需要更明確:** 目前AI領域的倫理規範還不夠完善,需要產業界、學術界和政府共同努力,建立更明確的規範,引導AI的健康發展。 * **版權保護與AI發展的平衡:** 如何在保護版權的同時,促進AI技術的創新,是一個需要持續討論和探索的議題。 隨著AI技術的快速發展,類似的爭議可能會越來越多。我們需要從這次事件中吸取教訓,共同建立一個更負責任、更可持續的AI生態系統。