發布時間:2025-11-22 14:30:27 來源:骨軟筋酥網 作者:休閑
本周早些時候紐約時報發布了一篇內容描述人工智能公司 OpenAI 在收集高質量訓練數據方面遇到的大戰的困難,昨夜紐約時報發布新內容描述 OpenAI 如何處理這些問題。觸即
OpenAI 一開始迫切需要海量的錄超藍點杭州錢塘酒店上門服務靠譜電vx《134-8006-5952》提供外圍女上門服務快速選照片快速安排不收定金面到付款30分鐘可到達訓練數據,報道稱為了解決訓練數據問題 OpenAI 開發了語音轉錄模型 Whisper。過萬
該模型被用于轉錄 OpenAI 獲取的小時訓練超過 100 萬小時的 YouTube 視頻,也就是視頻將 YouTube 視頻中的音頻內容轉錄文字,然后再拿去訓練 GPT-4。模型
OpenAI 顯然知道自己的大戰的這種做法存在法律上的爭議,不過該公司相信這是觸即合理使用的,而且 OpenAI 總裁 Greg Brockman 親自參與了上述所使用視頻的錄超藍點收集工作。
在被紐約時報報道后,過萬OpenAI 發言人表示,小時訓練該公司為其每個模型策劃了獨特的視頻杭州錢塘酒店上門服務靠譜電vx《134-8006-5952》提供外圍女上門服務快速選照片快速安排不收定金面到付款30分鐘可到達數據集,以幫助該公司了解世界并保持其全球研究競爭力,模型該公司使用了眾多數據源,大戰的包括公開數據和非公開數據的合作伙伴,并且 OpenAI 在考慮生成自己的合成數據。
不過早在 2021 年 OpenAI 就耗盡了有用的數據供應,包括轉錄的超過 100 萬小時的 YouTube 視頻、播客和其他有聲讀物,那時候 OpenAI 已經使用這些數據進行訓練,模型數據也包括 GitHub 上的計算機代碼、國際象棋走棋數據庫以及 Quizlet 等。

谷歌稱相關行為已經違規:
對于上述報道谷歌自然不會坐視不理的,畢竟對谷歌來說,YouTube 內容庫現在就是個金山,谷歌自己能用,但絕對不能給其他公司用。
谷歌發言人稱已經注意到有關 OpenAI 活動的未經證實的報告,谷歌的 robots.txt 文件和服務條款都禁止未經授權的抓取或下載 YouTube 內容,這與谷歌相關的條款相符。
本周 YouTube CEO 也就 OpenAI 使用 YouTube 數據來訓練 Sora 模型的可能性發布了類似言論,同時她警告稱當有明確的法律或技術依據時,谷歌會采取技術和法律措施來防止此類未經授權的使用。
谷歌自己使用 YouTube 數據訓練 AI:
雖然谷歌強調保護創作者的內容,不過谷歌也承認他們也使用 YouTube 視頻來訓練 AI,谷歌此前已經透露該公司與創作者的協議中,可以使用一些 YouTube 內容來訓練模型。
數據收集方法也是類似的,即將 YouTube 的音頻內容轉換為文字內容后,再拿去訓練模型,對谷歌來說 YouTube 的內容庫可以提供海量數據,是個不可多得的幾乎不用花錢的數據源。
接下來是否會出現法律訴訟:
考慮到 OpenAI 對數據的迫切需求,OpenAI 通過各種方式抓取受版權保護的內容不足為奇,在初期也就是 2021 年前后這種情況估計還不會引起關注,但現在情況已經不同了。
如果谷歌找到證據表明 OpenAI 抓取 YouTube 內容用于訓練,那么谷歌肯定會起訴 OpenAI,畢竟 OpenAI 的行為確實可能已經違反了 YouTube 相關協議。
所以或許在不久之后我們就能看到各種因為內容版權問題引起的法律大戰,到時候牽涉進來的自然也不只是谷歌和 OpenAI,可能還有更多 AI 公司和內容提供商牽涉進來。
相關文章