You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

維基存亡|AI猛抓資料訓練 危及維基存亡 藉免費數據獲利 不用付儲藏營運成本

By on April 10, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech——智情筆報

經營維基百科(Wikipedia)的維基基金會最近「報喜」,指自從2024年1月以來,維基百科多媒體內容下載量較之前上升50%。可惜這並非更多人渴求知識,而是源於人工智能爬蟲(AI crawler)「無差別式」抓取資料,藉以訓練下一代AI模型。這些自動程式掠奪維基旗下文章、圖片、影音等各類資料,最終靠收費獲利。維基提供免費數據,卻可能危及自身存亡,因為要承擔巨大的運算資源及頻寬成本,情況如「引狼入室」一般荒謬。

維基百科多媒體內容下載量上升50%,或源於人工智能爬蟲抓取資料。(Facebook網上圖片)

下載冷門主題 更耗用頻寬

不同於習慣搜尋熱門主題的人類用戶,AI爬蟲利用自動化程式大量下載冷門、少人查閱的內容。這些頁面通常未被緩衝到暫存記憶體,須從數據中心重新調出,耗用的運算力及頻寬較熱門資源為高,並且須由維基支付成本。好比圖書館常設區與閉架藏書,後者要館方另找專人領管理。依基金會統計,目前65%的高耗費流量來自AI,惟其總瀏覽量實際僅佔35%。這種消耗與貢獻的失衡,對該網站穩定性直接構成干擾。

在維基2025/2026年度規劃中,基金會希望削減20%來自爬蟲的請求,以及30%的頻寬消耗。基金會成員在一篇文章直言:「我們的內容是免費的,但我們的基礎設施不是。」他們主張建立「知識即服務」(Knowledge as a Service)的模式,讓互聯網用可持續方式取維基百科的知識,而不是無限制地自由抓取。

當下AI模型所依賴的資料,主要出於維基百科、GitHub一類開放平台,後者營運長年仰賴社群貢獻、義工維護與群眾捐款。AI公司藉由這些免費資料建立龐大模型,再把成果以訂閱、API(應用程式介面)授權、企業客製化等形式獲利,卻無反饋成本給原始資料提供者。

AI商業產品還會取代及威脅原本的內容平台,例如當人問ChatGPT一個問題時,它不會導引到維基百科查閱全文,而是直接生成精簡答案。這種把資訊再包裝與分發的行為,讓平台失去了原本導流與曝光的機會。

另外有一些人更把AI生成結果,反過來回傳到維基等內容平台,惟以劣質內容居多,導致資訊污染大於貢獻。

現時為了應對AI爬蟲過量問題,維基等都嘗試透過標準網絡協議robots.txt以限制存取。根據美國新創TollBit的調查,這種協議在AI面前幾乎失效,有些公司在表面上宣稱尊重協議,實際上卻透過隱藏身份作秘密爬取。此等匿名AI爬蟲平均抓取量,甚至要較冠名AI爬蟲更高。

Reddit出售內容放棄抵抗

被稱為「美國連登」的Reddit,之前同樣遇上類似問題,其行政總裁赫夫曼(Steve Huffman)當時說,阻止微軟AI爬蟲是一件「真夠痛苦的事」(real pain in the ass)。該企去年索性先後把旗下資料訓練權賣給Google與OpenAI,放棄與爬蟲惡鬥。

AI業界高喊開源、民主化,嘗試營造一種共享創新氛圍,然而這些開放成果卻是「讓一部分人先享用起來」,往往僅對具備充足算力、資金與技術者,才有實用價值可言。當AI爬蟲每天不間斷地抓取數百萬筆內容,卻讓維基百科一類非牟利開放平台陷入營運困境;在開放共享的理想,與突破技術的衝突之間,業界需要一條更明確清晰的邊界。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們