Don't Miss

維基存亡｜AI猛抓資料訓練危及維基存亡藉免費數據獲利不用付儲藏營運成本

By 信報財經新聞 on April 10, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech——智情筆報」

經營維基百科（Wikipedia）的維基基金會最近「報喜」，指自從2024年1月以來，維基百科多媒體內容下載量較之前上升50%。可惜這並非更多人渴求知識，而是源於人工智能爬蟲（AI crawler）「無差別式」抓取資料，藉以訓練下一代AI模型。這些自動程式掠奪維基旗下文章、圖片、影音等各類資料，最終靠收費獲利。維基提供免費數據，卻可能危及自身存亡，因為要承擔巨大的運算資源及頻寬成本，情況如「引狼入室」一般荒謬。

維基百科多媒體內容下載量上升50%，或源於人工智能爬蟲抓取資料。（Facebook網上圖片）

下載冷門主題更耗用頻寬

不同於習慣搜尋熱門主題的人類用戶，AI爬蟲利用自動化程式大量下載冷門、少人查閱的內容。這些頁面通常未被緩衝到暫存記憶體，須從數據中心重新調出，耗用的運算力及頻寬較熱門資源為高，並且須由維基支付成本。好比圖書館常設區與閉架藏書，後者要館方另找專人領管理。依基金會統計，目前65%的高耗費流量來自AI，惟其總瀏覽量實際僅佔35%。這種消耗與貢獻的失衡，對該網站穩定性直接構成干擾。

在維基2025/2026年度規劃中，基金會希望削減20%來自爬蟲的請求，以及30%的頻寬消耗。基金會成員在一篇文章直言：「我們的內容是免費的，但我們的基礎設施不是。」他們主張建立「知識即服務」（Knowledge as a Service）的模式，讓互聯網用可持續方式取維基百科的知識，而不是無限制地自由抓取。

當下AI模型所依賴的資料，主要出於維基百科、GitHub一類開放平台，後者營運長年仰賴社群貢獻、義工維護與群眾捐款。AI公司藉由這些免費資料建立龐大模型，再把成果以訂閱、API（應用程式介面）授權、企業客製化等形式獲利，卻無反饋成本給原始資料提供者。

AI商業產品還會取代及威脅原本的內容平台，例如當人問ChatGPT一個問題時，它不會導引到維基百科查閱全文，而是直接生成精簡答案。這種把資訊再包裝與分發的行為，讓平台失去了原本導流與曝光的機會。

另外有一些人更把AI生成結果，反過來回傳到維基等內容平台，惟以劣質內容居多，導致資訊污染大於貢獻。

現時為了應對AI爬蟲過量問題，維基等都嘗試透過標準網絡協議robots.txt以限制存取。根據美國新創TollBit的調查，這種協議在AI面前幾乎失效，有些公司在表面上宣稱尊重協議，實際上卻透過隱藏身份作秘密爬取。此等匿名AI爬蟲平均抓取量，甚至要較冠名AI爬蟲更高。

Reddit出售內容放棄抵抗

被稱為「美國連登」的Reddit，之前同樣遇上類似問題，其行政總裁赫夫曼（Steve Huffman）當時說，阻止微軟AI爬蟲是一件「真夠痛苦的事」（real pain in the ass）。該企去年索性先後把旗下資料訓練權賣給Google與OpenAI，放棄與爬蟲惡鬥。

AI業界高喊開源、民主化，嘗試營造一種共享創新氛圍，然而這些開放成果卻是「讓一部分人先享用起來」，往往僅對具備充足算力、資金與技術者，才有實用價值可言。當AI爬蟲每天不間斷地抓取數百萬筆內容，卻讓維基百科一類非牟利開放平台陷入營運困境；在開放共享的理想，與突破技術的衝突之間，業界需要一條更明確清晰的邊界。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI AI crawler feature Wikipedia

Tweet

Pin It

Related Posts

AI魔法時代降臨（林國誠）

AI魔法時代降臨（林國誠）

WordPress｜AI建立器數分鐘生成網站

WordPress｜AI建立器數分鐘生成網站

Shopify｜要求盡用AI節省人手

Shopify｜要求盡用AI節省人手

Ironwood｜谷歌新TPU出爐攻推理訓練

Ironwood｜谷歌新TPU出爐攻推理訓練

Latest News

電動車大戰｜Tesla中國停售Model S和Model X新車
Tesla中國官網取消了Model S和Model X兩款電動汽車的「立即訂購」選項。這兩款車型的在華銷售完全依賴在美國生產並出口至中國，而中美兩國的關稅大戰正在持續推升成本，並擾亂供應鏈。

Posted April 11, 2025

0

電動車之戰｜Tesla新款Cybertruck售價逾54.5萬
Tesla 於美國推出新款Cybertruck，售價69990美元（約54.59萬港元），扣除7500美元稅務減免，則為62490美元。而新款Cybertruck長續航版是目前三款車型中最便宜。

Posted April 11, 2025

0

AI魔法時代降臨（林國誠）
近日，一打開社交媒體，隨處可見朋友分享的人工智能（AI）生成漫畫頭像，這些風格各異的創作，有的像日系動漫，有的似美式插畫，已成為新興的社交潮流。

Posted April 11, 2025

0

OpenAI｜協助產業建專屬模型
ChatGPT開發商OpenAI啟動「先鋒計劃」（Pioneers Program），旨在推動人工智能（AI）於實際應用領域的發展與部署，協助企業提升模型效能、解決產業痛點。

Posted April 11, 2025

0

WordPress｜AI建立器數分鐘生成網站
託管平台WordPress.com推出一款人工智能（AI）網站建立器，讓人可利用AI聊天介面，創建一個能夠運作的網站，有助跟Squarespace及Wix等平台競爭。

Posted April 11, 2025

0

Shopify｜要求盡用AI節省人手
加拿大電商平台Shopify近日發布內部備忘錄，明確表示人工智能（AI）將成為公司日常工作的基本工具，員工必須把AI整合至工作流程，否則將無法獲得額外資源或人手支持。

Posted April 11, 2025

0

Ironwood｜谷歌新TPU出爐攻推理訓練
谷歌（Google）周三（9日）在美國召開年度大會Google Cloud Next，超大規模運算及代理生態系統成為核心主題。現場發表第七代張量處理器（TPU）Ironwood，為谷歌首款專為推理訓練工作而設計的TPU晶片。

Posted April 11, 2025

0

POPULAR POSTS

AICT｜內地AI紅綠燈下半年來港發布 AICT智能交通方案解決塞車疏導人流

 搶人才｜Google一年有薪假阻AI專才跳槽

 AI大戰｜Meta Llama 4兩多模態模型面世

 Monica｜新平台Monica玩盡多款AI模型

 宮崎駿哲學與AI工具（黃岳永）

AI時代｜IBM z17主機運算量增五成

 OpenAI｜協助產業建專屬模型

 AI魔法時代降臨（林國誠）

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

維基存亡｜AI猛抓資料訓練 危及維基存亡 藉免費數據獲利 不用付儲藏營運成本

下載冷門主題 更耗用頻寬

Reddit出售內容放棄抵抗

支持EJ Tech

Related Posts

Latest News

POPULAR POSTS

成為 EJ Tech 會員

維基存亡｜AI猛抓資料訓練危及維基存亡藉免費數據獲利不用付儲藏營運成本

下載冷門主題更耗用頻寬