連登仔有望發達 (高天佑)
有「美國連登」之稱的Reddit論壇剛發出「徵費令」,要求Microsoft、Google等科企不可以再免費使用該論壇數據研發AI。同時,Twitter老闆馬斯克亦指控微軟擅用該社交平台數據,揚言將起訴對方。事實上,現今AI公司每日在各大小平台「爬蟲」(crawling)採摘數據,卻大多沒有付費,構成侵權爭議。
作為美國最大網絡論壇,Reddit在全球擁有逾4.3億用戶,每日都非常熱鬧,從遊戲、娛樂、體育到政治等不同子板塊皆充滿人氣。例如美國股市2021年1月上演「世紀挾空」,GameStop等細價股在短時間內爆升近20倍,令不少沽空基金爆煲破產,一般認為這場行動正是由Reddit旗下wallstreetbet炒股板塊部分散戶發起,可見該論壇影響力有幾大。
AI採數據 Reddit謀徵費
亦因如此,Reddit論壇成為各AI研發商「採數據」兵家必爭之地。不過該公司近日忍無可忍,本周二宣布將要求Microsoft、OpenAI、Google等AI巨擘繳付「數據費」。Reddit創辦人兼CEO赫夫曼(Steve Huffman)指出,該論壇無數網民每日發帖具有寶貴價值,其他大企業不付分文便採摘相關數據用於研發AI程式,實在不合理。
繼赫夫曼後,Tesla暨Twitter老闆馬斯克周三發文表示,微軟「違法使用Twitter數據訓練AI程式」(They trained illegally using Twitter data),揚言將會起訴對方(Lawsuit time)。
事實上,業界公認AI建基於三大元素,分別是算法、算力、數據,三者缺一不可。算法即獨門訓練及研發程式;算力則指擁有龐大運算力的超級電腦;至於數據,主要關乎數碼世界海量資訊。例如ChatGPT收集了超過一萬億條參數,透過機器學習輔以人工標註,從中篩選並提煉出最準確及最有用資訊,才令該AI程式顯得那麼聰明。
鑑於世界日新月異,AI當然也要「終身學習」,研發商通常會編寫爬蟲程式,讓電腦每分每秒自動在各大小網絡社區「mon post」(緊貼最新內容),不斷為AI灌注數據養分。
不過正如赫夫曼提到,現今科企「爬蟲」多屬「免費餐」,引起愈來愈大爭議。一方面,AI研發商可能認為:「喂,Reddit(或連登)的網民發帖屬公開內容,人人都可免費看到。我們只不過用爬蟲程式代替人手,一次過收集大量內容,憑什麼要付費?」但論壇營運商可能反駁:「喂,我們辛辛苦苦搭建平台、吸引用戶,所產生的內容卻被你們一聲唔該全盤捧走,用於研發AI賺大錢,不分享一些利潤怎也說不通吧?」
由此角度看,即使社區陣營(如Reddit、Twitter)和AI陣營(微軟、谷歌等)能夠「講掂數」,達成付費機制,相關爭議亦未必會止息,事關網民們可能會說:「喂,你們兩邊都有錢賺,而那些帖子其實由我發表,最終產權應屬於我,為什麼我一毫子都收不到?」
因此,部分科技業者提出利用區塊鏈技術,建立「點對點」式數據使用權付費機制。舉例說,AI科企每使用來自網絡社區的一條資訊,就要付出若干費用,該筆錢可以按比例分配予平台和發帖者。
設版權機制 還富於網民
這有點像香港CASH機制,作曲人和填詞人創作一首歌之後,卡拉OK、電視台等商業機構每播放該首歌一次,就要透過CASH付款予創作者。當然,互聯網世界每日新內容數以億條,不可能用人手逐一歸檔、收費和付費;但借助blockchain、加密貨幣及AI技術,相信有機會做到。
很多人擔心AI和機械人會搶走人類飯碗,有學者及政客建議開徵AI稅、機械人稅,再把稅收以UBI(全民基本收入)形式每月無條件派錢予所有民眾,讓人們「唔使做都有收入」。除此以外,「個人數據版權費」也可以成為新時代其中一種收入分配模式,反正AI這麼聰明,很大程度上建基於全球數十億網民數據,所謂「羊毛出自羊身上」,自應向網民提供回報。或許在不久將來,連登仔每日坐在家裏上網出po,便能創造持續收入來源。怕的是有朝一日,AI自己懂得主動發言,量與質皆更勝人類,屆時可能是連登仔的末日。
(編者按:高天佑著作《中產必須死》現已發售)
歡迎訂購:實體書、電子書