You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

數據獲取策略6要點(車品覺)

By on July 27, 2016

本文作者車品覺,為紅杉資本中國基金專家合夥人、原阿里巴巴集團副總裁,為《信報》撰寫專欄全民大數據

人工智能近年因大數據而「重生」,但制約人工智能在各領域更廣泛利用的,並非演算法不夠先進,而是缺乏高品質的數據獲取。

若想開發最先進的機器學習技術,能否獲得高品質的訓練數據極為關鍵,而如何起動是大部分企業的一個難題。

在數據科學業界,很多演算法和軟體工具都是開源及共用,但好的數據集通常是獨家。

因此,擁有針對特定領域的龐大數據集,必能成為競爭優勢。所以大家對BAT的大數據趨之若鶩,甚至很多高手為此而投身這些公司。

但對於從事機器學習的初創公司,起步時數據十分有限,難以自建高品質的大數據資源。甚至有些企業在聘請數據科學團隊、購置昂貴設備之後,才知道還未制訂「養」好數據的策略。

數據來源的選擇必定與商業模式相關,我的經驗是從小問題入手,清楚問題的本質往往是選擇數據和演算法的前提。每間公司的數據獲取策略不盡相同,但回想這麼多年在阿里亦面對了不少類似的困難,希望拋磚引玉跟大家分享幾點:

品質安全缺一不可

一、從零開始創建好的專有數據集,幾乎永遠意味着預先投入大量人力採集數據,但更痛苦的是業務變化的同時,數據結構也需要時時更新,正如前輩所說:Data might broken before you use it。

二、即使是表面上擁有很多數據,但在運用機器學習時,往往仍發現數據不足。你需要的數據量,跟你試圖解決的問題廣度緊密相關。

三、數據的收集、處理、運用,短期來說肯定是愈貼近業務愈有效率,然而長遠不利於數據的標準化及重複使用,令開發周期變得臃腫和漫長。

四、須確保早期創造的應用有足夠吸引力,讓業務方及使用者甘願交出他們的數據。大數據落地除了關乎技術問題,亦繫於業務方的意願是否足夠。

五、在大面積使用大數據之前,必須嚴謹地面對數據標準和品質問題,否則後果堪憂。數據驅動型企業須明白數據品質是全部員工的責任,亦是命門。

六、大數據安全是個迷思,原以為很安全的數據拼合其他數據之後,可能成為機密級別。例如你不介意公開GPS位置,卻不一定希望讓人知道你跟誰在一起。

曾對朋友說,我在阿里經歷「九死一生」,很多人聽了不明白,看到上面的內容,再設想我要面對幾十個包括螞蟻金服的業務方的情境,你可能就了解吧。

更多車品覺文章:

支持EJ Tech



如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們