大數據變革在數據本身(車品覺)
大數據公司最大的痛苦是什麼?不是沒有數據,而是有太多數據。各種各樣包括結構性和非結構性的數據從四面八方而來,但哪些有用?如何挑選?才是最難。
有一次,我在美國碰巧遇到谷歌的前數據部門主管,他跟我說了一件他覺得很痛苦的事:提出數據需求的人,往往70%的情況並沒有使用所獲提供的數據。他為此非常生氣,便質問業務方:「為什麼你們老問我要數據,結果卻不用?」業務方回答:「是的,因為我用了之後才知道這些數據沒有用。」對於一個每天都要準備數據的人來說,這好比你是一家餐廳的老闆,廚師每天為你準備很多菜卻只用一小部分材料。所以,我從事大數據行業一直有個夢想:如果有一天可以把數據的處理自動化,該多好!
創新方法自動清洗準備
說起數據處理的自動化,不得不提一家在數據領域有突破創新的公司Paxata,它是美國少有接地氣的自助型數據開發 (data preparation)平台。這家公司的專注領域令人興奮,因為目前市場上幾乎所有的數據分析,包括BI軟件和創新都聚焦在解決數據分析的算法、視覺化、模型等等的自動化,卻忽略了一個事實:現實工作中,數據科學家和分析師首先需要花費80%、甚至更多的時間在數據清洗和準備。Paxata採用機器學習的創新方法解決data preparation。其功能如下:
一、讀取數據:讀取任何形式的數據,自動解析和識別數據的類型及數據的意義;
二、數據探索:通過人機交互的形式,幫助用戶主動發現數據質量問題。比如提供全文搜尋、數據品質熱力圖、發現規律,來發現數據中的錯誤、重複、稀疏、缺失等問題;
三、數據清洗和修改:Paxata平台的核心是語義融合和機器學習引擎。該引擎基於算法智能識別並進行數據變換以改善數據;
除了上述功能,Paxata還能夠通過人機交互的形式完成數據合併、發布、改進、分享、安全控制等數據準備的所有環節。其中一個有趣的功能是數據富集(data enrichment),能基於第三方數據庫建議用戶增加更多的變量以提升挖掘價值,並自動完成數據的轉化。他山之石可以攻玉,同類公司所關注的變量及挖掘路徑可以互相借鑑。
今天大數據之所以說起來容易、做起來難,主要是因為兩個問題,其一是數據的易用性,其二是數據處理的成本。因此,底層數據處理的自動化將愈加重要。我們需要將使用數據的經驗數據化,並把這些經驗轉化為其他公司對自己數據的理解和使用能力。
或許在不久的將來,我們就會發現只要我們對某一領域使用數據的經驗有足夠的沉澱,哪怕給我一堆毫無關係的數據,我也能根據數據經驗庫,告訴你我從中看到了什麼。世界日新月異,變化之快令人咋舌,我們數據人也只有不斷顛覆自己使用數據的能力,才能找出大數據未來的方向。
更多車品覺文章:
支持EJ Tech
如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們。
Related Posts
Latest News
-
AI趨勢|OpenAI多地推AI代理工具Operator
聊天機械人ChatGPT開發商OpenAI在社交平台發文表示,正在向澳洲、巴西、加拿大、印度、日本、新加坡、南韓、英國等地的ChatGPT Pro用戶推出人工智能(AI)代理工具「Operator」,可以代表用戶執行任務。
- Posted February 21, 2025
- 0
-
AI大戰丨OpenAI擬下周推GPT-4.5 GPT-5或5月登場
美國傳媒報道,OpenAI將最快下周公布其最新人工智能(AI)模型GPT-4.5,而GPT-5則有望於5月下旬發布。更新後的GPT-5將對ChatGPT的使用方式進行重大改進,統一OpenAI的o系列和GPT系列模型,減少使用者選擇模型的困惑。
- Posted February 21, 2025
- 0
-
AI Pin|襟章策略失利 新星初創被HP收購
美國科技巨企惠普(HP)擬斥資1.16億美元(約9億港元),收購當地初創Humane大部分股權,接收對方多數員工、人工智能(AI)平台Cosmos,以及超過300項專利權,有關交易預計本月底完成。
- Posted February 21, 2025
- 0
-
全新視角觀賞熊貓寶寶生活(林國誠)
「熊貓TV」正式進入第二階段,新增設置於「大熊貓之旅」的6支鏡頭並引入多項嶄新功能,讓市民能以全新視角、多角度、更自由的方式觀賞「盈盈」、「樂樂」,以及牠們的龍鳳胎寶寶「家姐」與「細佬」的生活點滴。隨着這些升級功能的推出,熊貓熱潮勢必再掀高潮!
- Posted February 21, 2025
- 0
-
進軍電玩界|微軟推Muse動作模型 生成式AI闖遊戲開發
利用生成式人工智能(Generative AI),有助改革創新工業發展。微軟(Microsoft)研究團隊介紹一款名為Muse的「世界及人類動作模型」(WHAM),有關成果由微軟研究院旗下「遊戲智能」、「可教學AI體驗」兩組人員,跟英國劍橋遊戲開發工作室Ninja Theory合作完成。
- Posted February 21, 2025
- 0
-
理大夥中移香港拓6G應用
香港理工大學與中國移動(香港)創新研究院達成合作協議,並簽署合作備忘錄及合作項目協議。校長滕錦光(後排左二)稱,今次合作充分發揮學術界與業界的協同優勢,雙方將聚焦戰略性的科技領域,包括人工智能(AI)、6G及Web3等範疇的技術革新及應用。
- Posted February 21, 2025
- 0
-
Apple新機|iPhone 16e今預訂 入門版售5099元
Apple 發布最新款智能手機iPhone 16e,搭載最新一代A18晶片及4核心圖像處理器(GPU),可流暢運行Apple Intelligence,例如AI寫作工具、Genmoji、Image Playground等人工智能(AI)功能。
- Posted February 21, 2025
- 0
EJ Tech Video
POPULAR POSTS
-
Grok 3|馬斯克「最醒」AI模型登場 Grok 3香港可用 月費170元
-
點語成丹青|港首辦成語變畫作AI比賽 120間中小學參與 收逾千作品
-
AI「炒散」|AI模型接編程散工 獨立開發力遜人類
-
EzyGreenPak|環保袋減廢遇熱水即溶 港EzyGreenPak專利 今屆渣馬採用
-
EzyGreenPak|自家平台監控碳排 助家族工廠轉型
-
DeepSeek|據報新增互聯網訊息服務
-
AI大戰|馬斯克聊天機械人Grok 3亮相 稱性能勝DeepSeek
-
神經元記錄|哈佛研CMOS矽晶片 記錄神經細胞活動
-
X危機?|馬斯克旗下X傳以3432億估值洽融資
-
AI研究院|理大成立「人工智能+研究院」