AI大戰|馬斯克聊天機械人Grok 3亮相 稱性能勝DeepSeek
美國富商馬斯克旗下初創xAI發布新一代聊天機械人Grok 3。
馬斯克和其xAI團隊人員在美國時間周一晚上網上直播發布Grok 3,並在進行現場示範,期間有逾370萬人次觀看直播。他們指出,Grok 3在很短的時間內實現功能比Grok2強大一個數量級,在多個基準測試中優於OpenAI的GPT-4o、Anthropic的Claude-3.5、DeepSeek V3和Google旗下Gemini 2.0 Pro。
團隊表示,雖然Grok起步較遲,但在大規模多任務語言理解(MMLU)得分上以超快的速度追上ChatGPT。Grok 3所涉及的訓練是Grok 2的10倍,也將具有類似DeepSeek R1和OpenAI o3 Mini的推理能力。目前Grok 3已在xAI內部運行2周。

推Deepsearch智能搜尋引擎
此外,xAI推出名為Deepsearch的Grok 3智能搜尋引擎。xAI工程師強調,Deepsearch是xAI的第一代廣泛代理工具,不僅幫助工程師、研究人員和科學家編寫代碼,也能幫助每個人回答日常遇到的問題。
在一系列現場演示中,馬斯克演示了Grok 3的搜索能力,如問「下一次的星艦發射是什麼時候」,Grok 3會像DeepSeek一樣,顯示模型正在做什麼,包括瀏覽的網頁、思考的過程,並確認網頁上的資訊是否可信,再得出一個相關的結論。最終,大模型以清單形式預測了下一次星艦的發射期。馬斯克和其團隊亦在演示中讓Grok 3解決一道物理題,並創作一款融合《寶石方塊》(Bejeweled)和《俄羅斯方塊》(Tetris)的遊戲。
X Premium Plus用戶率先試用
對於用戶何時能體驗Grok 3,馬斯克稱,會首先向預定用戶開放。由於模型仍在不斷更新和改進中,蘋果應用商店上線的Grok版本會相對落後,而網頁版更新最為及時。至於Grok 3的語音模式非常棒,但目前仍有點不穩定,大概一周後可能推出。xAI工程師補充說,Grok語音助手目前正在進行完善,並將在未來幾周內向用戶開放。
Grok 3目前仍在持續訓練中,該團隊強調,現在展示的只是Grok 3的測試版本,但已在多項指標上領先市場。隨着持續優化,未來的完整版本將更具競爭力。此外,Grok 3 Mini Reasoning(精簡版推理模型)也在訓練中 ,儘管其規模較小,卻在某些情境下超越完整版本,顯示AI在長時間訓練後仍有極大的增長潛力。
團隊指出,社交平台X上的Premium Plus用戶將是第一批獲得Grok 3存取權限的群體。公司亦推出了一個名為Super Grok的單獨訂閱服務,為那些想要最先進的功能和最早訪問新功能的忠實粉絲提供服務。
談及開發Grok 3最難的部分,馬斯克表示,最難的是訓練模型和100%的邏輯推理過程,那種複雜程度就像隨時隨地預測宇宙的發展情況。
被問及是否會開源時,馬斯克稱,每次做下一個版本時會開源上一個版本,當Grok 3變得穩定後,可能要幾個月時間,Grok 2就會開源。
Arena score評測中第一
另外,Grok 3在Chatbot Arena score評測中,以1402最高分奪冠,擊敗GPT-4o、把DeepSeek R1狠甩在後,擠下Gemini 2.0-flesh和Gemini2.0 pro。Arena score評測反映模型在理解能力、語言生成能力、知識廣度、適應性、長文本處理上的表現。
馬斯克早前形容Grok 3「聰明得可怕」(scary smart),並聲稱Grok 3的表現已超越「我們所知的任何已發布產品」,又謂xAI是利用合成數據進行訓練,可透過反覆檢查數據以反思所犯的錯誤,從而實現邏輯一致性。
支持EJ Tech

