Don't Miss
AI不當回應|GPT-4.1建議用戶入侵賬號解悶
By 信報財經新聞 on April 25, 2025
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」
ChatGPT開發商OpenAI早前推出新一代人工智能(AI)模型GPT-4.1,惟未按慣例同步發布技術報告與安全評估。當科學家、開發者自行測試其行為表現後,發現新模型在可靠度與對齊性上,表現皆不如前代模型GPT-4o。
英國牛津大學AI研究員Owain Evans指出,利用不安全代碼與資料微調的GPT-4.1,會對性別角色等敏感議題作出不當回應,甚至出現一些「新的惡意行為」。他在社交媒體舉出一個例子,就是用戶表示感到沉悶後,模型竟建議對方入侵朋友賬號「惡搞」,但又誘導用戶先洩露自己的密碼。
美國AI安全公司SplxAI亦對GPT-4.1測試,在約1000個模擬場景中發現,該模型更容易偏離主題,而且容許蓄意濫用,頻率高於另一模型GPT-4o。同時,GPT-4.1偏好明確指令,導致它對模糊語句處理能力較弱,增加出現非預期行為的機會。
傳今夏釋出開源模型
科技媒體TechCrunch引述消息人士指出,OpenAI有傳今年夏季釋出一個開源模型,目標其表現勝過同類模型,可在高階消費級硬件上運行。此外,容許模型切換推理開關,而且作出寬鬆授權,盡量不設用途限制。若外界反應良好,後續有望推出更多開源模型。
支持EJ Tech

