You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

防AI不當行為|OpenAI研鏈式思考防「智能叛變」

By on March 12, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech

美國人工智能(AI)初創OpenAI周一(10日)發表研究論文,探討如何利用「鏈式思考」(Chain-of-Thought)技術,監控大型語言模型(LLM)的推理過程,檢測並防止不當行為發生。

OpenAI研究表明,使用「鏈式思考」監控,可有效檢測模型的不當行為。(OpenAI網上圖片)

監控推理過程不當行為

「鏈式思考」是一種促使模型在得出最終答案前,生成其逐步推理過程的技術。這種方法不僅提高了模型在處理複雜任務時的性能,還使人類更易理解其推理過程。OpenAI團隊發現,通過分析模型的鏈式思考,可有效識別模型嘗試利用漏洞,或規避預期行為的情況。

研究表明,使用「鏈式思考」監控可有效檢測模型的不當行為,例如在推理過程明確表示,試圖繞過某些限制或利用系統漏洞。在實驗中,研究人員使用較弱的GPT-4o模型,以監控更強大的o3-mini模型。結果顯示,前者仍能有效識別後者的不當行為。研究人員指出,直接把「鏈式思考」監控納入模型的獎勵機制,或導致模型學會隱藏其真實意圖,出現所謂的「模糊化獎勵攻擊」。未來的AI研究,更需要平衡監控模型行為,與避免引發模型隱蔽不當行為之間的關係。

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們