Don't Miss

防AI不當行為｜OpenAI研鏈式思考防「智能叛變」

By 信報財經新聞 on March 12, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech」

美國人工智能（AI）初創OpenAI周一（10日）發表研究論文，探討如何利用「鏈式思考」（Chain-of-Thought）技術，監控大型語言模型（LLM）的推理過程，檢測並防止不當行為發生。

OpenAI研究表明，使用「鏈式思考」監控，可有效檢測模型的不當行為。（OpenAI網上圖片）

監控推理過程不當行為

「鏈式思考」是一種促使模型在得出最終答案前，生成其逐步推理過程的技術。這種方法不僅提高了模型在處理複雜任務時的性能，還使人類更易理解其推理過程。OpenAI團隊發現，通過分析模型的鏈式思考，可有效識別模型嘗試利用漏洞，或規避預期行為的情況。

研究表明，使用「鏈式思考」監控可有效檢測模型的不當行為，例如在推理過程明確表示，試圖繞過某些限制或利用系統漏洞。在實驗中，研究人員使用較弱的GPT-4o模型，以監控更強大的o3-mini模型。結果顯示，前者仍能有效識別後者的不當行為。研究人員指出，直接把「鏈式思考」監控納入模型的獎勵機制，或導致模型學會隱藏其真實意圖，出現所謂的「模糊化獎勵攻擊」。未來的AI研究，更需要平衡監控模型行為，與避免引發模型隱蔽不當行為之間的關係。

支持EJ Tech

如欲投稿、報料，發布新聞稿或採訪通知，按這裏聯絡我們。

AI LLM OpenAI 鏈式思考

Tweet

Pin It

Related Posts

「杭州六小龍」｜強腦科技增人手有望布局新一代腦控機械人

「杭州六小龍」｜強腦科技增人手有望布局新一代腦控機械人

Manus全能型AI助手（車品覺）

Manus全能型AI助手（車品覺）

職場技能｜美科技職位四分一需AI技能

職場技能｜美科技職位四分一需AI技能

AI解謎失敗｜CIA雕塑謎題 AI暫未能破解

AI解謎失敗｜CIA雕塑謎題 AI暫未能破解

Latest News

「杭州六小龍」｜強腦科技增人手有望布局新一代腦控機械人
內地媒體報道，「杭州六小龍」之一、深耕腦機介面領域的強腦科技進行公開招聘，擬招募腦機介面真正的「極客」(Geek)。

Posted March 12, 2025

0

Manus全能型AI助手（車品覺）
中國人工智能（AI）領域近日再現重磅消息，一個名為Manus的項目正式發布，迅速引發全球AI界廣泛關注。

Posted March 12, 2025

0

職場技能｜美科技職位四分一需AI技能
美國《華爾街日報》引述第一季招聘數據顯示，今年當地發布的科技職位中，接近四分一科技職位，都講求人工智能（AI）技能。

Posted March 12, 2025

0

防AI不當行為｜OpenAI研鏈式思考防「智能叛變」
美國人工智能（AI）初創OpenAI周一（10日）發表研究論文，探討如何利用「鏈式思考」（Chain-of-Thought）技術，監控大型語言模型（LLM）的推理過程，檢測並防止不當行為發生。

Posted March 12, 2025

0

本地創科動態｜科大綠色製冷 15分鐘降10度
香港科技大學團隊研發全球首台千瓦級彈卡製冷裝置，在攝氏31度高溫的室外環境下，僅需15分鐘便能把室內溫度，穩定在攝氏21度至22度的區間，並實現零溫室氣體排放，為商業化應用邁出關鍵一步。

Posted March 12, 2025

0

AI解謎失敗｜CIA雕塑謎題 AI暫未能破解
在美國中央情報局（CIA）總部外面，擺放一座名為克里普托斯（Kryptos）的金屬雕塑，近年不少人嘗試以人工智能（AI），以科技破解當中的玄機。

Posted March 12, 2025

0

AI搜尋犯錯｜美大學測試 Grok 3錯誤達94%
原文刊於信報財經新聞「CEO AI⎹ EJ Tech」美國哥倫比亞大學旗下「托姆數碼新聞中心」，測試了8種工具即時搜尋功能的生成式人工智能（GenAI）工具，分別是ChatGPT Search、Perplexity、Perplexity Pro、DeepSeek Search、Copilot、Grok 2 Search、Grok...

Posted March 12, 2025

0

EJ Tech Video

POPULAR POSTS

AI趨勢｜AI查詢漸取代傳統搜尋引擎

 開源晶片｜內地藉開源RISC-V晶片破圍堵

 數碼轉型支援先導計劃助中小企擴展市場業務

 AI作弊系統｜大二生開發破解FAANG科企技術面試

 AI寵物照護｜關鍵點偵測

 AI寵物照護｜智能寵物護理六大應用

 Lenovo創科大會｜逾半港企未來一年擬採用AI 乏人才拖慢部署關注投資回報

 AI玩瑪利歐｜主流AI模型玩瑪利歐 Claude 3.7表現摘冠

 職場技能｜美科技職位四分一需AI技能

 AI設計獎｜西班牙南韓藝術家獲AI設計獎

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe