Don't Miss

直接偏好優化（DPO）

By 信報財經新聞 on March 31, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech——關鍵字」

一種用於訓練機器學習模型的新興方法，它通過直接利用人類的偏好數據來優化模型，毋須依賴傳統的強化學習中複雜的獎勵模型。DPO目標是讓模型直接學會「什麼更好」，而不是間接通過獎勵分數來推導。

直接偏好優化是一種用於訓練機器學習模型的新興方法，直接利用人類的偏好數據來優化模型。（shutterstock網上圖片）

DPO 機器學習直接偏好優化

Tweet

Pin It

Related Posts

獎勵模型（Reward Model）

獎勵模型（Reward Model）

首條智能高速公路｜美國首建 AI機器學習識別潛在危險

首條智能高速公路｜美國首建 AI機器學習識別潛在危險

全港機械人比賽｜逾200人參賽中大包辦冠亞

全港機械人比賽｜逾200人參賽中大包辦冠亞

空氣污染｜科大機器學習助農田氨減排

空氣污染｜科大機器學習助農田氨減排

Latest News

無人駕駛｜Tesla擴大測試力爭6月推Robotaxi
美國電動車生產商Tesla已將自動駕駛網約車測試擴大到位於得州奧斯汀的員工，為6月推出無人駕駛的士（Robotaxi）服務做準備。

Posted April 24, 2025

0

探索大灣區科技創新（湛家揚博士）
「百聞不如一見」是最生動的詮釋！非常榮幸能帶領香港中文大學EMBA學生，展開一場振奮人心的大灣區探索之旅，親眼見證科技與創新如何深刻改造世界。

Posted April 24, 2025

0

AI編程｜奧巴馬：AI編程勝過七成專家
美國前總統奧巴馬一直關心世界局勢，近日在著名私立文理學院「漢密爾頓學院」（Hamilton College）出席講座，提到人工智能（AI）模型的編程能力已超過約六至七成程式員，預計未來不少工作將消失。

Posted April 24, 2025

0

Grok Vision｜助睇文件讀標籤
億萬富豪馬斯克（Elon Musk）旗下人工智能（AI）初創xAI，周二（22日）推出Grok Vision，新增視覺辨識及多語言語音支援。

Posted April 24, 2025

0

AI警察｜泰國機械警察潑水節執勤
泰國皇家警察（RTP）近日在官方Facebook專頁上，人工智能（AI）警察機械人AI Cyborg 1.0首度亮相，在潑水節期間部署在佛統府，於大型活動期間提高公共安全。

Posted April 24, 2025

0

Google壟斷案｜Chrome倘拆售 OpenAI擬洽購
美國網絡巨頭Alphabet旗下谷歌（Google），面臨被強制拆售網頁瀏覽器Chrome，作為壟斷網上搜尋市場的補救措施。

Posted April 24, 2025

0

AI員工｜智能僱員料明年趨普及
美國人工智能（AI）科企Anthropic資訊安全總監克林頓（Jason Clinton）接受新聞網站Axios訪問，他預計AI虛擬員工將在明年起，在企業內部網絡系統自由活動或運作。

Posted April 24, 2025

0

POPULAR POSTS

AI作弊系統｜輟學生誓言欺騙一切 AI作弊系統吸4134萬

 應科院｜25年轉移1500項技術

成為 EJ Tech 會員

接收最新創科資訊

Click here to unsubscribe

直接偏好優化（DPO）

相關文章：

楊紅霞｜倡模型融合省九成算力訓練以小見大降AI開發門檻

楊紅霞｜籲港府支援基建配合人才優勢

獎勵模型（Reward Model）

支持EJ Tech

Latest News

成為 EJ Tech 會員

直接偏好優化（DPO）

相關文章：

楊紅霞｜倡模型融合省九成算力 訓練以小見大 降AI開發門檻

楊紅霞｜籲港府支援基建 配合人才優勢

獎勵模型（Reward Model）

支持EJ Tech

Related Posts

Latest News

POPULAR POSTS

成為 EJ Tech 會員

楊紅霞｜倡模型融合省九成算力訓練以小見大降AI開發門檻

楊紅霞｜籲港府支援基建配合人才優勢