You are currently at: ejtech.hkej.com
Skip This Ads
Don't Miss

直接偏好優化(DPO)

By on March 31, 2025

原文刊於信報財經新聞「CEO AI⎹ EJ Tech——關鍵字

一種用於訓練機器學習模型的新興方法,它通過直接利用人類的偏好數據來優化模型,毋須依賴傳統的強化學習中複雜的獎勵模型。DPO目標是讓模型直接學會「什麼更好」,而不是間接通過獎勵分數來推導。

直接偏好優化是一種用於訓練機器學習模型的新興方法,直接利用人類的偏好數據來優化模型。(shutterstock網上圖片)

相關文章:

楊紅霞|倡模型融合省九成算力 訓練以小見大 降AI開發門檻

楊紅霞|籲港府支援基建 配合人才優勢

獎勵模型(Reward Model)

支持EJ Tech

如欲投稿、報料,發布新聞稿或採訪通知,按這裏聯絡我們