Don't Miss
直接偏好優化(DPO)
By 信報財經新聞 on March 31, 2025
原文刊於信報財經新聞「CEO AI⎹ EJ Tech——關鍵字」
一種用於訓練機器學習模型的新興方法,它通過直接利用人類的偏好數據來優化模型,毋須依賴傳統的強化學習中複雜的獎勵模型。DPO目標是讓模型直接學會「什麼更好」,而不是間接通過獎勵分數來推導。
相關文章:
楊紅霞|倡模型融合省九成算力 訓練以小見大 降AI開發門檻
楊紅霞|籲港府支援基建 配合人才優勢
獎勵模型(Reward Model)
支持EJ Tech

