Don't Miss
獎勵模型(Reward Model)
By 信報財經新聞 on March 31, 2025
原文刊於信報財經新聞「CEO AI⎹ EJ Tech——關鍵字」
一種在機器學習領域使用的概念,特別是在強化學習及某些生成式模型的訓練中。簡單來說,它是一個用來評估某個行為、決策或輸出品質的模型,通過給予一個「獎勵」分數,以指導系統的學習過程。
相關文章:
楊紅霞|倡模型融合省九成算力 訓練以小見大 降AI開發門檻
楊紅霞|籲港府支援基建 配合人才優勢
直接偏好優化(DPO)
支持EJ Tech

