無模型強化學習
文化

無模型強化學習

設計獎勵機制的問題是無模型強化學習中的另一個關鍵部分,如果可以在訓練過程中設計高效的獎勵機制,則可以減少 agent 與環境的互動次數,提高樣本利用率,從而降低實驗成本...