任務說明
智能體在一條 10 格的直線通道中移動。目標是走到終點 🏆 取得獎勵,同時避開炸彈 💣。切換模式可改變沿途回饋與終點設定,觀察不同環境對學習的影響。
🎯 獎勵機制
- 到達終點 🏆:+10,回合結束
- 踩到炸彈 💣:-10,回合結束
- 順境模式:路途中有 🍬 小正回饋
- 逆境模式:路途中有 🔥 小負回饋
- 畫大餅模式:終點改為 🍕,僅得 +2
🧭 狀態描述
playerPos:玩家所在格子索引(0 ~ 9)
🕹️ 動作功能
0:none(不動作)
1:right(向右移動一格)
2:left(向左移動一格)
⚙️ 參數建議
新手
- bins = 10,ε = 0.3
- α = 0.5,γ = 0.9
- 推薦:無小回饋模式
進階
- 切換順境 / 逆境模式
- 觀察沿途回饋對收斂的影響
- 比較「畫大餅」vs 正常終點