動態規劃(Dynamic Programming, DP)
在強化學習(Reinforcement Learning, RL)中,動態規劃(Dynamic Programming, DP,)是最早且最完整的求解方法。雖然 DP 幾乎無法直接應用於實際的高維或連續環境,但它揭示了現代 RL 所有核心概念的數學基礎。所有演算法的收斂目標與更新規則本質上都源自於 DP 所使用的貝爾曼方程(Bellman Equations)與廣義策略迭代(Generalized Policy Iteration, GPI)框架。













