廣義策略迭代(Generalized Policy Iteration, GPI)
廣義策略迭代(Generalized Policy Iteration, GPI)並不是一個單一的演算法,而是所有強化學習(Reinforcement Learning, RL)方法背後的核心框架。它結合了策略評估(policy evaluation)與策略改善(policy improvement),使得在有限資訊的情況下,演算法仍能逐步逼近最佳策略(optimal policy)與最佳狀態價值函數(optimal state-value function)。













