Photo by Jannes Jacobs on Unsplash
Read More

策略梯度(Policy Gradient)

在 RL 的 control 問題中,多數方法皆以 value function 作為學習核心,透過估計長期 return 來間接改善 policy。然而,當 state 或 action 空間變得連續、或 policy 本身必須保持隨機性時,這種方式便顯得不再直接。策略梯度(Policy Gradient)方法改採另一種觀點,將 policy 本身視為可最佳化的對象,直接對 expected return 進行梯度上升(gradient ascent)。
Read More
Photo by Paladuta Stefan on Unsplash
Read More

函數近似的 On-Policy 控制

在實際的 control 問題中,state 與 action 往往是高維、連續且充滿噪音的,這使得以 tabular 方法為基礎的 RL 演算法難以直接應用。當我們引入函數近似,原本在理論上清楚分離的 value evaluation 與 policy improvement,開始緊密交織,並伴隨著穩定性與變異性的挑戰。本文將介紹於 on-policy control 方法在函數近似下的 Sarsa。
Read More
Photo by Federico Di Dio photography on Unsplash
Read More

函數近似的 On-Policy 預測

本章聚焦於函數近似的 On-Policy 預測(on-policy prediction with approximation),系統性地整理在此設定下,價值估計的學習目標、可行的學習方法,以及它們實際收斂到的解。透過 Gradient Monte Carlo 與 Semi-Gradient TD(0) 的對照,我們將看到,理論上的正確目標與實務上的可行方法之間,究竟存在著何種不可避免的取捨。
Read More
Photo by Charlotte Cowell on Unsplash
Read More

Dyna 架構

在強化學習(Reinforcement Learning, RL)中,agent 往往必須在有限且昂貴的真實互動下,學得有效的決策 policy。單純依賴真實經驗(real experience)雖然概念直觀,但在資料效率與學習速度上常受到限制;反之,完全依賴 model 進行規劃(planning),又可能因模型不準確而導致偏誤。Dyna 架構正是為了在這兩者之間取得平衡而提出,將 acting、learning 與 planning 整合於同一個學習流程中。
Read More
Photo by israel palacio on Unsplash
Read More

時序差分學習(Temporal-Difference Learning, TD)

在強化學習中(Reinforcement Learning, RL),動態規劃(Dynamic Programming, DP)提供了最完整、最數學化的解法框架,但其對 environment model 的依賴,使其難以直接應用於真實環境;蒙地卡羅(Monte Carlo, MC)則能從經驗中學習,卻必須等待整個 episode 結束,更新粒度較為粗糙。時序差分(Temporal Difference, TD)正是介於兩者之間的一種折衷方法。它不需要已知的 model,卻能在每一步互動後即時更新估計值。
Read More
Photo by Andriyko Podilnyk on Unsplash
Read More

增量式實作(Incremental Implementation)

在強化學習(Reinforcement Learning, RL)中,許多演算法在形式上看似不同,但其核心更新機制卻高度一致。它們在實作層面都依賴一種共同的數值估計方式。這種方式並不是一個獨立的演算法,而是一種用來逐步逼近期望值的計算技巧。理解這個機制,有助於看清不同強化學習方法之間真正的差異所在。
Read More
Photo by Rishi Jhajharia on Unsplash
Read More

蒙地卡羅方法(Monte Carlo Methods, MC)

在動態規劃(Dynamic Programming, DP)中,完整的 environment model 是進行精確計算的前提,但這樣的假設在多數真實問題中並不成立。蒙地卡羅(Monte Carlo, MC)選擇放棄對 model 的依賴,轉而直接從與 environment 互動所產生的完整經驗中進行學習。透過對 episode 回報的取樣與平均,MC 建立了一條從實際經驗出發估計 value function 的路徑。
Read More
Photo by Nerfee Mirandilla on Unsplash
Read More

動態規劃(Dynamic Programming, DP)

在強化學習(Reinforcement Learning, RL)中,動態規劃(Dynamic Programming, DP,)是最早且最完整的求解方法。雖然 DP 幾乎無法直接應用於實際的高維或連續環境,但它揭示了現代 RL 所有核心概念的數學基礎。所有演算法的收斂目標與更新規則本質上都源自於 DP 所使用的貝爾曼方程(Bellman Equations)與廣義策略迭代(Generalized Policy Iteration, GPI)框架。
Read More
Photo by Alsu Vershinina on Unsplash
Read More

廣義策略迭代(Generalized Policy Iteration, GPI)

廣義策略迭代(Generalized Policy Iteration, GPI)並不是一個單一的演算法,而是所有強化學習(Reinforcement Learning, RL)方法背後的核心框架。它結合了策略評估(policy evaluation)與策略改善(policy improvement),使得在有限資訊的情況下,演算法仍能逐步逼近最佳策略(optimal policy)與最佳狀態價值函數(optimal state-value function)。
Read More
Photo by Marcus Hjelm on Unsplash
Read More

馬可夫決策過程(Markov Decision Process, MDP)

馬可夫決策過程(Markov Decision Process, MDP)為強化學習(Reinforcement Learning, RL)中所有策略評估(policy evaluation)與策略改善(policy improvement)方法提供了嚴謹的數學框架。藉由 MDP,我們得以形式化地描述代理人(agent)與環境(environment)之間的互動,也能在回報(return)的觀點下定義策略的價值。
Read More