Photo by Aivars Vilks on Unsplash
Read More

Byte-Pair Encoding

Byte-Pair Encoding(BPE)是一種以統計頻率為基礎的符號合併演算法,最早被提出作為資料壓縮方法。在自然語言處理(NLP)中,BPE 被重新詮釋為一種 subword tokenization 技術,用來在字元與詞彙之間取得平衡。透過從資料中自動學習高頻片段,BPE 能夠在不依賴語言知識的情況下,有效建立可擴展的 vocabulary。
Read More
Photo by Jannes Jacobs on Unsplash
Read More

策略梯度(Policy Gradient)

在 RL 的 control 問題中,多數方法皆以 value function 作為學習核心,透過估計長期 return 來間接改善 policy。然而,當 state 或 action 空間變得連續、或 policy 本身必須保持隨機性時,這種方式便顯得不再直接。策略梯度(Policy Gradient)方法改採另一種觀點,將 policy 本身視為可最佳化的對象,直接對 expected return 進行梯度上升(gradient ascent)。
Read More
Photo by Paladuta Stefan on Unsplash
Read More

函數近似的 On-Policy 控制

在實際的 control 問題中,state 與 action 往往是高維、連續且充滿噪音的,這使得以 tabular 方法為基礎的 RL 演算法難以直接應用。當我們引入函數近似,原本在理論上清楚分離的 value evaluation 與 policy improvement,開始緊密交織,並伴隨著穩定性與變異性的挑戰。本文將介紹於 on-policy control 方法在函數近似下的 Sarsa。
Read More
Photo by Federico Di Dio photography on Unsplash
Read More

函數近似的 On-Policy 預測

本章聚焦於函數近似的 On-Policy 預測(on-policy prediction with approximation),系統性地整理在此設定下,價值估計的學習目標、可行的學習方法,以及它們實際收斂到的解。透過 Gradient Monte Carlo 與 Semi-Gradient TD(0) 的對照,我們將看到,理論上的正確目標與實務上的可行方法之間,究竟存在著何種不可避免的取捨。
Read More
Photo by Charlotte Cowell on Unsplash
Read More

Dyna 架構

在強化學習(Reinforcement Learning, RL)中,agent 往往必須在有限且昂貴的真實互動下,學得有效的決策 policy。單純依賴真實經驗(real experience)雖然概念直觀,但在資料效率與學習速度上常受到限制;反之,完全依賴 model 進行規劃(planning),又可能因模型不準確而導致偏誤。Dyna 架構正是為了在這兩者之間取得平衡而提出,將 acting、learning 與 planning 整合於同一個學習流程中。
Read More
Photo by israel palacio on Unsplash
Read More

時序差分學習(Temporal-Difference Learning, TD)

在強化學習中(Reinforcement Learning, RL),動態規劃(Dynamic Programming, DP)提供了最完整、最數學化的解法框架,但其對 environment model 的依賴,使其難以直接應用於真實環境;蒙地卡羅(Monte Carlo, MC)則能從經驗中學習,卻必須等待整個 episode 結束,更新粒度較為粗糙。時序差分(Temporal Difference, TD)正是介於兩者之間的一種折衷方法。它不需要已知的 model,卻能在每一步互動後即時更新估計值。
Read More
Photo by Rishi Jhajharia on Unsplash
Read More

蒙地卡羅方法(Monte Carlo Methods, MC)

在動態規劃(Dynamic Programming, DP)中,完整的 environment model 是進行精確計算的前提,但這樣的假設在多數真實問題中並不成立。蒙地卡羅(Monte Carlo, MC)選擇放棄對 model 的依賴,轉而直接從與 environment 互動所產生的完整經驗中進行學習。透過對 episode 回報的取樣與平均,MC 建立了一條從實際經驗出發估計 value function 的路徑。
Read More
Photo by Nerfee Mirandilla on Unsplash
Read More

動態規劃(Dynamic Programming, DP)

在強化學習(Reinforcement Learning, RL)中,動態規劃(Dynamic Programming, DP,)是最早且最完整的求解方法。雖然 DP 幾乎無法直接應用於實際的高維或連續環境,但它揭示了現代 RL 所有核心概念的數學基礎。所有演算法的收斂目標與更新規則本質上都源自於 DP 所使用的貝爾曼方程(Bellman Equations)與廣義策略迭代(Generalized Policy Iteration, GPI)框架。
Read More
Photo by Courtney Cook on Unsplash
Read More

思路鏈(Chain-of-Thought, CoT)

LLM 在推理任務中的表現,近年因思路鏈(Chain-of-Thought, CoT)的提出而大幅改變。這類方法透過引導 LLM 產生逐步推理的過程,使 LLM 得以展現類似人類的思考結構。然而,隨著任務複雜度提升,傳統 CoT 的限制也逐漸浮現,促使後續研究不斷提出改良策略。本文介紹 CoT 及其延伸方法。
Read More
Photo by Tomáš Malík on Unsplash
Read More

Vision Transformer 模型

在影像辨識領域,多年來一直以卷積神經網路(Convolutional Neural Network, CNN)為主。近年,Transformer 在自然語言處理(Natural Language Processing, NLP)領域大放異彩,進而也有將 Transformer 架構應用於影像處理的想法。Vision Transformer 便是基於 Transformer 的影響處理模型。
Read More