Photo by Janosch Diggelmann on Unsplash
Read More

Bradley-Terry 模型

在許多機器學習與決策系統中,我們面對的並不是可直接量測的品質分數,而是大量兩者相比,哪一個比較好的偏好判斷。這類成對比較資料雖然簡單,卻隱含了豐富的結構資訊。本文將從機率語意出發,逐步說明如何透過 Bradley–Terry 模型,將這些偏好比較轉化為可學習的潛在分數(latent score)表示。
Read More
Photo by Daniel Seßler on Unsplash
Read More

熵(Entropy)

在機率模型與機器學習中,熵(entropy)是用來量化不確定性的核心概念。它不僅描述資料本身的隨機性,也隱含了在預測與建模過程中所必須付出的最低資訊成本。許多看似不同的學習目標,例如對數概似(log-likelihood)最大化或損失函數(loss function)的設計,其實都可以回溯到 entropy 的觀點來理解。
Read More
Photo by Aivars Vilks on Unsplash
Read More

Byte-Pair Encoding

Byte-Pair Encoding(BPE)是一種以統計頻率為基礎的符號合併演算法,最早被提出作為資料壓縮方法。在自然語言處理(NLP)中,BPE 被重新詮釋為一種 subword tokenization 技術,用來在字元與詞彙之間取得平衡。透過從資料中自動學習高頻片段,BPE 能夠在不依賴語言知識的情況下,有效建立可擴展的 vocabulary。
Read More
Photo by Jannes Jacobs on Unsplash
Read More

策略梯度(Policy Gradient)

在 RL 的 control 問題中,多數方法皆以 value function 作為學習核心,透過估計長期 return 來間接改善 policy。然而,當 state 或 action 空間變得連續、或 policy 本身必須保持隨機性時,這種方式便顯得不再直接。策略梯度(Policy Gradient)方法改採另一種觀點,將 policy 本身視為可最佳化的對象,直接對 expected return 進行梯度上升(gradient ascent)。
Read More
Photo by Paladuta Stefan on Unsplash
Read More

函數近似的 On-Policy 控制

在實際的 control 問題中,state 與 action 往往是高維、連續且充滿噪音的,這使得以 tabular 方法為基礎的 RL 演算法難以直接應用。當我們引入函數近似,原本在理論上清楚分離的 value evaluation 與 policy improvement,開始緊密交織,並伴隨著穩定性與變異性的挑戰。本文將介紹於 on-policy control 方法在函數近似下的 Sarsa。
Read More
Photo by Federico Di Dio photography on Unsplash
Read More

函數近似的 On-Policy 預測

本章聚焦於函數近似的 On-Policy 預測(on-policy prediction with approximation),系統性地整理在此設定下,價值估計的學習目標、可行的學習方法,以及它們實際收斂到的解。透過 Gradient Monte Carlo 與 Semi-Gradient TD(0) 的對照,我們將看到,理論上的正確目標與實務上的可行方法之間,究竟存在著何種不可避免的取捨。
Read More
Photo by Charlotte Cowell on Unsplash
Read More

Dyna 架構

在強化學習(Reinforcement Learning, RL)中,agent 往往必須在有限且昂貴的真實互動下,學得有效的決策 policy。單純依賴真實經驗(real experience)雖然概念直觀,但在資料效率與學習速度上常受到限制;反之,完全依賴 model 進行規劃(planning),又可能因模型不準確而導致偏誤。Dyna 架構正是為了在這兩者之間取得平衡而提出,將 acting、learning 與 planning 整合於同一個學習流程中。
Read More
Photo by israel palacio on Unsplash
Read More

時序差分學習(Temporal-Difference Learning, TD)

在強化學習中(Reinforcement Learning, RL),動態規劃(Dynamic Programming, DP)提供了最完整、最數學化的解法框架,但其對 environment model 的依賴,使其難以直接應用於真實環境;蒙地卡羅(Monte Carlo, MC)則能從經驗中學習,卻必須等待整個 episode 結束,更新粒度較為粗糙。時序差分(Temporal Difference, TD)正是介於兩者之間的一種折衷方法。它不需要已知的 model,卻能在每一步互動後即時更新估計值。
Read More
Photo by Andriyko Podilnyk on Unsplash
Read More

增量式實作(Incremental Implementation)

在強化學習(Reinforcement Learning, RL)中,許多演算法在形式上看似不同,但其核心更新機制卻高度一致。它們在實作層面都依賴一種共同的數值估計方式。這種方式並不是一個獨立的演算法,而是一種用來逐步逼近期望值的計算技巧。理解這個機制,有助於看清不同強化學習方法之間真正的差異所在。
Read More
Photo by Rishi Jhajharia on Unsplash
Read More

蒙地卡羅方法(Monte Carlo Methods, MC)

在動態規劃(Dynamic Programming, DP)中,完整的 environment model 是進行精確計算的前提,但這樣的假設在多數真實問題中並不成立。蒙地卡羅(Monte Carlo, MC)選擇放棄對 model 的依賴,轉而直接從與 environment 互動所產生的完整經驗中進行學習。透過對 episode 回報的取樣與平均,MC 建立了一條從實際經驗出發估計 value function 的路徑。
Read More