Python Archives - Wayne's Talk

27 views
4 minute read

Byte-Pair Encoding

ByWayne
07/01/2026

Byte-Pair Encoding（BPE）是一種以統計頻率為基礎的符號合併演算法，最早被提出作為資料壓縮方法。在自然語言處理（NLP）中，BPE 被重新詮釋為一種 subword tokenization 技術，用來在字元與詞彙之間取得平衡。透過從資料中自動學習高頻片段，BPE 能夠在不依賴語言知識的情況下，有效建立可擴展的 vocabulary。

45 views
7 minute read

在 RL 的 control 問題中，多數方法皆以 value function 作為學習核心，透過估計長期 return 來間接改善 policy。然而，當 state 或 action 空間變得連續、或 policy 本身必須保持隨機性時，這種方式便顯得不再直接。策略梯度（Policy Gradient）方法改採另一種觀點，將 policy 本身視為可最佳化的對象，直接對 expected return 進行梯度上升（gradient ascent）。

41 views
7 minute read

函數近似的 On-Policy 控制

ByWayne
22/12/2025

在實際的 control 問題中，state 與 action 往往是高維、連續且充滿噪音的，這使得以 tabular 方法為基礎的 RL 演算法難以直接應用。當我們引入函數近似，原本在理論上清楚分離的 value evaluation 與 policy improvement，開始緊密交織，並伴隨著穩定性與變異性的挑戰。本文將介紹於 on-policy control 方法在函數近似下的 Sarsa。

Photo by Federico Di Dio photography on Unsplash

45 views
7 minute read

函數近似的 On-Policy 預測

ByWayne
19/12/2025

本章聚焦於函數近似的 On-Policy 預測（on-policy prediction with approximation），系統性地整理在此設定下，價值估計的學習目標、可行的學習方法，以及它們實際收斂到的解。透過 Gradient Monte Carlo 與 Semi-Gradient TD(0) 的對照，我們將看到，理論上的正確目標與實務上的可行方法之間，究竟存在著何種不可避免的取捨。

27 views
5 minute read

Dyna 架構

ByWayne
17/12/2025

在強化學習（Reinforcement Learning, RL）中，agent 往往必須在有限且昂貴的真實互動下，學得有效的決策 policy。單純依賴真實經驗（real experience）雖然概念直觀，但在資料效率與學習速度上常受到限制；反之，完全依賴 model 進行規劃（planning），又可能因模型不準確而導致偏誤。Dyna 架構正是為了在這兩者之間取得平衡而提出，將 acting、learning 與 planning 整合於同一個學習流程中。

54 views
9 minute read

時序差分學習（Temporal-Difference Learning, TD）

ByWayne
16/12/2025

在強化學習中（Reinforcement Learning, RL），動態規劃（Dynamic Programming, DP）提供了最完整、最數學化的解法框架，但其對 environment model 的依賴，使其難以直接應用於真實環境；蒙地卡羅（Monte Carlo, MC）則能從經驗中學習，卻必須等待整個 episode 結束，更新粒度較為粗糙。時序差分（Temporal Difference, TD）正是介於兩者之間的一種折衷方法。它不需要已知的 model，卻能在每一步互動後即時更新估計值。

65 views
8 minute read

蒙地卡羅方法（Monte Carlo Methods, MC）

ByWayne
14/12/2025

在動態規劃（Dynamic Programming, DP）中，完整的 environment model 是進行精確計算的前提，但這樣的假設在多數真實問題中並不成立。蒙地卡羅（Monte Carlo, MC）選擇放棄對 model 的依賴，轉而直接從與 environment 互動所產生的完整經驗中進行學習。透過對 episode 回報的取樣與平均，MC 建立了一條從實際經驗出發估計 value function 的路徑。

63 views
5 minute read

動態規劃（Dynamic Programming, DP）

ByWayne
12/12/2025

在強化學習（Reinforcement Learning, RL）中，動態規劃（Dynamic Programming, DP,）是最早且最完整的求解方法。雖然 DP 幾乎無法直接應用於實際的高維或連續環境，但它揭示了現代 RL 所有核心概念的數學基礎。所有演算法的收斂目標與更新規則本質上都源自於 DP 所使用的貝爾曼方程（Bellman Equations）與廣義策略迭代（Generalized Policy Iteration, GPI）框架。

81 views
7 minute read

思路鏈（Chain-of-Thought, CoT）

ByWayne
20/11/2025

LLM 在推理任務中的表現，近年因思路鏈（Chain-of-Thought, CoT）的提出而大幅改變。這類方法透過引導 LLM 產生逐步推理的過程，使 LLM 得以展現類似人類的思考結構。然而，隨著任務複雜度提升，傳統 CoT 的限制也逐漸浮現，促使後續研究不斷提出改良策略。本文介紹 CoT 及其延伸方法。

102 views
8 minute read

Vision Transformer 模型

ByWayne
29/06/2025

在影像辨識領域，多年來一直以卷積神經網路（Convolutional Neural Network, CNN）為主。近年，Transformer 在自然語言處理（Natural Language Processing, NLP）領域大放異彩，進而也有將 Transformer 架構應用於影像處理的想法。Vision Transformer 便是基於 Transformer 的影響處理模型。

Get source code of posts.

Python

Byte-Pair Encoding

策略梯度（Policy Gradient）

函數近似的 On-Policy 控制

函數近似的 On-Policy 預測

Dyna 架構

時序差分學習（Temporal-Difference Learning, TD）

蒙地卡羅方法（Monte Carlo Methods, MC）

動態規劃（Dynamic Programming, DP）

思路鏈（Chain-of-Thought, CoT）

Vision Transformer 模型

Bradley-Terry 模型

熵（Entropy）

Byte-Pair Encoding

策略梯度（Policy Gradient）

函數近似的 On-Policy 控制

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學

Python 圓餅圖／環狀圖／放射環狀圖（Pie/Donut/Sunburst Charts）

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學