Photo by Nerfee Mirandilla on Unsplash
Read More

動態規劃(Dynamic Programming, DP)

在強化學習(Reinforcement Learning, RL)中,動態規劃(Dynamic Programming, DP,)是最早且最完整的求解方法。雖然 DP 幾乎無法直接應用於實際的高維或連續環境,但它揭示了現代 RL 所有核心概念的數學基礎。所有演算法的收斂目標與更新規則本質上都源自於 DP 所使用的貝爾曼方程(Bellman Equations)與廣義策略迭代(Generalized Policy Iteration, GPI)框架。
Read More
Photo by Alsu Vershinina on Unsplash
Read More

廣義策略迭代(Generalized Policy Iteration, GPI)

廣義策略迭代(Generalized Policy Iteration, GPI)並不是一個單一的演算法,而是所有強化學習(Reinforcement Learning, RL)方法背後的核心框架。它結合了策略評估(policy evaluation)與策略改善(policy improvement),使得在有限資訊的情況下,演算法仍能逐步逼近最佳策略(optimal policy)與最佳狀態價值函數(optimal state-value function)。
Read More
Photo by Marcus Hjelm on Unsplash
Read More

馬可夫決策過程(Markov Decision Process, MDP)

馬可夫決策過程(Markov Decision Process, MDP)為強化學習(Reinforcement Learning, RL)中所有策略評估(policy evaluation)與策略改善(policy improvement)方法提供了嚴謹的數學框架。藉由 MDP,我們得以形式化地描述代理人(agent)與環境(environment)之間的互動,也能在回報(return)的觀點下定義策略的價值。
Read More
Photo by Courtney Cook on Unsplash
Read More

思路鏈(Chain-of-Thought, CoT)

LLM 在推理任務中的表現,近年因思路鏈(Chain-of-Thought, CoT)的提出而大幅改變。這類方法透過引導 LLM 產生逐步推理的過程,使 LLM 得以展現類似人類的思考結構。然而,隨著任務複雜度提升,傳統 CoT 的限制也逐漸浮現,促使後續研究不斷提出改良策略。本文介紹 CoT 及其延伸方法。
Read More
Photo by Tomáš Malík on Unsplash
Read More

Vision Transformer 模型

在影像辨識領域,多年來一直以卷積神經網路(Convolutional Neural Network, CNN)為主。近年,Transformer 在自然語言處理(Natural Language Processing, NLP)領域大放異彩,進而也有將 Transformer 架構應用於影像處理的想法。Vision Transformer 便是基於 Transformer 的影響處理模型。
Read More
Photo by Sestrjevitovschii Ina on Unsplash
Read More

層正規化(Layer Normalization)

正規化(normalization)是一種來自統計學的資料轉換技術,用來調整資料的平均值與變異數,使其更穩定、可預測。在 deep learning 中,normalization 被廣泛應用於提升模型訓練的穩定性與效率。本文將說明 normalization 的原始概念,介紹 Batch Normalization 的設計與限制,並深入探討 Layer Normalization 如何解決這些限制,成為現代 language models 中的標準做法。
Read More
Photo by Koushik Chowdavarapu on Unsplash
Read More

Adam 優化器

在訓練神經網路時,選擇一個好的優化器(optimizer)是很更重要的。Adam 是其中最常見的一種,它幾乎成了預設選擇。Adam 是建立在 SGD、Momentum 和 RMSprop 的基礎之上。讓我們回頭看這段演變的過程,能更清楚了解 Adam 的原理。
Read More
Photo by jean wimmerlin on Unsplash
Read More

LoRA:低秩適配(Low-Rank Adaptation of Large Language Models)

當 LLMs 動輒上百億參數,執行一次 fine-tuning 就得耗盡整張顯卡。LoRA(Low-Rank Adaptation of Large Language Models)提出了一種巧妙的方法,不直接改動模型的原始參數,而是用低秩矩陣(low-rank matrix)來學習新知識。這讓我們在保留原本模型表現的同時,也能以極低成本快速調整模型行為。
Read More