Artificial Intelligence Archives - 第 2 頁，總計 6 頁

63 views
5 minute read

動態規劃（Dynamic Programming, DP）

ByWayne
12/12/2025

在強化學習（Reinforcement Learning, RL）中，動態規劃（Dynamic Programming, DP,）是最早且最完整的求解方法。雖然 DP 幾乎無法直接應用於實際的高維或連續環境，但它揭示了現代 RL 所有核心概念的數學基礎。所有演算法的收斂目標與更新規則本質上都源自於 DP 所使用的貝爾曼方程（Bellman Equations）與廣義策略迭代（Generalized Policy Iteration, GPI）框架。

80 views
2 minute read

廣義策略迭代（Generalized Policy Iteration, GPI）

ByWayne
10/12/2025

廣義策略迭代（Generalized Policy Iteration, GPI）並不是一個單一的演算法，而是所有強化學習（Reinforcement Learning, RL）方法背後的核心框架。它結合了策略評估（policy evaluation）與策略改善（policy improvement），使得在有限資訊的情況下，演算法仍能逐步逼近最佳策略（optimal policy）與最佳狀態價值函數（optimal state-value function）。

93 views
6 minute read

馬可夫決策過程（Markov Decision Process, MDP）

ByWayne
09/12/2025

馬可夫決策過程（Markov Decision Process, MDP）為強化學習（Reinforcement Learning, RL）中所有策略評估（policy evaluation）與策略改善（policy improvement）方法提供了嚴謹的數學框架。藉由 MDP，我們得以形式化地描述代理人（agent）與環境（environment）之間的互動，也能在回報（return）的觀點下定義策略的價值。

81 views
7 minute read

思路鏈（Chain-of-Thought, CoT）

ByWayne
20/11/2025

LLM 在推理任務中的表現，近年因思路鏈（Chain-of-Thought, CoT）的提出而大幅改變。這類方法透過引導 LLM 產生逐步推理的過程，使 LLM 得以展現類似人類的思考結構。然而，隨著任務複雜度提升，傳統 CoT 的限制也逐漸浮現，促使後續研究不斷提出改良策略。本文介紹 CoT 及其延伸方法。

143 views
4 minute read

注意力機制（Attention Mechanisms）

ByWayne
15/09/2025

注意力模型（Attention Models）如今已成為神經網路中的一個核心概念。尤其是當紅的 GPT 模型以及 Vision Transformers（ViT）模型，皆為 attention models 的代表性應用。本文將深入探討這些模型中的關鍵的注意力機制（attention mechanisms）。

102 views
8 minute read

Vision Transformer 模型

ByWayne
29/06/2025

在影像辨識領域，多年來一直以卷積神經網路（Convolutional Neural Network, CNN）為主。近年，Transformer 在自然語言處理（Natural Language Processing, NLP）領域大放異彩，進而也有將 Transformer 架構應用於影像處理的想法。Vision Transformer 便是基於 Transformer 的影響處理模型。

Photo by Sestrjevitovschii Ina on Unsplash

374 views
2 minute read

層正規化（Layer Normalization）

ByWayne
17/06/2025

正規化（normalization）是一種來自統計學的資料轉換技術，用來調整資料的平均值與變異數，使其更穩定、可預測。在 deep learning 中，normalization 被廣泛應用於提升模型訓練的穩定性與效率。本文將說明 normalization 的原始概念，介紹 Batch Normalization 的設計與限制，並深入探討 Layer Normalization 如何解決這些限制，成為現代 language models 中的標準做法。

Photo by Koushik Chowdavarapu on Unsplash

198 views
2 minute read

Adam 優化器

ByWayne
15/06/2025

在訓練神經網路時，選擇一個好的優化器（optimizer）是很更重要的。Adam 是其中最常見的一種，它幾乎成了預設選擇。Adam 是建立在 SGD、Momentum 和 RMSprop 的基礎之上。讓我們回頭看這段演變的過程，能更清楚了解 Adam 的原理。

159 views
6 minute read

LoRA：低秩適配（Low-Rank Adaptation of Large Language Models）

ByWayne
11/06/2025

當 LLMs 動輒上百億參數，執行一次 fine-tuning 就得耗盡整張顯卡。LoRA（Low-Rank Adaptation of Large Language Models）提出了一種巧妙的方法，不直接改動模型的原始參數，而是用低秩矩陣（low-rank matrix）來學習新知識。這讓我們在保留原本模型表現的同時，也能以極低成本快速調整模型行為。

131 views
4 minute read

CLIP 模型

ByWayne
03/06/2025

CLIP（Contrastive Language-Image Pre-training）是由 OpenAI 於 2021 年提出的模型。它透過融合視覺與語言共同編碼達成強大的泛化能力，並具有廣泛的潛在用途。本文章將介紹 CLIP 的理論與實作。

Get source code of posts.

Artificial Intelligence

動態規劃（Dynamic Programming, DP）

廣義策略迭代（Generalized Policy Iteration, GPI）

馬可夫決策過程（Markov Decision Process, MDP）

思路鏈（Chain-of-Thought, CoT）

注意力機制（Attention Mechanisms）

Vision Transformer 模型

層正規化（Layer Normalization）

Adam 優化器

LoRA：低秩適配（Low-Rank Adaptation of Large Language Models）

CLIP 模型

Bradley-Terry 模型

熵（Entropy）

Byte-Pair Encoding

策略梯度（Policy Gradient）

函數近似的 On-Policy 控制

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學

Python 圓餅圖／環狀圖／放射環狀圖（Pie/Donut/Sunburst Charts）

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學