PyTorch Archives - Wayne's Talk

102 views
8 minute read

Vision Transformer 模型

ByWayne
29/06/2025

在影像辨識領域，多年來一直以卷積神經網路（Convolutional Neural Network, CNN）為主。近年，Transformer 在自然語言處理（Natural Language Processing, NLP）領域大放異彩，進而也有將 Transformer 架構應用於影像處理的想法。Vision Transformer 便是基於 Transformer 的影響處理模型。

Photo by Sestrjevitovschii Ina on Unsplash

374 views
2 minute read

正規化（normalization）是一種來自統計學的資料轉換技術，用來調整資料的平均值與變異數，使其更穩定、可預測。在 deep learning 中，normalization 被廣泛應用於提升模型訓練的穩定性與效率。本文將說明 normalization 的原始概念，介紹 Batch Normalization 的設計與限制，並深入探討 Layer Normalization 如何解決這些限制，成為現代 language models 中的標準做法。

Photo by Koushik Chowdavarapu on Unsplash

198 views
2 minute read

Adam 優化器

ByWayne
15/06/2025

在訓練神經網路時，選擇一個好的優化器（optimizer）是很更重要的。Adam 是其中最常見的一種，它幾乎成了預設選擇。Adam 是建立在 SGD、Momentum 和 RMSprop 的基礎之上。讓我們回頭看這段演變的過程，能更清楚了解 Adam 的原理。

159 views
6 minute read

LoRA：低秩適配（Low-Rank Adaptation of Large Language Models）

ByWayne
11/06/2025

當 LLMs 動輒上百億參數，執行一次 fine-tuning 就得耗盡整張顯卡。LoRA（Low-Rank Adaptation of Large Language Models）提出了一種巧妙的方法，不直接改動模型的原始參數，而是用低秩矩陣（low-rank matrix）來學習新知識。這讓我們在保留原本模型表現的同時，也能以極低成本快速調整模型行為。

130 views
4 minute read

CLIP 模型

ByWayne
03/06/2025

CLIP（Contrastive Language-Image Pre-training）是由 OpenAI 於 2021 年提出的模型。它透過融合視覺與語言共同編碼達成強大的泛化能力，並具有廣泛的潛在用途。本文章將介紹 CLIP 的理論與實作。

379 views
8 minute read

生成式預訓練 Transformer 模型（Generative Pre-trained Transformer, GPT）

ByWayne
23/04/2025

在過去十年的自然語言處理（Natural Language Processing, NLP）領域中，生成式預訓練 Transformer 模型（Generative Pre-trained Transformer, GPT）無疑是最具指標性的技術之一。GPT 不僅重新定義了語言建模（language modeling）的方式，更掀起了以預訓練（pre-training）為核心的通用語言模型（general-purpose language models）革命。本文將從 GPT 的基本架構談起，並深入探討 GPT-1 至 GPT-3 的設計理念與技術演進。

Photo by Maarten van den Heuvel on Unsplash

363 views
8 minute read

雙向 Transformer 編碼器表徵（Bidirectional Encoder Representations from Transformers, BERT）

ByWayne
15/04/2025

雙向 Transformer 編碼器表徵（Bidirectional Encoder Representations from Transformers, BERT）是由 Google AI 在 2018 年提出的一個用於自然語言處理的預訓練技術。BERT 透過提供對語言更深入的語境理解，顯著推進了自然語言處理的發展。

354 views
7 minute read

Transformer 模型

ByWayne
03/04/2025

Transformer 模型於 2017 年由谷歌大腦的一個團隊推出，是一種使用注意力機制（attention）的深度學習架構。它解決了傳統序列模型（sequential model）難以捕捉長距離依賴性和無法高效並行計算的問題。

394 views
8 minute read

注意力模型（Attention Models）

ByWayne
19/03/2025

注意力機制（Attention mechanism）是深度學習中的一種方法，它讓模型在產生其輸出的每個部分時專注於其輸入中最相關的部分。相較於傳統 sequence models 經常難以處理較長的輸入，attention 允許模型在產生輸出序列的每個部分時動態地聚焦輸入序列的不同部分。

347 views
4 minute read

Sequence to Sequence 模型（Seq2Seq Models）

ByWayne
15/03/2025

Sequence to Sequence（Seq2Seq）模型一個將序列（sequence）映射至另一個序列的 neural network 模型。它徹底改變了自然語言處理（NLP）領域，使得翻譯、文本摘要和聊天機器人等任務的效果大幅提升。本篇文章將深入探討 Seq2Seq 模型的原理。

Get source code of posts.

PyTorch

Vision Transformer 模型

層正規化（Layer Normalization）

Adam 優化器

LoRA：低秩適配（Low-Rank Adaptation of Large Language Models）

CLIP 模型

生成式預訓練 Transformer 模型（Generative Pre-trained Transformer, GPT）

雙向 Transformer 編碼器表徵（Bidirectional Encoder Representations from Transformers, BERT）

Transformer 模型

注意力模型（Attention Models）

Sequence to Sequence 模型（Seq2Seq Models）

Bradley-Terry 模型

熵（Entropy）

Byte-Pair Encoding

策略梯度（Policy Gradient）

函數近似的 On-Policy 控制

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學

Python 圓餅圖／環狀圖／放射環狀圖（Pie/Donut/Sunburst Charts）

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學