Natural Language Processing Archives

27 views
4 minute read

Byte-Pair Encoding

ByWayne
07/01/2026

Byte-Pair Encoding（BPE）是一種以統計頻率為基礎的符號合併演算法，最早被提出作為資料壓縮方法。在自然語言處理（NLP）中，BPE 被重新詮釋為一種 subword tokenization 技術，用來在字元與詞彙之間取得平衡。透過從資料中自動學習高頻片段，BPE 能夠在不依賴語言知識的情況下，有效建立可擴展的 vocabulary。

81 views
7 minute read

思路鏈（Chain-of-Thought, CoT）

ByWayne
20/11/2025

LLM 在推理任務中的表現，近年因思路鏈（Chain-of-Thought, CoT）的提出而大幅改變。這類方法透過引導 LLM 產生逐步推理的過程，使 LLM 得以展現類似人類的思考結構。然而，隨著任務複雜度提升，傳統 CoT 的限制也逐漸浮現，促使後續研究不斷提出改良策略。本文介紹 CoT 及其延伸方法。

143 views
4 minute read

注意力機制（Attention Mechanisms）

ByWayne
15/09/2025

注意力模型（Attention Models）如今已成為神經網路中的一個核心概念。尤其是當紅的 GPT 模型以及 Vision Transformers（ViT）模型，皆為 attention models 的代表性應用。本文將深入探討這些模型中的關鍵的注意力機制（attention mechanisms）。

159 views
6 minute read

LoRA：低秩適配（Low-Rank Adaptation of Large Language Models）

ByWayne
11/06/2025

當 LLMs 動輒上百億參數，執行一次 fine-tuning 就得耗盡整張顯卡。LoRA（Low-Rank Adaptation of Large Language Models）提出了一種巧妙的方法，不直接改動模型的原始參數，而是用低秩矩陣（low-rank matrix）來學習新知識。這讓我們在保留原本模型表現的同時，也能以極低成本快速調整模型行為。

379 views
8 minute read

生成式預訓練 Transformer 模型（Generative Pre-trained Transformer, GPT）

ByWayne
23/04/2025

在過去十年的自然語言處理（Natural Language Processing, NLP）領域中，生成式預訓練 Transformer 模型（Generative Pre-trained Transformer, GPT）無疑是最具指標性的技術之一。GPT 不僅重新定義了語言建模（language modeling）的方式，更掀起了以預訓練（pre-training）為核心的通用語言模型（general-purpose language models）革命。本文將從 GPT 的基本架構談起，並深入探討 GPT-1 至 GPT-3 的設計理念與技術演進。

Photo by Maarten van den Heuvel on Unsplash

363 views
8 minute read

雙向 Transformer 編碼器表徵（Bidirectional Encoder Representations from Transformers, BERT）

ByWayne
15/04/2025

雙向 Transformer 編碼器表徵（Bidirectional Encoder Representations from Transformers, BERT）是由 Google AI 在 2018 年提出的一個用於自然語言處理的預訓練技術。BERT 透過提供對語言更深入的語境理解，顯著推進了自然語言處理的發展。

354 views
7 minute read

Transformer 模型

ByWayne
03/04/2025

Transformer 模型於 2017 年由谷歌大腦的一個團隊推出，是一種使用注意力機制（attention）的深度學習架構。它解決了傳統序列模型（sequential model）難以捕捉長距離依賴性和無法高效並行計算的問題。

394 views
8 minute read

注意力模型（Attention Models）

ByWayne
19/03/2025

注意力機制（Attention mechanism）是深度學習中的一種方法，它讓模型在產生其輸出的每個部分時專注於其輸入中最相關的部分。相較於傳統 sequence models 經常難以處理較長的輸入，attention 允許模型在產生輸出序列的每個部分時動態地聚焦輸入序列的不同部分。

347 views
4 minute read

Sequence to Sequence 模型（Seq2Seq Models）

ByWayne
15/03/2025

Sequence to Sequence（Seq2Seq）模型一個將序列（sequence）映射至另一個序列的 neural network 模型。它徹底改變了自然語言處理（NLP）領域，使得翻譯、文本摘要和聊天機器人等任務的效果大幅提升。本篇文章將深入探討 Seq2Seq 模型的原理。

359 views
8 minute read

雙向循環神經網絡（Bi-directional Recurrent Neural Networks, BRNNs）

ByWayne
10/03/2025

雙向循環神經網絡（Bi-directional recurrent neural networks, BRNNs）是一種 RNN，專門用於同時從前向和後向處理序列數據。與傳統 RNN 相比，BRNN 能夠保留更完整的上下文信息，使其能夠在整個序列中捕捉有用的依賴關係，從而在自然語言處理和語音識別等任務中提高預測準確性。

Get source code of posts.

Byte-Pair Encoding

Natural Language Processing

Byte-Pair Encoding

思路鏈（Chain-of-Thought, CoT）

注意力機制（Attention Mechanisms）

LoRA：低秩適配（Low-Rank Adaptation of Large Language Models）

生成式預訓練 Transformer 模型（Generative Pre-trained Transformer, GPT）

雙向 Transformer 編碼器表徵（Bidirectional Encoder Representations from Transformers, BERT）

Transformer 模型

注意力模型（Attention Models）

Sequence to Sequence 模型（Seq2Seq Models）

雙向循環神經網絡（Bi-directional Recurrent Neural Networks, BRNNs）

Bradley-Terry 模型

熵（Entropy）

Byte-Pair Encoding

策略梯度（Policy Gradient）

函數近似的 On-Policy 控制

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學

Python 圓餅圖／環狀圖／放射環狀圖（Pie/Donut/Sunburst Charts）

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學