Photo by Tomáš Malík on Unsplash
Read More

Vision Transformer 模型

在影像辨識領域,多年來一直以卷積神經網路(Convolutional Neural Network, CNN)為主。近年,Transformer 在自然語言處理(Natural Language Processing, NLP)領域大放異彩,進而也有將 Transformer 架構應用於影像處理的想法。Vision Transformer 便是基於 Transformer 的影響處理模型。
Read More
Photo by Sestrjevitovschii Ina on Unsplash
Read More

層正規化(Layer Normalization)

正規化(normalization)是一種來自統計學的資料轉換技術,用來調整資料的平均值與變異數,使其更穩定、可預測。在 deep learning 中,normalization 被廣泛應用於提升模型訓練的穩定性與效率。本文將說明 normalization 的原始概念,介紹 Batch Normalization 的設計與限制,並深入探討 Layer Normalization 如何解決這些限制,成為現代 language models 中的標準做法。
Read More
Photo by Koushik Chowdavarapu on Unsplash
Read More

Adam 優化器

在訓練神經網路時,選擇一個好的優化器(optimizer)是很更重要的。Adam 是其中最常見的一種,它幾乎成了預設選擇。Adam 是建立在 SGD、Momentum 和 RMSprop 的基礎之上。讓我們回頭看這段演變的過程,能更清楚了解 Adam 的原理。
Read More
Photo by jean wimmerlin on Unsplash
Read More

LoRA:低秩適配(Low-Rank Adaptation of Large Language Models)

當 LLMs 動輒上百億參數,執行一次 fine-tuning 就得耗盡整張顯卡。LoRA(Low-Rank Adaptation of Large Language Models)提出了一種巧妙的方法,不直接改動模型的原始參數,而是用低秩矩陣(low-rank matrix)來學習新知識。這讓我們在保留原本模型表現的同時,也能以極低成本快速調整模型行為。
Read More
Photo by Logan Armstrong on Unsplash
Read More

生成式預訓練 Transformer 模型(Generative Pre-trained Transformer, GPT)

在過去十年的自然語言處理(Natural Language Processing, NLP)領域中,生成式預訓練 Transformer 模型(Generative Pre-trained Transformer, GPT)無疑是最具指標性的技術之一。GPT 不僅重新定義了語言建模(language modeling)的方式,更掀起了以預訓練(pre-training)為核心的通用語言模型(general-purpose language models)革命。本文將從 GPT 的基本架構談起,並深入探討 GPT-1 至 GPT-3 的設計理念與技術演進。
Read More
Photo by Maarten van den Heuvel on Unsplash
Read More

雙向 Transformer 編碼器表徵(Bidirectional Encoder Representations from Transformers, BERT)

雙向 Transformer 編碼器表徵(Bidirectional Encoder Representations from Transformers, BERT)是由 Google AI 在 2018 年提出的一個用於自然語言處理的預訓練技術。BERT 透過提供對語言更深入的語境理解,顯著推進了自然語言處理的發展。
Read More