Photo by Koushik Chowdavarapu on Unsplash
Read More

Adam 優化器

在訓練神經網路時,選擇一個好的優化器(optimizer)是很更重要的。Adam 是其中最常見的一種,它幾乎成了預設選擇。Adam 是建立在 SGD、Momentum 和 RMSprop 的基礎之上。讓我們回頭看這段演變的過程,能更清楚了解 Adam 的原理。
Read More
Photo by jean wimmerlin on Unsplash
Read More

LoRA:低秩適配(Low-Rank Adaptation of Large Language Models)

當 LLMs 動輒上百億參數,執行一次 fine-tuning 就得耗盡整張顯卡。LoRA(Low-Rank Adaptation of Large Language Models)提出了一種巧妙的方法,不直接改動模型的原始參數,而是用低秩矩陣(low-rank matrix)來學習新知識。這讓我們在保留原本模型表現的同時,也能以極低成本快速調整模型行為。
Read More
Photo by Logan Armstrong on Unsplash
Read More

生成式預訓練 Transformer 模型(Generative Pre-trained Transformer, GPT)

在過去十年的自然語言處理(Natural Language Processing, NLP)領域中,生成式預訓練 Transformer 模型(Generative Pre-trained Transformer, GPT)無疑是最具指標性的技術之一。GPT 不僅重新定義了語言建模(language modeling)的方式,更掀起了以預訓練(pre-training)為核心的通用語言模型(general-purpose language models)革命。本文將從 GPT 的基本架構談起,並深入探討 GPT-1 至 GPT-3 的設計理念與技術演進。
Read More
Photo by Maarten van den Heuvel on Unsplash
Read More

雙向 Transformer 編碼器表徵(Bidirectional Encoder Representations from Transformers, BERT)

雙向 Transformer 編碼器表徵(Bidirectional Encoder Representations from Transformers, BERT)是由 Google AI 在 2018 年提出的一個用於自然語言處理的預訓練技術。BERT 透過提供對語言更深入的語境理解,顯著推進了自然語言處理的發展。
Read More