Photo by Aivars Vilks on Unsplash
Read More

Byte-Pair Encoding

Byte-Pair Encoding(BPE)是一種以統計頻率為基礎的符號合併演算法,最早被提出作為資料壓縮方法。在自然語言處理(NLP)中,BPE 被重新詮釋為一種 subword tokenization 技術,用來在字元與詞彙之間取得平衡。透過從資料中自動學習高頻片段,BPE 能夠在不依賴語言知識的情況下,有效建立可擴展的 vocabulary。
Read More
Photo by Courtney Cook on Unsplash
Read More

思路鏈(Chain-of-Thought, CoT)

LLM 在推理任務中的表現,近年因思路鏈(Chain-of-Thought, CoT)的提出而大幅改變。這類方法透過引導 LLM 產生逐步推理的過程,使 LLM 得以展現類似人類的思考結構。然而,隨著任務複雜度提升,傳統 CoT 的限制也逐漸浮現,促使後續研究不斷提出改良策略。本文介紹 CoT 及其延伸方法。
Read More
Photo by jean wimmerlin on Unsplash
Read More

LoRA:低秩適配(Low-Rank Adaptation of Large Language Models)

當 LLMs 動輒上百億參數,執行一次 fine-tuning 就得耗盡整張顯卡。LoRA(Low-Rank Adaptation of Large Language Models)提出了一種巧妙的方法,不直接改動模型的原始參數,而是用低秩矩陣(low-rank matrix)來學習新知識。這讓我們在保留原本模型表現的同時,也能以極低成本快速調整模型行為。
Read More
Photo by Logan Armstrong on Unsplash
Read More

生成式預訓練 Transformer 模型(Generative Pre-trained Transformer, GPT)

在過去十年的自然語言處理(Natural Language Processing, NLP)領域中,生成式預訓練 Transformer 模型(Generative Pre-trained Transformer, GPT)無疑是最具指標性的技術之一。GPT 不僅重新定義了語言建模(language modeling)的方式,更掀起了以預訓練(pre-training)為核心的通用語言模型(general-purpose language models)革命。本文將從 GPT 的基本架構談起,並深入探討 GPT-1 至 GPT-3 的設計理念與技術演進。
Read More
Photo by Maarten van den Heuvel on Unsplash
Read More

雙向 Transformer 編碼器表徵(Bidirectional Encoder Representations from Transformers, BERT)

雙向 Transformer 編碼器表徵(Bidirectional Encoder Representations from Transformers, BERT)是由 Google AI 在 2018 年提出的一個用於自然語言處理的預訓練技術。BERT 透過提供對語言更深入的語境理解,顯著推進了自然語言處理的發展。
Read More
Photo by Daniele Buso on Unsplash
Read More

雙向循環神經網絡(Bi-directional Recurrent Neural Networks, BRNNs)

雙向循環神經網絡(Bi-directional recurrent neural networks, BRNNs)是一種 RNN,專門用於同時從前向和後向處理序列數據。與傳統 RNN 相比,BRNN 能夠保留更完整的上下文信息,使其能夠在整個序列中捕捉有用的依賴關係,從而在自然語言處理和語音識別等任務中提高預測準確性。
Read More