Photo by Logan Armstrong on Unsplash
Read More

生成式預訓練 Transformer 模型(Generative Pre-trained Transformer, GPT)

在過去十年的自然語言處理(Natural Language Processing, NLP)領域中,生成式預訓練 Transformer 模型(Generative Pre-trained Transformer, GPT)無疑是最具指標性的技術之一。GPT 不僅重新定義了語言建模(language modeling)的方式,更掀起了以預訓練(pre-training)為核心的通用語言模型(general-purpose language models)革命。本文將從 GPT 的基本架構談起,並深入探討 GPT-1 至 GPT-3 的設計理念與技術演進。
Read More
Photo by Daniele Buso on Unsplash
Read More

雙向循環神經網絡(Bi-directional Recurrent Neural Networks, BRNNs)

雙向循環神經網絡(Bi-directional recurrent neural networks, BRNNs)是一種 RNN,專門用於同時從前向和後向處理序列數據。與傳統 RNN 相比,BRNN 能夠保留更完整的上下文信息,使其能夠在整個序列中捕捉有用的依賴關係,從而在自然語言處理和語音識別等任務中提高預測準確性。
Read More
Photo by Kelsey Curtis on Unsplash
Read More

GloVe 詞嵌入模型

GloVe 是一種詞嵌入(word embedding)模型,透過 global co-occurence 統計來構建詞向量。與依賴 local context windows 的 Word2Vec 不同,GloVe 通過矩陣分解(matrix factorization)來捕捉詞語之間的整體統計關係。這種方法使 GloVe 能夠生成高質量的詞向量,有效地編碼語義和語法關係。本文將介紹 GloVe 的原理與訓練方法。
Read More