Photo by Sestrjevitovschii Ina on Unsplash
Read More

層正規化(Layer Normalization)

正規化(normalization)是一種來自統計學的資料轉換技術,用來調整資料的平均值與變異數,使其更穩定、可預測。在 deep learning 中,normalization 被廣泛應用於提升模型訓練的穩定性與效率。本文將說明 normalization 的原始概念,介紹 Batch Normalization 的設計與限制,並深入探討 Layer Normalization 如何解決這些限制,成為現代 language models 中的標準做法。
Read More
Photo by Koushik Chowdavarapu on Unsplash
Read More

Adam 優化器

在訓練神經網路時,選擇一個好的優化器(optimizer)是很更重要的。Adam 是其中最常見的一種,它幾乎成了預設選擇。Adam 是建立在 SGD、Momentum 和 RMSprop 的基礎之上。讓我們回頭看這段演變的過程,能更清楚了解 Adam 的原理。
Read More