Wayne's Talk - 第 3 頁，總計 19 頁

Photo by Koushik Chowdavarapu on Unsplash

200 views
2 minute read

Adam 優化器

ByWayne
15/06/2025

在訓練神經網路時，選擇一個好的優化器（optimizer）是很更重要的。Adam 是其中最常見的一種，它幾乎成了預設選擇。Adam 是建立在 SGD、Momentum 和 RMSprop 的基礎之上。讓我們回頭看這段演變的過程，能更清楚了解 Adam 的原理。

159 views
6 minute read

LoRA：低秩適配（Low-Rank Adaptation of Large Language Models）

ByWayne
11/06/2025

當 LLMs 動輒上百億參數，執行一次 fine-tuning 就得耗盡整張顯卡。LoRA（Low-Rank Adaptation of Large Language Models）提出了一種巧妙的方法，不直接改動模型的原始參數，而是用低秩矩陣（low-rank matrix）來學習新知識。這讓我們在保留原本模型表現的同時，也能以極低成本快速調整模型行為。

132 views
4 minute read

CLIP 模型

ByWayne
03/06/2025

CLIP（Contrastive Language-Image Pre-training）是由 OpenAI 於 2021 年提出的模型。它透過融合視覺與語言共同編碼達成強大的泛化能力，並具有廣泛的潛在用途。本文章將介紹 CLIP 的理論與實作。

122 views
1 minute read

閱讀筆記

《閱讀筆記》有錢人想的和你不一樣

ByWayne
02/06/2025

本書的核心觀念是，個人的財富狀況與內心的財富藍圖息息相關。作者 Harv Eker 強調，有錢人之所以富有，並非僅僅因為運氣或外在條件，而是因為他們擁有不同於一般人的思維模式與行為習慣。

248 views
1 minute read

閱讀筆記

《閱讀筆記》持續買進：資料科學家的投資終極解答，存錢及致富的實證方法

ByWayne
29/04/2025

本書作者 Nick 用數據驅動的方法，打破了我們對金錢、對市場、對未來的許多錯誤期待，並提供了一套簡單卻有效的行動指南。全書分為兩大部分：儲蓄與投資。

379 views
8 minute read

生成式預訓練 Transformer 模型（Generative Pre-trained Transformer, GPT）

ByWayne
23/04/2025

在過去十年的自然語言處理（Natural Language Processing, NLP）領域中，生成式預訓練 Transformer 模型（Generative Pre-trained Transformer, GPT）無疑是最具指標性的技術之一。GPT 不僅重新定義了語言建模（language modeling）的方式，更掀起了以預訓練（pre-training）為核心的通用語言模型（general-purpose language models）革命。本文將從 GPT 的基本架構談起，並深入探討 GPT-1 至 GPT-3 的設計理念與技術演進。

Photo by Maarten van den Heuvel on Unsplash

363 views
8 minute read

雙向 Transformer 編碼器表徵（Bidirectional Encoder Representations from Transformers, BERT）

ByWayne
15/04/2025

雙向 Transformer 編碼器表徵（Bidirectional Encoder Representations from Transformers, BERT）是由 Google AI 在 2018 年提出的一個用於自然語言處理的預訓練技術。BERT 透過提供對語言更深入的語境理解，顯著推進了自然語言處理的發展。

354 views
7 minute read

Transformer 模型

ByWayne
03/04/2025

Transformer 模型於 2017 年由谷歌大腦的一個團隊推出，是一種使用注意力機制（attention）的深度學習架構。它解決了傳統序列模型（sequential model）難以捕捉長距離依賴性和無法高效並行計算的問題。

395 views
8 minute read

注意力模型（Attention Models）

ByWayne
19/03/2025

注意力機制（Attention mechanism）是深度學習中的一種方法，它讓模型在產生其輸出的每個部分時專注於其輸入中最相關的部分。相較於傳統 sequence models 經常難以處理較長的輸入，attention 允許模型在產生輸出序列的每個部分時動態地聚焦輸入序列的不同部分。

347 views
4 minute read

Sequence to Sequence 模型（Seq2Seq Models）

ByWayne
15/03/2025

Sequence to Sequence（Seq2Seq）模型一個將序列（sequence）映射至另一個序列的 neural network 模型。它徹底改變了自然語言處理（NLP）領域，使得翻譯、文本摘要和聊天機器人等任務的效果大幅提升。本篇文章將深入探討 Seq2Seq 模型的原理。

Get source code of posts.

Adam 優化器

LoRA：低秩適配（Low-Rank Adaptation of Large Language Models）

CLIP 模型

《閱讀筆記》有錢人想的和你不一樣

《閱讀筆記》持續買進：資料科學家的投資終極解答，存錢及致富的實證方法

生成式預訓練 Transformer 模型（Generative Pre-trained Transformer, GPT）

雙向 Transformer 編碼器表徵（Bidirectional Encoder Representations from Transformers, BERT）

Transformer 模型

注意力模型（Attention Models）

Sequence to Sequence 模型（Seq2Seq Models）

Bradley-Terry 模型

熵（Entropy）

Byte-Pair Encoding

策略梯度（Policy Gradient）

函數近似的 On-Policy 控制

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學

Python 圓餅圖／環狀圖／放射環狀圖（Pie/Donut/Sunburst Charts）

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學