Wayne's Talk - 第 2 頁，總計 19 頁

80 views
2 minute read

廣義策略迭代（Generalized Policy Iteration, GPI）

ByWayne
10/12/2025

廣義策略迭代（Generalized Policy Iteration, GPI）並不是一個單一的演算法，而是所有強化學習（Reinforcement Learning, RL）方法背後的核心框架。它結合了策略評估（policy evaluation）與策略改善（policy improvement），使得在有限資訊的情況下，演算法仍能逐步逼近最佳策略（optimal policy）與最佳狀態價值函數（optimal state-value function）。

94 views
6 minute read

馬可夫決策過程（Markov Decision Process, MDP）

ByWayne
09/12/2025

馬可夫決策過程（Markov Decision Process, MDP）為強化學習（Reinforcement Learning, RL）中所有策略評估（policy evaluation）與策略改善（policy improvement）方法提供了嚴謹的數學框架。藉由 MDP，我們得以形式化地描述代理人（agent）與環境（environment）之間的互動，也能在回報（return）的觀點下定義策略的價值。

49 views
2 minute read

閱讀筆記

《閱讀筆記》巴菲特財報學：跟股神學投資，用會計知識解析價值投資法

ByWayne
23/11/2025

價值投資的原則與規則原則 1：審慎…

36 views
1 minute read

閱讀筆記

《閱讀筆記》超強記憶學習法：用遺忘、複習的學習週期，加速理解與維持記憶

ByWayne
23/11/2025

本書透過心理學與教育科學的研究成果，整理出一套可複製、可實踐的學習框架。作者 Peter Hollins 認為，理解比記憶重要，主動學習比被動吸收更有效，學習是刻意設計的過程，而非時間堆疊的結果。

82 views
7 minute read

思路鏈（Chain-of-Thought, CoT）

ByWayne
20/11/2025

LLM 在推理任務中的表現，近年因思路鏈（Chain-of-Thought, CoT）的提出而大幅改變。這類方法透過引導 LLM 產生逐步推理的過程，使 LLM 得以展現類似人類的思考結構。然而，隨著任務複雜度提升，傳統 CoT 的限制也逐漸浮現，促使後續研究不斷提出改良策略。本文介紹 CoT 及其延伸方法。

34 views
1 minute read

閱讀筆記

《閱讀筆記》巴菲特選好公司的9大原則：看股神親手為波克夏打造企業護城河

ByWayne
09/11/2025

本書透過研究波克夏旗下超過五十家子公司，歸納出巴菲特挑選與經營企業的九大原則。這九項原則共同構成了波克夏的文化核心。

143 views
4 minute read

注意力機制（Attention Mechanisms）

ByWayne
15/09/2025

注意力模型（Attention Models）如今已成為神經網路中的一個核心概念。尤其是當紅的 GPT 模型以及 Vision Transformers（ViT）模型，皆為 attention models 的代表性應用。本文將深入探討這些模型中的關鍵的注意力機制（attention mechanisms）。

57 views
1 minute read

閱讀筆記

《閱讀筆記》金錢超思考：《華爾街日報》最受歡迎財經作家，25道創造財富的關鍵思考，教你晉升有錢人！

ByWayne
28/07/2025

本書從行為經濟學與人生價值為基礎來思考金錢的意思，以及如何使用它，才能讓人活得更好。作者指出，即使我們精通財務技巧，若沒有正確的金錢觀，仍可能做出不利人生的財務決策。他強調，金錢不是目的，而是工具。真正的問題不是我們擁有多少金錢，而是我們如何使用它，以及它是否幫助我們過上理想的生活。

102 views
8 minute read

Vision Transformer 模型

ByWayne
29/06/2025

在影像辨識領域，多年來一直以卷積神經網路（Convolutional Neural Network, CNN）為主。近年，Transformer 在自然語言處理（Natural Language Processing, NLP）領域大放異彩，進而也有將 Transformer 架構應用於影像處理的想法。Vision Transformer 便是基於 Transformer 的影響處理模型。

Photo by Sestrjevitovschii Ina on Unsplash

376 views
2 minute read

層正規化（Layer Normalization）

ByWayne
17/06/2025

正規化（normalization）是一種來自統計學的資料轉換技術，用來調整資料的平均值與變異數，使其更穩定、可預測。在 deep learning 中，normalization 被廣泛應用於提升模型訓練的穩定性與效率。本文將說明 normalization 的原始概念，介紹 Batch Normalization 的設計與限制，並深入探討 Layer Normalization 如何解決這些限制，成為現代 language models 中的標準做法。

Get source code of posts.

廣義策略迭代（Generalized Policy Iteration, GPI）

馬可夫決策過程（Markov Decision Process, MDP）

《閱讀筆記》巴菲特財報學：跟股神學投資，用會計知識解析價值投資法

《閱讀筆記》超強記憶學習法：用遺忘、複習的學習週期，加速理解與維持記憶

思路鏈（Chain-of-Thought, CoT）

《閱讀筆記》巴菲特選好公司的9大原則：看股神親手為波克夏打造企業護城河

注意力機制（Attention Mechanisms）

《閱讀筆記》金錢超思考：《華爾街日報》最受歡迎財經作家，25道創造財富的關鍵思考，教你晉升有錢人！

Vision Transformer 模型

層正規化（Layer Normalization）

Bradley-Terry 模型

熵（Entropy）

Byte-Pair Encoding

策略梯度（Policy Gradient）

函數近似的 On-Policy 控制

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學

Python 圓餅圖／環狀圖／放射環狀圖（Pie/Donut/Sunburst Charts）

Python 長條圖（Bar Charts）

Kotlin Coroutine 教學

Python 散佈圖／折線圖（Scatter/Line Charts）

Spring Boot + REST APIs + JPA 教學