Photo by Alsu Vershinina on Unsplash
Read More

廣義策略迭代(Generalized Policy Iteration, GPI)

廣義策略迭代(Generalized Policy Iteration, GPI)並不是一個單一的演算法,而是所有強化學習(Reinforcement Learning, RL)方法背後的核心框架。它結合了策略評估(policy evaluation)與策略改善(policy improvement),使得在有限資訊的情況下,演算法仍能逐步逼近最佳策略(optimal policy)與最佳狀態價值函數(optimal state-value function)。
Read More
Photo by Marcus Hjelm on Unsplash
Read More

馬可夫決策過程(Markov Decision Process, MDP)

馬可夫決策過程(Markov Decision Process, MDP)為強化學習(Reinforcement Learning, RL)中所有策略評估(policy evaluation)與策略改善(policy improvement)方法提供了嚴謹的數學框架。藉由 MDP,我們得以形式化地描述代理人(agent)與環境(environment)之間的互動,也能在回報(return)的觀點下定義策略的價值。
Read More
Photo by Courtney Cook on Unsplash
Read More

思路鏈(Chain-of-Thought, CoT)

LLM 在推理任務中的表現,近年因思路鏈(Chain-of-Thought, CoT)的提出而大幅改變。這類方法透過引導 LLM 產生逐步推理的過程,使 LLM 得以展現類似人類的思考結構。然而,隨著任務複雜度提升,傳統 CoT 的限制也逐漸浮現,促使後續研究不斷提出改良策略。本文介紹 CoT 及其延伸方法。
Read More
金錢超思考
Read More

《閱讀筆記》金錢超思考:《華爾街日報》最受歡迎財經作家,25道創造財富的關鍵思考,教你晉升有錢人!

本書從行為經濟學與人生價值為基礎來思考金錢的意思,以及如何使用它,才能讓人活得更好。 作者指出,即使我們精通財務技巧,若沒有正確的金錢觀,仍可能做出不利人生的財務決策。他強調,金錢不是目的,而是工具。真正的問題不是我們擁有多少金錢,而是我們如何使用它,以及它是否幫助我們過上理想的生活。
Read More
Photo by Tomáš Malík on Unsplash
Read More

Vision Transformer 模型

在影像辨識領域,多年來一直以卷積神經網路(Convolutional Neural Network, CNN)為主。近年,Transformer 在自然語言處理(Natural Language Processing, NLP)領域大放異彩,進而也有將 Transformer 架構應用於影像處理的想法。Vision Transformer 便是基於 Transformer 的影響處理模型。
Read More
Photo by Sestrjevitovschii Ina on Unsplash
Read More

層正規化(Layer Normalization)

正規化(normalization)是一種來自統計學的資料轉換技術,用來調整資料的平均值與變異數,使其更穩定、可預測。在 deep learning 中,normalization 被廣泛應用於提升模型訓練的穩定性與效率。本文將說明 normalization 的原始概念,介紹 Batch Normalization 的設計與限制,並深入探討 Layer Normalization 如何解決這些限制,成為現代 language models 中的標準做法。
Read More