LoRA:低秩適配(Low-Rank Adaptation of Large Language Models)
當 LLMs 動輒上百億參數,執行一次 fine-tuning 就得耗盡整張顯卡。LoRA(Low-Rank Adaptation of Large Language Models)提出了一種巧妙的方法,不直接改動模型的原始參數,而是用低秩矩陣(low-rank matrix)來學習新知識。這讓我們在保留原本模型表現的同時,也能以極低成本快速調整模型行為。
《閱讀筆記》有錢人想的和你不一樣
本書的核心觀念是,個人的財富狀況與內心的財富藍圖息息相關。作者 Harv Eker 強調,有錢人之所以富有,並非僅僅因為運氣或外在條件,而是因為他們擁有不同於一般人的思維模式與行為習慣。
《閱讀筆記》持續買進:資料科學家的投資終極解答,存錢及致富的實證方法
本書作者 Nick 用數據驅動的方法,打破了我們對金錢、對市場、對未來的許多錯誤期待,並提供了一套簡單卻有效的行動指南。全書分為兩大部分:儲蓄與投資。
生成式預訓練 Transformer 模型(Generative Pre-trained Transformer, GPT)
在過去十年的自然語言處理(Natural Language Processing, NLP)領域中,生成式預訓練 Transformer 模型(Generative Pre-trained Transformer, GPT)無疑是最具指標性的技術之一。GPT 不僅重新定義了語言建模(language modeling)的方式,更掀起了以預訓練(pre-training)為核心的通用語言模型(general-purpose language models)革命。本文將從 GPT 的基本架構談起,並深入探討 GPT-1 至 GPT-3 的設計理念與技術演進。
雙向 Transformer 編碼器表徵(Bidirectional Encoder Representations from Transformers, BERT)
雙向 Transformer 編碼器表徵(Bidirectional Encoder Representations from Transformers, BERT)是由 Google AI 在 2018 年提出的一個用於自然語言處理的預訓練技術。BERT 透過提供對語言更深入的語境理解,顯著推進了自然語言處理的發展。
Transformer 模型
Transformer 模型於 2017 年由谷歌大腦的一個團隊推出,是一種使用注意力機制(attention)的深度學習架構。它解決了傳統序列模型(sequential model)難以捕捉長距離依賴性和無法高效並行計算的問題。
注意力模型(Attention Models)
注意力機制(Attention mechanism)是深度學習中的一種方法,它讓模型在產生其輸出的每個部分時專注於其輸入中最相關的部分。相較於傳統 sequence models 經常難以處理較長的輸入,attention 允許模型在產生輸出序列的每個部分時動態地聚焦輸入序列的不同部分。
Sequence to Sequence 模型(Seq2Seq Models)
Sequence to Sequence(Seq2Seq)模型一個將序列(sequence)映射至另一個序列的 neural network 模型。它徹底改變了自然語言處理(NLP)領域,使得翻譯、文本摘要和聊天機器人等任務的效果大幅提升。本篇文章將深入探討 Seq2Seq 模型的原理。













