[RSCH] 5 分鐘閱讀OraCore 編輯部

怎麼用 DeepMind 建立 AI 研究基礎

這篇教你用 DeepMind 的課程與本機實作,建立現代語言模型與微調的入門基礎。

分享 LinkedIn
怎麼用 DeepMind 建立 AI 研究基礎

這篇教你用 DeepMind 課程與本機實作,建立現代語言模型與微調的入門基礎。

這篇給想理解現代語言模型、準備進入研究閱讀,或想把理論接到實作的開發者與資料科學學習者看。照做完,你會得到一套可重複的學習流程,外加一個能跑起來的本機模型練習專案。

你會一路完成課程導讀、Python 工作區、核心概念整理、模型推論測試,最後做一次小型微調練習。課程素材來自 Google DeepMind: AI Research Foundations,研究脈絡則可參考 Google DeepMind GitHub

開始之前

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析,直送信箱。不定期,不騷擾。

不會寄垃圾信,隨時可取消。

  • DataCamp 帳號,且可存取 Google DeepMind: AI Research Foundations 追蹤課程
  • Google 帳號,若你的工作區需要登入
  • Python 3.10+
  • Node 20+,僅在你要做 companion web demo 時需要
  • JupyterLab 4+ 或 VS Code 1.85+
  • Git 2.40+
  • 至少 8 GB RAM,建議 16 GB
  • 可選:NVIDIA GPU 與 CUDA 12+,用於本機實驗

Step 1: 開啟課程追蹤頁

目的:先把學習路線看完整,再開始寫任何程式。這樣你會知道哪些章節先讀、哪些章節後做,避免概念與實作順序打架。

怎麼用 DeepMind 建立 AI 研究基礎

請登入 DataCamp,打開課程追蹤頁,快速掃過模組名稱與單元順序,並把會碰到語言模型、訓練、評估的章節記到你的筆記中。接著建立一份待辦清單,準備逐章完成。

驗收:你應該看到課程首頁、章節列表,以及你自己的學習清單。

Step 2: 建立 Python 工作區

目的:準備一個乾淨環境,讓你在做 notebook 與套件安裝時可以重現結果。獨立環境能降低版本衝突,也方便你之後替換模型或資料集。

怎麼用 DeepMind 建立 AI 研究基礎
python3 -m venv .venv
source .venv/bin/activate
python -m pip install --upgrade pip
pip install jupyterlab transformers datasets accelerate evaluate sentencepiece

如果你習慣 conda,也可以建立等效環境,只要 Python 版本維持在 3.10 以上即可。先保持套件精簡,等課程真的需要時再加裝其他依賴。

驗收:你應該可以啟動 JupyterLab,並且順利匯入核心套件。

Step 3: 整理核心模型概念

目的:先建立腦中的模型,再進入微調程式。你需要先弄懂 tokens、embeddings、attention、pretraining、instruction tuning 與 evaluation,後面的課程才會串得起來。

請在閱讀每個單元時,用自己的話寫下一句定義,再補上一個實務問題,例如 tokenization 如何影響 context length,或為什麼 fine-tuning 會改變模型行為。這份筆記會變成你之後排查問題的索引。

驗收:你應該能用白話講出語言模型從文字輸入到文字輸出的流程。

Step 4: 執行小型模型推論

目的:確認你的環境真的能載入預訓練模型並產生文字。這一步是後面訓練與微調之前的基準測試,能先排除安裝與硬體問題。

先選一個小模型,例如 compact causal language model,然後只做三件事:載入 tokenizer、載入 model、產生短輸出。Notebook 不需要複雜,重點是把流程跑通。

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "distilgpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

prompt = "Explain fine-tuning in one paragraph:"
inputs = tokenizer(prompt, return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(output[0], skip_special_tokens=True))

驗收:你應該在 notebook 看到一段生成文字,代表本機語言模型流程已經可用。

Step 5: 微調 toy dataset

目的:用一個小資料集練習完整研究流程,讓你看見資料準備、訓練參數與評估如何接在一起。這一步的重點不是追求高分,而是完成一次可追蹤的訓練迴圈。

請選一個很小的文字資料集,跑短時間訓練,設定少量 epochs 或 steps,並把 checkpoint 存下來。接著記錄 loss 變化,再比較微調前後的輸出,觀察模型是否真的學到你的樣本特徵。

驗收:你應該拿到一個已儲存的 checkpoint、一份訓練紀錄,以及微調前後可辨識的輸出差異。

指標基準/優化前結果/優化後
模型行為通用型預訓練補全微調後的任務導向補全
訓練可視性沒有本機紀錄有 loss 曲線與 checkpoint
流程把握度只有概念理解完成端到端訓練練習

常見錯誤

  • 一開始就選太大的模型。修法:先用 distilgpt2 這類小模型驗證流程,再逐步升級。
  • 沒有隔離環境。修法:把所有練習放在 virtual environment,避免套件版本互相干擾。
  • 跳過概念章就直接訓練。修法:先完成 tokens 與 attention 的學習,再進入微調。

接下來可以看什麼

完成基礎後,下一步可以做一個小型聊天介面、比較不同提示詞策略,或替特定領域資料做微調,讓研究概念變成可展示的作品。