把學生程式碼變成範例

OraCore Editors

返回首頁

[RSCH] 2026年4月28日7 分鐘閱讀OraCore 編輯部

把學生程式碼變成範例

這篇論文用 AST 抽出學生程式碼中的模式，當作知識元件去引導生成式模型，做出更貼近學習錯誤的 worked examples。

student code knowledge components AST analysis programming education worked example generation

分享 LinkedIn

自適應程式學習常見的做法，是先準備一批固定的範例與練習題，再讓系統依照學生程度去挑內容。問題是，學生真正卡住的地方，往往不是課本上那幾種標準錯誤，而是更零碎、更接近半成品的程式邏輯。這篇論文 Personalized Worked Example Generation from Student Code Submissions using Pattern-based Knowledge Components，想處理的就是這個落差：能不能直接從學生提交的程式碼裡，抓出反覆出現的模式，拿來生成更對味的 worked examples。

對做教育產品或程式教學工具的開發者來說，這個方向很實際。因為如果系統能看出學生到底暴露了哪一類誤解，就不必只給一份泛用解答，而是可以把說明做得更貼近當下的錯法。這篇摘要沒有把它包裝成已經完成的商用方案，也沒有宣稱能解決所有教學問題；它比較像是一條清楚的技術路線，先把方法搭起來，再用專家評估看這條路有沒有機會走通。

這篇論文在補哪個洞

訂閱 AI 趨勢週報

每週精選模型發布、工具應用與深度分析，直送信箱。不定期，不騷擾。

不會寄垃圾信，隨時可取消。

論文要解的痛點，是靜態教材庫跟真實學生程式碼之間的落差。程式教育裡，老師或平台常常依賴預先寫好的 worked examples、範例解答、練習題。這些內容當然有用，但它們的覆蓋範圍有限。學生在練習時冒出來的錯誤，常常不是剛好落在教材庫裡那幾個模板上。

於是就出現兩種代價。第一種，是老師得花很多時間一直補內容庫。第二種，是系統只能做很粗的個人化，給出跟學生當下問題只有大方向相關的材料。論文認為，這樣的做法對「直接處理學生的邏輯錯誤與部分解法」特別不夠力，因為學習者真正需要的，往往不是標準答案本身，而是跟自己錯誤型態相對應的引導。

作者把這件事定義成 knowledge component，也就是知識元件或技能元件的問題。概念很簡單：如果你能從學生提交中辨認出背後代表的技能、模式或誤解，就可以把這個訊號拿去驅動內容生成。這篇工作要補的，就是「如何把學生程式碼變成可用的個人化訊號」這個缺口。

方法是怎麼運作的

這篇論文的做法，不是直接丟一段學生程式碼給模型，叫它自由發揮。它先走一個結構化流程。起點是一個題目，外加一批學生提交。接著系統會用 AST-based analysis，也就是抽象語法樹分析，去看程式的結構，而不是只看表面文字。

這一步很重要，因為程式碼的錯誤常常藏在結構裡。單看字串，你可能只知道學生寫了哪些變數、哪些函式；但 AST 能讓系統看出語法層級上的模式。論文就是利用這種結構資訊，去找出學生提交裡反覆出現的程式模式。

這些被抽出來的模式，接著會被當成 pattern-based knowledge components，簡稱 KC。白話一點說，系統不是只判斷「這份作業對不對」，而是試著推回去：這份作業反映的是哪一種程式觀念、哪一種常見誤解、或哪一種半完成的解法。然後，這些 KC 會被拿去當作生成條件，去引導生成式模型產出 worked examples。

這裡的重點是「先分析，再生成」。也就是先用結構化方法把學生行為轉成可操作的訊號，再讓模型根據這些訊號生成教學內容。這比單純做自由生成更容易理解，也更容易控制方向。論文的目標也很明確：不是做所有教育內容，而是聚焦在 worked example generation。這個選擇合理，因為 worked examples 本來就是程式教學裡很常見的材料，也很適合測試這種 KC 導向的生成方式到底有沒有用。

從實作角度看，這代表系統的關鍵不只在生成模型本身，而是在前面的特徵抽取。也就是說，模型不是憑空讀心，而是先靠 AST 把學生程式碼裡的結構訊號整理出來，再把這些訊號餵給生成端。這種設計比較像「受約束的生成」，而不是完全開放式的文本生成。

論文實際證明了什麼

摘要裡提到，作者是把 baseline 輸出跟 KC-conditioned 輸出做比較，而且是透過 expert evaluation，也就是專家評估來看結果。根據摘要的描述，加入 KC 條件之後，生成出的內容在 topical focus 和 relevance 上，似乎更貼近學習者的底層邏輯錯誤。

這個結果的意思很直接：如果你把學生程式碼裡的模式先抽出來，再讓模型根據這些模式生成 worked examples，那內容就比較不會飄掉，會更對準學生正在犯的那種錯。對教學系統來說，這種「對題」其實很重要，因為一份再流暢的解答，如果沒有碰到學生真正卡住的點，教育效果還是會很有限。

不過，這裡也要講清楚一件事：摘要沒有公開完整 benchmark 細節。沒有看到數字、沒有看到準確率、沒有看到勝率，也沒有看到明確的效應量。換句話說，這篇摘要能支持我們說「專家評估覺得 KC-conditioned 版本比較對焦」，但還不能拿它來下更強的量化結論。

即便如此，論文的立場其實算很克制。它不是在說這套方法已經證明能全面提升所有程式教育場景，而是說這個方向有證據顯示可行，值得繼續做下去。對研究型工作來說，這種說法比過度包裝更可信，也比較符合目前摘要所能支持的範圍。

如果把這篇工作的價值濃縮成一句話，就是：它把「學生的錯法」變成了「生成的條件」。這個轉換本身，才是最核心的貢獻。

對開發者有什麼啟發

如果你在做學習平台、程式助教、線上評測系統，這篇論文提供了一個很實用的設計模式：把程式分析跟生成式模型接起來。AST-based analysis 讓你可以先從學生提交裡抓出結構訊號，再把這些訊號轉成 knowledge components，最後用來引導內容生成。這樣一來，模型不只是看題目，而是也看到了學生實際表現出來的解題方式。

這對教育產品很重要，因為個人化很難純手工擴張。你可以寫很多 worked examples，但你永遠不可能預先寫完所有學生會犯的錯。把學生提交本身當成訊號來源，等於把真實學習行為重新利用起來，變成內容生成的素材。這比單純維護一個靜態教材庫，更有機會跟上學生的變化。

另外，這篇工作也提醒開發者一件事：生成式模型最好搭配結構化上下文一起用。只靠 prompt，模型很容易輸出看起來順、但不夠對焦的內容；加上 code pattern 和 KC 之後，生成方向會更明確。對產品設計來說，這是很典型的「先約束，再生成」思路。

如果你要把這個方向落地，至少可以先記住四件事：

先用 AST 去找學生程式碼的結構模式。
把重複出現的模式整理成 knowledge components。
生成時不要只餵題目，也要餵 KC 訊號。
評估時不要只看語句順不順，也要看內容是否真的對準學生錯誤。

限制與還沒回答的問題

這篇摘要最明顯的限制，就是評估資訊不夠完整。作者有提到 expert evaluation，也有提到 KC-conditioned outputs 比 baseline 更對焦，但摘要沒有展開研究規模、沒有列出完整 benchmark，也沒有提供數字化結果。這讓外部讀者很難判斷結果在不同題型、不同學生族群、或不同課程內容上是否都一樣穩定。

另一個未解問題，是 pattern extraction 的泛化能力。AST-based analysis 的確適合抓結構訊號，但學生程式碼常常很亂、很不完整，也可能充滿臨時拼湊的寫法。摘要沒有說明這些噪聲怎麼處理，也沒有說明 KC 的抽取在不同程式任務上是否一致。這會直接影響方法能不能真正擴到更大的教學場景。

還有一個實務上的提醒：相關，不等於真的教得好。就算生成出來的 worked example 很貼近某個錯法，它也可能因為太局部、太針對單一錯誤，而忽略了更重要的概念說明。摘要沒有討論這些教學上的取捨，所以目前只能說它在「內容對焦」上有潛力，不能直接推論成完整的教學效果。

但即便有這些限制，這篇論文的方向還是值得注意。它沒有把重點放在炫技式生成，而是放在更好的 conditioning，也就是怎麼讓模型知道該往哪裡生成。對很多教育工具來說，真正有價值的往往不是模型能不能講一大段，而是能不能剛好講到學生現在最需要的那一段。

總結來看，這篇工作比較像是一個務實的起點：先證明學生程式碼中的模式，可以被轉成有意義的 knowledge components，再用這些訊號去推動 worked example 生成。若後續研究能補上更完整的量化評估，這種 KC-guided 的做法，確實有機會變成程式教育工具裡很有用的一層個人化機制。

// 相關文章

把學生程式碼變成範例

這篇論文在補哪個洞

訂閱 AI 趨勢週報

方法是怎麼運作的

論文實際證明了什麼

對開發者有什麼啟發

限制與還沒回答的問題

為什麼 AI 安全團隊錯把問題全怪在對齊

為什麼針對領域任務微調 LLM 才是預設選項

RefDecoder 讓影片解碼器吃參考圖

ATLAS 用一個 token 做視覺推理

EntityBench 盯住長片一致性

TurboQuant 與小站 SEO 變化