標籤
Chain-of-thought 著重模型如何把多步推理串起來,而不只是給出最後答案。這個主題涵蓋長鏈推理、agent 迴圈、結構化輸出與長上下文下的穩定性,對評估與部署 LLM 很重要。
2 篇文章
LongCoT 用 2,500 題測試模型能否在長鏈、互相依賴的推理步驟中保持一致。GPT 5.2 與 Gemini 3 Pro 仍低於 10%。
LLM 進到生產環境後,提示詞不再是寫得漂亮就好。這篇拆解推理、長上下文、JSON 合約與 agent 迴圈,講清楚怎麼把 GPT、Claude 和本地模型用得更穩。