[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-agentic-ai-moving-past-rag-knowledge-layer-zh":3,"tags-agentic-ai-moving-past-rag-knowledge-layer-zh":36,"related-lang-agentic-ai-moving-past-rag-knowledge-layer-zh":48,"related-posts-agentic-ai-moving-past-rag-knowledge-layer-zh":52,"series-ai-agent-7a9fa13f-1fbb-438f-bdc7-c47cc5cd1dae":89},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":20,"translated_content":10,"views":21,"is_premium":22,"created_at":23,"updated_at":23,"cover_image":11,"published_at":24,"rewrite_status":25,"rewrite_error":10,"rewritten_from_id":26,"slug":27,"category":28,"related_article_id":29,"status":30,"google_indexed_at":31,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":32,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":22},"7a9fa13f-1fbb-438f-bdc7-c47cc5cd1dae","Agentic AI 為何開始跳過 RAG","\u003Cp data-speakable=\"summary\">\u003Ca href=\"\u002Ftag\u002Fagentic-ai\">Agentic AI\u003C\u002Fa> 團隊正把 \u003Ca href=\"\u002Ftag\u002Frag\">RAG\u003C\u002Fa> 換成預先編譯的知識層，因為這樣可以少做重複讀資料的工作。\u003C\u002Fp>\u003Cp>講白了，RAG 一直在重算同一筆帳。每次請求都要抓文件、切 chunk、排順序，再塞進上下文。這些事做一次還行，做十次就很煩。\u003C\u002Fp>\u003Cp>對 \u003Ca href=\"\u002Fnews\u002Fwhy-ai-coding-agents-need-an-architecture-compiler-zh\">agen\u003C\u002Fa>t 來說更明顯。它會規劃、呼叫工具、跑多步流程。只要上下文一直重建，\u003Ca href=\"\u002Ftag\u002Ftoken\">token\u003C\u002Fa> 就一直燒。這不是模型不夠強，是架構把錢花在錯的地方。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>訊號\u003C\u002Fth>\u003Cth>意思\u003C\u002Fth>\u003Cth>為什麼重要\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>RAG 在推理時做事\u003C\u002Ftd>\u003Ctd>邊問邊抓資料\u003C\u002Ftd>\u003Ctd>token 用量高，反應也慢\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>預編譯知識層\u003C\u002Ftd>\u003Ctd>先整理，再讓 agent 用\u003C\u002Ftd>\u003Ctd>每次請求少做重工\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>Agentic 工作流\u003C\u002Ftd>\u003Ctd>多步驟、工具呼叫、反覆迭代\u003C\u002Ftd>\u003Ctd>重複上下文成本會放大\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>穩定知識庫\u003C\u002Ftd>\u003Ctd>政策、手冊、SOP 不常改\u003C\u002Ftd>\u003Ctd>很適合先離線處理\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>為什麼 RAG 在 agent 工作流會卡住\u003C\u002Fh2>\u003Cp>先講清楚，RAG 不是壞東西。它解過一個真問題。\u003Ca href=\"\u002Fnews\u002Fselective-llm-regularization-recommenders-zh\">LLM\u003C\u002Fa> 需要新資料，也需要領域知識。RAG 讓模型不用重訓，就能拿到外部資訊。這在單次問答很夠用。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778055061154-hqfw.png\" alt=\"Agentic AI 為何開始跳過 RAG\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>問題出在 \u003Ca href=\"\u002Ftag\u002Fagent\">agent\u003C\u002Fa>。Agent 不是只回答一句話。它要看政策、比文件、做摘要，還要根據結果採取動作。每一步都可能再抓一次同樣的資料。這時候，RAG 的成本就開始很刺眼。\u003C\u002Fp>\u003Cp>因為它的流程通常是固定的。先切段，再檢索，再排序，再塞上下文。模型最後還得自己猜結構。這很像叫工程師每次都從零整理 Excel。能做，但很浪費。\u003C\u002Fp>\u003Cul>\u003Cli>每次請求都會重新檢索。\u003C\u002Fli>\u003Cli>chunking 和 rerank 會重做。\u003C\u002Fli>\u003Cli>agent 常會回頭看同一批資料。\u003C\u002Fli>\u003Cli>流程越長，token 浪費越明顯。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>如果知識庫夠穩定，這些工作就不該放在推理時做。它們比較像資料工程，不像即時推理。講白了，能先做的事，就別拖到 runtime 才做。\u003C\u002Fp>\u003Cp>這也是很多團隊開始改架構的原因。不是因為 RAG 沒用，而是因為 agent 工作流把它的缺點放大了。原本可接受的成本，到了多步驟流程就變得很難看。\u003C\u002Fp>\u003Ch2>預編譯知識層到底改了什麼\u003C\u002Fh2>\u003Cp>預編譯知識層的概念很直白。先把文件吃進去，先做解析，再把知識整理成更好用的格式。像是實體抽取、關係圖、術語標準化、事件時間線，這些都可以先離線做。\u003C\u002Fp>\u003Cp>這種做法很像把原始資料先做 ETL。RAG 是把文件當現成答案來源。預編譯知識層是把文件當原料，先加工一次，再給 agent 用。前者省事，後者省 token。\u003C\u002Fp>\u003Cp>這裡的差異不是學術名詞，而是成本結構。你把工作往前移，推理時就少做很多重工。對大量重複查詢、重複摘要、重複決策的系統，這差很多。\u003C\u002Fp>\u003Cblockquote>“The real power of LLMs comes from how much they can do with text, not from replacing the need to structure knowledge,” said Andrej Karpathy in a 2023 talk at Y Combinator.\u003C\u002Fblockquote>\u003Cp>這句話很對味。\u003Ca href=\"\u002Fnews\u002Fllm-overview-manipulation-biases-zh\">LLM\u003C\u002Fa> 擅長處理文字，但不代表每次都該叫它自己整理資料。說真的，讓模型一邊找資料一邊想結構，常常是在燒 token。\u003C\u002Fp>\u003Cp>所以很多團隊現在把精力放到知識建模、schema 設計、離線 enrichment。這些工作沒那麼炫，但很務實。你會先看到延遲降下來，再看到成本變穩。\u003C\u002Fp>\u003Ch2>跟傳統 RAG 的差別在哪\u003C\u002Fh2>\u003Cp>如果只是做臨時問答，RAG 還是很好用。你今天要查一份產品規格，明天要看一份法規摘要，RAG 都能快速上場。它的優點是快，缺點是每次都要重做一遍整理。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778055076147-fb8h.png\" alt=\"Agentic AI 為何開始跳過 RAG\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>一旦進到 agent 工作流，情況就變了。Agent 會反覆檢查上下文，還會跨步驟引用資料。這時候，單純的檢索就不夠了。你需要的是可重用的知識結構。\u003C\u002Fp>\u003Cp>我把兩者差異整理成下面這樣。這樣看最直接，也最像工程現場會遇到的選擇。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>傳統 RAG：\u003C\u002Fstrong>適合單次問答和臨時查詢。\u003C\u002Fli>\u003Cli>\u003Cstrong>預編譯知識層：\u003C\u002Fstrong>適合重複推理和固定知識。\u003C\u002Fli>\u003Cli>\u003Cstrong>Agent loop：\u003C\u002Fstrong>需要更乾淨的上下文。\u003C\u002Fli>\u003Cli>\u003Cstrong>成本結構：\u003C\u002Fstrong>從 runtime 移到 preprocessing。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這個差別也會反映在延遲上。當模型不用每次都從 chunk 重新猜結構，回應通常更穩。不是每個場景都會快很多，但至少不會一直被同一批資料拖住。\u003C\u002Fp>\u003Cp>還有一個很實際的點。預編譯知識層通常比較好除錯。你可以直接看中介產物，像是實體表、關係圖、摘要索引。RAG 的黑盒感比較重，很多問題要追到檢索和排序才看得出來。\u003C\u002Fp>\u003Ch2>競品和數字怎麼看\u003C\u002Fh2>\u003Cp>現在市場上，大家其實都在往「少在推理時做事」這方向走。差別只在名字。有人叫 knowledge layer，有人叫 memory layer，有人直接做 graph-based retrieval。名字很多，核心邏輯差不多。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Flangchain-ai\u002Flangchain\" target=\"_blank\" rel=\"noopener\">LangChain\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Frun-llama\u002Fllama_index\" target=\"_blank\" rel=\"noopener\">LlamaIndex\u003C\u002Fa> 這類工具，早期幫大家把 RAG 做起來。現在更多團隊開始往 \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002F\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.cursor.com\u002F\" target=\"_blank\" rel=\"noopener\">Cursor\u003C\u002Fa> 這種 agent 工作流思路靠攏，重點變成上下文管理和工具協作。\u003C\u002Fp>\u003Cp>如果你看成本，差距會更有感。RAG 的成本常跟查詢次數一起漲。agent 一旦進入多步驟模式，檢索、摘要、重排都會重複出現。這不是 1 次的問題，是 5 次、10 次的問題。\u003C\u002Fp>\u003Cul>\u003Cli>單次問答：RAG 通常夠用。\u003C\u002Fli>\u003Cli>多步驟代理：預編譯層更省 token。\u003C\u002Fli>\u003Cli>穩定文件：離線整理更划算。\u003C\u002Fli>\u003Cli>高變動資料：即時檢索還是必要。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>我覺得最實際的做法不是二選一，而是混搭。穩定政策先編譯，變動新聞再檢索。固定 FAQ 先結構化，臨時資料再抓即時來源。這樣比較像真的在做系統，不是在玩名詞。\u003C\u002Fp>\u003Cp>如果你是工程團隊，最好直接量三個東西。每步 token、每次延遲、同一份資料被重用幾次。只要這三個數字一拉出來，哪個層該前移，答案通常很明顯。\u003C\u002Fp>\u003Ch2>這波變化的背景是什麼\u003C\u002Fh2>\u003Cp>這件事其實跟 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 產品成熟有關。早期大家先求能用，所以 RAG 很自然。只要能把外部資料接上模型，很多 demo 就能跑起來。那時候重點是有沒有答案，不是成本漂不漂亮。\u003C\u002Fp>\u003Cp>但 agent 不是 demo。Agent 會進到客服、內部知識管理、法務摘要、研究輔助這些場景。這些地方資料很多，而且流程會反覆跑。你很快就會發現，runtime 的每一個多餘步驟都在燒錢。\u003C\u002Fp>\u003Cp>所以現在的趨勢很合理。先把穩定知識整理好，再把即時變化留給檢索。這樣做比較像資料平台思維，也比較像台灣工程團隊熟悉的做法。先把底層整理乾淨，後面才不會一直補洞。\u003C\u002Fp>\u003Cp>另一個背景是上下文窗口雖然變大，但不是萬能。上下文越大，不代表你就該把所有東西都塞進去。很多時候，整理得好比塞得多更重要。這點做過系統的人都懂。\u003C\u002Fp>\u003Ch2>接下來該怎麼做\u003C\u002Fh2>\u003Cp>如果你現在在做 agent，我會先看一件事：哪些知識其實很少變。像政策、產品規格、內部 SOP、客服話術，這些東西通常很適合先編譯。不要每次都讓模型重讀一次。\u003C\u002Fp>\u003Cp>第二步是把 workflow 拆開。哪些步驟是查資料，哪些步驟是推理，哪些步驟只是格式整理。只要你把這三種事分清楚，就比較知道哪一段該放到離線處理。\u003C\u002Fp>\u003Cp>最後，別再把 RAG 當萬用解法。它很方便，但不是所有知識問題都該靠即時檢索。真正該問的是：這份知識，現在要不要每次都重新算一次？\u003C\u002Fp>\u003Cp>我的判斷很直接。接下來一年，做得好的 agent 團隊，會越來越少把 runtime 當資料整理場。誰能先把知識層整理好，誰就比較不會被 token 成本和上下文混亂拖死。\u003C\u002Fp>","Agentic AI 正從 RAG 轉向預先編譯的知識層，重點是減少推理時重複讀資料、降 token 成本，讓多步驟代理更好控。","venturebeat.com","https:\u002F\u002Fventurebeat.com\u002Fdata\u002Fthe-rag-era-is-ending-for-agentic-ai-a-new-compilation-stage-knowledge-layer-is-what-comes-next",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778055061154-hqfw.png",[13,14,15,16,17,18,19],"Agentic AI","RAG","knowledge layer","LLM","token 成本","上下文管理","預編譯知識層","zh",0,false,"2026-05-06T08:10:37.387055+00:00","2026-05-06T08:10:37.132+00:00","done","51be7c1e-20e7-423b-aa73-2da1604cb4d3","agentic-ai-moving-past-rag-knowledge-layer-zh","ai-agent","6aa43607-89c8-41b7-badf-f603772f5162","published","2026-05-06T09:00:20.155+00:00",[33,34,35],"RAG 在單次問答很好用，但多步驟 agent 會放大重複檢索成本。","預編譯知識層把整理工作前移，能減少推理時 token 浪費。","最實際的做法是混搭：穩定知識先編譯，變動資料再即時檢索。",[37,39,41,43,45],{"name":14,"slug":38},"rag",{"name":17,"slug":40},"token-成本",{"name":16,"slug":42},"llm",{"name":15,"slug":44},"knowledge-layer",{"name":46,"slug":47},"agentic AI","agentic-ai",{"id":29,"slug":49,"title":50,"language":51},"agentic-ai-moving-past-rag-knowledge-layer-en","Why agentic AI is moving past RAG","en",[53,59,65,71,77,83],{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":28},"38406a12-f833-4c69-ae22-99c31f03dd52","switch-ai-outputs-markdown-to-html-zh","怎麼把 AI 輸出改成 HTML","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778743243861-8901.png","2026-05-14T07:20:21.545364+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":28},"c7c69fe4-97e3-4edf-a9d6-a79d0c4495b4","anthropic-cat-wu-proactive-ai-assistants-zh","Cat Wu 談 Claude 的主動式 AI","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778735455993-gnw7.png","2026-05-14T05:10:30.453046+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":28},"e1d6acda-fa49-4514-aa75-709504be9f93","how-to-run-hermes-agent-on-discord-zh","如何在 Discord 執行 Hermes Agent","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778724655796-cjul.png","2026-05-14T02:10:34.362605+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":28},"4104fa5f-d95f-45c5-9032-99416cf0365c","why-ragflow-is-the-right-open-source-rag-engine-to-self-host-zh","為什麼 RAGFlow 是最適合自架的開源 RAG 引擎","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778674262278-1630.png","2026-05-13T12:10:23.762632+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":28},"7095f05c-34f5-469f-a044-2525d2010ce9","how-to-add-temporal-rag-in-production-zh","如何在正式環境加入 Temporal RAG","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778667053844-osvs.png","2026-05-13T10:10:30.930982+00:00",{"id":84,"slug":85,"title":86,"cover_image":87,"image_url":87,"created_at":88,"category":28},"10479c95-53c6-4723-9aaa-2fde5fb19ee7","github-agentic-workflows-ai-github-actions-zh","GitHub 把 AI 代理放進 Actions","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778551884342-8io7.png","2026-05-12T02:11:02.069769+00:00",[90,95,100,105,110,115,120,125,130,135],{"id":91,"slug":92,"title":93,"created_at":94},"4ae1e197-1d3d-4233-8733-eafe9cb6438b","claude-now-uses-your-pc-to-finish-tasks-zh","Claude 開始幫你操作電腦","2026-03-26T07:20:48.457387+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"5bede67f-e21c-413d-9ab8-54a3c3d26227","googles-2026-ai-agent-report-decoded-zh","Google 2026 AI Agent 報告解讀","2026-03-26T11:15:22.651956+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"2987d097-563f-46c7-b76f-b558d8ef7c2b","kimi-k25-review-stronger-still-not-legend-zh","Kimi K2.5 評測：更強，但還不是神作","2026-03-27T07:15:55.277513+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"95c9053b-e3f4-4cb5-aace-5c54f4c9e044","claude-code-controls-mac-desktop-zh","Claude Code 也能操控 Mac 了","2026-03-28T03:01:58.58121+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"dc58e153-e3a8-4c06-9b96-1aa64eabbf5f","cloudflare-100x-faster-ai-agent-sandbox-zh","Cloudflare 的 AI 沙箱跑超快","2026-03-28T03:09:44.142236+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"1c8afc56-253f-47a2-979f-1065ff072f2a","openai-backs-isara-agent-swarm-bet-zh","OpenAI 挺 Isara 的 agent swarm …","2026-03-28T03:15:27.513155+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"7379b422-576e-45df-ad5a-d57a0d9dd467","openai-plan-automated-ai-researcher-zh","OpenAI 想做自動化 AI 研究員","2026-03-28T03:17:42.090548+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"48c9889e-86df-450b-a356-e4a4b7c83c5b","harness-engineering-ai-agent-reliability-2026-zh","駕馭工程：從「馬具」到「作業系統」，AI Agent 可靠性的終極密碼","2026-03-31T06:42:53.556721+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"e41546b8-ba9e-455f-9159-88d4614ad711","openai-codex-plugin-claude-code-zh","OpenAI 把 Codex 放進 Claude Code","2026-04-01T09:21:54.687617+00:00",{"id":136,"slug":137,"title":138,"created_at":139},"96d8e8c8-1edd-475d-9145-b1e7a1b02b65","mcp-explained-from-prompts-to-production-zh","MCP 怎麼把提示詞變工作流","2026-04-01T09:24:39.321274+00:00"]