[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-what-large-language-models-are-how-they-work-zh":3,"article-related-what-large-language-models-are-how-they-work-zh":33,"series-research-d077afc5-6593-4e0f-afbf-b12229d083b6":86},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":25,"views":29,"created_at":30,"published_at":31,"topic_cluster_id":32},"d077afc5-6593-4e0f-afbf-b12229d083b6","what-large-language-models-are-how-they-work-zh","大型語言模型是什麼，怎麼運作","\u003Cp data-speakable=\"summary\">大型語言模型是用海量文字訓練的神經網路，靠預測下一個 \u003Ca href=\"\u002Ftag\u002Ftoken\">Token\u003C\u002Fa> 來產生、整理和理解語言。\u003C\u002Fp>\u003Cp>說真的，這東西已經不是玩具了。\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fgpt-4\u002F\" target=\"_blank\" rel=\"noopener\">GPT-4\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Fintroducing-gpt-4o\u002F\" target=\"_blank\" rel=\"noopener\">GPT-4o\u003C\u002Fa> 把一般人對聊天機器人的期待拉高很多。它們不只會聊天，還能摘要文件、翻譯、寫程式，甚至像軟體助理一樣工作。\u003C\u002Fp>\u003Cp>資料上也很直接。Transformer 架構在 2017 年出現。\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Fresearch\u002Fgpt-3\" target=\"_blank\" rel=\"noopener\">GPT-3\u003C\u002Fa> 在 2020 年讓大規模 prompting 變常態。\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Fblog\u002Fchatgpt\" target=\"_blank\" rel=\"noopener\">ChatGPT\u003C\u002Fa> 在 2022 年把 LLM 送進消費市場。這條線很清楚，模型不是只在論文裡跑，而是直接進產品。\u003C\u002Fp>\u003Ctable>\u003Cthead>\u003Ctr>\u003Cth>事件\u003C\u002Fth>\u003Cth>數字\u003C\u002Fth>\u003Cth>意義\u003C\u002Fth>\u003C\u002Ftr>\u003C\u002Fthead>\u003Ctbody>\u003Ctr>\u003Ctd>Transformer 論文\u003C\u002Ftd>\u003Ctd>2017\u003C\u002Ftd>\u003Ctd>成為主流 LLM 的核心架構\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>GPT-3\u003C\u002Ftd>\u003Ctd>2020\u003C\u002Ftd>\u003Ctd>讓大模型提示工程變成日常工作\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>ChatGPT\u003C\u002Ftd>\u003Ctd>2022\u003C\u002Ftd>\u003Ctd>把 LLM 變成大眾產品\u003C\u002Ftd>\u003C\u002Ftr>\u003Ctr>\u003Ctd>DeepSeek R1\u003C\u002Ftd>\u003Ctd>6710 億參數\u003C\u002Ftd>\u003Ctd>讓開源推理模型更受關注\u003C\u002Ftd>\u003C\u002Ftr>\u003C\u002Ftbody>\u003C\u002Ftable>\u003Ch2>從預測文字，變成可用工具\u003C\u002Fh2>\u003Cp>講白了，LLM 本質上是神經網路。它先吃進大量文字資料，再學會預測下一個 Token。這個任務看起來很小，但規模拉大後，模型就能寫段落、補句子、改寫內容，還能做翻譯和摘要。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779341172184-vgjc.png\" alt=\"大型語言模型是什麼，怎麼運作\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這也是很多人第一次用就會嚇到的原因。你以為它只是 autocomplete，結果它能接住一整段技術說明。當參數、訓練資料、算力都堆上去後，輸出就不再像簡單接龍，而像一個通用文字引擎。\u003C\u002Fp>\u003Cp>不過，能力高不等於可靠。訓練資料如果有偏誤、過時內容，或錯誤資訊，模型常常會原封不動吐出來。它講得很順，不代表它講得對。這點在客服、法務、醫療、財務場景都很致命。\u003C\u002Fp>\u003Cul>\u003Cli>它先學文字，再學指令。\u003C\u002Fli>\u003Cli>它用 Token、embedding、attention 來處理資料。\u003C\u002Fli>\u003Cli>它能生成、摘要、翻譯、分類文字。\u003C\u002Fli>\u003Cli>它也會 hallucinate，尤其碰到訓練外的事實。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>為什麼 Transformer 會贏\u003C\u002Fh2>\u003Cp>真正改變局面的，是 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F1706.03762\" target=\"_blank\" rel=\"noopener\">Attention Is All You Need\u003C\u002Fa>。這篇 2017 年的論文提出 Transformer。以前的語言模型多半靠 RNN 或傳統統計方法。前者難平行化，後者上限也低。\u003C\u002Fp>\u003Cp>Transformer 厲害在兩件事。第一，它很適合平行運算，訓練效率高很多。第二，它能處理長距離關聯。句子前面提到的人名，後面還記得住。程式碼區塊裡前後變數，也比較不容易亂掉。\u003C\u002Fp>\u003Cp>這就是為\u003Ca href=\"\u002Fnews\u002Fwhy-the-ai-doc-ai-threat-promise-zh\">什麼\u003C\u002Fa> 2024 年的大型模型，主流還是 Transformer。雖然研究圈一直在看 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.00752\" target=\"_blank\" rel=\"noopener\">state space models\u003C\u002Fa> 這類替代方案，但主戰場還是 Transformer。原因很現實，訓練穩、效果好、工具鏈成熟。\u003C\u002Fp>\u003Cblockquote>\u003Cp>“Attention Is All You Need”\u003C\u002Fp>\u003Cfooter>Vaswani et al., 2017\u003C\u002Ffooter>\u003C\u002Fblockquote>\u003Cp>這句其實很直白。模型不是像人一樣逐字閱讀。它是在算哪些字彼此相關，然後決定下一步要吐什麼。說穿了，就是一個很會抓上下文關係的數學機器。\u003C\u002Fp>\u003Ch2>Prompting 讓模型變得可控\u003C\u002Fh2>\u003Cp>LLM 會爆紅，還有一個原因。它們開始聽得懂指令了。你不用重新訓練模型，只要寫清楚\u003Ca href=\"\u002Fnews\u002Fprompt-engineering-vague-asks-usable-outputs-zh\">需求\u003C\u002Fa>，就能讓它改寫、整理、分類，甚至照格式輸出。這讓一般開發者也能玩得動。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779341171695-143j.png\" alt=\"大型語言模型是什麼，怎麼運作\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這件事後來變成 \u003Ca href=\"\u002Ftag\u002Fprompt-engineering\">prompt engineering\u003C\u002Fa>。你給它一個草稿，再叫它改成條列。你再叫它縮短成 100 字。你再叫它換成台灣口吻。這種互動很土炮，但很有效。再往下走，就接到 retrieval-augmented generation 和 tool use。\u003C\u002Fp>\u003Cp>2022 年的 chain-of-thought prompting 又把這件事往前推。它鼓勵模型先拆步驟，再給答案。\u003Ca href=\"https:\u002F\u002Fopenai.com\u002Findex\u002Flearning-to-reason-with-llms\u002F\" target=\"_blank\" rel=\"noopener\">OpenAI o1\u003C\u002Fa> 在 2024 年走了類似方向，先做較長的內部推理，再回傳結果。這不代表它變神了，只是它比較慢，也比較會想一步。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002F\" target=\"_blank\" rel=\"noopener\">Hugging Face\u003C\u002Fa> 讓開源模型更容易流通。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fai.meta.com\u002Fllama\u002F\" target=\"_blank\" rel=\"noopener\">LLaMA\u003C\u002Fa> 讓開源權重更受關注。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fmistral.ai\u002F\" target=\"_blank\" rel=\"noopener\">Mistral AI\u003C\u002Fa> 把高效率模型做得更有競爭力。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwww.deepseek.com\u002F\" target=\"_blank\" rel=\"noopener\">DeepSeek\u003C\u002Fa> 在 2025 年推出 R1，參數規模達 6710 億。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>對產品團隊來說，這裡的重點很現實。Prompt 不只是技巧。它已經是介面設計的一部分。你怎麼下指令，會直接影響產品體驗。\u003C\u002Fp>\u003Ch2>競品、成本與能力怎麼比\u003C\u002Fh2>\u003Cp>如果你只看聊天效果，很容易失焦。真正該看的是成本、速度、上下文長度、以及是否能接工具。不同模型各有強項。有人強在寫作，有人強在推理，有人強在便宜，有人強在可部署性。\u003C\u002Fp>\u003Cp>以公開市場來看，\u003Ca href=\"\u002Ftag\u002Fopenai\">OpenAI\u003C\u002Fa>、\u003Ca href=\"\u002Ftag\u002Fanthropic\">Anthropic\u003C\u002Fa>、\u003Ca href=\"\u002Ftag\u002Fgoogle\">Google\u003C\u002Fa>、Meta、Mistral、DeepSeek 都在搶同一批開發者。差別不是誰聲量最大，而是誰能把 API、價格、延遲、上下文窗做得順。對台灣團隊來說，這比行銷詞重要多了。\u003C\u002Fp>\u003Cp>你也會發現一個趨勢。模型越大，不一定越適合直接上線。很多產品其實用中型模型就夠，剩下的交給檢索、規則、快取和後處理。這樣成本更穩，也比較不會被 hallucination 拖下水。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa> 強在通用能力與產品化。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002F\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa> 常被拿來比安全與長文處理。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fdeepmind.google\u002Ftechnologies\u002Fgemini\u002F\" target=\"_blank\" rel=\"noopener\">Gemini\u003C\u002Fa> 主打多模態與 Google 生態整合。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fai.meta.com\u002F\" target=\"_blank\" rel=\"noopener\">Meta AI\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fmistral.ai\u002F\" target=\"_blank\" rel=\"noopener\">Mistral AI\u003C\u002Fa> 則讓開源與自架部署更有選擇。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>還有一個很實際的數字差異。\u003Ca href=\"https:\u002F\u002Fwww.deepseek.com\u002F\" target=\"_blank\" rel=\"noopener\">DeepSeek\u003C\u002Fa> 的 R1 走的是高參數推理路線。OpenAI 的 GPT-4o 則強調\u003Ca href=\"\u002Fnews\u002Fmumbai-news-live-big-stories-shaping-city-zh\">即時\u003C\u002Fa>互動。前者比較像重推理，後者比較像即時助理。產品要選哪個，得看場景，不是看誰名字比較響。\u003C\u002Fp>\u003Ch2>LLM 真的會出錯，而且錯得很像真的\u003C\u002Fh2>\u003Cp>這是最麻煩的地方。LLM 不是資料庫。它不是把答案存好再查出來。它是在生成看起來合理的文字。所以它很會編，也很會補洞。你問它一個它不確定的問題，它可能直接講得像專家。\u003C\u002Fp>\u003Cp>這種錯法很危險。因為語氣太穩了。使用者不容易看出哪裡有問題。對企業來說，這代表不能只看 demo。你要看錯誤率、拒答率、引用來源、和是否被 prompt injection 影響。\u003C\u002Fp>\u003Cp>所以現在比較成熟的系統，都不會只靠模型本身。它們會加搜尋、驗證、權限控管、以及 guardrails。模型負責草稿，其他系統負責查核。這才比較像能上線的軟體。\u003C\u002Fp>\u003Cp>另外，訓練和推理也很吃資源。模型越大，伺服器成本越高。這也是為什麼很多公司開始重視蒸餾、量化、快取，還有更小但更專用的模型。大家嘴上都在談 AI，最後還是回到帳單。\u003C\u002Fp>\u003Ch2>這波變化其實是軟體介面改寫\u003C\u002Fh2>\u003Cp>LLM 最有意思的地方，不是它會聊天。是它讓語言變成可程式化介面。以前你要學 API、欄位、格式。現在你可以直接用自然語言描述需求。這對搜尋、客服、知識庫、寫程式工具，影響都很大。\u003C\u002Fp>\u003Cp>這也解釋了為什麼很多產品開始加 AI 助理。不是因為大家都愛聊天，而是因為它能縮短操作路徑。你少點幾個按鈕，少找幾層選單，工作就快一點。當然，前提是模型不要亂掰。\u003C\u002Fp>\u003Cp>我覺得接下來最重要的，不是更會講故事的模型，而是更會收斂風險的系統。誰能把答案驗證、引用來源、權限、成本控制做好，誰就比較有機會把 LLM 變成真正可用的產品層。\u003C\u002Fp>\u003Cp>如果你現在要做一個 LLM 產品，我的建議很簡單。先選一個夠穩的模型，再把檢索、規則、日誌、人工覆核補齊。不要一開始就想靠模型單挑全世界。那通常只會先燒錢，再補 bug。\u003C\u002Fp>","大型語言模型把海量文字學成可預測 Token 的系統，能寫作、摘要、翻譯，也會胡說八道。","en.wikipedia.org","https:\u002F\u002Fen.wikipedia.org\u002Fwiki\u002FLarge_language_model",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1779341172184-vgjc.png","research","zh","4e2d39c9-e078-498b-90ca-988afae7b79f",[17,18,19,20,21,22,23,24],"大型語言模型","LLM","Transformer","GPT","Prompt Engineering","AI 產品","Token","API",[26,27,28],"LLM 的核心是預測下一個 Token，不是像資料庫一樣查答案。","Transformer 之所以主流，是因為它更適合平行訓練，也更能抓長距離上下文。","真正能上線的 LLM 產品，通常都要搭配檢索、驗證、權限與 guardrails。",5,"2026-05-21T05:25:42.974116+00:00","2026-05-21T05:25:42.94+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":34,"relatedLang":45,"relatedPosts":49},[35,37,40,41,43],{"name":36,"slug":36},"transformer",{"name":38,"slug":39},"prompt engineering","prompt-engineering",{"name":17,"slug":17},{"name":20,"slug":42},"gpt",{"name":18,"slug":44},"llm",{"id":15,"slug":46,"title":47,"language":48},"what-large-language-models-are-how-they-work-en","What large language models are, and how they work","en",[50,56,62,68,74,80],{"id":51,"slug":52,"title":53,"cover_image":54,"image_url":54,"created_at":55,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":57,"slug":58,"title":59,"cover_image":60,"image_url":60,"created_at":61,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":63,"slug":64,"title":65,"cover_image":66,"image_url":66,"created_at":67,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":69,"slug":70,"title":71,"cover_image":72,"image_url":72,"created_at":73,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":75,"slug":76,"title":77,"cover_image":78,"image_url":78,"created_at":79,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":81,"slug":82,"title":83,"cover_image":84,"image_url":84,"created_at":85,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[87,92,97,102,107,112,117,122,127,132],{"id":88,"slug":89,"title":90,"created_at":91},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":93,"slug":94,"title":95,"created_at":96},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":98,"slug":99,"title":100,"created_at":101},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":103,"slug":104,"title":105,"created_at":106},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":108,"slug":109,"title":110,"created_at":111},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":113,"slug":114,"title":115,"created_at":116},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":118,"slug":119,"title":120,"created_at":121},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":123,"slug":124,"title":125,"created_at":126},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":128,"slug":129,"title":130,"created_at":131},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":133,"slug":134,"title":135,"created_at":136},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]