[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-duplicate-prompts-can-lift-accuracy-fast-zh":3,"tags-duplicate-prompts-can-lift-accuracy-fast-zh":32,"related-lang-duplicate-prompts-can-lift-accuracy-fast-zh":43,"related-posts-duplicate-prompts-can-lift-accuracy-fast-zh":47,"series-research-87335969-ee48-4021-bd27-6731750537ff":84},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":20,"translated_content":10,"views":21,"is_premium":22,"created_at":23,"updated_at":23,"cover_image":11,"published_at":24,"rewrite_status":25,"rewrite_error":10,"rewritten_from_id":26,"slug":27,"category":28,"related_article_id":29,"status":30,"google_indexed_at":31,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":10,"topic_cluster_id":10,"embedding":10,"is_canonical_seed":22},"87335969-ee48-4021-bd27-6731750537ff","重複提示詞，準確率真的會上升","\u003Cp>把提示詞複製一次，準確率真的可能上去。\u003Ca href=\"https:\u002F\u002Fresearch.google\u002F\" target=\"_blank\" rel=\"noopener\">Google Research\u003C\u002Fa> 的研究看了 7 個閉源模型，搭配 70 組模型與基準測試配對。結果有 47 組變好，NameIndex 甚至從 21.33% 飆到 97.33%。\u003C\u002Fp>\u003Cp>講白了，這招很便宜。你不用改權重，也不用重訓模型。可問題也很現實。它不是萬用解，效果很吃任務類型、提示詞格式，還有模型是在做記憶，還是在做推理。\u003C\u002Fp>\u003Ch2>研究到底測了什麼\u003C\u002Fh2>\u003Cp>這篇研究不是在玩感覺分數。它直接看正確率。研究團隊把每個 prompt 原封不動複製一次，再去測常見基準。像 ARC \u003Ca href=\"\u002Fnews\u002Fchainalysis-agents-crypto-investigations-compliance-zh\">Cha\u003C\u002Fa>llenge、OpenBookQA、GSM8K、MMLU-Pro，還有 MATH，都有被拿來比。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775122500397-vvmh.png\" alt=\"重複提示詞，準確率真的會上升\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這點很重要。很多 AI 報告愛講「看起來比較好」。但產品團隊最在意的是對或錯。只要是客服分流、資料擷取、欄位分類，正確率就是硬指標，不是裝飾品。\u003C\u002Fp>\u003Cp>這次結果裡，有幾個數字很刺眼。不是因為它多炫，而是因為它夠實際，實際到你會想立刻開 A\u002FB test。\u003C\u002Fp>\u003Cul>\u003Cli>70 組配對裡，有 47 組變好。\u003C\u002Fli>\u003Cli>贏的案例裡，沒有顯著退步。\u003C\u002Fli>\u003Cli>\u003Ca href=\"https:\u002F\u002Fdeepmind.google\u002Ftechnologies\u002Fgemini\u002Fflash\u002F\" target=\"_blank\" rel=\"noopener\">Gemini Flash-Lite\u003C\u002Fa> 在 NameIndex 從 21.33% 到 97.33%。\u003C\u002Fli>\u003Cli>多數情況下，延遲幾乎沒變。\u003C\u002Fli>\u003Cli>三次重複有時也會變好，但常常更慢。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>研究還做了 padd\u003Ca href=\"\u002Fnews\u002Fchainalysis-ai-agents-crypto-compliance-zh\">in\u003C\u002Fa>g 檢查。意思是，他們想確認不是單純因為 token 變多，模型就比較會答。這個細節蠻關鍵。因為它把焦點拉回模型怎麼讀上下文，而不是字數灌水。\u003C\u002Fp>\u003Cp>如果你平常也在做 prompt 測試，這種研究很像提醒你一件事。先別急著怪模型爛。先看你的測法有沒有問題。很多時候，問題出在 prompt，不出在模型。\u003C\u002Fp>\u003Ch2>為什麼重複一次會有效\u003C\u002Fh2>\u003Cp>原因沒有想像中玄。LLM 在 prefill 階段會順序處理 token。當 prompt 被再送一次，後半段內容就能參照更完整的 key-value cache。簡單說，模型像是又看了一次同樣資訊，但這次上下文更完整。\u003C\u002Fp>\u003Cp>這對某些任務很有幫助。像是資訊擷取、格式對齊、短答案分類，重複一次常常能把答案拉穩。因為這些任務吃的是回憶、比對、定位，不太吃長鏈推理。\u003C\u002Fp>\u003Cblockquote>“The model is a stochastic parrot.” — Emily M. Bender\u003C\u002Fblockquote>\u003Cp>這句話很多人聽到快爛掉了，但放在這裡還是很準。重複 prompt 不會讓模型突然變聰明。它只是改變模型怎麼看同一份輸入。說白了，就是把同一個 cue 再丟一次，讓模型有第二次對焦機會。\u003C\u002Fp>\u003Cp>這也解釋了，為什麼有些任務效果很大，有些卻幾乎沒差。模型不是在「理解更多」。它比較像在「重新對齊注意力」。如果任務本來就靠記憶，這招就容易中。\u003C\u002Fp>\u003Cp>但如果任務要一步一步推理，效果通常就縮水。因為重複資訊，不等於幫模型想得更好。你只是讓它更常看到同一段字，不是幫它補腦。\u003C\u002Fp>\u003Ch2>哪些任務最吃這一套\u003C\u002Fh2>\u003Cp>研究裡，最明顯的提升集中在記憶型任務。像是 NameIndex 這種長上下文記錄，或是偏向直接回憶的測試，重複 prompt 的效果特別明顯。這種任務很像在考「有沒有看懂題目」，不是在考「會不會解題」。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775122504898-2zj6.png\" alt=\"重複提示詞，準確率真的會上升\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>模型家族也不是只有一家受益。研究提到 \u003Ca href=\"https:\u002F\u002Fopenai.com\u002F\" target=\"_blank\" rel=\"noopener\">OpenAI\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002F\" target=\"_blank\" rel=\"noopener\">Anthropic\u003C\u002Fa>、\u003Ca href=\"https:\u002F\u002Fdeepmind.google\u002F\" target=\"_blank\" rel=\"noopener\">Google DeepMind\u003C\u002Fa>，還有 \u003Ca href=\"https:\u002F\u002Fwww.deepseek.com\u002F\" target=\"_blank\" rel=\"noopener\">DeepSeek\u003C\u002Fa> 的模型，都有不同程度的改善。這代表問題比較像模型行為，而不是單一廠商的實作毛病。\u003C\u002Fp>\u003Cp>如果你想抓重點，可以直接看下面這幾個：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>記憶型任務\u003C\u002Fstrong>：最容易看到提升。\u003C\u002Fli>\u003Cli>\u003Cstrong>格式抽取\u003C\u002Fstrong>：常常比原版更穩。\u003C\u002Fli>\u003Cli>\u003Cstrong>短分類\u003C\u002Fstrong>：有機會變準。\u003C\u002Fli>\u003Cli>\u003Cstrong>多步推理\u003C\u002Fstrong>：效果常常變小。\u003C\u002Fli>\u003Cli>\u003Cstrong>長輸入場景\u003C\u002Fstrong>：要小心 token 成本。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>像 \u003Ca href=\"https:\u002F\u002Fplatform.openai.com\u002Fdocs\u002Fmodels\u002Fgpt-4o-mini\" target=\"_blank\" rel=\"noopener\">GPT-4o mini\u003C\u002Fa> 在 OpenBookQA 上，也有大約 12 個百分點的提升。\u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fclaude-3-haiku\" target=\"_blank\" rel=\"noopener\">Claude Haiku\u003C\u002Fa> 則是沒有明顯輸掉，還有不少平手案例。這種結果很像在說，重複 prompt 不是神技，但它確實能把一些邊角任務拉回來。\u003C\u002Fp>\u003Cp>我覺得這對產品團隊很有參考價值。因為很多 AI 功能，根本不是在做深度推理。它們只是做分類、萃取、排序、路由。這些地方，重複一次 prompt，可能比你花兩週調參更快見效。\u003C\u002Fp>\u003Ch2>和其他模型技巧比，這招算便宜嗎\u003C\u002Fh2>\u003Cp>如果拿來跟重訓、微調、RAG 比，重複 prompt 幾乎是最低成本的實驗。你不用碰資料管線，不用改 server，不用重新訓練。很多時候，只要改一行 prompt，就能先看結果。\u003C\u002Fp>\u003Cp>但便宜不等於沒代價。輸入 token 變多，費用就會上去。延遲也可能上升，尤其是長 prompt。你如果本來就把上下文塞到快滿，這招可能直接把成本打爆。\u003C\u002Fp>\u003Cp>下面這種比較，實務上很有感：\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>重複 prompt\u003C\u002Fstrong>：改動小，驗證快。\u003C\u002Fli>\u003Cli>\u003Cstrong>微調模型\u003C\u002Fstrong>：成本高，流程長。\u003C\u002Fli>\u003Cli>\u003Cstrong>RAG\u003C\u002Fstrong>：資料管線複雜，但可控性高。\u003C\u002Fli>\u003Cli>\u003Cstrong>規則引擎\u003C\u002Fstrong>：快，但維護常常很煩。\u003C\u002Fli>\u003Cli>\u003Cstrong>人工後審\u003C\u002Fstrong>：準，但吞吐量低。\u003C\u002Fli>\u003C\u002Ful>\u003Cp>所以這招比較像「先試再說」的工具。不是終局方案。你如果是在做客服工單分類，重複一次 prompt 也許就夠了。你如果是在做醫療摘要或財務推理，那就別太天真，還是得回到資料品質和驗證流程。\u003C\u002Fp>\u003Cp>另外，這篇研究也提醒一件事。模型表現不是單看平均值。你要看任務切得夠不夠細。很多時候，平均分數沒變，但某個子任務直接爆升。這才是產品團隊真正會在意的地方。\u003C\u002Fp>\u003Ch2>這件事背後的產業脈絡\u003C\u002Fh2>\u003Cp>現在很多 AI 團隊都卡在同一個問題。模型越來越貴，大家卻還是想要更高準確率。於是，prompt engineering 又回到檯面上。不是因為它高級，而是因為它便宜，而且馬上能試。\u003C\u002Fp>\u003Cp>這也反映出一個很現實的趨勢。很多企業不會一開始就去重訓模型。它們先做 prompt 調整，再做評測，再看要不要上 RAG，最後才考慮微調。這條路很務實。也很台灣。先求能用，再求漂亮。\u003C\u002Fp>\u003Cp>如果你看開源陣營，像 \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmeta-llama\" target=\"_blank\" rel=\"noopener\">Llama\u003C\u002Fa> 和 \u003Ca href=\"https:\u002F\u002Fmistral.ai\u002F\" target=\"_blank\" rel=\"noopener\">Mistral\u003C\u002Fa> 這類模型，社群也很愛測各種 prompt 技巧。原因很簡單。大家都想知道，模型到底是「真的懂」，還是只是「對格式很敏感」。\u003C\u002Fp>\u003Cp>我自己的看法是，這篇研究最大的價值，不是告訴你重複一次就會贏。它是在提醒大家，很多 AI 系統其實還很脆弱。你只要換一種表達方式，結果就會飄。這種脆弱性，才是工程上最該處理的地方。\u003C\u002Fp>\u003Ch2>接下來該怎麼做\u003C\u002Fh2>\u003Cp>如果你現在手上有一個 LLM 功能，我會建議你先挑一個低風險任務試試。像是分類、抽欄位、比對標籤。把 prompt 複製一次，和原版做 A\u002FB test。每組至少跑 1,\u003Ca href=\"\u002Fnews\u002Fqodo-raises-70m-to-verify-ai-written-code-zh\">000\u003C\u002Fa> 次，才比較看得出差異。\u003C\u002Fp>\u003Cp>接著，你要同時看三件事。準確率、延遲、token 成本。只看準確率很危險。因為你可能只是把錯誤換成更貴的錯誤。這種事在產品會議裡很常見，大家都愛看漂亮數字，卻沒人想看帳單。\u003C\u002Fp>\u003Cp>我會直接下這個判斷：如果你的任務偏回憶，重複 prompt 值得試。如果你的任務偏推理，先別急著套用。這不是玄學。是工程判斷。\u003C\u002Fp>\u003Cp>下一步很簡單。先把你手上的 prompt 分成兩類。哪一些在做資料擷取，哪一些在做推理。分完之後，你就知道這招該不該放進你的工具箱。","Google Research 研究發現，提示詞複製一次可讓 70 組模型與基準測試中的 47 組提升準確率，NameIndex 甚至從 21.33% 衝到 97.33%。","www.aicerts.ai","https:\u002F\u002Fwww.aicerts.ai\u002Fnews\u002Fprompt-engineering-duplicate-prompts-boost-accuracy\u002F",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1775122500397-vvmh.png",[13,14,15,16,17,18,19],"prompt engineering","LLM","Google Research","模型評測","人工智慧","準確率","資料擷取","zh",2,false,"2026-04-02T08:39:34.363421+00:00","2026-04-02T08:39:34.165+00:00","done","a6d3597e-83b8-425c-afc7-9fbe9900a400","duplicate-prompts-can-lift-accuracy-fast-zh","research","ea6494a5-5f7a-4896-8fe8-c26737159834","published","2026-04-08T09:00:53.583+00:00",[33,35,37,38,39,41,42],{"name":15,"slug":34},"google-research",{"name":13,"slug":36},"prompt-engineering",{"name":17,"slug":17},{"name":16,"slug":16},{"name":14,"slug":40},"llm",{"name":18,"slug":18},{"name":19,"slug":19},{"id":29,"slug":44,"title":45,"language":46},"duplicate-prompts-can-lift-accuracy-fast-en","Duplicate Prompts Can Lift Accuracy Fast","en",[48,54,60,66,72,78],{"id":49,"slug":50,"title":51,"cover_image":52,"image_url":52,"created_at":53,"category":28},"667b72b6-e821-4d68-80a1-e03340bc85f1","turboquant-seo-shift-small-sites-zh","TurboQuant 與小站 SEO 變化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778840440690-kcw9.png","2026-05-15T10:20:27.319472+00:00",{"id":55,"slug":56,"title":57,"cover_image":58,"image_url":58,"created_at":59,"category":28},"381fb6c6-6da7-4444-831f-8c5eed8d685c","turboquant-vllm-comparison-fp8-kv-cache-zh","TurboQuant 與 FP8 實測結果","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778839867551-4v9g.png","2026-05-15T10:10:36.034569+00:00",{"id":61,"slug":62,"title":63,"cover_image":64,"image_url":64,"created_at":65,"category":28},"c15f45ee-a548-4dbf-8152-91de159c1a11","llmbda-calculus-agent-safety-rules-zh","LLMbda 演算替 AI 代理人立安全規則","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778825503412-mlbf.png","2026-05-15T06:10:34.832664+00:00",{"id":67,"slug":68,"title":69,"cover_image":70,"image_url":70,"created_at":71,"category":28},"0c02225c-d6ff-44f8-bc92-884c8921c4a3","low-complexity-beamspace-denoiser-mmwave-mimo-zh","更簡單的毫米波波束域去噪器","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778814650361-xtc2.png","2026-05-15T03:10:30.06639+00:00",{"id":73,"slug":74,"title":75,"cover_image":76,"image_url":76,"created_at":77,"category":28},"9d27f967-62cc-433f-8cdb-9300937ade13","ai-benchmark-wins-cyber-scare-defenders-zh","為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778807450006-nofx.png","2026-05-15T01:10:29.379041+00:00",{"id":79,"slug":80,"title":81,"cover_image":82,"image_url":82,"created_at":83,"category":28},"bc402dc6-5da6-46fc-9d66-d09cb215f72b","why-linux-security-needs-patch-wave-mindset-zh","為什麼 Linux 安全需要「補丁浪潮」思維","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778741449813-s2wn.png","2026-05-14T06:50:24.052583+00:00",[85,90,95,100,105,110,115,120,125,130],{"id":86,"slug":87,"title":88,"created_at":89},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":91,"slug":92,"title":93,"created_at":94},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":96,"slug":97,"title":98,"created_at":99},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":101,"slug":102,"title":103,"created_at":104},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":106,"slug":107,"title":108,"created_at":109},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":111,"slug":112,"title":113,"created_at":114},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":116,"slug":117,"title":118,"created_at":119},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":121,"slug":122,"title":123,"created_at":124},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":126,"slug":127,"title":128,"created_at":129},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":131,"slug":132,"title":133,"created_at":134},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]