分類

技術研究

AI 研究論文、突破性進展與技術深度分析。從學術發表到影響 AI 未來的實驗室研究成果。

LLMbda 演算替 AI 代理人立安全規則

LLMbda 演算替 AI 代理人立安全規則

這篇論文用形式化演算描述 LLM 代理人的對話與資訊流，目標是把隔離、保密與完整性變成可證明的安全規則。

更簡單的毫米波波束域去噪器

更簡單的毫米波波束域去噪器

這篇論文提出一個低複雜度的毫米波 massive MIMO 波束域去噪方法，結合低解析度 ADC 雜訊模型與硬體友善設計，目標是讓演算法更適合 FPGA 落地。

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒

AI 資安基準的進展已顯示自主攻擊能力正在追上防守方的規劃速度，這不是實驗室新聞，而是防線時間被壓縮的警訊。

為什麼 Linux 安全需要「補丁浪潮」思維

為什麼 Linux 安全需要「補丁浪潮」思維

Linux 安全已進入補丁浪潮時代，團隊必須把快速修補當成預設，而不是例外。

LLM 評審也會不穩

LLM 評審也會不穩

這篇論文做了一個壓力測試工具，檢查 LLM 當評審時，會不會因為格式、改寫、篇幅或標籤翻轉而判斷不一致。

黑箱 LLM 排程更聰明了

黑箱 LLM 排程更聰明了

這篇論文用「預測輸出長度」來改善黑箱 LLM 推論排程，想在看不到模型內部的情況下，減少排隊摩擦、提升大規模服務效率。

AISafetyBenchExplorer：AI 安全基準地圖

AISafetyBenchExplorer：AI 安全基準地圖

AISafetyBenchExplorer 把 195 個 AI 安全 benchmark 做成可查的目錄，重點不是比誰分數高，而是揭露測量碎片化與治理薄弱的問題。

Ollama 漏洞可遠端洩漏記憶體

Ollama 漏洞可遠端洩漏記憶體

Ollama 出現 CVE-2026-7482，遠端攻擊者可透過惡意 GGUF 檔讀出程序記憶體，可能外洩金鑰、提示詞與使用者資料。

為什麼程式碼基準測試終於開始說實話

為什麼程式碼基準測試終於開始說實話

BenchLM 的程式碼排行榜顯示，真正有用的訊號只剩 LiveCodeBench 與 SWE-bench Pro；HumanEval 已經不適合拿來選模型。

Pion 用正交變換鎖住權重譜

Pion 用正交變換鎖住權重譜

Pion 是一種新的 LLM 優化器，改用左右正交變換更新權重，盡量保留奇異值不變。這篇論文主打的是訓練時維持矩陣譜結構，而不是只追求一般的加法式梯度更新。

LongMemEval-V2：測 agent 長期記憶

LongMemEval-V2：測 agent 長期記憶

LongMemEval-V2 用 451 題測試 agent 能否記住 Web 環境經驗，而不只是使用者歷史；結果顯示以 coding agent 蒐證的記憶法準確率最高，但延遲也更高。

AlphaGRPO 讓多模態模型學會自我修正

AlphaGRPO 讓多模態模型學會自我修正

AlphaGRPO 把可驗證、可拆解的獎勵訊號加進多模態模型訓練，讓模型能推理、修正輸出，並在不靠 cold-start 的情況下提升生成表現。

為什麼 LLM agents 正在變成真正的漏洞獵手

為什麼 LLM agents 正在變成真正的漏洞獵手

LLM agents 已經不只是寫程式工具，它們開始能在真實系統中找出有價值的漏洞，而且這件事正在改變資安研究的分工方式。

為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM

為什麼 GPT-5.5 應該成為 2026 年的預設寫碼 LLM

GPT-5.5 應該成為 2026 年的預設寫碼 LLM，因為它在公開基準的綜合表現領先，最適合作為團隊的能力上限。

自動化 LLM Agent 的記憶怎麼設計

自動化 LLM Agent 的記憶怎麼設計

這篇綜述整理自主 LLM agent 的記憶怎麼設計、怎麼評估、怎麼用，重點放在機制選擇與仍未解決的問題。

政策不變性檢驗 LLM 安全判官

政策不變性檢驗 LLM 安全判官

這篇論文主張，LLM 安全判官不能只看準確率，還要測政策不變性，才能檢查它是否真的懂規則、而不是被措辭帶著走。

SAGA 讓 AI Agent 排程看懂工作流

SAGA 讓 AI Agent 排程看懂工作流

SAGA 主張 GPU 排程不該把 AI agent 的每次 LLM 呼叫拆開看，而是要把一連串請求當成同一個工作流來排。

PARNESS：把自動化研究做成可續跑流程

PARNESS：把自動化研究做成可續跑流程

PARNESS 把自動化科學研究做成可變流程、全文索引與跨次執行記憶的 harness，重點是讓研究代理不再只跑一次就結束。

AI 代理能幫忙做 LLM 服務嗎

AI 代理能幫忙做 LLM 服務嗎

VibeServe 在問一個很實際的問題：AI 代理能不能幫忙打造客製化的 LLM serving 系統。可惜目前提供的摘要筆記沒有公開 benchmark 細節。

為什麼 Agentic RAG 比 Static RAG 更適合真實工作

為什麼 Agentic RAG 比 Static RAG 更適合真實工作

Agentic RAG 在複雜、多步驟查詢上明顯優於 static RAG，但代價是更高成本與更嚴格的控制需求。

CPR 讓 KGQA 更可控

CPR 讓 KGQA 更可控

CPR 把 conformal calibration 放到 KGQA 的推理路徑層級，目標是讓答案集合更小、覆蓋率更穩定，提升可部署性。

NTM 讓 4 步生成保留精確似然

NTM 讓 4 步生成保留精確似然

NTM 把少步生成改寫成精確似然的 flow 模型，主打四步就能產生不錯的文字生成影像結果，同時保留可訓練、可分析的機率式框架。

AutoTTS讓LLM自己找推理策略

AutoTTS讓LLM自己找推理策略

AutoTTS把 test-time scaling 變成環境搜尋問題，讓 LLM 在推理時自動找出更省算力的策略，而不是靠人手調 heuristics。

Microsoft GoalCover 找出微調缺口

Microsoft GoalCover 找出微調缺口

Microsoft Research 的 GoalCover 會在微調前找出資料缺口，並在 Qwen-3-14B 的金融摘要任務上提升 reward 分數。

BAMI 不重訓也能修 GUI 定位偏差

BAMI 不重訓也能修 GUI 定位偏差

BAMI 用推論階段的調整，降低 GUI grounding 在高解析與複雜介面中的精準度偏差與歧義偏差，主打不重訓也能提升定位準確率。

UniPool：共享 MoE 專家池

UniPool：共享 MoE 專家池

UniPool 把 MoE 的分層專家改成全域共享池，減少重複參數，並在五個 LLaMA 規模模型上改善驗證損失。

ActCam 讓鏡頭和動作一起控

ActCam 讓鏡頭和動作一起控

ActCam 用零樣本方式，同時控制影片生成中的角色動作與攝影機路徑，重點是不必重新訓練新模型。

為什麼 Solana 開發者招募不該再把技能當成靜態清單

為什麼 Solana 開發者招募不該再把技能當成靜態清單

Solana 開發者招募應把技能視為會移動的目標，而不是固定的檢查表。

Grok 幫忙找出五個不等式

Grok 幫忙找出五個不等式

這篇短篇數學筆記寫的是 Grok 參與發現五個新不等式，之後再由作者親自驗證；重點不在工具本身，而在 AI 輔助探索能不能幫研究者更快找到可證明的結果。

LLM 學到文法了嗎？

LLM 學到文法了嗎？

這篇研究用線性 probe 讀取語言模型隱藏層，發現模型對「文法正確性」有獨立於字串機率的訊號，但在語意合理性上仍不如 likelihood。

已到底部