標籤
語言模型是生成式 AI 的核心,涵蓋預訓練、詞彙擴充、對齊與安全評估等議題。這裡會整理模型如何學習語意、處理新 token,以及在 jailbreak 與漏洞測試中暴露的風險。
2 篇文章
這篇研究用線性 probe 讀取語言模型隱藏層,發現模型對「文法正確性」有獨立於字串機率的訊號,但在語意合理性上仍不如 likelihood。
AVISE 是一個開源 AI 安全評估框架,主打模組化漏洞測試。論文用 25 個 jailbreak 測試案例與自動判定流程,驗證 9 個模型都能被攻破。