標籤

AI安全

AI安全涵蓋模型失控、內容濾網、提示注入、資料外洩與實體威脅等面向，重點在於如何評估風險、降低誤判，並在產品上線前建立可驗證的防護與治理流程。

8 篇文章

把 AI 安全能力做成模板

我拆解周鸿祎 ISC 的 AI 安全思路，整理成一份能直接套进团队流程的能力模板。

我拆開 Codex 日誌寫爆 SSD 的根因、風險和可直接套用的限流修復模板，給你一份能抄進 PR 的版本。

SpaceX 的上市不該掩蓋 Grok 帶來的安全、法規與賠償風險，投資人必須把這些負債一起算進去。

AI 需要先被有效監管，再繼續加速，否則它會在可控性消失前超過人類的治理能力。

英國資助研究分析 18 萬份 AI 對話，發現 698 起可疑行為，6 個月內失控報告暴增 4.9 倍。

聯邦文件指稱，攻擊 Sam Altman 住家的嫌犯攜帶反 AI 文件，還點名多位 AI 高層與投資人。這起案件把 AI 爭議拉進實體安全層面。

Anthropic 與澳洲政府簽 AI 安全 MOU，並投入 AUD$300 萬研究支持、規劃雪梨辦公室，還要共享產業資料與安全評估結果。

OpenAI把數萬條有害文本交給人工標註，再訓練內容過濾器。這篇拆開它的流程、成本、誤殺率與產業脈絡。