[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-aisafetybenchexplorer-ai-safety-benchmarks-zh":3,"tags-aisafetybenchexplorer-ai-safety-benchmarks-zh":36,"related-lang-aisafetybenchexplorer-ai-safety-benchmarks-zh":46,"related-posts-aisafetybenchexplorer-ai-safety-benchmarks-zh":50,"series-research-0eb3d74f-c737-41a4-8b9b-fc30b2b3b0ac":87},{"id":4,"title":5,"content":6,"summary":7,"source":8,"source_url":9,"author":10,"image_url":11,"keywords":12,"language":18,"translated_content":10,"views":19,"is_premium":20,"created_at":21,"updated_at":21,"cover_image":11,"published_at":22,"rewrite_status":23,"rewrite_error":10,"rewritten_from_id":24,"slug":25,"category":26,"related_article_id":27,"status":28,"google_indexed_at":29,"x_posted_at":10,"tweet_text":10,"title_rewritten_at":10,"title_original":10,"key_takeaways":30,"topic_cluster_id":34,"embedding":35,"is_canonical_seed":20},"0eb3d74f-c737-41a4-8b9b-fc30b2b3b0ac","AISafetyBenchExplorer：AI 安全基準地圖","\u003Cp data-speakable=\"summary\">AISafetyBenchExplorer 把 195 個 AI 安全 benchmark 做成目錄，重點是看見測量碎片化與治理薄弱。\u003C\u002Fp>\u003Cp>\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.12875\">AISafetyBenchExplorer: A Metric-Aware Catalogue of AI Safety Benchmarks Reveals Fragmented Measurement and Weak Benchmark Governance\u003C\u002Fa> 不是一個新的安全模型，也不是一張模型排行榜。它做的是另一件更底層的事：把 AI 安全評測這個生態系，整理成一份結構化目錄，讓人看懂 benchmark 怎麼被定義、怎麼被衡量、又是怎麼被維護的。\u003C\u002Fp>\u003Cp>這件事聽起來像資料整理，但對做模型、做評測、做產品決策的人來說，影響其實很直接。因為很多安全判斷，最後都落在 benchmark 這一層。若 benchmark 的定義、指標、文件與治理方式彼此割裂，那分數就很難比較，研究結果也很難對齊。\u003C\u002Fp>\u003Cp>這篇摘要沒有公開完整 benchmark 細節，所以它不是在給你一個新的安全分數，也不是在宣告某個模型更安全。它更像是在畫出一張地圖，先把地形看清楚，再談怎麼走。\u003C\u002Fp>\u003Ch2>這篇論文想解什麼痛點\u003C\u002Fh2>\u003Cp>作者要處理的第一個痛點，是 \u003Ca href=\"\u002Ftag\u002Fai-safety\">AI safety\u003C\u002Fa> benchmarking 太碎。這個領域不是靠單一共同框架在運作，而是多年累積出很多不同 benchmark。每個 benchmark 都可能有自己的假設、自己的 metric 選擇、自己的文件品質。結果就是，大家都在談安全，但不一定在量同一件事。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778739657024-fgxt.png\" alt=\"AISafetyBenchExplorer：AI 安全基準地圖\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>對工程實務來說，這會帶來很直接的困擾。你可能會想知道某個 benchmark 適不適合拿來評估某種安全風險，兩個 benchmark 是不是其實在測同一個安全屬性，或是某個報告裡的分數到底能不能跟另一篇論文的結果對照。當這些問題沒有一致答案，評測就會變得很難用。\u003C\u002Fp>\u003Cp>第二個痛點是治理。標題直接提到 weak benchmark governance，摘要也把這篇定位成一個能揭露治理問題的目錄。白話一點說，這篇不是只想列清單，而是想讓人看出：哪些 benchmark 的管理比較完整，哪些地方其實很鬆散，甚至根本沒有足夠的規範。\u003C\u002Fp>\u003Cp>這對開發者很重要，因為 benchmark 會影響模型選型、微調優先順序、安全稽核，甚至 release decision。如果底層量測本來就不穩，後面的決策也會跟著歪掉。\u003C\u002Fp>\u003Ch2>AISafetyBenchExplorer 怎麼做\u003C\u002Fh2>\u003Cp>這篇的核心產物叫 AISafetyBenchExplorer。根據摘要，它是一個結構化目錄，收錄 195 個 AI safety benchmarks，時間跨度從 2018 到 2026。這不是單純把名字列出來而已，而是用 multi-sheet schema 來整理資料。\u003C\u002Fp>\u003Cp>這個 schema 的重點在於 metric-aware。很多 benchmark 清單只會記錄名稱、年份、主題分類，最多再加上簡單描述；但這篇往前走了一步，把「怎麼衡量」也納進來。摘要提到它會記錄 benchmark-level metad\u003Ca href=\"\u002Fnews\u002Fanthropic-cat-wu-proactive-ai-assistants-zh\">at\u003C\u002Fa>a、metric-level definitions、benchmark-paper metadata，以及相關資訊。換句話說，它不是只知道這個 benchmark 叫什麼，而是盡量把它怎麼被定義、怎麼被量測、怎麼被寫進論文，一起結構化。\u003C\u002Fp>\u003Cp>這種設計的價值，在於它讓目錄不只是書目，而是可以拿來做比較分析的資料基礎。當資料欄位夠一致，你就能做篩選、分群、查缺補漏。例如，哪些 benchmark 的 metric 定義很清楚，哪些只有模糊描述，哪些領域重複造輪子，哪些安全議題反而缺少對應量測。\u003C\u002Fp>\u003Cp>從工程角度看，這類 schema 很像是評測基礎設施的骨架。它本身不一定會直接產生分數，但它會決定後面能不能可靠地查詢、比對、維護與更新。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要裡最明確的結果，就是這個目錄本身：195 個 AI 安全 benchmarks，涵蓋 2018 到 2026。除此之外，摘要沒有提供 benchmark \u003Ca href=\"\u002Fnews\u002Fhow-to-run-hermes-agent-on-discord-zh\">scor\u003C\u002Fa>e、模型排名或任何 performance 數字，所以這篇沒有公開完整 benchmark leaderboard，也沒有新的實驗性比較結果可直接解讀。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778739662988-fh4s.png\" alt=\"AISafetyBenchExplorer：AI 安全基準地圖\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>它真正要證明的，是一個描述性的判斷：AI safety benchmarking 的測量是碎片化的，而且 benchmark governance 很弱。這個結論不是來自某個模型跑贏誰，而是來自對整個 benchmark 生態系的結構化整理。作者透過 catalog 形式，把分散的資訊收攏起來，讓問題變得可見。\u003C\u002Fp>\u003Cp>也因為摘要很短，我們看不到更細的統計。例如，沒有公開每個安全類別各有多少 benchmark、哪些 metric 類型最常見、哪些治理缺口最嚴重，也沒有列出具體 benchmark 範例。這代表目前能確定的，是它的資料組織方式與主張方向；至於主張有多強、證據分布如何，還得看全文。\u003C\u002Fp>\u003Cp>簡單整理，這篇已經公開的事實可以濃縮成幾點：\u003C\u002Fp>\u003Cul>\u003Cli>收錄 195 個 AI safety benchmarks。\u003C\u002Fli>\u003Cli>時間範圍是 2018 到 2026。\u003C\u002Fli>\u003Cli>採用 multi-sheet schema。\u003C\u002Fli>\u003Cli>記錄 benchmark-level metadata 與 metric-level definitions。\u003C\u002Fli>\u003Cli>結論指向 fragmented measurement 與 weak benchmark governance。\u003C\u002Fli>\u003C\u002Ful>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做 AI 系統，安全評測通常不會只是一個學術名詞。它會進到產品流程，變成模型選擇、上線門檻、內部稽核、風險審查的一部分。這時候，一份像 AISafetyBenchExplorer 這樣的目錄，價值不在於它幫你打分，而在於它幫你判斷「這個分數能不能信」。\u003C\u002Fp>\u003Cp>例如，當團隊內不同人用不同 benchmark 來看同一個安全問題時，結構化目錄可以幫忙對齊名詞與範圍。你可以先確認是不是在評估同一種風險，再看 metric 定義是否相容，避免拿不同口徑的結果硬比。這對大型團隊特別有用，因為安全評測常常橫跨研究、平台、產品與法遵。\u003C\u002Fp>\u003Cp>這種資料結構也有工具化潛力。即使論文本身不是一個軟體系統，multi-sheet schema 這種設計很適合延伸成內部 benchmark registry、evaluation dashboard 或 \u003Ca href=\"\u002Fnews\u002Fwhy-claude-for-legal-will-reset-legal-tech-stack-zh\">aud\u003C\u002Fa>it trail。只要資料維護得好，它就能成為團隊共同的參考基準。\u003C\u002Fp>\u003Cp>但要注意，這篇的價值是「看清楚現況」，不是「自動解決現況」。它可以幫你辨識哪些 benchmark 可能比較成熟，哪些地方資訊不足，卻不能直接替你補齊治理問題。換句話說，它提供的是基礎建設思維，不是現成答案。\u003C\u002Fp>\u003Ch2>限制與還沒回答的問題\u003C\u002Fh2>\u003Cp>這篇最大的限制，是摘要只讓我們看到目錄與主張，看不到完整分析。作者說 benchmark ecosystem 有 fragmented measurement 與 weak governance，但摘要沒有交代判定標準，也沒有說這些問題在 195 個 benchmark 裡分布得多嚴重。\u003C\u002Fp>\u003Cp>我們也看不到 benchmark-level 的效能比較、inter-rater agreement，或是具體哪幾個 benchmark 被拿來當例子。這表示它不是一篇拿實驗數字來證明模型進步的論文，而是一篇用結構化資料去整理安全評測地景的工作。\u003C\u002Fp>\u003Cp>另一個還沒回答的問題，是這份 catalog 會不會持續更新。對 AI safety 這種快速變動的領域來說，目錄如果只是一次性的 snapshot，壽命會很有限。它的長期價值，取決於 schema 能不能維持一致、資料能不能持續補充、社群會不會真的拿來減少重複造輪子。\u003C\u002Fp>\u003Cp>所以，AISafetyBenchExplorer 最像的是一個安全評測基礎設施的地圖。它不炫目，但很實用。當大家都在談 AI 安全時，先把 benchmark 怎麼被量、怎麼被管、哪裡有漏洞看清楚，往往才是後面所有討論的起點。\u003C\u002Fp>","AISafetyBenchExplorer 把 195 個 AI 安全 benchmark 做成可查的目錄，重點不是比誰分數高，而是揭露測量碎片化與治理薄弱的問題。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.12875",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778739657024-fgxt.png",[13,14,15,16,17],"AI safety benchmarks","benchmark governance","metric-aware schema","evaluation infrastructure","catalogue","zh",0,false,"2026-05-14T06:20:28.07969+00:00","2026-05-14T06:20:28.058+00:00","done","5c837792-1148-4ede-a174-50d504292363","aisafetybenchexplorer-ai-safety-benchmarks-zh","research","6e6c4ade-4dae-48c3-9a94-a081e08ab931","published","2026-05-14T09:00:17.009+00:00",[31,32,33],"它不是新模型，而是整理 195 個 AI 安全 benchmark 的結構化目錄。","論文強調測量碎片化與 benchmark 治理薄弱，重點在看清現況。","對開發者來說，它更像評測基礎設施地圖，能幫助對齊與選用 benchmark。","0c35a120-52fc-41fc-afa3-d404eb934158","[-0.04322071,-0.0086809425,0.018135278,-0.0713726,-0.00948012,-0.018918661,-0.007986704,-0.0041665277,0.021622965,0.032470282,-0.0045718355,0.010850172,0.043031685,0.021895994,0.13542463,0.028005745,0.02436648,0.017872542,0.004011906,-0.022303596,0.028774766,0.008121056,-0.012685827,-0.03711976,-0.019011306,-0.0041653756,-0.01325468,0.0030663137,0.013869233,-0.0077304235,0.013887715,0.010373102,0.014035494,0.017606685,0.009745109,0.011986071,0.017766813,0.010567649,0.011461846,0.011360883,-0.004387019,0.005350357,0.009251579,-0.017634237,-0.027687142,0.014550401,0.016627822,-0.0034667419,-0.017188229,-0.008266321,0.00660393,0.03063225,-0.014899284,-0.16474198,-0.0065214452,0.005396871,0.0017534535,0.0024904623,0.017710777,0.008978605,-0.02659362,-0.0019456092,-0.026092162,-0.02134194,0.015645152,-0.014776831,0.0069477516,-0.001390906,-0.017011302,-0.0038405727,-0.039382532,-0.018062547,0.0005852784,-0.030236466,0.004926053,-0.0026588598,0.0068540275,-0.025676917,-0.011418991,0.020074923,-0.022140585,0.0062008766,0.01867692,-0.01867524,-0.0061069895,-0.004490892,0.007930587,0.0006036444,0.018718423,0.026819889,0.011242144,0.020554123,-0.018349683,-0.026499206,0.012870689,-0.0024030067,-0.006411503,0.003328943,-0.003028381,0.008586331,-0.008976823,-0.017454224,-0.003260634,-0.00039201992,0.016695429,0.004345022,0.013204374,-0.004112514,0.0026257043,0.01326354,0.015350358,-0.038851414,-0.010443782,-0.01860139,-0.01750666,-0.13769916,-0.030816594,0.009414947,0.011852537,0.0064580576,-0.017315833,-0.0010513474,0.002329718,0.046882544,-0.005324638,-0.030280452,0.012478542,-0.002038262,-0.024925368,0.002866149,-0.018157512,0.009182076,0.0145471385,-0.021155402,0.0014025702,0.018834334,0.007934991,-0.019969266,-0.007868266,-0.029843202,-0.011207196,0.029324984,-0.006422547,-0.008215969,-0.038990002,-0.009131903,-0.049205486,0.010197996,-0.0060836463,-0.0032284255,0.03768356,-0.029907925,-0.029357327,-0.0052738953,0.026448533,-0.022211809,0.020766003,0.011211583,0.0055380473,0.027567435,0.02327503,-0.017487194,-0.022629507,0.011969579,0.026880924,0.04229526,0.0110607175,0.006221026,0.009788855,0.03278998,0.005625283,-0.018659953,0.0025098412,-0.005631063,-0.0037446993,0.0117094,0.024977975,0.034825712,-0.00075338886,0.0036720007,0.035076007,0.008142974,0.004339208,0.025953827,-0.005249851,0.005962874,0.009049054,0.027276719,0.047075488,0.012878094,-0.025451912,-0.006006517,0.0054959212,-0.02812525,-0.015525681,-0.02127339,0.018712685,-0.009184286,0.008369262,0.038277324,9.2521215e-05,0.0063304924,0.03799766,-0.0092611145,-0.0015307108,-0.022485128,-0.012911108,-0.022392636,-0.0049831728,-0.007907698,-0.026607739,-0.0012320337,0.00843768,-0.010553815,0.0032618106,-0.031947993,-0.009936287,0.016858093,0.032806113,-0.019494593,0.006441461,-0.00030138405,-0.004707598,0.021091582,-0.031070065,-0.0009802508,0.011673924,-0.0078064315,-0.029872991,0.015025201,-0.00506036,0.028804297,0.0013715962,-0.03361811,0.022013012,0.0020819525,-0.0053972825,0.020672131,0.017707247,0.018205987,-0.04171919,-0.0073888,-0.01017725,0.014513273,0.024272418,-0.036312588,0.021164156,-0.008643852,-0.005659838,0.021156602,0.005619371,0.0071802554,0.0037740958,-0.0038228051,0.0037570584,-0.01148468,0.013096241,0.043363515,-0.015807979,-0.004687775,0.014150319,0.015560214,-0.0072718244,0.003787697,0.011525046,0.007101779,0.009855343,-0.015644126,0.0061911093,0.01928889,-0.018899081,0.019746441,0.0072951396,0.016907904,0.011771958,-0.015648419,-0.06002014,-0.0088905785,-0.009274017,-0.015941506,0.035124905,0.019656815,-0.002900701,0.015746253,0.014351473,0.0026604543,-0.035627764,0.0126902545,0.0048580067,-0.014352665,-0.0056501464,-0.009490754,-0.010983209,0.024123847,-0.008592507,-0.022959244,0.018870067,0.017010003,-0.010380722,-0.0045439797,0.0040175384,-0.011513034,0.02013114,0.06720582,-0.008033691,-0.0019404961,-0.0292954,0.00980613,0.025276445,-0.0074937036,-0.025207985,-0.0004305215,-0.0045510754,-0.022767846,-0.0078028683,-0.02525633,0.0046696323,-0.012769209,-0.00063937233,-0.041531276,0.0025119788,-0.014680265,-0.013161472,0.014256497,-0.028856723,-0.0022342915,0.0042610397,-0.00700395,0.01949354,-0.011011503,0.0025426762,0.022051444,0.025522223,-0.026741797,0.00665388,0.006191188,-0.0001275203,-0.022298226,-0.0040753293,-0.021383988,0.012547376,0.0048072184,-0.025975242,0.0264214,-0.0028156652,0.024971893,0.023053557,-0.008065986,-0.0077429307,-0.0011393116,0.051202785,0.01815475,2.9738805e-05,-0.017621074,-0.004711765,-0.0023176845,-0.014837673,-0.01519767,0.01830657,-0.0052271863,0.0036920446,-0.021830462,-0.0032653771,0.026418606,0.017287226,-0.040746663,0.0029422855,-0.00065565755,-0.001598513,-0.008985393,0.004352166,0.008544789,0.012093892,0.0059246123,-0.008245094,-0.0012703424,-0.022199538,-0.0037458765,-0.0030159918,-0.0038064236,0.0010272351,0.012486152,-0.011561813,-0.025485339,-0.014319876,-0.00077415886,0.012774911,0.024466895,0.007928313,0.00428507,0.0197362,0.012294566,0.005742768,0.006765731,0.00091042795,0.019169448,-0.0043985867,0.006739367,-0.017055564,0.012505073,-0.0065782177,-0.015676672,0.00076015113,-0.011601673,-0.0051118764,0.013339911,-0.014601227,0.030522967,0.0049356623,-0.006207969,-0.02233574,-0.00898711,0.017186234,-0.009312374,-0.00096129306,0.01951048,0.01972488,-0.0064015733,-0.0066727214,0.015547823,-0.0022264735,0.025818452,0.011723555,0.007474824,-0.016850531,0.0135848075,-0.0064504202,0.021421751,0.021857295,-0.028336229,-0.009013733,-0.008039562,-0.0017097099,-0.0114015555,-0.06544706,-0.00977301,-0.033110283,-0.006246812,-0.030290058,0.0029363085,-0.014629162,-0.007175792,0.021542815,-0.005535994,0.035658944,-0.025757095,-0.01275608,-0.0024723976,-0.03455233,-0.0038945493,0.0075484402,0.01683986,0.036679268,-0.010834826,-0.010525599,-0.03020043,-0.005180781,-0.005252758,0.004596133,-0.0128803,0.010448437,-0.04465093,-0.0058376133,0.028598705,0.001249656,0.007228634,0.0010670236,-0.029116888,-0.0061193635,0.0049321856,-0.021322433,0.0018508557,0.018493704,0.019115407,-0.012119351,0.01859334,0.00096881104,0.039327353,0.026452284,-0.015598466,0.0005073215,-0.007155367,-0.023083301,-0.0072578485,0.011844871,0.029439805,-0.0041362355,0.01685104,-0.011459893,0.0020253826,0.01385295,0.022298366,0.033662487,0.009379589,-0.02506399,-0.009206407,0.0058277193,-0.005020358,0.02656877,-0.019491944,-0.012752141,-0.02025729,0.029929932,0.024584055,-0.020914596,-0.015180693,0.021776676,-0.0027189367,0.0043629566,-0.02777632,-0.0076046293,-0.0085328845,0.028165525,0.024046909,-0.0062335376,0.0034215695,0.021587351,0.001681751,-0.013631612,-0.008929843,-0.023876023,-0.028956525,-0.0065974477,-0.003550568,-0.004813826,-0.02168753,0.016835988,-0.0026454579,0.01841763,0.026439097,-0.009367845,0.00863933,0.0023341281,-0.01218689,0.006410876,-0.008692823,0.018928448,0.017613038,0.009138402,0.012778139,-0.028039055,0.0055811154,-0.017733706,-0.008896686,0.038188312,-0.07586371,-0.0063223667,0.012831645,-0.016877387,-0.008481137,-0.013960298,-0.005130029,0.0020866187,0.031000096,0.014284747,0.018790767,0.016748076,0.0016314575,-0.00418392,8.779187e-05,-0.011927317,-0.014861021,-0.0015837111,-0.0023150218,-0.015950762,0.030165248,-0.023022138,0.016265756,0.0066309143,0.008900119,-0.002120698,0.004936459,-0.0025355774,-0.0019390577,0.00046905503,0.0028961233,0.0070669875,-0.015499825,0.00078989647,-2.1842035e-05,-0.0057911556,0.024083294,-0.029320624,0.019088525,0.0166264,-0.011235422,0.014983322,-0.04144605,-0.026023494,-0.007520846,-0.012540954,-0.025802938,0.0068579405,-0.000107611384,0.01815563,-0.028855879,-0.0027488698,-0.010344036,-0.027195547,-0.011484518,-0.020375228,-0.023629962,-0.01239988,-0.0012427153,-0.0045519606,-0.01473569,-0.0043341336,-0.020354694,0.017024545,-0.0303039,0.021775138,0.0023150535,0.012326464,0.019423073,0.019716717,-0.008613352,-0.011396272,0.006990954,0.014887905,-0.0068730246,0.011123758,0.005165544,0.0061694696,-0.014987503,-0.012328048,-0.04019943,-0.013352227,-0.094971105,-0.0118371155,-0.02560033,0.0025531496,0.0034098513,-0.03399051,0.0073370794,-0.04091557,0.0112348115,-0.012789077,0.018363923,0.014950432,0.010124279,-0.023443347,-0.017146714,-0.008090045,0.00087184063,0.0063234917,0.019253412,-0.006901544,-0.024964077,-0.019598315,-0.0039585875,-0.0021353068,-0.035866052,0.022779206,0.0004546337,-0.007163855,-0.0051234425,-0.002395434,-0.0072797206,-0.13120647,-0.020583112,-0.0127777625,0.019070754,0.0022254994,0.014240797,0.019436356,0.009589262,-0.0017724152,0.0096746655,-0.019820599,-0.009202849,-0.015947051,0.001516839,-0.011191159,0.10572931,-0.012092426,-0.02058476,-0.025332578,-0.033909857,-0.0071020965,-0.008798187,-0.010434882,-0.010840184,0.00069394906,0.0019493246,0.038029503,-0.01643566,-0.01020417,0.03639582,0.008666867,-0.020943975,-0.029436652,0.012113638,0.006210387,-0.004289846,-0.015450305,-0.02739722,0.010679241,-0.01187188,0.030602748,0.012808947,0.0323273,0.014396029,-0.027888548,-0.02773997,-0.003598516,0.0052028825,0.010613896,0.030134311,-0.0051479265,-0.04216291,0.007693311,-0.03165206,0.021041865,0.004008128,-0.017974252,-0.021858398,0.008519919,0.023463868,0.031981736,-0.014626253,-0.0029937525,0.014818046,-0.028032653,-0.01599779,0.013683112,0.0095445085,0.013975019,-0.0011505956,-0.021315342,0.007893343,-0.008391616,0.0055753468,-0.019810919,-0.028981416,-0.0041528447,0.006229688,0.009428514,-0.012365246,0.015578471,0.0011482753,0.016751166,0.003950047,0.028588772,0.020775396,0.018450528,-0.0150329145,-0.023283279,-0.03312498,0.013427408,0.051600844,-0.015798634,-0.0019529449,0.02149627,0.009720809,-0.0016272913,0.013530503,0.014595603,0.011668499,-0.015554714,-0.011881954,0.023908814,-0.0012262117,0.017773429,0.015531871,0.029757766,0.026843373,0.0064523583,0.012388885]",[37,39,40,42,44],{"name":14,"slug":38},"benchmark-governance",{"name":17,"slug":17},{"name":15,"slug":41},"metric-aware-schema",{"name":13,"slug":43},"ai-safety-benchmarks",{"name":16,"slug":45},"evaluation-infrastructure",{"id":27,"slug":47,"title":48,"language":49},"aisafetybenchexplorer-ai-safety-benchmarks-en","AISafetyBenchExplorer maps AI safety benchmarks","en",[51,57,63,69,75,81],{"id":52,"slug":53,"title":54,"cover_image":55,"image_url":55,"created_at":56,"category":26},"667b72b6-e821-4d68-80a1-e03340bc85f1","turboquant-seo-shift-small-sites-zh","TurboQuant 與小站 SEO 變化","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778840440690-kcw9.png","2026-05-15T10:20:27.319472+00:00",{"id":58,"slug":59,"title":60,"cover_image":61,"image_url":61,"created_at":62,"category":26},"381fb6c6-6da7-4444-831f-8c5eed8d685c","turboquant-vllm-comparison-fp8-kv-cache-zh","TurboQuant 與 FP8 實測結果","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778839867551-4v9g.png","2026-05-15T10:10:36.034569+00:00",{"id":64,"slug":65,"title":66,"cover_image":67,"image_url":67,"created_at":68,"category":26},"c15f45ee-a548-4dbf-8152-91de159c1a11","llmbda-calculus-agent-safety-rules-zh","LLMbda 演算替 AI 代理人立安全規則","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778825503412-mlbf.png","2026-05-15T06:10:34.832664+00:00",{"id":70,"slug":71,"title":72,"cover_image":73,"image_url":73,"created_at":74,"category":26},"0c02225c-d6ff-44f8-bc92-884c8921c4a3","low-complexity-beamspace-denoiser-mmwave-mimo-zh","更簡單的毫米波波束域去噪器","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778814650361-xtc2.png","2026-05-15T03:10:30.06639+00:00",{"id":76,"slug":77,"title":78,"cover_image":79,"image_url":79,"created_at":80,"category":26},"9d27f967-62cc-433f-8cdb-9300937ade13","ai-benchmark-wins-cyber-scare-defenders-zh","為什麼 AI 基準賽在資安領域的勝利，應該讓防守方警醒","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778807450006-nofx.png","2026-05-15T01:10:29.379041+00:00",{"id":82,"slug":83,"title":84,"cover_image":85,"image_url":85,"created_at":86,"category":26},"bc402dc6-5da6-46fc-9d66-d09cb215f72b","why-linux-security-needs-patch-wave-mindset-zh","為什麼 Linux 安全需要「補丁浪潮」思維","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1778741449813-s2wn.png","2026-05-14T06:50:24.052583+00:00",[88,93,98,103,108,113,118,123,128,133],{"id":89,"slug":90,"title":91,"created_at":92},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":94,"slug":95,"title":96,"created_at":97},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":99,"slug":100,"title":101,"created_at":102},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":104,"slug":105,"title":106,"created_at":107},"9f50561b-aebd-46ba-94a8-363198aa7091","openclaw-agents-manipulated-self-sabotage-zh","OpenClaw Agent 會自己搞砸自己","2026-03-28T03:03:18.786425+00:00",{"id":109,"slug":110,"title":111,"created_at":112},"11f22e92-7066-4978-a544-31f5f2156ec6","vega-learning-to-drive-with-natural-language-instructions-zh","Vega：使用自然語言指示進行自駕車控制","2026-03-28T14:54:04.847912+00:00",{"id":114,"slug":115,"title":116,"created_at":117},"a4c7cfec-8d0e-4fec-93cf-1b9699a530b8","drive-my-way-en-zh","Drive My Way：個性化自駕車風格的實現","2026-03-28T14:54:26.207495+00:00",{"id":119,"slug":120,"title":121,"created_at":122},"dec02f89-fd39-41ba-8e4d-11ede93a536d","training-knowledge-bases-with-writeback-rag-zh","用 WriteBack-RAG 強化知識庫提升檢索效能","2026-03-28T14:54:45.775606+00:00",{"id":124,"slug":125,"title":126,"created_at":127},"3886be5c-a137-40cc-b9e2-0bf18430c002","packforcing-efficient-long-video-generation-method-zh","PackForcing：短影片訓練也能生成長影片","2026-03-28T14:55:02.688141+00:00",{"id":129,"slug":130,"title":131,"created_at":132},"72b90667-d930-4cc9-8ced-aaa0f8968d44","pixelsmile-toward-fine-grained-facial-expression-editing-zh","PixelSmile：提升精細臉部表情編輯的新方法","2026-03-28T14:55:20.678181+00:00",{"id":134,"slug":135,"title":136,"created_at":137},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00"]