[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-locus-local-ordinance-corpus-us-zh":3,"article-related-locus-local-ordinance-corpus-us-zh":30,"series-research-ba82ac15-7751-4d2c-82b0-3cbbf76b8a09":73},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"ba82ac15-7751-4d2c-82b0-3cbbf76b8a09","locus-local-ordinance-corpus-us-zh","LOCUS把美國地方法規變機器可讀","\u003Cp data-speakable=\"summary\">LOCUS 建出美國地方法規語料庫，把分散的市郡條例整理成可供法律 AI 搜尋與分析的資料層。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：涵蓋 9,239 個城市與郡\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：OCR 語料加郡級整合層\u003C\u002Fli>\u003C\u002Ful>\u003Cp>法律 AI 常卡在一個很現實的問題：它看得到的法，不一定是實際上管得到你的法。聯邦法、州法比較容易被整理成可搜尋文本，但真正影響日常營運、土地\u003Ca href=\"\u002Fnews\u002Fturing-rl-user-simulator-rewards-zh\">使用\u003C\u002Fa>、噪音、動物管制、營業許可與公共衛生的，常常是市郡層級的地方法規。這篇論文要補的，就是這一層。\u003C\u002Fp>\u003Cp>LOCUS 的核心想法很直接：把分散在不同平台、不同格式、不同地區的 local ordinances 整理成機器可讀的語料庫，讓研究者和模型開發者可以真正做 bulk analysis，而不是只能一條一條人工翻。\u003C\u002Fp>\u003Ch2>這篇論文在解什麼痛點\u003C\u002Fh2>\u003Cp>摘要指出，現有法律語料庫大多忽略了地方法規這一層。原因不是這些法不存在，而是它們太碎、太分散，而且通常放在給人類瀏覽用的平台上，不是給資料擷取和 NLP 管線用的。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781764380299-ajfw.png\" alt=\"LOCUS把美國地方法規變機器可讀\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>對開發者來說，這個痛點很熟悉。你可以把聯邦法做成檢索系統，但如果系統碰不到市郡條例，它在很多真實場景裡就會失真。像是開店、建築審查、分區限制、噪音規範，這些問題往往不是高層級法條能完整回答的。\u003C\u002Fp>\u003Cp>LOCUS 想做的，不只是收集文件，而是把原本 operationally inaccessible 的資料，\u003Ca href=\"\u002Fnews\u002F90-minute-takedown-turns-ai-ops-into-crisis-zh\">變成\u003C\u002Fa>能被索引、訓練、比較和分析的資源。這也是它被定位成 corpus 加 access layer 的原因。\u003C\u002Fp>\u003Ch2>LOCUS 怎麼做\u003C\u002Fh2>\u003Cp>這篇工作的第一步是收集。摘要說，原始語料幾乎涵蓋所有公開可取得的 municipal 與 county ordinance codes。這代表它不是只挑幾個城市做樣本，而是想把美國地方規範的主要面貌先抓出來。\u003C\u002Fp>\u003Cp>第二步是 OCR。這點很關鍵，因為地方法規的來源格式本來就很亂。不是每份法規都長得像乾淨的 \u003Ca href=\"\u002Ftag\u002Fapi\">API\u003C\u002Fa> 回傳 JSON，很多是文件型資料，甚至需要先從掃描或排版混亂的內容裡把文字抽出來。論文把 OCR 放進流程，等於承認這個問題不是純檢索，而是資料基礎建設。\u003C\u002Fp>\u003Cp>第三步是 county-harmonized access layer。摘要說這個層級覆蓋美國 3,144 個郡中的前 2,309 個，而且作者特別指出這部分涵蓋了多數人口。白話講，就是它不只想把資料堆大，還想把最有代表性的郡級結構先標準化，方便後續分析。\u003C\u002Fp>\u003Cp>另外，作者也釋出 coverage metadata。這對法律資料很重要，因為你如果不知道哪些地區有收、哪些沒收，後面做模型訓練或統計分析時，很容易把缺漏誤當成現象。\u003C\u002Fp>\u003Ch2>這篇論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要有給出幾個很明確的規模數字。LOCUS 的原始語料涵蓋 9,239 個城市與郡；郡級整合層則覆蓋 3,144 個美國郡中的 2,309 個。這些數字至少證明一件事：它不是概念展示，而是有實際規模的資料釋出。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781764374387-xcjc.png\" alt=\"LOCUS把美國地方法規變機器可讀\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>不過，摘要沒有公開完整 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa> 細節。它沒有列出 retrieval、classification、legal QA 或其他下游任務的準確率，也沒有提供和既有方法的直接對照分數。所以如果你期待的是模型性能表現，這份 abstract 其實沒有把那一塊講完。\u003C\u002Fp>\u003Cp>摘要另外提到，作者訓練了一組基於 ModernBERT 的 classifiers 和 scorers，用來分析 local law 的 opacity 與 paternalism。這裡的重點不是單一模型有多強，而是語料庫一旦存在，研究就能從「有沒有資料」往「資料能量化什麼」前進。\u003C\u002Fp>\u003Cp>但就摘要來看，這些分析工具比較像是初步的研究層，而不是整篇最終要證明的核心結論。真正最有力的成果，仍然是資料本身與它的整理方式。\u003C\u002Fp>\u003Ch2>對法律 AI 與開發者的意義\u003C\u002Fh2>\u003Cp>如果你在做法律搜尋、合規工具、civic tech，或是政策分析系統，LOCUS 這種資料集的價值很直接：它補上了很多系統原本看不到的法源層級。\u003C\u002Fp>\u003Cp>很多實務問題其實都落在地方規範。你查得到州法，不代表你知道某個城市能不能開某種店；你能做條文檢索，不代表你能快速比較不同郡的規範差異。LOCUS 提供的是一個讓這些工作變得可做的基礎。\u003C\u002Fp>\u003Cp>對工程實作來說，county-harmonized layer 特別有用。因為法律資料最麻煩的地方之一，就是 jurisdiction 結構不一致。當你要做跨地區比較、檢索排序或分類模型時，標準化的郡級入口可以大幅降低前處理成本。\u003C\u002Fp>\u003Cp>換句話說，這篇論文的價值不只在「資料很多」，而在「資料終於比較像資料」。這對任何要把 \u003Ca href=\"\u002Ftag\u002Fllm\">LLM\u003C\u002Fa> 或傳統 NLP 套進法律場景的人，都很重要。\u003C\u002Fp>\u003Ch2>這篇沒有解決的地方\u003C\u002Fh2>\u003Cp>摘要也很誠實：LOCUS 是資料集與 access layer，不是宣告地方立法資料問題已經完全解決。郡級整合層雖然覆蓋面很大，但不是全覆蓋；原始語料雖然廣，但摘要沒有保證每份法規都已經結構化到同一個程度。\u003C\u002Fp>\u003Cp>OCR 也帶來風險。論文只說它用來處理多樣化文件格式，但沒有在摘要裡交代錯誤率、驗證流程，或手動校正的比例。對法律應用來說，這些細節很重要，因為一個抽錯字，\u003Ca href=\"\u002Fnews\u002Fgpt-56-fix-and-upgrade-release-zh\">可能\u003C\u002Fa>就會改變法條意思。\u003C\u002Fp>\u003Cp>還有一個限制是下游評估資訊不足。摘要提到 ModernBERT-based 的分析器，但沒有公布任務指標，所以目前比較適合把 LOCUS 當成研究基礎設施，而不是已經被完整驗證的 benchmark 套件。\u003C\u002Fp>\u003Ch2>給台灣開發者的實際啟發\u003C\u002Fh2>\u003Cp>這篇論文其實很像一個提醒：真正能讓 AI 進入專業領域的，不一定是更大的模型，而是更好的資料層。當資料本身分散、格式混亂、缺乏標準入口時，模型能力常常被資料瓶頸卡住。\u003C\u002Fp>\u003Cp>如果你在做 \u003Ca href=\"\u002Ftag\u002Frag\">RAG\u003C\u002Fa>、法遵檢索、政策比對，或任何需要 jurisdiction-aware 的系統，LOCUS 這種做法提供了一個很清楚的方向：先把資料收進來，再把資料層做平，最後才談模型。\u003C\u002Fp>\u003Cp>這也說明一件事。很多看起來很「AI」的問題，最後其實是資料工程問題。LOCUS 沒有把法律 AI 一次做完，但它把最難碰到、也最容易被忽略的那一層，先打開了。\u003C\u002Fp>\u003Ch2>總結\u003C\u002Fh2>\u003Cp>LOCUS 的貢獻很明確：它把美國市郡層級的地方法規整理成可供機器處理的語料庫，並加上一層郡級整合入口，讓法律 AI 終於有機會看見這些平常很難碰到的規範。\u003C\u002Fp>\u003Cp>摘要沒有提供完整 benchmark 數字，所以這篇不是在比模型誰贏誰輸，而是在證明一個更底層的命題：如果你要做真正實用的法律 AI，地方條例不能再是盲區。\u003C\u002Fp>\u003Cp>對研究者來說，這是新資料源。對工程團隊來說，這是新的基礎建設。對整個法律 AI 領域來說，這是把「看不見」變成「可運算」的一步。\u003C\u002Fp>","LOCUS 建出美國地方法規語料庫，把分散的市郡條例整理成可供法律 AI 搜尋與分析的資料層。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.19334",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781764380299-ajfw.png","research","zh","d7f11606-750d-42ea-87b8-23a761269509",[17,18,19,20,21],"legal AI","local ordinances","OCR","county harmonization","legal corpus",[23,24,25],"LOCUS 把美國市郡地方法規整理成可機器處理的語料庫。","摘要公開的規模數字是 9,239 個城市與郡，郡級層覆蓋 2,309 \u002F 3,144 郡。","這篇的重點是資料基礎建設，不是摘要中的模型 benchmark。",0,"2026-06-18T06:32:29.60696+00:00","2026-06-18T06:32:29.584+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":32,"relatedPosts":36},[],{"id":15,"slug":33,"title":34,"language":35},"locus-local-ordinance-corpus-us-en","LOCUS opens U.S. local law for legal AI","en",[37,43,49,55,61,67],{"id":38,"slug":39,"title":40,"cover_image":41,"image_url":41,"created_at":42,"category":13},"88f6d8ec-e98a-42c4-a54c-78b5a8d67a2a","turing-rl-user-simulator-rewards-zh","Turing-RL 讓模擬使用者更像真人","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781763487848-hcqd.png","2026-06-18T06:17:31.073525+00:00",{"id":44,"slug":45,"title":46,"cover_image":47,"image_url":47,"created_at":48,"category":13},"66aaa847-deb1-4cd3-a60f-f23f5e00868e","omniagent-active-perception-video-understanding-zh","OmniAgent讓長影片先想再看","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781762588958-zreo.png","2026-06-18T06:02:31.730245+00:00",{"id":50,"slug":51,"title":52,"cover_image":53,"image_url":53,"created_at":54,"category":13},"f0501097-0bec-43ec-b310-56fc442ab53c","arxiv-ai-papers-agents-memory-data-zh","ArXiv這批 AI 論文都在補三件事","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781685180920-w8wl.png","2026-06-17T08:32:36.427824+00:00",{"id":56,"slug":57,"title":58,"cover_image":59,"image_url":59,"created_at":60,"category":13},"a11f0446-10ed-4065-b079-fd59f9d7e6e1","reprorepo-github-issues-reproducibility-audits-zh","ReproRepo 用 GitHub issues 做可重現性稽核","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781678882881-amo7.png","2026-06-17T06:47:34.915676+00:00",{"id":62,"slug":63,"title":64,"cover_image":65,"image_url":65,"created_at":66,"category":13},"7cd85acd-4f96-43b7-a980-db5092ece240","variable-width-transformers-cut-wasted-capacity-zh","可變寬度 Transformer 省算力","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677978302-5pqn.png","2026-06-17T06:32:32.22399+00:00",{"id":68,"slug":69,"title":70,"cover_image":71,"image_url":71,"created_at":72,"category":13},"956f7918-ff9c-4c2d-b8a5-e12b4ad361f2","veritas-robot-policy-visual-verification-zh","VERITAS 讓機器人邊跑邊驗證","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781677082980-g8km.png","2026-06-17T06:17:37.525843+00:00",[74,79,84,89,94,99,104,109,114,119],{"id":75,"slug":76,"title":77,"created_at":78},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":80,"slug":81,"title":82,"created_at":83},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":85,"slug":86,"title":87,"created_at":88},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]