[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"article-humanoid-gpt-zero-shot-motion-tracking-zh":3,"article-related-humanoid-gpt-zero-shot-motion-tracking-zh":30,"series-research-5c3cb90f-7efd-426f-8c09-32a303f82be9":83},{"id":4,"slug":5,"title":6,"content":7,"summary":8,"source":9,"source_url":10,"author":11,"image_url":12,"cover_image":12,"category":13,"language":14,"translated_content":11,"related_article_id":15,"keywords":16,"key_takeaways":22,"views":26,"created_at":27,"published_at":28,"topic_cluster_id":29},"5c3cb90f-7efd-426f-8c09-32a303f82be9","humanoid-gpt-zero-shot-motion-tracking-zh","Humanoid-GPT：用 GPT 擴大動作追蹤","\u003Cp data-speakable=\"summary\">Humanoid-GPT 用 GPT 風格 Transformer 與 20 億幀動作資料，主打零樣本全身動作追蹤與更強泛化。\u003C\u002Fp>\u003Cul>\u003Cli>\u003Cstrong>研究機構\u003C\u002Fstrong>：arXiv 摘要未明確標註\u003C\u002Fli>\u003Cli>\u003Cstrong>核心數據\u003C\u002Fstrong>：2B-frame retargeted corpus\u003C\u002Fli>\u003Cli>\u003Cstrong>突破點\u003C\u002Fstrong>：GPT式因果 Transformer\u003C\u002Fli>\u003C\u002Ful>\u003Cp>這篇論文的\u003Ca href=\"\u002Fnews\u002F5-backrooms-spoilers-ending-monster-sequel-zh\">重點\u003C\u002Fa>很直接：人形機器人的動作追蹤，不一定要靠小型 MLP 跟手工限制住的資料集。作者主張，把資料\u003Ca href=\"\u002Fnews\u002Fneuron-selectivity-changes-with-scale-zh\">規模\u003C\u002Fa>拉大、把模型做成序列式生成架構，才有機會同時兼顧高動態動作與零樣本泛化。\u003C\u002Fp>\u003Cp>對做 humanoid control 的團隊來說，這不是單純換模型而已，而是整個問題定義的轉向。以前常見的做法，是讓 tracker 在有限動作分布裡表現穩定；這篇則是把 motion tracking 當成一個可以用 GPT-style Transformer 來建模的序列問題，目標是讓系統面對沒看過的動作時，還能繼續追得住。\u003C\u002Fp>\u003Ch2>它想解的痛點是什麼\u003C\u002Fh2>\u003Cp>摘要先點出舊方法的限制：先前的 tracker 多半是 shallow MLP-based 系統，而且受限於資料稀缺。這會帶來一個很實際的工程困境。你若把系統調得很敏捷，常常會犧牲泛化；你若把泛化拉高，又可能追不上複雜、快速的動作。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png\" alt=\"Humanoid-GPT：用 GPT 擴大動作追蹤\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>這種取捨在控制系統很常見。訓練資料一旦太窄，模型在真實世界稍微偏離預期時就容易變脆。Humanoid-GPT 的論文就是想跳出這個框架，不是再做一個更精巧的小 tracker，而是直接把資料和模型一起放大。\u003C\u002Fp>\u003Cp>而且它處理的不是玩具級 \u003Ca href=\"\u002Ftag\u002Fbenchmark\">benchmark\u003C\u002Fa>，而是 whole-body control。也就是說，問題不只是預測姿勢，而是要在多樣動作與控制任務下，穩定追蹤整個身體的運動。\u003C\u002Fp>\u003Ch2>Humanoid-GPT 怎麼運作\u003C\u002Fh2>\u003Cp>這篇的核心想法，是把 motion tracking 改寫成序列建模。Humanoid-GPT 被描述為一個 GPT-style Transformer，並使用 causal attention。白話來說，它會把動作視為一串有順序的資料，根據前面的動作上下文，去預測後續輸出。這和 motion 的特性很合：時間、連續性、前後關係都很重要。\u003C\u002Fp>\u003Cp>資料面也很關鍵。模型是先在一個 20 億幀的 retargeted corpus 上預訓練。摘要說，這個語料整合了所有主要 mocap datasets，還加上大規模的 in-house recordings。換句話說，作者不是只拿幾個小資料集拼一拼，而是想建立一個更通用的 motion foundation。\u003C\u002Fp>\u003Cp>「retargeted」這個詞也透露出實作上的必要性。不同 mocap 來源常常有不同骨架、不同 rig、不同捕捉設定。把它們整合起來，通常代表前處理要先做標準化，讓這些資料能放在同一個訓練框架裡一起學。摘要沒有公開完整 preprocessing pipeline，所以不能替它補細節，但方向很明確：先統一資料，再用大規模訓練去吃下去。\u003C\u002Fp>\u003Cp>另一個值得注意的點是 causal attention。這表示它不是單純做一個靜態映射，而是走 autoregressive 的路線，用過去的序列資訊來生成下一步。對開發者來說，這就是它和 shallow MLP tracker 的差別：一個是序列式建模，一個是較直接的回歸式映射。\u003C\u002Fp>\u003Ch2>論文實際證明了什麼\u003C\u002Fh2>\u003Cp>摘要說作者做了 extensive experiments 和 scaling analyses，並宣稱模型建立了新的 performance frontier。它的結果重點有兩個：第一，對 unseen tasks 有 robust zero-shot generalization；第二，對 highly dynamic and complex motions 仍然能維持追蹤能力。\u003C\u002Fp>\n\u003Cfigure class=\"my-6\">\u003Cimg src=\"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469288106-quwi.png\" alt=\"Humanoid-GPT：用 GPT 擴大動作追蹤\" class=\"rounded-xl w-full\" loading=\"lazy\" \u002F>\u003C\u002Ffigure>\n\u003Cp>但要注意，這份摘要沒有公開完整 benchmark 數字。沒有具體分數、沒有列出測試集名稱，也沒有百分比提升。因此，從目前可見的資訊來看，我們只能說它主張有明顯進展，還不能直接量化進步幅度。\u003C\u002Fp>\u003Cp>不過，措辭本身已經很有訊號。它不是只說「表現更好」，而是同時強調 zero-shot 與 dynamic tracking。這兩件事通常很難一起做到。很多 tracker 在熟悉動作上很穩，但一碰到新任務就掉；也有些方法泛化較好，但追高動態動作時不夠靈敏。這篇論文想證明的是，scale 可以幫它兩邊都顧到。\u003C\u002Fp>\u003Cp>摘要也暗示，提升不是單靠某一個技巧，而是 data scale 與 model capacity 一起拉上去的結果。這對工程團隊很重要，因為它給出的方向不是「再加一層 trick」，而是「把 motion tracking 當成大型序列模型問題來做」。\u003C\u002Fp>\u003Ch2>對開發者有什麼影響\u003C\u002Fh2>\u003Cp>如果你在做 humanoid control、模擬環境、motion imitation pipeline，或是 robotics research stack，這篇的啟發很明確：motion tracking 可能不該再被當成小型 regression 問題，而應該被看成大型 generative sequence problem。\u003C\u002Fp>\u003Cp>這個觀點會直接影響資料策略。你不能只想著收一點任務資料就訓練一個 tracker，而是要思考如何建立更大的 motion corpus、如何統一不同 mocap 來源、以及如何讓模型在更廣的動作分布上學到規律。對想做 general-purpose humanoid 的團隊來說，這可能意味著更少的 per-task retraining。\u003C\u002Fp>\u003Cp>它也會影響模型設計。GPT-style causal Transformer 的意思不是「拿語言模型硬套」，而是把動作看成有時間依賴的序列，讓模型用上下文去推進下一步。這種做法如果真的成立，會比只靠小型 MLP 更適合處理 whole-body motion 這種連續、複雜、又容易跨分布的任務。\u003C\u002Fp>\u003Cp>但這篇摘要也留下不少實務問題。它沒有提 \u003Ca href=\"\u002Ftag\u002Finference\">inference\u003C\u002Fa> cost、latency，也沒有說部署複雜度。對真實機器人系統來說，這些都很關鍵。你可以在離線實驗裡追得很好，但如果推論太慢、控制迴圈太重，實際上還是很難上線。\u003C\u002Fp>\u003Ch2>還有哪些限制沒講清楚\u003C\u002Fh2>\u003Cp>最大的限制，還是來源只有摘要。雖然我們知道它用了 causal attention 和 20 億幀資料，但訓練細節、任務定義、評估協議都沒有完整公開。這些資訊對重現結果、比較自家系統，或判斷它到底贏在哪裡，都很重要。\u003C\u002Fp>\u003Cp>摘要也沒有給 benchmark 數字，所以沒辦法判斷它的優勢是大幅領先，還是小幅改善。所謂「new performance frontier」聽起來很強，但在看到完整表格之前，還不能把它當成定論。\u003C\u002Fp>\u003Cp>另外，摘要沒說清楚資料的組成比例，也沒說明主要提升來自架構、資料規模，還是兩者共同作用。這對實作很重要。因為如果真正的關鍵是資料統一與規模化，那麼想複製這個方向，成本可能不低。\u003C\u002Fp>\u003Cp>即便如此，這篇的方向仍然很清楚：作者在押注一件事——人形機器人的動作追蹤，會像其他序列建模領域一樣，靠更大的資料、更大的 Transformer，去換取更好的泛化與更穩的控制。\u003C\u002Fp>\u003Ch2>總結\u003C\u002Fh2>\u003Cp>Humanoid-GPT 的核心訊息是：把 motion tracking \u003Ca href=\"\u002Fnews\u002Faws-devops-agent-turns-incident-chaos-into-triage-zh\">變成\u003C\u002Fa> GPT 式序列建模，再用 20 億幀動作資料去訓練，可能是提升零樣本全身動作追蹤的一條路。摘要沒有公開完整 benchmark 數字，但它清楚指向一個工程判斷——未來的 humanoid tracking，可能不是更小、更快的 tracker，而是更大、更通用的序列模型。\u003C\u002Fp>\u003Cul>\u003Cli>把 motion tracking 當序列問題，會比傳統小型回歸器更有泛化空間。\u003C\u002Fli>\u003Cli>20 億幀級別的 retargeted corpus，是這篇方法的核心槓桿。\u003C\u002Fli>\u003Cli>摘要沒有公開完整 benchmark 數字，實際提升幅度還要看全文。\u003C\u002Fli>\u003C\u002Ful>","Humanoid-GPT 用 GPT 風格 Transformer 與 20 億幀動作資料，主打零樣本全身動作追蹤與更強泛化。","arxiv.org","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.03985",null,"https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780469319284-znpc.png","research","zh","50db75e4-31d8-4222-9f32-476b682a3848",[17,18,19,20,21],"humanoid control","motion tracking","GPT-style Transformer","zero-shot generalization","causal attention",[23,24,25],"用 GPT 風格 Transformer 做動作追蹤，目標是提升零樣本泛化。","20 億幀 retargeted corpus 是這篇方法的主要規模優勢。","摘要沒有公開完整 benchmark 數字，效果大小仍需看全文。",4,"2026-06-03T06:47:34.463464+00:00","2026-06-03T06:47:34.454+00:00","0c35a120-52fc-41fc-afa3-d404eb934158",{"tags":31,"relatedLang":42,"relatedPosts":46},[32,34,36,38,40],{"name":20,"slug":33},"zero-shot-generalization",{"name":21,"slug":35},"causal-attention",{"name":18,"slug":37},"motion-tracking",{"name":17,"slug":39},"humanoid-control",{"name":19,"slug":41},"gpt-style-transformer",{"id":15,"slug":43,"title":44,"language":45},"humanoid-gpt-zero-shot-motion-tracking-en","Humanoid-GPT scales motion tracking with a GPT-style model","en",[47,53,59,65,71,77],{"id":48,"slug":49,"title":50,"cover_image":51,"image_url":51,"created_at":52,"category":13},"f374155a-c29e-478c-b7a5-679cad1c51e4","crdts-keep-replicas-in-sync-without-locks-zh","CRDT 讓副本不用鎖也能同步","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781011086259-4p4k.png","2026-06-09T13:17:34.493426+00:00",{"id":54,"slug":55,"title":56,"cover_image":57,"image_url":57,"created_at":58,"category":13},"4b3b5a50-45b7-4238-a38b-160f82e323ff","post-deterministic-systems-autonomous-infra-zh","後決定性分散系：自治基礎設施新框架","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1781010194792-5ogb.png","2026-06-09T13:02:32.717551+00:00",{"id":60,"slug":61,"title":62,"cover_image":63,"image_url":63,"created_at":64,"category":13},"04e45398-9814-4907-b416-fcb5b8d69508","causal-learnability-formal-language-tasks-zh","用因果法量化任務可學性","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780987696075-l4g0.png","2026-06-09T06:47:34.438642+00:00",{"id":66,"slug":67,"title":68,"cover_image":69,"image_url":69,"created_at":70,"category":13},"75bcc569-5e89-45c8-b809-6f169e929f4b","rl-training-hands-off-control-gradually-zh","RL 先接管再放手","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780986786312-03yo.png","2026-06-09T06:32:32.849589+00:00",{"id":72,"slug":73,"title":74,"cover_image":75,"image_url":75,"created_at":76,"category":13},"e3ecab4b-7cc7-4246-baf6-e1c170d86ca5","omnigamearena-vlm-game-agent-benchmark-zh","OmniGameArena 讓 VLM 遊戲代理更好比","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780985893022-70pl.png","2026-06-09T06:17:32.189729+00:00",{"id":78,"slug":79,"title":80,"cover_image":81,"image_url":81,"created_at":82,"category":13},"6f25a29c-cbb8-4f53-9af7-1656b394333a","turboquant-cuts-kv-cache-memory-6x-google-tests-zh","TurboQuant 在 Google 測試中省下 6x KV 快取","https:\u002F\u002Fxxdpdyhzhpamafnrdkyq.supabase.co\u002Fstorage\u002Fv1\u002Fobject\u002Fpublic\u002Fcovers\u002Finline-1780906682236-sqe2.png","2026-06-08T08:17:21.878314+00:00",[84,89,94,99,104,109,114,119,124,129],{"id":85,"slug":86,"title":87,"created_at":88},"f18dbadb-8c59-4723-84a4-6ad22746c77a","deepmind-bets-on-continuous-learning-ai-2026-zh","DeepMind 押注 2026 連續學習 AI","2026-03-26T08:16:02.367355+00:00",{"id":90,"slug":91,"title":92,"created_at":93},"f4a106cb-02a6-4508-8f39-9720a0a93cee","ml-papers-of-the-week-github-research-desk-zh","每週 ML 論文清單，為何紅到 GitHub","2026-03-27T01:11:39.284175+00:00",{"id":95,"slug":96,"title":97,"created_at":98},"c4f807ca-4e5f-47f1-a48c-961cf3fc44dc","ai-ml-conferences-to-watch-in-2026-zh","2026 AI 研討會投稿時程整理","2026-03-27T01:51:53.874432+00:00",{"id":100,"slug":101,"title":102,"created_at":103},"cf046742-efb2-4753-aef9-caed5da5e32e","adaptive-block-scaled-data-types-zh","IF4：神經網路量化的聰明選擇","2026-03-31T06:00:36.990273+00:00",{"id":105,"slug":106,"title":107,"created_at":108},"53a0dc54-0371-4e40-8d5e-74e94a73840c","geometry-aware-similarity-metrics-for-neural-representations-zh","超越距離測量：用微分幾何重新理解神經網路","2026-03-31T06:01:01.241968+00:00",{"id":110,"slug":111,"title":112,"created_at":113},"fee7d472-a775-4b1d-bbc2-1e8bca1bbf8b","on-the-fly-repulsion-in-the-contextual-space-for-rich-divers-zh","讓AI繪圖更有創意：用排斥力提升生成多樣性","2026-03-31T06:01:25.439673+00:00",{"id":115,"slug":116,"title":117,"created_at":118},"a9901203-d69b-447b-8854-15d14eab32b4","vision-aided-beam-prediction-cnn-eca-zh","影像輔助波束預測升級 CNN","2026-04-01T10:00:25.8073+00:00",{"id":120,"slug":121,"title":122,"created_at":123},"b55e7dd4-0a24-4b3d-804d-b0309a03f498","triple-band-fss-mimo-antenna-sub-6-ghz-zh","三頻 FSS MIMO 天線瞄準 sub-6 GHz","2026-04-01T13:18:36.857305+00:00",{"id":125,"slug":126,"title":127,"created_at":128},"f68290bd-e7f3-4b30-ba22-dcd4e0130a66","openclaw-1299-repos-eight-weeks-analysis-zh","OpenClaw 1299 個 Repo 的資料解讀","2026-04-02T05:03:45.208411+00:00",{"id":130,"slug":131,"title":132,"created_at":133},"ed9f80eb-eb02-4d35-8ad4-0ddf428751dd","beam-coherence-aware-combining-mmwave-mimo-zh","毫米波 MIMO 的雙階合併法","2026-04-02T05:27:26.897188+00:00"]