標籤
2 篇文章
AutoTTS把 test-time scaling 變成環境搜尋問題,讓 LLM 在推理時自動找出更省算力的策略,而不是靠人手調 heuristics。
YOCO-U 把 recursive computation 和 efficient attention 結合,想在推理時拉高有效深度,同時壓住 KV cache 成長與額外開銷。