標籤
2 篇文章
MARLIN 把雲端 LLM 推理視為多代理協調問題,用遊戲理論式強化學習來追求更永續的資料中心運作。
這篇論文改算「不那麼容易被聯盟偏離」的均衡,並給出平均收益與最大收益兩種情況下的匹配複雜度結果。