標籤
2 篇文章
這篇論文提出一套以病例為中心的證據驗證框架,透過更精準的監督訊號,逼模型真的依賴證據,而不是只背答案。
HippoCamp 把代理丟進個人電腦的密集檔案環境,測它們能否搜尋、抓證據、做跨模態推理。結果顯示,現有模型在個人化情境仍明顯吃力。