로딩 중...

CAR-bench: 실세계 불확실성 상황에서 LLM 에이전트의 일관성과 한계 인식 평가 벤치마크 | AI Paper Digest