Agent (2) 썸네일형 리스트형 A Survey on Large Language Model based Autonomous Agents (2) 3. LLM-based Autonomous Agent Evaluation ■ LLM 자체를 평가하는 것은 매우 까다로운 작업이다. LLM-based autonomous agent를 평가하는 것도 마찬가지이다. ■ 이 섹션에서는 널리 사용되는 두 가지 평가 방식, 주관적 방법과 객관적 방법에 대해 설명한다. 3.1 Subjective Evaluation ■ 모델의 성능은 항상 숫자로 측정할 수 있는 것이 아니다. 예를 들어 에이전트의 '지능'이나 '사용자 친화성'을 평가하는 경우 정답 라벨이나 단순 정확도로 평가하기 어렵다. ■ 이렇게 정량적인 지표를 설계하기 매우 어렵거나 평가용 데이터셋이 존재하지 않는 경우에는 subjective evaluation이 필요하다. 일반적으로 널리 사용되는 두 .. A Survey on Large Language Model based Autonomous Agents (1) [2308.11432] A Survey on Large Language Model based Autonomous Agents A Survey on Large Language Model based Autonomous AgentsAutonomous agents have long been a prominent research focus in both academic and industry communities. Previous research in this field often focuses on training agents with limited knowledge within isolated environments, which diverges significantly from harxiv.org 1. Int.. 이전 1 다음