■ 논문에서는 human group dynamics에서 영감을 받아, expert agents의 협력을 효과적으로 조율할 수 있는 AgentVerse를 제안한다.
[2308.10848] AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors
AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors
Autonomous agents empowered by Large Language Models (LLMs) have undergone significant improvements, enabling them to generalize across a broad spectrum of tasks. However, in real-world scenarios, cooperation among individuals is often required to enhance
arxiv.org
1. INTRODUCTION
■ LLM을 활용함으로써, autonomous agents은 더 섬세한 결정을 내리고 전례 없는 수준의 자율성으로 행동을 수행할 수 있게 되었다. AutoGPT, BabyAGI, AgentGPT와 같은 에이전트들이 대표적인 예시이다.
■ 더 나아가 최근 연구는 autonomous agent에 인간과 유사한 인지 메커니즘을 부여해왔다. 여기에는 reflection, task decomposition, tool utilization 등이 포함된다.
■ 그러나 복잡한 real-world tasks은 더 나은 effectiveness를 얻기 위해 개인들 사이의 협력을 요구하는 경우가 많다.
■ 그래서 더 최근에는 여러 에이전트의 집합을 사회나 집단으로 개념화하고, 그 협력 가능성을 탐구하는 연구들(예: Generative Agents)이 등장하고 있다.
■ 다만, 이러한 연구들의 한계는 specific and limited tasks에 초점을 맞추고 있다는 점이며, 그 결과로 연구 결과가 얼마나 일반화될 수 있는지는 불확실하게 남아 있다.
■ 또 다른 제약은 에이전트 협력에 대한 정적인 접근이다. 이 접근에서는 에이전트들의 역할과 능력이 고정되어 있어 adaptability을 방해한다.
■ 이 문제를 해결하기 위해 저자들은 general multi-agent framework로 AgentVerse를 제안한다. 이 framework는 human groups의 problem-solving 절차를 시뮬레이션하며, 현재 진행 상황에 따라 그룹 구성원을 동적으로 조정할 수 있게 한다.

■ 구체적으로, AgentVerse는 Fig 1에 보인 것처럼 problem-solving process를 네 가지 핵심 단계로 나눈다.
- (1) Expert Recruitment: 진행 중인 problem-solving 상황에 기반하여 agent group의 구성을 결정하고 조정한다.
- (2) Collaborative Decision-Making: 선택된 에이전트들을 joint discussions에 참여시켜 problem-solving strategies을 고안하게 한다.
- (3) Action Execution: 에이전트들이 환경과 상호작용하여 고안된 행동들을 실행한다.
- (4) Evaluation: 현재 상태와 원하는 결과 사이의 차이를 평가한다.
- 현재 상태가 만족스럽지 않다면, 추가 개선을 위해 다음 반복 단계에 피드백이 제공된다.
2. AGENTVERSE FRAMEWORK
■ problem-solving 과정은 한 번에 끝나는 일이 아니라 반복적인 단계들의 시퀀스이다.
■ 처음에 group은 현재 상태와 원하는 목표 사이의 차이를 평가하고, 의사결정에서의 협력을 향상시키기 위해 group 구성을 동적으로 조정하며, 이후 well-informed된 행동을 실행한다.
■ autonomous multi-agent group이 목표를 달성하는 데 있어 effectiveness를 높이기 위해 저자들은 human group의 problem-solving processes를 시뮬레이션하여 Fig 1에 나타난 바와 같이 Expert Recruitment, Collaborative Decision-Making, Action Execution, 그리고 Evaluation이라는 4개의 단계로 구성된 AgentVerse 프레임워크를 제안한다.
■ 이 전체 processes는 \( (\mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{R}, \mathcal{G}) \)라는 튜플로 특징지어지는 Markov decision process (MDP)로 모델링될 수 있다.
- autonomous agent 및 environment의 state space \( \mathcal{S} \), solution 및 action space \( \mathcal{A} \), transition function \( \mathcal{T} : \mathcal{S} \times \mathcal{A} \to \mathcal{S} \), reward function \( \mathcal{R} \), 그리고 goal space \( \mathcal{G} \)
2.1 EXPERT RECRUITMENT
■ Expert Recruitment 단계는 multi-agent group을 결정하며, 그 그룹이 발휘할 수 있는 역량의 상한선을 정하는 데 중요한 역할을 한다.
■ human의 경우 human group 내의 다양성은 다양한 관점을 도입하여 여러 tasks에서 그룹의 수행 능력을 향상시킨다는 것을 보여준 연구들이 있다.
■ 최근 연구의 유사한 발견들은, experts을 모집하여 그룹을 형성하는 것과 비슷하게 autonomous agents에게 특정 역할을 지정하는 것이 그들의 효과성을 높일 수 있음을 시사한다.
■ autonomous agents에게 role descriptions을 할당하는 현재의 방법론들은 주로 수동 할당에 의존하며, 이는 task에 대한 사전 지식과 이해를 필요로 한다. 그 결과, 특히 다양하고 복잡한 문제 상황에 직면했을 때, 확장성이 불분명하다.
■ 이러한 점을 고려하여, AgentVerse에서는 에이전트 구성을 더 확장 가능하게 만들기 위해 expert 모집을 자동화한다.
■ 주어진 목표 \( g \in \mathcal{G} \)에 대해 특정 에이전트 \( M_r \)이 인사 관리자와 유사한 "recruiter"로서 프롬프트된다.
■ 미리 정의된 descriptions에 의존하는 대신, \( M_r \)은 \( g \)를 기반으로 expert descriptions을 동적으로 생성한다.
■ 그런 다음, 이러한 서로 다른 expert descriptions로 프롬프트된 다양한 에이전트들이 주어진 목표 \( g \)에 대한 expert group \( \mathcal{M} = M_r(g) \)를 형성한다.
■ 주목할 점은, multi-agent group의 구성이 evaluation 단계의 피드백에 기반하여 동적으로 조정(섹션 2.4)된다. 이를 통해 AgentVerse는 향후 라운드들에서 더 나은 결정을 내리기 위해 현재 상태를 기반으로 가장 적합한 그룹을 선택할 수 있다.
2.2 COLLABORATIVE DECISION-MAKING
■ 이 단계는 expert agents을 collaborative decision-making에 참여시킨다. 효과적인 의사결정을 촉진하기 위해 기존 연구들은 에이전트들 사이의 서로 다른 의사소통 구조가 미치는 영향을 조사해 왔다.
■ 논문에서는 두 가지 구조: (1) horizontal structure (2) vertical structure에 초점을 둔다.
Horizontal Structure
■ horizontal structure에서는 각 에이전트 \( m_i \in \mathcal{M} \)가 자신의 결정 \( a_{m_i} \)를 공유하고 다듬는다.
■ 그룹의 collective decision인 \( A = f (\{a_{m_i}\}_i) \in \mathcal{A} \)는 function \( f \)를 사용해 개별 에이전트들의 결정을 통합한 결과로 나온다. 이 function \( f \)에는 summarization이나 ensemble 같은 기법이 포함될 수 있다.
■ horizontal structure는 다양한 관점이나 여러 작업을 병렬적으로 다뤄야 하는 consulting이나 tool using과 같은 시나리오에서 특히 효과적이다.
Vertical Structure
■ vertical structure는 horizontal structure와 반대로 역할 구분이 명확하다.
■ solver \( m^* \)라고 불리는 에이전트가 초기 결정 \( a^*_0 \)를 제안한다. 다른 에이전트들은 reviewers 역할을 하며, 이 제안에 대해 피드백을 제공한다. 그리고 reviewers 사이에서 합의가 이루어지거나 정해진 반복 횟수가 소진될 때까지 solver가 반복적으로 이를 수정하도록 유도한다.
■ 최종 결정 \( A \)는 \( A = a^*_k \in \mathcal{A} \)로 주어지며, 여기서 \( k \)는 refinements 횟수를 나타낸다.
■ vertical structure는 수학 문제 해결이나 소프트웨어 개발과 같이 단 하나의 정제된 결정(예: 하나의 정확한 풀이나 답, 최종적으로 실행 가능한 하나의 코드 혹은 설계)만이 요구되는 tasks에 더 적합하다.
2.3 ACTION EXECUTION
■ decision-making 단계에서, 에이전트들은 현재 환경에서 실행되어야 하는 actions을 포함한 group decision \( A \)를 함께 만들어낸다.
■ action execution 단계 안에서, 에이전트들은 집단적으로 결정된 actions을 환경에서 실행한다. 단, 구현 방식에 따라 일부 에이전트는 어떠한 실행도 수행하지 않을 수 있다.
■ 이러한 actions의 결과로, 환경의 상태는 \( s_{old} \)에서 \( s_{new} = \mathcal{T}(s_{old}, A) \)로 전이된다.
2.4 EVALUATION
■ evaluation 단계는 AgentVerse에서 매우 중요하며, 이후 라운드의 개선을 이끈다.
■ 이 단계에서 피드백 메커니즘 \( \mathcal{R} \)은 현재 상태 \( s_{new} \)와 원하는 목표 \( g \in \mathcal{G} \) 사이의 차이를 평가한다.
■ 그런 다음 verbal feedback \( r = \mathcal{R}(s_{new}, g) \)을 제공하는데, 이 피드백은 부족한 부분을 자세히 설명하고 성능을 향상시킬 방법을 제안한다.
■ \( \mathcal{R} \)은 구현에 따라 인간에 의해 정의(human-in-the-loop)될 수도 있고, 자동 피드백을 위해 에이전트에 의해 정의될 수도 있다.
■ 만약 목표 \( g \)가 여전히 충족되지 않은 상태라면, 피드백 \( r \)은 초기 단계인 expert recruitment 단계로 되돌아간다.
■ 다음 라운드에서 expert recruitment 단계는 피드백 \( r \)과 목표 \( g \)를 모두 고려하여 그룹의 구성을 조정하고, 현재 진행 상황에 맞춰 더 효과적인 multi-agent group으로 발전시키는 것을 목표로 한다.
3. EXPERIMENTS
■ 에이전트 간 협업에 있어 AgentVerse가 우수하다는 것을 검증하기 위해 네 가지 실험 tasks을 설계한다.
■ 각 task는 general understanding 및 reasoning capabilities, coding capabilities, tool utilization capabilities, 그리고 Embodied AI에서의 잠재력이다.
Setups
■ 모든 실험에서 GPT-3.5-Turbo-0613과 GPT-4-0613을 사용하는 에이전트들의 성능을 평가한다. 모든 실험은 zero-shot setting에서 수행한다.
■ 그리고 정량적 실험을 위해 3가지 설정을 비교한다.
- (1) CoT: The CoT(chain-of-thought) agent
- (2) Solo: decision-making stage에서 하나의 에이전트만 사용하여 AgentVerse를 적용하는 설정.
- CoT와 비교했을 때 Solo는 expert recruitment, action execution, evaluation 모듈을 포함한다.
- (3) Group: decision-making 과정에서 여러 에이전트가 협업하는 AgentVerse를 구현한 설정.
3.1 GENERAL UNDERSTANDING AND REASONING CAPABILITIES
■ 에이전트들의 general understanding 및 reasoning capabilities을 평가하기 위해 FED, Commongen Challenge, MGSM, 그리고 Logic Grid Puzzles라는 4개의 데이터셋을 사용한다. (Appendix A)
■ 처음 두 개의 데이터셋은 에이전트의 text understanding 및 creative writing abilities을 측정하는 데 사용되며, 뒤의 두 개는 mathematical 및 logical reasoning을 포함한 에이전트의 reasoning abilities을 확인하는 데 사용된다.
Experimental Results

■ Table 1의 결과는 사용된 LLM에 관계없이 AgentVerse(Solo 및 Group setups)에 의해 구성된 에이전트들이 standalone CoT agent보다 일관되게 더 좋은 성능을 달성함을 보여준다.
■ GPT-3.5-Turbo의 경우, Group 설정은 세 개 tasks 중 두 개에서 Solo 설정보다 낮은 성능을 보였는데, 저자들은 특정 상황에서 의사결정 과정의 토론이 GPT-3.5-Turbo 기반 에이전트의 성능에 오히려 부정적인 영향을 줄 수도 있음 주장한다.
■ 저자들은 이러한 GPT-3.5-Turbo 기반 에이전트의 문제점으로 '잘못된 피드백에 대한 취약성'을 꼽았다. 구체적으로, Group 설정에서 반복적으로 관찰된 패턴은 다음과 같다. 때때로 에이전트 A가 처음에는 올바른 정답을 가지고 시작했음에도 불구하고, 에이전트 B의 잘못된 피드백에 의해 쉽게 흔들린다는 것이다.
■ 주목할 점은, 이러한 현상이 GPT-4 기반 에이전트들에서는 나타나지 않았다는 것이다. 이는 이는 협업적 토론 중 상충하는 정보에 대한 에이전트의 resilience가 중요하다는 점을 시사한다.
■ 더 나아가, advanced LLM에 의해 작동되는 에이전트들은 협업적 의사결정에 참여할 때 더 나은 성능을 보인다.
■ 정리하면, GPT-3.5-Turbo에서 관찰된 문제들은, 잘못된 정보에 대한 LLM의 robustness(틀린 피드백을 걸러낼 수 있는 능력)를 향상시킬 필요가 있음을 보여준다.
Case Study: Consulting
■ Table 1에서 Group 설정은 두 LLM 모두에 대해 Solo 설정보다 뚜렷한 우위를 보이지 않는다. 이는 주로 각 벤치마크의 평가 지표가 제한된 범위를 가지고 있어 Group 설정의 장점을 완전히 보여주지 못하기 때문이다.
■ 그래서 저자들은 Fig 2와 같이 문의에 응답하는 컨설팅 시나리오에 초점을 맞추고, GPT-4 에이전트로 구성된 그룹의 장점을 확인한다. 목표는 오하이오에 수소 저장소를 건설하기 위한 제안을 제공하는 것이다.

■ 언뜻 보기에 round 0에서 Solo 설정이 Group 설정보다 더 넓은 범위를 다루는 것처럼 보인다. 그러나 Group 설정은 모집된 experts 덕분에 더 깊이 있는 내용을 제공한다.
■ 예를 들어 Solo 설정은 "최적의 위치를 찾아라"와 같은 기본적인 제안을 할 수 있는 반면, Group 설정은 "저장 탱크의 안정성을 보장하기 위해 부지의 토양 특성을 평가하라"와 같은 디테일한 조언을 제공한다.
■ 두 번째 라운드가 되면, Group 설정에서는 서로 다른 전문가들이 새로운 통찰을 제공한다. 그 결과, Group 설정은 더 넓은 범위를 다룰 뿐만 아니라, 더 상세한 조언도 제공한다. 이 더 넓어진 범위는 참조된 그림에서 빨간색으로 강조되어 있다.
3.2 CODING CAPABILITIES
■ Humaneval code completion dataset을 사용하여 에이전트들의 코딩 능력을 평가한다.
Experimental Results

■ Table 2에서 CoT에서 Solo로, 그리고 Solo에서 Group 설정으로 이동함에 따라 명확한 성능 향상을 볼 수 있다. 이러한 경향은 GPT-4에서 특히 두드러지며, GPT-4는 83.5에서 89.0으로 성능 향상을 보인다.
■ GPT-3.5-Turbo의 경우, 섹션 3.1에서 수학 추론 중 잘못된 에이전트 피드백 때문에 Group 설정의 성능 저하가 관찰되었지만, 코딩 평가에서는 이점이 나타난다.
■ 이에 대해 저자들은, LLM이 코드에 대해 광범위하게 사전학습되었기 때문일 수 있다고 추정한다. 이로 인해 잠재적으로 수학적 추론보다 코딩에 더 능숙하고, 결과적으로 코딩 시의 잘못된 정보에 더 견고할 수 있다는 것이다.
Case Study: Software Development
■ agent group은 solutions을 다듬어, 단순한pass@1 지표로는 포착되지 않는 더 효율적이고, 견고하며, 안전한 알고리즘을 만들어낸다.
■ 이러한 장점을 설명하기 위해 저자들은 여러 측면에 대한 협업과 개선이 필요한 영역인 소프트웨어 개발에 대해 GPT-4를 사용한 실험을 수행했다. 구체적으로, AgentVerse가 다양한 expert agents을 모아 파이썬 기반 계산기 GUI를 만들도록 하였다. (Fig 3)

■ Group 설정과 Solo 설정에서 만들어진 애플리케이션을 비교하면 주목할 만한 차이들이 드러난다. 둘 다 핵심 기능은 달성하지만, Group이 만든 계산기는 색상 구분과 키보드 입력 같은 기능을 갖춘 사용자 친화적인 인터페이스를 만들었다.
■ 이러한 개선은 multi-agent group의 다양한 피드백에서 비롯되었다. UI 디자이너와 평가자들의 제안은 사용자 경험을 향상시키고, 소프트웨어 테스터는 코드의 견고성을 향상시킨다.
■ 그리고 코드를 더 깊이 검토해 보면, multi-agent group의 출력물이 solo agent의 출력물보다 예외 처리에서 더 뛰어났다고 한다. (Appendix F)
3.3 TOOL UTILIZATION CAPABILITIES
■ LLM이 real-world의 tools을 사용하는 능력은 최근 많은 연구들에서 강조되어 왔다. 계산기, 웹 브라우저, 코드 인터프리터와 같은 다양한 도구를 LLM에 장착함으로써, LLM의 능력은 크게 향상될 수 있다.
■ 이 섹션에서는 AgentVerse가 여러 도구와의 상호작용을 요구하는 복잡하고 다면적인 tasks을 agent group이 처리할 수 있게 하며, 그 결과 작업 효율성을 향상시킨다는 것을 보여준다.
Experimental Results
■ 저자들은 10개의 tasks을 설계했으며, 각 task는 목표 달성을 위해 적어도 두 가지 서로 다른 도구의 사용을 요구한다.
■ Bing 검색 API, 웹 브라우저, 코드 인터프리터, task-related APIs 등 여러 도구에 접근할 수 있게 하여 AgentVerse가 어떻게 에이전트 협업을 촉진하고 user queries을 해결하기 위해 사용 가능한 도구들을 효과적으로 배치하는지 확인한다.
■ 10개의 tasks 중 AgentVerse에 의해 조율된 agent group은 9개의 tasks을 성공했지만, tool using을 위해 설계된 널리 쓰이는 에이전트인 standalone ReAct agent는 3개의 tasks만 완수할 수 있었다. (Appendix B)
Case Study: Solving 24-Point Game and Providing Similar Games

■ 이 섹션에서는 AgentVerse가 어떻게 24-point game의 규칙을 검색하고, 테스트 케이스와 함께 코드를 구현하며, 유사한 게임들을 탐색하는지 보여준다.
■ 이 task는 다면적이라서, 의사결정 단계에서 에이전트들이 토론을 통해 task를 두 개의 sub-tasks로 나누게 하고, 각각을 특정 에이전트에게 할당하였다.
■ Charlie 에이전트가 round 0에서 24-point game과 유사한 게임을 찾는 sub-task를 놓쳤지만, evaluation 모듈의 피드백이 다음 iteration에서 이를 바로잡았다.
■ 최종적으로, agent group은 24-point game의 규칙과 테스트 케이스가 포함된 코드를 제공할 뿐만 아니라, 유사한 게임에 대한 요약도 제공한다. 반면, standalone ReAct agent는 게임의 정의와 코드를 제공하는 데 그치고, 유사한 게임에 대한 요청은 빠뜨린다.
4. EMERGENT BEHAVIORS WITH IN A MULTI-AGENT GROUP
■ 이 섹션에서는 embodied AI에서 에이전트들이 보이는 emergent collaborative behaviors을 확인한다.
■ 샌드박스 게임인 Minecraft는 real-world dynamics과의 복잡한 유사성을 가지고 있기 때문에, 이러한 탐구를 위한 이상적인 플랫폼이다. 게임 안에서 에이전트들은 단순히 tasks을 실행하는 것뿐만 아니라, 계획하고, 조율하고, 변화하는 상황에 적응해야 한다.
■ 저자들은 에이전트들에게 종이와 그림부터 책과 책장에 이르기까지 다양한 아이템을 협력하여 제작하도록 task를 부여했다. Fig 5는 세 에이전트가 능숙하게 책장을 제작하는 모습이다.

■ 저자들은 의사결정 과정에서 몇 가지 emergent behaviors을 식별하고, 그것들을 다음 세 가지 측면으로 분류한다: volunteer, conformity, destructive behaviors
4.1 VOLUNTEER BEHAVIORS
■ volunteer behavior는 인간 사회에서 타인의 이익을 증진시키기 위해 의도된 행동을 말한다. multi-agent group에서도 다음과 같은 유사한 행동들이 나타나는 것을 관찰되었다.
Time Contribution
■ 에이전트들은 협업 효율성을 높이기 위해 자신에게 배정되지 않은 시간을 기꺼이 사용한다.
■ Fig 6 (1a)의 예시에서 볼 수 있듯이 Alice와 Bob은 협력하여 종이 2장을 제작해야 하며, 원료로 사탕수수 3개가 필요하다.
■ 처음에 Alice는 자신이 사탕수수를 모을 테니 재료가 준비될 때까지 Bob에게 기다리라고 제안한다. 그러나 이 계획은 Bob에게 여유 시간을 남기기 때문에 최적은 아니다.
■ 비효율성을 인식한 Bob은 두 사람이 동시에 사탕수수를 모으자고 제안하고, 그 결과 과제 완료가 더 빨라진다.
Resource Contribution
■ 에이전트들은 자신이 보유한 재료를 기꺼이 기여하려 한다. Fig 6의 (1b)에 나타난 것처럼, 종이 2개를 제작하는 task의 마지막 단계에서 Alice는 모든 원재료인 사탕수수를 모았고, 반면 Bob은 종이 제작에 필수적인 제작대를 가지고 있다.
■ 의사결정 단계에서 Alice는 자신의 재료를 땅에 떨어뜨려 Bob에게 전달하자고 제안한다. 이를 통해 Bob은 그 재료들을 의도된 제작 과정에 사용할 수 있게 된다.
Assistance Contribution
■ 에이전트들은 자신의 개별 tasks을 완료한 뒤 동료들을 적극적으로 지원한다. 결과적으로 전체 과제를 더 빠르게 해결한다.
■ Fig 6의 (1c)에 나타난 것처럼, Alice와 Bob은 자신들에게 할당된 sub-tasks을 성공적으로 완료했지만, Charlie는 아직 가죽 3개를 모으는 데 어려움을 겪고 있다.
■ ollaborative decision-making 단계에서 Alice와 Bob은 Charlie가 수집하는 일을 돕자고 제안한다. 이러한 행동들은 에이전트들이 다른 에이전트를 돕기 위해 자신의 능력과 노력을 기꺼이 기여하며, 그 결과 공동 목표를 더 빠르게 달성하게 된다는 점을 보여준다.

4.2 CONFORMITY BEHAVIOR
■ 인간 사회에서 개인들은 집단의 규범이나 목표에 맞추기 위해 자신의 행동을 조정하는 경향이 있으며, 저자들은 이를 conformity behavior라고 부른다. multi-agent groups 내에서도 유사한 행동이 관찰되었다.
■ Fig 6의 (2)에 나타난 것처럼, 모든 에이전트들은 가죽 세 조각을 모으라는 요청을 받았다. 그러나 Charlie는 딴길로 새서, task에 직접적으로 기여하지 않는 아이템들을 만들기 시작한다. 그다음 의사결정 단계에서 Alice와 Bob은 Charlie의 행동을 비판한다. Charlie는 자신의 실수를 인정하고, mutual tasks에 다시 집중한다.
■ 이러한 conformity behavior은 작업이 진행됨에 따라 에이전트들이 공동 목표에 맞춰 align될 수 있게 한다.
4.3 DESTRUCTIVE BEHAVIOR
■ 저자들은 에이전트들이 목표를 달성하려는 과정에서, 더 높은 효율성을 달성하기 위해 safety 문제를 일으킬 수 있음을 관찰했다.
■ Fig 6 (3a)와 (3b)에 나타난 바와 같이, 에이전트는 때때로 원재료를 모으는 절차를 건너뛰고, 필요한 재료를 얻기 위해 다른 에이전트를 해치거나 마을 도서관 전체를 파괴하는 방식에 의존한다.
■ 이러한 위험한 행동의 발생은, 특히 인간이 협업 과정에 포함될 때, 위험을 초래할 수 있다.