[AgentTuning] Enabling Generalized Agent Abilities for LLMs

■ 오픈소스 LLMs은 다양한 tasks에서 우수한 성능을 보이고 있음에도, real world의 complex tasks을 해결하는 에이전트로서 기능할 때는 ChatGPT나 GPT-4와 같은 상용 모델에 비해 크게 뒤처진다. (Fig 1b)

■ 이러한 agent tasks은 LLM을 planning, memorization, tool utilization을 담당하는 central controller로 사용하므로, 만족스러운 성능을 달성하려면 정교한 프롬프팅 방법과 robust한 LLM이 모두 필요하다.

■ 특정 agent tasks을 위해 많은 프롬프팅 방법이 제안되었지만, 모델의 general abilities을 훼손시키지 않으면서 LLM의 에이전트 능력을 향상시키는 데 초점을 맞춘 연구는 여전히 부족하다.

■ 논문에서는 LLM의 general abilities을 유지하면서 동시에 agent abilities을 향상시키는 AgentTuning이라는 방법을 제안한다.

■ high-quality의 interaction trajectories을 담은 lightweight의 instruction-tuning dataset인 AgentInstruct를 구축하고, AgentInstruct와 일반 도메인의 open-source instructions 데이터와 혼합하는 hybrid instruction-tuning strategy을 적용한다.

■ 모델이 에이전트로서 필요한 능력을 학습하되, 동시에 일반적인 LLM 능력 역시 유지할 수 있도록 학습 데이터를 설계한 것이다.

■ AgentTuning을 사용하여 Llama 2 series를 instruction-tuning시켜 AgentLM을 만든다.

■ 평가 결과, AgentLM-70B는 unseen agent tasks에서 GPT-3.5-turbo와 비견되는 성능(Fig 1a)으로, generalized agent capabilities을 보인다.

[2310.12823] AgentTuning: Enabling Generalized Agent Abilities for LLMs

AgentTuning: Enabling Generalized Agent Abilities for LLMs

Open large language models (LLMs) with great performance in various tasks have significantly advanced the development of LLMs. However, they are far inferior to commercial models such as ChatGPT and GPT-4 when acting as agents to tackle complex tasks in th

arxiv.org

1. INTRODUCTION

■ 에이전트란 환경을 인식하고, 의사결정을 내리며, 행동을 취할 수 있는 존재를 의미한다.

■ language tasks을 위해 설계되었던 LLM은 alignment training을 통해 instruction following, reasoning, planning, tool utilization에 이르기까지 다재다능한 능력을 보여주었다.

■ 그러나 오픈 소스 LLM은 Fig 1에서 볼 수 있듯이, complex real-world scenarios의 에이전트 능력에서는 GPT-3.5 및 GPT-4와 비교할 때 크게 뒤처진다.

■ 에이전트로서의 LLM에 대한 기존 연구들은 지금까지 LLM 자체의 에이전트 능력을 근본적으로 향상시키기보다는, 특정 agent task 하나를 완료하기 위한 프롬프트나 프레임워크를 설계했다.

■ 또한, 특정 task에 맞춤화된 datasets을 사용하여 LLM을 fine-tuning하는 등 LLM의 특정 측면을 개선하는 데 초점을 맞추어 왔다. 이러한 접근이 특정 능력을 강화하는 대신 LLM의 general abilities과 일반화 성능을 희생할 위험이 있다.

■ 저자들이 제안한 접근법인 AgentTuning은 두 가지 구성요소로 이루어진다.
- (1) lightweight instruct-tuning dataset AgentInstruct
- (2) 에이전트의 능력을 높이면서도 LLM의 능력을 유지하기 위한 hybrid instruction-tuning strategy

■ AgentInstruct는 6개의 agent tasks로부터 나온, 각 decision step마다 high-quality CoT rationale가 포함된 1,866개의 검증된 interaction trajectories을 포함한다.

■ 하나의 interaction trajectory는 instruction construction, GPT-4를 에이전트로 활용했을 때 trajectory interaction, 그리고 reward score에 따른 trajectory filtering이라는 세 단계를 통해 수집된다.

■ 저자들은 여기에 high-quality general data를 일정한 비율로 혼합하여 supervised fine-tuning을 수행함으로써, LLM의 general abilities을 보존하면서 agent capabilities을 향상시킨다. (hybrid instruction-tuning strategy)

■ 논문에서는 AgentTuning을 Llama 2 계열에 적용하여 AgentLM-7B, 13B, 70B를 구축하고 실험을 통해 다음과 같은 세 가지 핵심 관찰을 제시한다.
- (1) AgentLM은 AgentInstruct에 포함된 held-in tasks과 unseen held-out agent tasks 모두에서 강력한 성능을 달성한다. 이는 에이전트 능력에 대한 robust generalization을 시사한다.
- 또한 AgentLM-70B는 MMLU, GSM8K, HumanEval, MT-Bench와 같은 general NLP tasks에서의 성능을 유지하면서도, unseen agent tasks에서 GPT-3.5와 비견될 수준의 성능을 달성한다.
- (2) 에이전트 데이터와 일반 데이터를 혼합하는 비율에 대한 저자들의 분석은, LLM의 일반적인 능력이 agent task의 일반화에 중요하다는 것을 보여준다.

- agent task가 LLM에게 planning과 reasoning 같은 종합적인 능력을 요구하기 때문이라고 주장한다.
- (3) Llama 2와 AgentLM에 대한 error analysis 결과, AgentTuning은 포맷 오류, 중복 생성, 답변 거부와 같은 기본적인 실수의 발생을 크게 줄여준다.
- 저자들은 이를 근거로, Llama 2가 원래부터 agent task를 수행할 잠재력을 어느 정도 갖고 있었으며, AgentTuning은 단순 과적합이 아니라 그 잠재적인 에이전트 능력을 실제로 활성화한 것이라고 해석한다.

■ AgentTuning은 여러 agent tasks에 걸친 interaction trajectories을 사용하여 LLMs을 instruction-tuning한 최초의 시도로, 일반적인 언어 능력을 잘 유지하면서 unseen agent tasks에 robust generalization과 함께 LLM의 에이전트 능력을 활성화한다.

2. THE AGENTTUNING APPROACH

■ 사용자의 입력을 \( u_i \), 모델의 응답을 \( a_i \)라고 하자. agent task가 주어졌을 때, LLM agent의 interaction trajectory는 conversation history \( (u_1, a_1, \ldots, u_n, a_n) \)으로 기록될 수 있다.

■ 각 trajectory에는 task의 완료 상태를 반영하는 final reward \( r \in [0, 1] \)이 부여된다. 완전한 성공인 경우 \( r = 1 \)이 된다.

■ 당시에는 LLM의 general agent abilities을 end-to-end 방식으로 향상시키려는 시도는 없었다. 기존 연구들은 LLM 하나를 대상으로 프롬프트를 설계하거나, WebShop이나 Mind2Web처럼 특정 agent task를 해결하기 위한 LLM 기반의 프레임워크를 구축하는 데 집중해 왔다.

■ AgentBench 결과에 따르면, Llama 2와 같은 모델들이 여러 벤치마크에서 강력한 성능을 입증했음에도 불구하고, 오픈소스 LLM들은 에이전트로서 작동하는 측면에서 GPT-4나 ChatGPT와 같은 상용 모델들에 비해 크게 뒤처져 있다.

■ 이에 저자들은 LLM의 에이전트 능력을 향상시키면서도, 동시에 MMLU, GSM8K, HumanEval과 같은 일반적인 LLM tasks에서의 성능은 유지하기 위한 방법으로 AgentTuning을 제안한다.

2.1 CONSTRUCTING AGENTINSTRUCT

■ FLAN이나 InstructGPT와 같이, 더 나은 instruction-following 역량을 위해 pre-trained LLM을 튜닝하는 데 language instructions 데이터는 널리 수집·활용되어 왔다.

■ 그러나 agent tasks을 위한 instructions 데이터를 수집하는 것은 훨씬 더 어려운 문제이다. 에이전트가 복잡한 환경을 탐색할 때 발생하는 interactions의 trajectories을 포함해야 하기 때문이다.

■ 저자들은 LLM의 generalized agent abilities을 향상시키기 위해 AgentInstruct를 구축한다. 구축 과정은 크게 세 가지 단계로 구성된다: Instruction Construction, Trajectory Interaction, Trajectory Filtering

■ 이 과정은 GPT-3.5(gpt-3.5-turbo-0613)와 GPT-4(gpt-4-0613)를 사용하여 전적으로 자동화되었으며, 이를 통해 새로운 agent tasks도 쉽게 확장할 수 있다.

2.1.1 INSTRUCTION CONSTRUCTION

■ AgentInstruct는 다양한 real-world scenarios을 대표하는 6개의 agent tasks(Table 1)에 기반하여 구축되었다. 대부분의 오픈소스 모델들은 이 tasks에서 저조한 성능을 보인다.

■ 만약 특정 task(ALFWorld, WebShop, Mind2Web, Knowledge Graph)에 training set이 있는 경우, 이를 그대로 후속 단계인 trajectory interaction 및 filtering에 해당 training split을 사용한다.

■ training sets이 없는 Operating System 및 Database tasks의 경우 Task Derivation과 Self-Instruct 방식을 사용하여 instruction을 생성한다.

Task Derivation

■ Task Derivation은 해결하고자 task와 유사한 데이터 혹은 task에 대한 정의로부터 해당 task의 데이터를 생성하는 것이다.

■ 저자들은 SELECT문만으로 구성된 database benchmark인 BIRD로부터, Database (DB) task에 대한 instructions을 파생시켰다.

■ 이 과정에 대해 저자들은 두 가지 방식의 task derivation을 제안한다.
- (1) 먼저 BIRD의 subtask에 있는 질문과 reference SQL 구문을 사용하여 trajectory를 구성한다.
- 그런 다음 reference SQL 구문을 database에 query하여 나온 결과를 에이전트의 답변으로 사용한다. 마지막으로, GPT-4에게 이 정보를 제공하여 에이전트의 thoughts을 보완하게 한다.
- 이런 방식으로 BIRD dataset에서 올바른 trajectories을 생성할 수 있다.
- 그러나 이 방식은 상호작용 턴 수를 2번으로 고정된다는 한계가 있기 때문에, 저자들은 두 번째 방식도 함께 제안한다.
- (2) 이 방식은 다양성을 향상시키기 위해, trajectory를 먼저 구성하는 대신 instruction을 먼저 구성한다.
- BIRD의 질문으로 GPT-4를 프롬프팅하고, GPT-4가 database와 상호작용한 trajectory를 수집한다.
- trajectories을 수집한 후, BIRD의 reference SQL 구문을 실행하여 GPT-4가 도출한 결과와 비교해서 성공한 사례들만 선별한다.

Self-Instruct

■ Operating System (OS) task의 경우, 터미널에서 OS를 조작하는 내용이 포함된 instructions을 수집하기가 어려워 Self-Instruct method를 사용한다.

■ 먼저 GPT-4를 프롬프팅하여 몇 가지 OS 관련 tasks과 그 task에 대한 설명, reference solution, 그리고 평가 스크립트를 생성하게 한다.

■ 그런 다음, 다른 GPT-4 인스턴스가 solver 역할을 맡아 해당 task를 해결하는 trajectory를 생성하게 한다.

■ 마지막으로, reference solution을 실행하고 평가 스크립트를 사용하여 얻은 결과를 solver GPT-4의 결과와 비교한다. reference solution과 solver의 solution이 동일한 경우(즉, 성공한 사례)만 trajectory를 수집한다.

■ DB task의 경우 BIRD는 SELECT에 대한 데이터만 포함하고 있어, 유사한 self-instruct 접근법을 통해 다른 유형의 데이터베이스 연산(INSERT, UPDATE, DELETE) 데이터도 구성한다.

■ 이러한 Task Derivation과 Self-Instruct 방식은 test data leakage 위험이 있다. 예를 들어 GPT-4가 테스트셋과 동일한 instruction을 생성했거나, 파생에 사용한 원본 데이터셋이 테스트 데이터셋과 겹칠 가능성이 있기 때문이다.

■ 저자들은 data leakage 여부를 확인하기 위한 분석을 수행했으나, 이를 발견하지 못했다고 언급한다. (Appendix B)

2.1.2 TRAJECTORY INTERACTION

■ 초기 instructions을 구성한 후, trajectory interaction을 위한 에이전트로 GPT-4(gpt-4-0613)를 사용한다.

■ 그리고 trajectory interaction 과정에서 1-shot evaluation approach를 사용한다. 그 이유는 agent task가 요구하는 출력 형식이 매우 엄격하기 때문이다. 그래서 각 task마다 training set에서 가져온 완전한 성공 사례(상호작용 과정) 하나를 함께 제공한다.

Interaction Process

■ interaction process는 두 단계로 이루어진다. 모델에게 task description과 successful 1-shot example을 제공하여 interaction을 시작한다.

■ 모델은 task description 및 successful 1-shot example과 이전 피드백을 바탕으로 thought을 형성하고 action을 취한다. 그러면 환경은 가능한 변경 사항이나 새로운 정보를 포함한 피드백을 반환한다.

■ 이 사이클은 모델이 목표를 달성하거나 토큰 한도에 도달할 때까지 계속된다. 단, 모델이 동일한 출력을 세 번 연속으로 반복할 경우 반복적인 실패로 간주한다.

■ 모델의 출력 형식이 잘못된 경우에는, BLEU metric을 사용하여 모든 가능한 action 후보들과 비교해 가장 가까운 것을 그 단계의 action으로 선택한다.

CoT Rationales

■ 저자들은 CoT가 LLM의 추론 능력을 향상시킨다는 점에 주목하여, final action을 생성하기 전에 CoT explanation을 출력하는 ReACT를 reasoning framework로 채택했다.

■ 결과적으로, 수집된 interaction trajectories 내의 모든 action에는 상세한 explanation trace가 포함된다. 저자들은 이를 통해 모델이 왜 그런 action을 선택해야 하는지에 대한 추론 과정을 학습할 수 있다고 본다.

■ thoughts 없이 Task Derivation을 사용하여 생성된 trajectories의 경우, ReAct 프롬프팅과의 일관성을 위해 GPT-4를 사용하여 thought를 보충한다.

2.1.3 TRAJECTORY FILTERING

■ real-world scenarios을 포함하는 agent tasks은 매우 어렵기 때문에 GPT-4조차도 실수가 발생할 수 있다. 이를 고려해 trajectories을 필터링하여 성공한 사례만 선별한다.

■ 각 interaction trajectory이 reward \( r \)을 받기 때문에, 이 \( r \)을 기반으로 high-quality의 trajectories을 선택할 수 있다.

■ \( r = 1 \)(즉, 완벽한 성공)을 기준으로 Mind2Web을 제외한 모든 tasks의 trajectories을 필터링한다. Mind2Web는 난이도를 고려하여 충분한 수의 trajectories을 확보하기 위해 \( r \geq \frac{2}{3} \)을 사용한다.

■ Table 2는 이러한 필터링 전략의 효과를 보여준다. 7B 모델을 대상으로, 필터링된 trajectory와 필터링되지 않은 trajectory로 각각 학습했을 때의 성능을 비교한 결과이다.

■ unfiltered trajectory로 학습한 모델은 held-in과 held-out task 모두에서 filtered trajectory로 학습한 모델보다 성능이 낮은 것을 볼 수 있다.

■ 저자들은 이를 근거로, agent task에서는 단순히 데이터 양을 늘리는 것보다 데이터 품질이 훨씬 더 중요하다고 해석한다.

■ 이러한 필터링 과정을 거쳐 최종적으로 AgentInstruct에는 1,866개의 trajectories이 포함된다.

2.2 INSTRUCTION TUNING

2.2.1 GENERAL DOMAIN INSTRUCTIONS

■ 저자들은 agent 능력을 향상시키더라도 모델의 언어 능력을 유지하기 위해, agent 데이터만이 아니라 일반 도메인의 데이터도 함께 사용해야 한다고 본다.

■ 이를 위해 ShareGPT dataset에서 영어 대화를 선별하여, GPT-3.5로 생성된 57,096개 대화와 GPT-4로 생성된 3,670개 대화를 확보한다.

■ 또한, GPT-4 응답의 품질이 더 우수하다는 이전 연구의 결과를 반영하여, 더 나은 성능을 위해 GPT-4 : GPT-3.5 = 1 : 4의 샘플링 비율을 사용한다.

2.2.2 MIXTURE TRAINING

■ instruction과 history \( x \)가 주어졌을 때, 응답 \( y \)의 확률분포 \( \pi_0(y \mid x) \)를 출력하는 base mode \( \pi_0 \)을 사용하며, 두 가지 데이터셋을 고려한다: AgentInstruct dataset \( \mathcal{D}_{\text{agent}} \)와 general dataset \( \mathcal{D}_{\text{general}} \)

■ \( \eta \)는 \( \mathcal{D}_{\text{agent}} \)와 \( \mathcal{D}_{\text{general}} \)의 혼합 비율이다.

■ 목표는 식 (1)에 표시된 것처럼 loss function \( J(\theta) \)를 최소화하는 best policy \( \pi_\theta(y \mid x) \)를 찾는 것이다.

■ 직관적으로는 에이전트의 능력을 끌어내기 위해 에이전트 데이터에 더 큰 비중을 두어야 한다고 생각할 수 있다.

■ 그러나 저자들은 실험을 통해 에이전트 데이터(\( \mathcal{D}_{\text{agent}} \))가 너무 많으면 unseen tasks에서 오히려 더 나쁜 성능을 보인다는 것을 관찰했다.

■ 최적의 \( \eta \)를 결정하기 위해 7B 모델에서 0.1 간격으로 0에서 1까지 스캔하였고, held-out tasks에서 가장 우수한 성능을 보인 \( \eta = 0.2 \)를 final training을 위해 선택했다.
- 이는 에이전트 데이터가 너무 많으면 일반화 능력이 훼손(held-out tasks에서 성능이 저조)될 수 있음을 시사한다.

2.2.3 TRAINING SETUP

■ instruction-following 능력이 뛰어나고 traditional NLP tasks에서 좋은 성능을 보이는 Llama 2의 chat version (Llama-2-{7,13,70}b-chat)을 사용한다.

■ Vicuna 모델을 따라, 모든 데이터를 multi-turn chatbot-style format으로 표준화하여 다른 출처의 데이터를 자연스럽게 혼합할 수 있도록 한다.

■ fine-tuning 동안에는 모델의 출력에 대해서만 loss를 계산하며, Megatron-LM을 사용해 7B, 13B, 70B 크기의 모델들을 fine-tune한다.

■ 7B 및 13B 모델의 경우 5e-5, 70B 모델의 경우 1e-5의 학습률을 사용하고, batch size는 64, sequence length는 4096을 사용한다.

■ AdamW와 cosine scheduler, 2% warm-up을 사용하며, 효율적인 학습을 위해 7B와 13B에는 tensor parallelism을, 70B에는 추가로 pipeline parallelism을 적용한다.

3. EXPERIMENTS

3.1 EVALUATIONSETUP

Held-in/outTasks

■ held-in tasks은 AgentBench에서 선택한 6개의 tasks로 ALFWorld, WebShop, Mind2Web 등이 포함된다.

■ held-out tasks의 경우 SciWorld, MiniWoB++, WebArena 등을 포함하는 또 다른 6개의 tasks을 사용한다. 이를 통해 unseen agent tasks에 대한 일반화 능력을 검증한다.

General Tasks

■ 모델의 general capabilities을 종합적으로 평가하기 위해, 해당 분야에서 널리 사용되는 4개의 tasks을 사용한다: MMLU, GSM8K, Humaneval, MT-Bench

■ 이들은 각각 모델의 지식 능력, 수학적 추론 능력, 코딩 능력, human preference를 반영한다.

Baselines

■ Fig 1에서 볼 수 있듯이 상용 모델들은 agent tasks에서 오픈소스 모델보다 훨씬 강한 성능을 보인다. 이 점을 고려하여 GPT-3.5와 GPT-4를 사용한다.

■ 그리고 비교를 위해 agent tasks에 필수적인 instruction-following 능력이 base model보다 우수한 open-source Llama 2 chat version (Llama-2-{7,13,70}b-chat)을 평가한다.

■ AgentBench를 따라, model length limits을 초과하는 대화 기록은 truncate하고, 기본적으로 greedy decoding을 사용한다. WebArena의 경우 exploration을 위해 \( p = 0.9 \)인 nucleus sampling을 사용한다.

■ 각 task별 프롬프트는 Appendix D에서 볼 수 있다.

Overall Score Calculation

■ agent task마다 난이도가 크게 다르기 때문에, 단순 평균을 사용할 경우 점수가 높은 task가 전체 평가 결과를 지배할 수 있다. 예를 들어 ReWOO처럼 상대적으로 높은 점수가 나오는 task가 WebArena처럼 낮은 점수가 나오는 task를 가려 버릴 수 있다.

■ 이를 막기 위해 저자들은 Agentbench를 따라, 각 task의 점수를 평가된 모델들 전체에 대해 평균이 1이 되도록 정규화한 뒤, 이를 바탕으로 균형 잡힌 overall score를 계산한다. task별 가중치는 Table 3에서 볼 수 있다.

3.2 MAIN RESULTS

■ Table 4는 held-in, held-out에 대한 결과이다. 전반적으로 AgentLM은 Llama 2 시리즈의 다양한 규모에 걸쳐 held-in 및 held-out tasks 모두에서 상당한 향상을 보이는 동시에 general tasks에서의 성능을 유지한다.

■ held-in tasks에서의 향상이 held-out tasks보다 더 두드러지기는 하지만, held-out task에서도 최대 170% 수준의 개선이 나타났다.

■ 일부 tasks에서는 AgentLM의 13B 및 70B 버전이 GPT-4를 능가하기도 했다. 이러한 결과는 general agent로서 AgentLM의 잠재력을 보여준다.

■ 대부분의 held-in tasks에서 Llama 2의 성능은 0에 가까운데, 이는 모델이 이러한 agent tasks을 처리할 능력이 전혀 없음을 의미한다.

■ 저자들은 오류 분석(섹션 3.3)을 통해, Llama 2의 실수의 대부분이 유효하지 않은 instructions나 반복적 행동 등 초보적인 오류임을 밝혀낸다.

■ 반면, AgentLM은 이러한 초보적인 오류들이 크게 줄어들었다. 저자들은 이 점에 대해 AgentTuning이 모델의 에이전트 능력을 활성화하여, 모델이 agent task를 수행하지 못하게 만들던 기본적 문제들을 완화하는 방식으로 작동한다고 본다.

■ held-out tasks에서 70B AgentLM은 GPT-3.5에 필적하는 성능을 달성했다. 7B 모델에 비해 70B 모델에서 훨씬 더 큰 성능 개선(7B는 +76% , 70B는 +176%)을 보인다.

■ 저자들은 이 결과에 대해 더 큰 모델이 일반화 능력이 강하기 때문에 동일한 학습 데이터로도 held-out tasks에 더 잘 일반화할 수 있다고 해석한다.

■ general tasks에서 AgentLM은 knowledge, mathematics, coding, human preferences에 걸쳐 Llama 2와 거의 비슷한 성능을 보인다.

■ 이는 AgentTuning이 agent 능력을 향상시키면서도, 일반적인 언어 모델 능력을 희생시키지 않았음을 의미한다.

3.3 ERROR ANALYSIS

■ 오류 분석을 위해 held-in set에서 세 가지 tasks(ALFWorld, WebShop, Knowledge Graph)을 선택하고 유효하지 않은 행동 및 반복된 생성과 같은 오류 유형을 rule-based approach를 통해 식별하였다.

■ Fig 3a를 보면, 전반적으로 original Llama 2는 반복이나 잘못된 actions 선택처럼 매우 기초적인 오류를 자주 보였다. 대조적으로 GPT-3.5와 GPT-4는 이러한 오류 발생의 빈도가 적다. AgentLM은 이런 기본 오류들의 발생 빈도가 더 줄어든 것을 볼 수 있다.

- Fig 4를 보면, Llama-2는 soapbars 위치에 대해 틀렸음에도 실패를 인지하지 못하고 잘못된 action을 반복한다. 반면 AgentLM은 다른 대안을 탐색하는 것을 볼 수 있다.

■ 이 결과에 대해 저자들은, Llama 2 chat이 본질적으로 에이전트 능력을 보유하고 있음에도 불구하고, 에이전트 데이터에 대한 alignment training이 충분하지 않아 성능이 낮게 나타났으며, AgentTuning이 이러한 에이전트 잠재력을 효과적으로 활성화한 것이라고 주장한다.

3.4 ABLATION STUDY

Effect of Agent & General Instructions

■ Table 5는 agent 데이터만으로 학습했을 때와 general 데이터만으로 학습했을 때, 그리고 두 데이터를 혼합했을 때를 비교한 결과이다.

■ 에이전트 데이터로만 학습하는 것은 held-in task의 결과를 크게 향상시키지만, held-out agent task와 general task에서의 성능이 크게 떨어진다.

■ general 데이터만으로 학습한 경우에는 held-out task와 general task에서는 비교적 나은 수준을 보이지만, held-out agent task에서의 성능이 충분히 올라가지 않는다.

■ 이에 비해 agent 데이터와 general 데이터를 함께 섞어 학습한 AgentLM은 held-in, held-out, general task 모두에서 거의 최고의 성능을 달성한다.

■ 저자들은 이를 근거로, agent 능력의 일반화에는 agent-specific 데이터만이 아니라 일반적인 언어 능력 자체가 필수적이라고 해석한다.

■ 그리고 7B와 13B의 혼합 학습 결과를 보면, held-out task에서의 성능 향상은 general 데이터만으로 학습한 것과 거의 비슷하다. 반면, 70B에서는 mixed training이 훨씬 큰 성능 향상을 가져온다.

■ 이에 대해 저자들은 agent tasks에서 optimal generalization을 달성하려면, 일정 수준의 모델 크기가 필요할 수 있다고 추측한다.

Effect of Different Tasks

■ AgentInstruct에 포함된 개별 task들이 다른 task의 성능에 얼마나 기여하는지 실험한다.

■ 이를 위해 Llama-7B-chat을 사용하여, 각 task 하나만으로 fine-tuning했을 때 다른 task들에서의 성능 변화가 어떻게 나타나는지를 확인했다. (Fig 3b)

■ Fig 3b를 보면, fine-tuning이 자기 자신에 해당하는 task 성능을 가장 크게 향상시키지만, 동시에 일부 task는 다른 task에도 긍정적인 전이 효과를 보였다.

■ 이는 특정 agent task를 위한 학습이 전혀 독립적인 것이 아니라, 다른 agent task에도 일정 부분 도움이 될 수 있음을 시사한다.

■ 많은 tasks이 다른 tasks에 도움을 주지만, Mind2Web에서는 이러한 효과가 매우 제한적으로 나타난다. 저자들은 그 이유가 Mind2Web은 single-round format인 반면 다른 task들은 multi-round로 구성되어 있기 때문이라고 추측한다.

'Agent' 카테고리의 다른 글

[MemGPT] Towards LLMs as Operating Systems (0)	2026.04.27
[τ-bench] A Benchmark for Tool-Agent-User Interaction in Real-World Domains (0)	2026.04.25
[ToolLLM] Facilitating Large Language Models to Master 16000+ Real-world APIs (0)	2026.04.21
[Gorilla] Large Language Model Connected with Massive APIs (0)	2026.04.20
[Toolformer] Language Models Can Teach Themselves to Use Tools (0)	2026.04.18

Hyun_Jae

[AgentTuning] Enabling Generalized Agent Abilities for LLMs

1. INTRODUCTION