ZEPHYR: DIRECT DISTILLATION OF LM ALIGNMENT
■ AI에서 Alignment란 인간의 목표, 선호도, 원칙에 맞추어 조정하는 과정을 말하며, 윤리적 기준, 사회적 가치, 개별 사용자의 특정 요구를 반영하도록 조정하는 것을 포함한다. ■ 이런 alignment를 달성하기 위해, 인간의 행동을 더 잘 반영하는 손실 함수들(PPO, DPO 등)이 제시되었다. ■ 이 논문에서는 사용자 의도에 aligned된, 더 작은 언어 모델을 만드는 것을 목표로 한다. ■ 이전 연구는 더 큰 모델에 dSFT(distilled supervised fine-tuning)를 사용하여 태스크의 정확도를 향상시켰다. 그러나 태스크 프롬프트에 한해 학습을 했기 때문에, 자연스로운 프롬프트에는 잘 응답하지 않는다. 즉, unaligned이다. ■ 논문에서는 이러한 문제를 해..