본문 바로가기

전체 글

(206)
Parameter-Efficient Transfer Learning for NLP ■ 사전학습된 거대한 모델을 파인튜닝하는 것은 NLP에서 효과적인 전이(transfer) 메커니즘이다. ■ 그러나, 많은 다운스트림 태스크들에 대해 이러한 파인튜닝은 파라미터적으로 비효율적이다. 모든 태스크마다 완전히 새로운 모델이 필요하기 때문이다. (모든 태스크에 대해 항상 사전학습된 모델을 다시 학습(파인튜닝)시켜야 하기 때문이다.) - 예를 들어, 100억개의 파라미터를 가진 사전학습된 모델을 100개의 태크스에 적용하려면, 총 100억*100개의 파라미터를 사용하게 된다. ■ 이에 대한 대안으로, 논문에서는 어댑터 모듈(adapter module)을 사용한 전이 메커니즘을 제안한다. [1902.00751] Parameter-Efficient Transfer Learning for NLP P..
Self-attention Does Not Need O(n^2) Memory ■ 트랜스포머의 핵심인 셀프 어텐션은 시퀀스 내의 모든 단어(토큰)가 다른 모든 단어와 얼마나 관련이 있는지 계산한다. ■ 시퀀스 길이가 \( n \)이라면, 모든 단어 쌍의 연관성을 담은 \( n \times n \) 크기의 행렬을 만들어 메모리에 저장하기 때문에 GPU 메모리를 빠르게 소모하게 만든다. ■ standard 셀프 어텐션(self-attention)은 \( O(n^2) \)의 메모리를 필요로 한다. 즉, 어텐션의 메모리 요구사항을 줄이면, 더 긴 시퀀스의 처리가 가능하다. ■ 논문에서는 시퀀스 길이에 대해 \( O(1) \) 메모리를, 셀프 어텐션으로의 확장에 대해 \( O( \log n) \) 메모리를 필요로 하는 매우 간단한 어텐션 알고리즘을 제안한다. [2112.05682]..
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (2) 3. Experiments3.3 Unsupervised Objectives ■ 전이 학습 파이프라인에서 unsupervised objective의 선택은 매우 중요하다. 이는 레이블이 없는 데이터를 통해 모델이 다운스트림 태스크에 적용할 수 있는 general-purpose knowledge을 학습하게 하기 때문이다. ■ 이러한 배경에서 다양한 unsupervised pretraining objective들이 제안되었으며, 이 섹선에서는 저자들이 objective들을 비교하여 어떤 방식이 효과적인지 확인한다. 비교 대상인 objective들은 Table 3.에서 확인할 수 있다.■ 모든 objective를 그대로 구현하지 않고, 어떤 경우에는 저자들이 제안한 "text-to-text encoder-de..
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (1) ■ 모델이 다운스트림 태스크에 맞게 파인튜닝되기 전에 데이터가 풍부한 태스크에서 먼저 사전훈련되는 전이 학습(transfer learning)은 NLP에서 강력한 기술로 다운스트림 태스크의 성능을 향상시키는 데 중요한 역할을 하고 있다. ■ 논문에서는 모든 택스트 기반 언어 문제를 "텍스트-투-텍스트(text-to-text)" 형식으로 변환하는 프레임워크를 도입함으로써 전이 학습의 새로운 방향을 제시한다. ■ 수십 개의 language understanding 태스크에 대해 사전학습의 목적함수, 아키텍처, unlabeled data sets, 전이 학습 접근법, 그리고 이외에 다른 요인들을 비교한다. [1910.10683] Exploring the Limits of Transfer Learning w..
Multi-Task Deep Neural Networks for Natural Language Understanding [1901.11504] Multi-Task Deep Neural Networks for Natural Language Understanding Multi-Task Deep Neural Networks for Natural Language UnderstandingIn this paper, we present a Multi-Task Deep Neural Network (MT-DNN) for learning representations across multiple natural language understanding (NLU) tasks. MT-DNN not only leverages large amounts of cross-task data, but also benefits from a regulariza..
BART(Bidirectional Auto-Regressive Transformers): Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension ■ 논문에서는 시퀀스-투-시퀀스 모델(트랜스포머 인코더-트랜스포머 디코더)을 사전학습시키기 위한 denoising autoencoder인 BART를 제안한다. ■ BART의 훈련 방식은 (1) 임의의 노이즈 함수(noising function)로 텍스트를 변형시킨 다음, (2) 이를 원래대로 복원하도록 모델을 학습시키는 것으로 이루어진다. ■ BART는 단순한 아키텍처임에도 불구하고 양방향 인코더를 가진다는 점에서 BERT를, 좌에서 우로 생성하는 디코더를 가진다는 점에서 GPT를, 그리고 다른 많은 최신 사전학습 방법론들을 일반화한 모델이다. BERT와 GPT의 장점을 결합한 모델로 볼 수 있다. [1910.13461] BART: Denoising Sequence-to-Sequence Pre-trai..
XLNet: Generalized Autoregressive Pretraining for Language Understanding ■ 양방향 문맥을 모델링할 수 있는 능력 덕분에, BERT와 같은 denoising autoencoding 기반의 사전훈련 방식은 기존의 자기회귀(auto-regressive) 언어 모델링 기반의 접근법(예: GPT)들보다 더 나은 성능을 보여주었다. ■ 그러나, denoising autoencoding은 입력 데이터 일부를 mask로 손상시키는 방식에 의존하기 때문에, BERT는 마스크된 토큰들 간의 의존 관계를 학습하지 못하며, 사전훈련과 파인튜닝 단계 간의 불일치 문제라는 한계를 가진다. ■ 저자들은 auto-regressive(AR) 모델과 auto-encoder(AE) 모델의 장점을 합친 XLNet이라는 모델을 제안하였다. ■ XLNet은 자기회귀 모델인 Transformer-XL의 핵심 아이디..
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context ■ 트랜스포머는 장기 의존성을 학습할 수 있는 능력이 있지만, 한 번에 처리할 수 있는 토큰의 수는 정해져 있었다. (fixed-length context) ■ 그래서 매우 긴 문서를 처리하려면, 이 문서를 정해진 토큰의 수(예: 512 토큰 길이)에 맞춰 여러 개의 세그먼트(segment)로 잘라서 처리해야 한다. ■ 이렇게 여러 개의 세그먼트로 자르게 되면, 두 번째 세그먼트는 첫 번째 세그먼트의 정보를 전혀 알 수 없다. 즉, 토큰 길이를 넘어서는 장기적인 의존성을 학습할 수 없다. - 두 번째 세그먼크의 첫 번째 단어(513번째 단어)는 예측에 필요한 앞선 문맥(첫 번째 세그먼트 = 1~512번 단어)을 전혀 볼 수 없다. - 이렇게 시퀀스의 초반부를 학습하는 데 필요한 문맥 정보가 단절되어 ..