본문 바로가기

자연어처리

(50)
QLoRA: Efficient Finetuning of Quantized LLMs ■ QLoRA를 간략히 설명하면, LoRA에 양자화를 추가한 학습 방법이다. ■ QLoRA는 65B 파라미터 모델을 GPU 메모리가 48GB인 하나의 GPU로 파인튜닝할 수 있을 만큼 메모리 사용량을 줄이면서도, 16비트 파인튜닝과 동일한 성능을 보존할 수 있는 메모리 효율성을 높인 파인튜닝 접근법이다.■ 이러한 성능을 달성하기 위해서 크게 4-bit NormalFloat(NF4), 2차 양자화(Double Quantization), 페이지 옵티마이저(Paged Optimizers)라는 방법들이 사용되었다. [2305.14314] QLoRA: Efficient Finetuning of Quantized LLMs QLoRA: Efficient Finetuning of Quantized LLMsWe pr..
LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS ■ 자연어 처리에서 중요한 패러다임은 대규모 사전학습 모델의 모든 파라미터를 다운스트림 태스크에 맞게 전부 학습시키는 full fine-tuning 방식이었다. ■ 이 접근은 성능 면에서는 효과적이지만, 모델의 규모가 커질수록 비용과 자원 소모가 급격히 증가한다는 한계가 있다. ■ 예를 들어, GPT-3은 175B 개의 파라미터를 가진 모델이다. 만약, GPT-3로 서로 다른 10가지 태스크에 full fine-tuning한다면, 각 태스크마다 별도의 원본 모델이 필요하므로 175B \( \times \) 10 개의 파라미터를 학습해야 한다. ■ 이는 막대한 GPU 메모리 사용량과 계산 비용을 요구하게 되어 현실적인 응용에 제약이 크다. ■ 이러한 문제를 해결하기 위해 논문에서는, full fine..
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention ■ 논문에서는 Transformer 기반 대규모 언어 모델(LLM)이 무한히 긴 입력(infinitely long inputs)을 처리할 수 있는 방법을 소개한다. 이 방법의 핵심 구성 요소는 "Infini-attention"이라는 새로운 어텐션 기법이다. ■ Infini-attention은 바닐라 어텐션 메커니즘에 '압축 메모리(compressive memory)'를 통합하고, 하나의 트랜스포머 블록 안에 'masked local attention'과 'long-term linear attention' 메커니즘을 모두 구축한다. [2404.07143] Leave No Context Behind: Efficient Infinite Context Transformers with Infini-atten..
Slim attention: cut your context memory in half without loss– K-cache is all you need for MHA ■ 이 논문에서는 "slim attention"이라는 새로운 어텐션 메커니즘을 제안한다. ■ slim attention은 MHA(multi-head attention)를 사용하는 트랜스포머 모델의 context memory 크기를 절반으로 줄여 추론(inference) 속도를 향상시킬 수 있다. ■ 논문에 따르면, slim attention은 standard attention mechanism과 수학적으로 완전히 동일한 구현이므로, 모델 정확도를 저하시키지 않는다고 한다. 즉, slim attention은 긴 길이의 context를 처리할 때, 효율적으로 사용할 수 있다. ■ 인코더-디코더 트랜스포머의 경우, context memory 크기를 더 줄일 수 있다고 한다. [2503.05840] S..
Parameter-Efficient Transfer Learning for NLP ■ 사전학습된 거대한 모델을 파인튜닝하는 것은 NLP에서 효과적인 전이(transfer) 메커니즘이다. ■ 그러나, 많은 다운스트림 태스크들에 대해 이러한 파인튜닝은 파라미터적으로 비효율적이다. 모든 태스크마다 완전히 새로운 모델이 필요하기 때문이다. (모든 태스크에 대해 항상 사전학습된 모델을 다시 학습(파인튜닝)시켜야 하기 때문이다.) - 예를 들어, 100억개의 파라미터를 가진 사전학습된 모델을 100개의 태크스에 적용하려면, 총 100억*100개의 파라미터를 사용하게 된다. ■ 이에 대한 대안으로, 논문에서는 어댑터 모듈(adapter module)을 사용한 전이 메커니즘을 제안한다. [1902.00751] Parameter-Efficient Transfer Learning for NLP P..
Self-attention Does Not Need O(n^2) Memory ■ 트랜스포머의 핵심인 셀프 어텐션은 시퀀스 내의 모든 단어(토큰)가 다른 모든 단어와 얼마나 관련이 있는지 계산한다. ■ 시퀀스 길이가 \( n \)이라면, 모든 단어 쌍의 연관성을 담은 \( n \times n \) 크기의 행렬을 만들어 메모리에 저장하기 때문에 GPU 메모리를 빠르게 소모하게 만든다. ■ standard 셀프 어텐션(self-attention)은 \( O(n^2) \)의 메모리를 필요로 한다. 즉, 어텐션의 메모리 요구사항을 줄이면, 더 긴 시퀀스의 처리가 가능하다. ■ 논문에서는 시퀀스 길이에 대해 \( O(1) \) 메모리를, 셀프 어텐션으로의 확장에 대해 \( O( \log n) \) 메모리를 필요로 하는 매우 간단한 어텐션 알고리즘을 제안한다. [2112.05682]..
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (2) 3. Experiments3.3 Unsupervised Objectives ■ 전이 학습 파이프라인에서 unsupervised objective의 선택은 매우 중요하다. 이는 레이블이 없는 데이터를 통해 모델이 다운스트림 태스크에 적용할 수 있는 general-purpose knowledge을 학습하게 하기 때문이다. ■ 이러한 배경에서 다양한 unsupervised pretraining objective들이 제안되었으며, 이 섹선에서는 저자들이 objective들을 비교하여 어떤 방식이 효과적인지 확인한다. 비교 대상인 objective들은 Table 3.에서 확인할 수 있다.■ 모든 objective를 그대로 구현하지 않고, 어떤 경우에는 저자들이 제안한 "text-to-text encoder-de..
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (1) ■ 모델이 다운스트림 태스크에 맞게 파인튜닝되기 전에 데이터가 풍부한 태스크에서 먼저 사전훈련되는 전이 학습(transfer learning)은 NLP에서 강력한 기술로 다운스트림 태스크의 성능을 향상시키는 데 중요한 역할을 하고 있다. ■ 논문에서는 모든 택스트 기반 언어 문제를 "텍스트-투-텍스트(text-to-text)" 형식으로 변환하는 프레임워크를 도입함으로써 전이 학습의 새로운 방향을 제시한다. ■ 수십 개의 language understanding 태스크에 대해 사전학습의 목적함수, 아키텍처, unlabeled data sets, 전이 학습 접근법, 그리고 이외에 다른 요인들을 비교한다. [1910.10683] Exploring the Limits of Transfer Learning w..