분류 전체보기 (181) 썸네일형 리스트형 LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale ■ 트랜스포머 기반 LLM은 추론을 위해서 상당한 GPU 메모리가 필요하다. ■ 저자들은 트랜스포머의 피드-포워드 및 어텐션 투영 레이어를 위한 INT8 행렬 곱셈 방식을 개발하여, 완전한 정밀도를 유지하면서, 추론에 필요한 메모리를 절반으로 줄였다. ■ 구체적으로, LLM.int8() 이라는 두 부분으로 구성된 양자화 방식을 개발했다. 이 방식은 이상치와 정상 범위의 값을 분리해서 양자화한다. 이 방식으로 175B 파라미터(GPT-3 크기)를 가진 LLM에서 성능 저하 없이 추론 수행이 가능함을 보여준다. [2208.07339] LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale LLM.int8(): 8-bit Matrix Mult.. GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints (Grouped-Query Attention) ■ "Fast Transformer Decoding" 논문에서 제안된 하나의 key-value 헤드만을 사용하는 Multi-query Attention(MQA)은 디코더 추론 속도를 극적으로 향상시킬 수 있었지만, MHA에 비해 성능이 떨어지는 문제가 있었다. ■ 이 논문에서는 사전학습 계산량의 5%만을 사용하여 MQA 모델로 "업트레이닝(uptraining)"하는 방법을 제안하고, query 헤드의 수보다는 적고, 하나보다는 많은 중간 개수의 key-value 헤드를 사용하는 grouped-query attention(GQA)을 소개한다. [2305.13245] GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Che.. GPT-3: Language Models are Few-Shot Learners ■ 대규모 텍스트 코퍼스에서 pre-training한 후 특정 태스크에 대해 fine-tuning하는 방법은, 많은 NLP 태스크와 벤치마크에서 상당햔 향상을 보여주었다. ■ 이 방법은 일반적으로 모델 아키텍처 측면에서는 태스크에 구애받지 않지만(task-agnostic), 즉 모델 아키텍처가 범용적으로 사용될 수 있음에도 불구하고, 특정한 태스크에서 우수한 성능을 달성하기 위해서는 여전히 task-specific한 데이터셋이나 task-specific한 파인튜닝이 충분히 수행되어야 한다는 한계가 있다.- task-agnostic이란 태스크와 독립적이다. 태스크와 무관하다. ■ 대조적으로, 인간은 단지 몇 개의 예제나 간단한 지시만으로 새로운 언어 태스크를 수행할 수 있다. ■ 저자들은 이 한계를 극복.. Fast Transformer Decoding: One Write-Head is All You Need (Multi-Query Attention) [1911.02150] Fast Transformer Decoding: One Write-Head is All You Need Fast Transformer Decoding: One Write-Head is All You NeedMulti-head attention layers, as used in the Transformer neural sequence model, are a powerful alternative to RNNs for moving information across and between sequences. While training these layers is generally fast and simple, due to parallelizability acrossarxiv.org 1. I.. QLoRA: Efficient Finetuning of Quantized LLMs ■ QLoRA를 간략히 설명하면, LoRA에 양자화를 추가한 학습 방법이다. ■ QLoRA는 65B 파라미터 모델을 GPU 메모리가 48GB인 하나의 GPU로 파인튜닝할 수 있을 만큼 메모리 사용량을 줄이면서도, 16비트 파인튜닝과 동일한 성능을 보존할 수 있는 메모리 효율성을 높인 파인튜닝 접근법이다.■ 이러한 성능을 달성하기 위해서 크게 4-bit NormalFloat(NF4), 2차 양자화(Double Quantization), 페이지 옵티마이저(Paged Optimizers)라는 방법들이 사용되었다. [2305.14314] QLoRA: Efficient Finetuning of Quantized LLMs QLoRA: Efficient Finetuning of Quantized LLMsWe pr.. LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS ■ 자연어 처리에서 중요한 패러다임은 대규모 사전학습 모델의 모든 파라미터를 다운스트림 태스크에 맞게 전부 학습시키는 full fine-tuning 방식이었다. ■ 이 접근은 성능 면에서는 효과적이지만, 모델의 규모가 커질수록 비용과 자원 소모가 급격히 증가한다는 한계가 있다. ■ 예를 들어, GPT-3은 175B 개의 파라미터를 가진 모델이다. 만약, GPT-3로 서로 다른 10가지 태스크에 full fine-tuning한다면, 각 태스크마다 별도의 원본 모델이 필요하므로 175B \( \times \) 10 개의 파라미터를 학습해야 한다. ■ 이는 막대한 GPU 메모리 사용량과 계산 비용을 요구하게 되어 현실적인 응용에 제약이 크다. ■ 이러한 문제를 해결하기 위해 논문에서는, full fine.. Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention ■ 논문에서는 Transformer 기반 대규모 언어 모델(LLM)이 무한히 긴 입력(infinitely long inputs)을 처리할 수 있는 방법을 소개한다. 이 방법의 핵심 구성 요소는 "Infini-attention"이라는 새로운 어텐션 기법이다. ■ Infini-attention은 바닐라 어텐션 메커니즘에 '압축 메모리(compressive memory)'를 통합하고, 하나의 트랜스포머 블록 안에 'masked local attention'과 'long-term linear attention' 메커니즘을 모두 구축한다. [2404.07143] Leave No Context Behind: Efficient Infinite Context Transformers with Infini-atten.. Slim attention: cut your context memory in half without loss– K-cache is all you need for MHA ■ 이 논문에서는 "slim attention"이라는 새로운 어텐션 메커니즘을 제안한다. ■ slim attention은 MHA(multi-head attention)를 사용하는 트랜스포머 모델의 context memory 크기를 절반으로 줄여 추론(inference) 속도를 향상시킬 수 있다. ■ 논문에 따르면, slim attention은 standard attention mechanism과 수학적으로 완전히 동일한 구현이므로, 모델 정확도를 저하시키지 않는다고 한다. 즉, slim attention은 긴 길이의 context를 처리할 때, 효율적으로 사용할 수 있다. ■ 인코더-디코더 트랜스포머의 경우, context memory 크기를 더 줄일 수 있다고 한다. [2503.05840] S.. 이전 1 2 3 4 ··· 23 다음