본문 바로가기

전체 글

(214)
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention ■ 트랜스포머의 self-attention은 입력 길이에 대한 2차 복잡도(quadratic complexity) 때문에 매우 긴 시퀀스에 대해서는 속도가 엄청 느리다는 한계를 가진다.■ 논문에서는 이 한계를 해결하기 위해 self-attention을 커널 특징 맵(kernel feature maps)의 선형 내적(linear dot-product)으로 표현하고, 행렬 곱의 결합 법칙(associativity property)을 이용하여 복잡도를 \( O(N^2) \)에서 \( O(N) \)으로 줄이는 방법을 제안한다. [2006.16236] Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention Transformer..
ZEPHYR: DIRECT DISTILLATION OF LM ALIGNMENT ■ AI에서 Alignment란 인간의 목표, 선호도, 원칙에 맞추어 조정하는 과정을 말하며, 윤리적 기준, 사회적 가치, 개별 사용자의 특정 요구를 반영하도록 조정하는 것을 포함한다. ■ 이런 alignment를 달성하기 위해, 인간의 행동을 더 잘 반영하는 손실 함수들(PPO, DPO 등)이 제시되었다. ■ 이 논문에서는 사용자 의도에 aligned된, 더 작은 언어 모델을 만드는 것을 목표로 한다. ■ 이전 연구는 더 큰 모델에 dSFT(distilled supervised fine-tuning)를 사용하여 태스크의 정확도를 향상시켰다. 그러나 태스크 프롬프트에 한해 학습을 했기 때문에, 자연스로운 프롬프트에는 잘 응답하지 않는다. 즉, unaligned이다. ■ 논문에서는 이러한 문제를 해..
Cholesky decomposition 1. Cholesky decomposition1.1 Cholesky decomposition 란■ 행렬 \( A \)가 대칭행렬이라고 했을 때, \( A = A^T \)이다. ■ 이 대칭행렬 \( A \)에 대해 \( LU \)분해가 존재하면 \( A = LU \)로 나타낼 수 있고, 대칭행렬이기 때문에 \( A = LU = A^T = U^T L^T \)로 나타낼 수 있다. ■ \( A = LU = U^T L^T = A^T \)이므로, 하삼각행렬 \( U \)는 상삼각행렬의 전치 \( L^T \)와 동일함을 알 수 있다. \( U = L^T \) ■ 즉 행렬 \( A \)를 상삼각행렬과 상삼각행렬의 전치로 나타낼 수 있다. \( A = LL^T \) ■ (\( A \)가 대칭행렬이라는 가정 하) \..
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration (2) 4. EXPERIMENTS4.1 SettingsQuantization.■ 저자들은 연구 전반에 걸쳐, 그룹 크기 128의 가중치 그룹 양자화(grouped quantization)를 수행하였다.- 그룹 양자화는 성능/모델 크기의 trade-off를 개선하는 데 도움이 되기 때문이다. ■ 그리고 INT4/INT3 양자화에 초점을 맞췄는데, AWQ를 통해 LLM의 성능을 대부분 보존할 수 있기 때문이다. ■ 이때 AWQ를 위해, 특정 다운스트림 도메인에 과적합되지 않도록, Pile 데이터셋에서 가져온 작은 보정셋을 사용하였다.■ 수식 (5)의 최적 \( \alpha \)를 탐색하기 위해서, [0, 1] 구간에 대해 20의 grid size를 사용하였다.Models.■ 자신들의 방법을 적용할 테스트 모델로 ..
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration (1) ■ 논문에서는 LLM의 가중치 중 단 1%만이 성능에 결정적이라는 사실에 착안한 AWQ라는 하드웨어 친화적인 양자화 방식을 소개한다. ■ AWQ의 특징은 하드웨어 비효율적(hardware-inefficient)인 혼합 정밀도 양자화(mix-precision quantization) 방식을 사용하지 않는다. 중요한 가중치 채널을 식별하기 위해 가중치 분포가 아닌 활성화(activation) 분포를 확인한다. ■ 그리고, 양자화 오차를 줄이기 위한 방법으로 중요한 가중치 채널을 스케일업(scaling up)한다. ■ 또한, 모델 일반화를 위해 어떠한 역전파나 재구성 과정이 없다. 그래서 GPTQ처럼 보정 데이터를 사용하지 않는다. ■ 일반화 성능을 향상시킴으로써 지시-튜닝된(instruction-tuned..
Distilling the Knowledge in a Neural Network ■ 거의 모든 머신러닝 알고리즘의 성능을 향상시키는 간단한 방법은 동일한 데이터에 대해 서로 다른 많은 모델들을 train시킨 후 그 예측값들을 평균 내는 것이다. (model ensembling) ■ 그러나 모델 앙상블을 사용하여 예측을 수행하는 것은 다루기 번거로우며, 특히 각각의 모델들이 거대한 신경망일 경우 모델을 배포하기에는 막대한 계산 비용이 발생할 수 있다. ■ 선행 연구(Model Compression)에서 앙상블이 가진 지식(knowledge)을 배포하기 훨씬 쉬운 단일 모델로 압축하는 것이 가능함을 보여주었다. ■ 이 논문은 선행 연구의 접근법을 더욱 발전시켜 Knowledge Distillation라는 기법을 최초로 제안한 연구로, Teacher model과 Student mode..
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers (2) 3. The GPTQ Algorithm Step 1: Arbitrary Order Insight.■ OBQ는 매 스텝마다 모든 가중치에 대해 양자화 오차를 가장 적게 발생시키는 가중치를 선택하여 양자화를 적용한다. ■ 그러나 저자들은 OBQ처럼 greedy한 양자화 순서 선택이, 임의의 순서로 양자화하는 것이 비해 큰 차이가 없음을 발견했다. 특히 크고, 파라미터가 많은 레이어에서는 더욱 차이가 없었다고 한다. ■ 이 이유에 대해 저자들은 다음과 같이 추측한다. - OBQ의 방식으로 최적의 순서를 따라 양자화를 진행하면, 양자화하기 까다로운(오차가 큰) 가중치들은 맨 마지막 순서로 미뤄진다. - OBQ 방식은 행을 양자화할 때, 실제로 필요한 것은 헤세 행렬의 역행렬이었으며, 이 헤세 행렬의 역행렬..
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers (1) ■ GPT, OPT같은 생성형 사전학습 트랜스포머 모델(generative pre-trained Transformer model)들은 복잡한 언어 모델링 태스크 전반에 걸쳐 뛰어난 성능을 보이지만, 동시에 극도로 높은 계산 및 저장 비용이 발생한다. ■ 특히, 이런 LLM의 추론에만 여러 개의 고성능 GPU가 필요하기 때문에, 일반적인 환경에서는 사용할 수 없다. ■ 이런 모델을 사용하기 위한 방법으로, 모델 압축(양자화 등)을 통해 계산/저장 비용 부담을 완화하려는 연구들이 있지만, 기존 방법들은 거대한 LLM의 규모와 복잡성 때문에 적용하기 어렵거나 성능 유지가 좋지 않다.■ 이 논문에서는 위와 같은 문제를 완화하기 위한 방법으로 GPTQ를 제안한다. ■ 논문에 따르면, GPTQ로 약 4 GPU 시간..