본문 바로가기

전체 글

(224)

Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads ■ autoregressive decoding 방식은 각 step이 이전 step들의 output에 의존하는 순차적인 계산 방식이다. ■ 즉, 다음 토큰을 생성하기 위해 이전 step에 생성된 모든 토큰을 입력으로 받아야 한다. ■ 이를 위해 매 디코딩 단계마다 수십억 개의 파라미터를 HBM에서 SRAM으로 이동시킨 다음 계산을 해야 하는데, HBM의 데이터를 이동시키는 속도가 느리기 때문에 병목 현상이 발생한다. ■ 이 문제를 해결하기 위해 speculative decoding과 같은 방법들이 제안되었지만, 적절한 draft model을 확보하고 유지 관리해야 하는 어려움으로 실제 적용이 쉽지 않다. ■ 그래서 이 논문에서는 여러 후속 토큰을 병렬로 예측하기 위해 추가적인 디코딩 헤드(decoding..

[Python] Lv. 1 (1) 1. 나머지가 1이 되는 수 찾기코딩테스트 연습 - 나머지가 1이 되는 수 찾기 | 프로그래머스 스쿨■ 2부터 시작하는 반복문을 사용하여, n을 나누었을 때 나머지가 1이 되는지 확인하면 된다.■ 가장 작은 수부터 탐색하기 때문에 n%x==1이 되는 가장 작은 x를 찾을 수 있다. def solution(n): for x in range(2, n+1): if n%x == 1: return x2. 약수의 합코딩테스트 연습 - 약수의 합 | 프로그래머스 스쿨■ 직관적으로 1부터 n까지 모든 수를 확인하며 약수인 경우를 더하는 방식이 있으며,def solution(n): answer = 0 for i in range(1, n + 1): if n % ..

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [2211.05100] BLOOM: A 176B-Parameter Open-Access Multilingual Language Model BLOOM: A 176B-Parameter Open-Access Multilingual Language ModelLarge language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations anar..

FitNets: Hints for Thin Deep Nets ■ 네트워크의 depth를 늘리면 더 추상적인 표현을 학습하므로 성능 향상을 기대할 수 있지만, 깊은 네트워크일수록 비선형성(non-linear)이 강해져 기울기 기반의 학습을 더 어렵게 만든다. ■ "Distilling the Knowledge in a Neural Network" 논문에서 제안한 Knowledge Distillation 접근법은 크기가 작고 실행 속도가 빠른 모델을 얻는 것을 목표로 하며, student model이 더 큰 teacher model이나 ensemble model의 softmax output을 모방할 수 있음을 보여주었다. ■ FitNets 논문에서는 이 아이디어를 확장하여, teacher보다 더 깊고 얇은(deeper and thinner) student model..

T0: Multitask Prompted Training Enables Zero-Shot Task Generalization ■ GPT-3에서 LLM이 다양한 종류의 tasks에서 합리적인 수준의 zero-shot generalization 능력을 달성할 수 있음을 보여주었다. ■ LLM이 좋은 zero-shot 성능을 보이는 이유에 대해, LM이 방대한 text data를 pre-training하는 과정에서 text에 내제된 다양한 종류의 task(예: QA, 요약, 번역 등)를 자신도 모르게 암묵적으로 학습하기 때문이라는 가설이 제기되었다. - 즉, pre-training 과정에서 방대한 pretraining corpus를 통해 모델이 암묵적으로 multitask를 이미 학습했기 때문에, 추가 학습(fine-tuning) 없이도 합리적인 zero-shot 성능을 달성할 수 있다는 주장이다. ■ 논문에서는 이 가설을 검..

OPT: Open Pre-trained Transformer Language Models [2205.01068] OPT: Open Pre-trained Transformer Language Models OPT: Open Pre-trained Transformer Language ModelsLarge language models, which are often trained for hundreds of thousands of compute days, have shown remarkable capabilities for zero- and few-shot learning. Given their computational cost, these models are difficult to replicate without significant capitaarxiv.org 1. Introduction■ LLM..

Accelerating Large Language Model Decoding with Speculative Sampling ■ 논문에서는 트랜스포머 디코딩을 가속화하는 알고리즘으로 speculative sampling을 제안한다.■ 저자들은 더 크고 속도가 느린 traget model이 토큰 1개를 생성하는 데 걸리는 지연 시간(latency)과 traget model이 작지만 더 빠른 draft model이 만들어 놓은 짧은 시퀀스를 검증하는 데 걸리는 시간이 거의 비슷하다는 것을 발견하였다. ■ 후자를 target model의 분포를 보존할 수 있는 수정된 기각 샘플링(rejection sampling) 기법과 결합하였다. ■ 70B Chinchilla로 speculative sampling을 실험한 결과, 생성된 텍스트의 확률분포를 변경시키거나 모델 자체를 수정하지 않고도 분산 환경에서 2~2.5배의 디코딩 속도 향상..

Fast Inference from Transformers via Speculative Decoding ■ 이 논문에서는 autoregressive model의 추론 속도를 향상시키기 위한 방법으로 speculative decoding을 소개한다.■ 이 방법은 re-training이나 아키텍처 변경 없이 기존의 off-the shelf models에도 적용하여 추론 속도를 가속화할 수 있다. [2211.17192] Fast Inference from Transformers via Speculative Decoding Fast Inference from Transformers via Speculative DecodingInference from large autoregressive models like Transformers is slow - decoding K tokens takes K serial ru..

이전 1 2 3 4 ··· 28 다음

티스토리툴바