MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

■ model quality를 결정하는 데 있어 데이터와 파라미터 양의 역할을 강조하는 기존 통념과 대조적으로, 1B 미만의 LLM에 있어 model architecture의 중요성을 보여준다.

■ deep and thin architecture와 임베딩 공유 및 GQA를 사용하는 MobileLLM은 125M/350M SOTA models보다 좋은 성능을 달성하였다.

■ MobileLLM 외에도, 약간의 latency overhead만 발생하는 "immediate block-wise weight sharing" 접근법을 제안한다. 그 결과물인 MobileLLM-LS models은 MobileLLM보다 더 높은 성능을 달성하였다.

[2402.14905] MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

This paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs with fewer than a billion parameters, a practical choice for m

arxiv.org

1. Introduction

■ ChatGPT나 Perplexity AI와 같은 현대 LLM은 주로 클라우드 환경에서 운영되고 있으며, 클라우드 비용과 latency 문제로 모바일 기기에서 효율적으로 동작할 수 있는 LLM에 대한 요구가 커지고 있다.

■ 스마트폰 및 모바일 기기의 main-memory (DRAM) capacity의 한계로 인해, 8비트 가중치를 가진 LLaMA-v2 7B와 같은 모델을 할당할 수 있는 공간이 제한적이다.

■ iPhone 15의 6GB에서 Google Pixel 8 Pro의 12GB에 이르는 DRAM 용량을 고려할 때, DRAM은 운영체제 및 다른 애플리케이션들과 공유되므로, 하나의 모바일 앱은 DRAM의 10%를 초과해서는 안 된다.

■ 이러한 제약으로 인해, 가용 가능한 DRAM 범위 내에서 LLM을 탑재하려면 1B 미만의 파라미터를 가진 모델이 현실적인 방안이 된다.

■ 그리고, LLM의 에너지 소비(모델 파라미터 1B 개당 0.1 줄/토큰)를 고려하면, 7B LLM은 토큰당 0.7J을 소비하는데, 약 50K J의 에너지를 가진 완충된 iPhone에서 초당 10토큰의 속도로 이 모델과 대화를 할 경우 2시간도 채 지속할 수 없으며, 64개의 토큰을 생성할 때마다 베터리의 0.2%가 소모된다.

■ 그러므로 온디바이스 실행을 위해 LLM을 소형화하는 것은 필수불가결한 과제이다.

■ 토큰당 0.035J만 소비하는 350M 8비트 모델과 같은 모델을 활용하면, iPhone에서 하루 종일 모델과의 대화 사용을 지원할 수 있다. 게다가 디코딩 속도 또한 획기적으로 향상될 수 있다.

■ 예를 들어, LLaMA 7B를 사용하는 iPhone APP MLC Chat이 초당 3~6 tokens을 처리하는 데 비해, 저자들이 제안한 MobileLLM 125M은 초당 50토큰으로 작동할 수 있다.

2. Improving Sub-billion Scale LLM Design

■ 모델 크기가 주요 제약 사항인 온디바이스 환경에서는 "제한된 가중치 파라미터를 어떻게 효과적으로 배분할 것인가"가 가장 중요하다.

■ 저자들은 1B 미만 규모의 LLM에 유익한 4가지 모델 설계 techniques을 테스트하여 MobileLLM이라는 모델을 제안한다.

■ 이 techniques은 (1) SwiGLU FFN (2) lanky (deep and thin) architecture (3) embedding sharing (4) grouped query attention (GQA)이다.

■ 그리고 memory overhead를 전혀 발생시키지 않으면서, memory-bounded LM의 디코딩 과정에서 오직 약간의 latency overhead만으로 정확도를 더욱 높이는 "immediate block-wise layer-sharing"을 통해 만든 MobileLLM-LS를 제안한다.

■ 기본적인 모델에서 MobileLLM-LS로 나아가는 과정은 Fig 3에서 볼 수 있다.

2.1 Training Setup

■ 논문의 실험들은 32개의 A100 GPU에서 수행되었으며, 각 GPU당 batch size는 32이다.

■ 0.25T tokens에 대해 120K 번의 iterations으로 초기 실험을 수행하였다. Table 3과 4에 보고된 최상위 모델들은 1T tokens에 대해 480K iterations으로 학습되었다.
- 이는 Llama 2에서 제시한 over-training 전략을 극단적으로 적용한 것이다. MobileLLM에서도 모델 크기가 작아도 데이터를 많이 보면 성능이 계속 오른다는 것을 전제로 한다.

■ pre-trained model을 zero-shot common sense reasoning tasks과 question answering 및 reading comprehension tasks에서 평가한다.

2.2 Building a Strong Baseline

2.2.1 FEED-FORWARD NETWORK CHOICE

■ 저자들은 feed-forward network (FFN)에서 일반적으로 사용되는 activation functions을 조사하였고, SwiGLU가 small models에서도 유익하다는 것을 발견했다고 한다.

■ vanilla FFN (\( FC \rightarrow ReLU \rightarrow FC \))을 SwiGLU로 변경함으로써, zero-shot reasoning tasks에서 125M model의 평균 성능이 42.6에서 43.9로 향상되었고, 저자들은 이 결과를 기반으로 이후의 실험에서 FFN에 SwiGLU를 사용하였다.
- 125M에서 1.3점의 성능 향상은 큰 수치이다. vanilla FFN에서 SwiGLU로 변경했을 때, 이러한 성능 향상이 발생했다는 것은, 비선형성(non-linearity)을 강화하는 것이 모델의 reasoning 능력에 영향을 미친다는 것을 시사한다.

2.2.2 ARCHITECTURE DEPTH VS WIDTH

■ transformer model의 성능에 대한 지배적인 통념은, 모델 성능이 주로 파라미터 수, training dataset의 크기, 그리고 training iterations의 수에 의해 결정된다는 것이다.

■ 그러나 논문의 연구 결과는 이러한 통념이 더 작은 모델들에서는 사실이 아닐 수 있음을 보여준다.

■ 제한된 모델 용량을 가진 small models에 대한 실험 결과는, 성능 향상을 위해 "wider한 것보다 deeper이 훨씬 중요함"을 보여준다.

■ ~125M 파라미터를 가진 9개 models과 ~350M 파라미터를 가진 10개 models을 포함하여, 총 19개 models에 대해 실험을 수행했다. 이때, 각 모델은 비슷한 크기로 설계되었으나 깊이(depth)와 너비(width) 측면에서 다양하게 구성되었다.

■ 추가로, 8개의 zero-shot common sense reasoning tasks과 question answering 및 reading comprehension benchmarks에서도 실험을 진행했다.

■ 이러한 실험의 결과는 Fig 4에서 볼 수 있듯이, "deeper and thinner model이 shallower and wider model보다 더 성능이 우수함"을 일관되게 보여준다.

■ ARC-easy, ARC-challenge, PIQA, HellaSwag, OBQA, WinoGrande를 포함한 대부분의 zero-shot reasoning tasks에서 우월한 성능을 보이며, 이러한 경향은 question answering, reading comprehension task인 TQA와 RACE dataset에서 더욱 두드러지는 것을 볼 수 있다.

■ 이러한 결과는 125M 규모의 모델에서 12개의 레이어를 가진 모델보다, 배 이상의(30개 이상)의 레이어를 가진 모델이 훨씬 더 나은 성능을 달성할 수 있음을 시사한다.

2.2.3 EMBEDDING SHARING

■ 1B 미만 규모의 언어 모델의 경우 embedding layers이 전체 파라미터 수의 상당 부분을 차지한다.

■ input embedding은 vocabulary의 token ID를 token ID에 해당하는 token embedding으로 매핑한다.

■ output embedding은 fully-connected layer로, 임베딩 차원을 다시 vocabulary 전반에 걸친 logits prediction으로 매핑한다.

■ 두 임베딩을 공유함으로써, input embedding의 가중치를 output embedding의 가중치로 재사용하여 모델 파라미터를 줄일 수 있다.

■ 예를 들어 임베딩 차원이 512이고 vocabulary size가 32K인 경우, input 및 output embedding layers은 각각 16M 개의 파라미터로 구성된다. 합치면, embedding layers은 125M 모델 전체 파라미터의 20% 이상을 차지한다.

■ 반면, 이 비율은 더 큰 언어 모델에서는 상당히 낮다.

■ 예를 들어, LLaMA-7B의 경우 input 및 output embeddings은 모델 전체 파라미터의 3.7%, LLaMA-70B에서는 0.7%에 불과하다.

■ 더 큰 모델들의 경우 임베딩 레이어가 차지하는 비중이 매우 작다. 그래서 굳이 embedding sharing을 통해 모델 크기를 조금이라도 줄이는 것보다, 표현력을 위해 input과 output을 untied하는 것이 유리하다. 실제로 OPT 이후의 LLMs에서는 embedding sharing을 사용하지 않는 추세이다.

■ 논문의 목표는 효율적이고 컴팩트한 모델을 만드는 것이다. 그래서 embedding sharing을 사용한다.

■ Table 1은 30-layer 125M model에서 실험을 수행한 결과이다. input 및 output embedding sharing이 파라미터 수를 16M으로 줄여주며(전체 파라미터의 약 11.8%), 평균 정확도는 단 0.2점 하락한 것을 볼 수 있다.

■ 이런 미미한 성능 하락은, embedding sharing으로 절약한 파라미터를 더 많은 레이어를 추가하는 데 사용함으로써 쉽게 복구될 수 있다.

■ 깊이를 늘렸을 때(32개 레이어 사용), original 135M model(not tied)에 비해 10M 더 적은 파라미터를 유지하면서도 0.4점의 정확도 향상을 달성한 것을 볼 수 있다.

■ 이러한 결과는, 제한된 모델 크기 내에서 embedding sharing으로 아낀 파라미터를, 모델 깊이를 늘리는 데 사용함으로써 가중치 활용을 극대화하고 모델 성능을 최적화하는 데 도움을 줄 수 있음을 시사한다.

2.2.4 NUMBER OF HEADS AND KV-HEADS

■ 어텐션 메커니즘에서, head의 수와 차원에는 trade-off가 존재한다. 모델 차원 = head의 수 \( \times \) head의 차원이기 때문이다.

■ 모델 차원을 head의 수와 head의 차원으로 늘렸을 때, 어떤 요소를 확장할지에 따라 각각 다른 장점이 존재한다.

■ head의 차원을 늘리면 더 풍부한 semantics을 담을 수 있다. 그러나 필연적으로 head의 개수가 줄어들기 때문에, sequence 내에서 동시에 주목해야 할 서로 다른 위치(예: 주어-동사 관계)를 다양하게 포착하기 어렵다.

■ head의 개수가 많으면, 위의 경우와 정확히 반대의 장점과 단점을 갖는다.

■ 구체적으로, 어텐션 메커니즘에서는 final attention output을 산출하기 위해 multi heads의 결과를 합친 다음에 선형 변환을 거치기 때문에, head의 수가 많을수록 더 복잡하고 non-linear한 패턴을 학습할 수 있다. 그러나 head의 차원이 줄어들기 때문에, 정보가 제대로 인코딩되지 못할 수 있다.

■ 대부분의 이전 연구들은 1B 미만의 언어 모델에서 query heads와 동일한 수의 key-value heads을 사용해 왔다.

■ 저자들은 LLM에서 KV cache size를 줄이기 위해 고안된 GQA가 small LMs에서도 key-value heads의 redundancy를 효과적으로 줄일 수 있음을 발견했다. GQA는 가중치 재활용을 위한 또 다른 형태의 weight-sharing으로 볼 수 있다.

■ 125M 및 350M models에서 바람직한 head size를 결정하기 위해 실험을 수행했으며, 결과는 Fig 5에서 확인할 수 있다.

■ Fig 5에서 16개의 query head를 사용하는 것이 가장 좋은 결과로 이어지는 것과, heads의 수를 너무 많이 설정했을 때(32 heads, 보라선)와 heads의 수를 너무 적게 설정했을 때(즉, head의 차원을 늘렸을 때), 성능이 최고점(주황선)에 못 미치는 것을 볼 수 있다.

■ 그리고 key-value heads의 수를 16개(query heads의 수와 key, value heads의 수가 동일, 즉 MHA, Fig 5에서 ratio=1)에서 4개로 줄이는 것(즉, GQA 적용, ratio=4)은 125M model에서 비슷한 성능을, 350M model에서는 모델 크기를 거의 10% 줄이고 단 0.2점의 성능 하락을 가져오는 결과를 보인다.

■ 이러한 결과를 바탕으로 저자들은 GQA를 채택했다. 그리고 GQA를 통해 줄어든 파라미터 여유분만큼, embedding dimension을 늘림으로써 모델 크기를 유지시켰고, 그 결과 125M model에서 성능이 0.4점 더 높아졌다.

- Table 10의 125M에서 Embedding share 단계에서 임베딩 차원이 512이고 평균 점수가 44.6인데, 여기에 Grouped-query attention 단계를 추가한 결과 임베딩 차원은 512에서 576, 그리고 평균 점수는 44.6에서 45.0으로 향상된 것을 확인할 수 있다.

■ 이러한 4가지 techniques을 결합하여 구축된 small LLM이 MobileLLM이다.

2.3 Layer Sharing

■ 모델 깊이 대 너비의 영향에 대한 2.2.2 섹션의 결과는 더 깊은 레이어가 small transformer model에 유리하다는 것을 시사한다.

■ 그러나 레이어를 계속 쌓으면 파라미터 수가 늘어나고 모델 크기가 커져 모바일 기기의 저장 공간을 초과하게 된다.

■ 이에 저자들은 추가적인 모델 저장 비용 없이 hidden layers의 수를 늘리기 위한 전략으로 layer sharing(예: ALBERT)을 채택하였다.

■ Fig 6에 묘사된 세 가지 서로 다른 weight-sharing strategies을 비교했으며, 그 결과는 Table 2에서 확인할 수 있다.

- (b) immediate block-wise sharing은 A \( \rightarrow \) A \( \rightarrow \) B \( \rightarrow \) B \( \rightarrow \) C \( \rightarrow \) C 순서이다. 블록 A를 사용하고 바로 이어서 동일한 블록 A를 사용한다.
- (c) repeat-all-over sharing은 A \( \rightarrow \) B \( \rightarrow \) C \( \rightarrow \) A \( \rightarrow \) B \( \rightarrow \) C 순서로, 전체 사이클을 반복한다.
- (d) reverse sharing은 샌드위치처럼 역순으로 반복한다. A \( \rightarrow \) B \( \rightarrow \) C \( \rightarrow \) C \( \rightarrow \) B \( \rightarrow \) A 순서이다.

■ repeat-all-over가 immediate block-wise repeat, reverse sharing 중에서 가장 좋은 성능을 보인다.

■ 그러나 하드웨어 메모리 계층 구조(Fig 2)를 고려할 때, 연산을 위한 SRAM은 일반적으로 약 20MB로 제한된다.

■ SRAM은 저장 용도가 아니기 때문에 크기가 작으며, 보통 단 하나의 트랜스포머 블록을 유지하기에 충분한 수준이다.

■ repeat-all-over 방식을 쓰면, 처음에 A를 SRAM에 올려 계산하고 B로 넘어가려면 A를 SRAM에서 지워야 한다. 나중에 다시 A를 계산하려면 DRAM에서 A를 다시 가져와야 한다.

■ 그래서 저자들은 성능이 가장 좋았던 repeat-all-over 대신, 하드웨어 메모리 계층 구조 때문에 immediate block-wise sharing을 채택했다.

■ immediate block-wise sharing은 A \( \rightarrow \) A \( \rightarrow \) B \( \rightarrow \) B \( \rightarrow \) C \( \rightarrow \) C 처럼, A를 SRAM에 한 번 올려놓고 캐시에서 내리지 않은 채로 두 번 연속 연산할 수 있기 때문이다.

■ 즉, immediate block-wise sharing은 repeat-all-over보다 DRAM과 SRAM 간 가중치 이동 횟수가 획기적으로 줄어든다. 그러므로 repeat-all-over 대비 auto-regressive inference의 전반적인 실행 속도가 더 빠르다.

■ immediate block-wise sharing이 적용된 모델이 MobileLLM-LS이다.

3. Experiments

3.1 Experimental Settings

■ weight decay 0.1로 설정한 Adam optimizer를 사용하여 MobileLLM을 처음부터(from scratch) 학습시킨다. 초기 학습률은 2e-3으로 설정되었으며, cosine learning-rate decay를 사용한다.

■ 0.25T tokens에 대해 120K iterations으로 초기 실험을 수행하였으며, Table 3과 4에 보고된 최상위 모델들은 1T tokens에 대해 480K iterations으로 학습되었다.

■ 실험은 32개의 A100 GPU를 사용하여 수행되었으며, 각 GPU당 batch size는 32이다.

3.2 Main Results

Zero-shot Common Sense Reasoning

■ zero-shot common sense reasoning tasks에 대해, 초기 open-sourced LLMs인 OPT, BLOOM뿐만 아니라 Galactica, Cerebras, GPT-neo와 같은 최신 모델들, LLM analyzing suite인 Pythia, 그리고 트랜스포머 변형인 RWKV 등을 MobileLLM 비교한다.

■ 125M 모델 크기에서, MobileLLM은 OPT, GPT-Neo, Galactica와 같은 동일 크기의 모델들을 상당한 격차로 앞선다.

■ 그리고 MobileLLM-125M은 Pythia-160M이나 RWKV-169M보다 각각 22%, 26% 더 작음에도 불구하고 정확도는 3.8점, 2.7점 더 높다.

■ 게다가, layer-sharing을 적용한 MobileLLM-LS-125M은 평균 정확도에서 0.7점의 추가적인 향상을 보인다.

■ 주목할 만한 점은 MobileLLM-LS-125M이 약 1/3의 크기로, 대부분의 기존 350M models과 대등하거나 더 높은 결과를 달성한다는 것이다.

■ 350M 모델 크기에서는, MobileLLM은 비슷하거나 더 작은 모델 크기로 최신 모델들을 4점 이상 능가한다.

■ 더 넓은 범위의 메모리 제약 조건하에서 MobileLLM의 설계 원칙을 검증하기 위해, 모델을 확장하여 MobileLLM-600M, 1B, 1.5B에 대해 평가를 진행했다.
- 즉, MobileLLM의 4가지 techniques이 더 큰 크기의 모델에서도 효과적으로 적용되는지 검증하고자 한 것이다.

■ Table 8의 결과는, MobileLLM이 비슷한 크기의 모델들을 일관되게 능가함을 보여준다. MobileLLM의 detailed architectures pecifications은 Table 9에서 확인할 수 있다.

■ MobileLLM-1.5B는 더 많은 파라미터를 가진 SOTA model인 Qwen1.5-1.8B보다 2.9점 높은 성능을 보인다.

Question Answering and Reading Comprehension

■ TQA question answering benchmark와 RACE reading comprehension benchmark에서 pre-trained models을 평가한다. 이 평가에서는 LLaMA-1의 평가 설정을 따른다.

■ TQA와 RACE 모두에서, MobileLLM-125M 및 350M은 기존 모델들보다 월등히 더 높은 점수를 보인다.

3.3 DownstreamTasks

■ on-device applications을 위한 sub-billion scale models의 효과를 검증하기 위해, 두 가지 중요한 on-device tasks: Chat, API calling에서의 성능을 평가한다.

3.3.1 CHAT

■ MobileLLM models뿐만 아니라 HuggingFace checkpoints에서 가져온 SOTA models에 대해, chat-based tasks을 위해 fine-tune하고, 일관성을 보장하기 위해 동일한 settings 하에서 평가한다.

■ 여기서는 두 가지 benchmarks: single-run chat benchmark인 AlpacaEval과 multi-run chat benchmark인 MT-Bench를 사용하여 평가한다.

■ Table 5에서, MobileLLM models이 SOTA sub-billion scale models을 능가하며, 심지어 1B 파라미터를 가진 models도 뛰어넘은 것을 볼 수 있다.

■ 특히, MobileLLM-LS-350M은 baseline GPT-3 (text-davinci-001)와 비교했을 때 48.2% 라는 승률을 달성했다.

■ GPT-3가 자기 자신과 대결했을 때의 self-win rate는 50%임을 감안할 때, MobileLLM-LS-350M의 48.2% 라는 승률은 baseline과 대등한 수준의 채팅 성능을 가지고 있음을 보여주는 결과이다.

3.3.2 API CALLING

■ API 호출은 assistant 기능을 위해 audio-to-text model과 함께 사용될 때 흔히 사용되는 on-device application이다.

■ 예를 들어 "오전 7시 30분에 알람 맞춰줘"라는 input이 주어지면, 모델은 JSON format으로 {API: "alarm(time="7:30 am")"}을 출력하고, "알림이 오전 7시 30분으로 설정되었습니다"라는 response를 생성한다.

■ 이 과정에서 모델은 natural language input을 이해하고, input에 대한 API를 호출하기 위해 정확한 JSON format으로 변환해야 한다.

■ 이 task를 위해 모델을 적용하기 위해, 5000 training samples과 2500 testing samples로 구성된 synthetic dataset을 생성하여 사용하였다.

■ pre-trained models은 training set에서 4 epochs 동안 fine-tuning을 거치며, linear decay learning rate (초깃값 2e-5)와 0.01의 weight decay를 사용하는 Adam optimizer로 최적화되었다.

■ MobileLLM-350M이 LLaMA-v2 7B와 비교하여 대등한 수준의 intent 및 structure exact match scores을 달성한 것을 Table 6에서 볼 수 있다.

■ 여기서 높은 intent scores는 사용자가 호출하려는 API를 정확히 예측했음을 의미하며, structural exact match scores는 API 함수 내의 콘텐츠(인자 값 등)를 예측하는 능력을 반영한다.

■ 7B model에 비해 MobileLLM-350M의 Rouge scores는 낮지만, API 호출에서는 정확한 API 실행이 우선이라는 점을 고려할 때, Rouge scores의 차이는 치명적이지 않다.

■ 이런 결과들은 on-device applications의 특정 시나리오들에서는 MobileLLM-350M과 같은 small models이 LLMs을 대체할 수 있음을 보여준다.

3.4 Compatibility with Quantization

■ Fig 7은 0.25T tokens로 학습된 125M 및 350M 크기의 MobileLLM과 MobileLLM-LS 모델 모두에 대해 W8A8 PTQ를 적용한 결과이다.

■ 양자화를 적용했을 때 정확도 감소가 0.5 미만으로 미미하며, layer sharing을 적용한 MobileLLM-LS(즉, layers을 재사용해서 depth를 늘리는 전략)에서도 양자화가 잘 작동하는 것을 볼 수 있다.

3.5 Knowledge Distillation

■ 지금까지는 next tokens을 hard labels로 사용하여 compact models을 처음부터 학습시켰다.

■ 그래서 Knowledge Distillation을 통해 compact model을 만들고자, LLaMA-v2 7B를 teacher model로 사용하여 125M 및 350M student models에 대한 KD을 진행했지만, KD는 training time을 증가시키고 (2.6~3.2배 느려짐), label-based training에 비해 오히려 낮거나 비슷한 정확도를 보인.

■ 저자들이 사용한 KD loss는 pre-trained teacher model과 student model의 logits 간의 cross-entropy이다.

■ KD를 위해선 teacher model과 student model을 같이 메모리에 올려놓고, KD loss를 계산하기 위해 매 training step마다 두 모델을 실행시켜야 한다. 그래서 KD를 사용한 training time은 labels을 처음부터 학습하는 것보다 2.6배에서 3.2배 더 느렸으며, 성능도 비슷하거나 오히려 더 낮은 것을 볼 수 있다.

3.6 On-device Profiling

■ iPhone 13 (iOS 17.2.1) 에서 Metal Performance Shaders (MPS) 백엔드를 갖춘 ExecuTorch를 통해, MobileLLM-125M 및 MobileLLM-LS-125M FP16 모델의 latency를 측정하였다.

■ Table 7에서 model loading, initialization, 그리고 실행 시간에 대한 결과를 볼 수 있으며, 여기서 실행 시간은 50회 반복의 평균값이다.

■ weight sharing을 통해 layers의 수를 두 배로 늘렸음에도 불구하고, MobileLLM-LS가 MobileLLM에 비해 로딩 및 초기화 시간에서 단 2.2%의 증가만을 보인다. 이는 두 모델의 파일 크기가 비슷하기 때문이다.
- MobileLLM Load + Init은 약 1400 ms, MobileLLM-LS의 Load + Init은 약 14300 ms로 약 2% 정도 증가

■ 그리고 MobileLLM-LS의 immediate block-wise weight sharing의 이점도 확인할 수 있다.

■ weight sharing 없이 layers의 수만 두 배로 늘린 모델(60-layer non-shared)은 immediate block-wise weight sharing을 적용한 MobileLLM-LS 대비 로딩 및 초기화 시간에서 143%의 상당한 증가와 실행 시간에서 86%의 증가를 보인다.

'자연어처리 > LM' 카테고리의 다른 글

Gemma 2: Improving Open Language Models at a Practical Size (0)	2026.01.11
Qwen2 Technical Report (0)	2026.01.09
RecurrentGemma: Moving Past Transformers for Efficient Open Language Models (0)	2025.12.29
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models (0)	2025.12.29
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone (1)	2025.12.26

Hyun_Jae

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

1. Introduction