전체 글 (214) 썸네일형 리스트형 ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (2) 3. Experiments3.1 Experimental Setup ■ GLUE 벤치마크와 SQuAD 데이터셋에서 ELECTRA의 성능을 평가한다. ■ 대부분의 실험에서 BERT와 동일한 데이터, 즉 위키피디아와 BookCorpus에서 가져온 33억 개의 토큰으로 사전학습을 진행하였다. 단, Large 모델에 대해서는, XLNet에서 사용한 ClueWeb, CommonCrawl, Gigaword에서 가져온 330억 개의 토큰으로 사전학습을 진행한다. ■ 모델 아키텍처와 대부분의 하이퍼파라미터는 BERT와 동일하다.■ GLUE 파인튜닝을 위해서 ELECTRA 위에 간단한 linear classifier를 추가하고, SQuAD 파인튜닝을 위해서는 XLNet의 질의응답(QA) 모듈을 추가하였다. - 이 모듈.. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (1) ■ 이 논문의 접근법은 일부 토큰을 작은 '생성기(generator)'로부터 샘플링한 그럴듯한 대체 토큰으로 교체하여 원본 입력을 바꾼 다음, 각 토큰이 generator 샘플로 교체된 것인지 아닌지를 예측하는 '판별 모델(discriminative model)'을 훈련시킴으로써 100% 모든 토큰을 학습에 활용하는 방식이다. ■ 이러한 접근법으로 BERT보다 훨씬 뛰어난 성능을 보여주었으며, 하나의 GPU를 사용하여 4일 동안 훈련한 모델이 계산량이 30배 더 많은 GPT를 GLUE 벤치마크에서 능가했다. ■ 또한, RoBERTa나 XLNet보다 1/4 미만의 계산량을 사용하면서도 비슷한 성능을, 동일한 계산량을 사용했을 때는 더 뛰어난 성능을 기록하였다. [2003.10555] ELECTRA: .. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations [1909.11942] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations ALBERT: A Lite BERT for Self-supervised Learning of Language RepresentationsIncreasing model size when pretraining natural language representations often results in improved performance on downstream tasks. However, at some point further model increases become harder due to GPU/TPU memory limitations and lo.. GPT-2(Language Models are Unsupervised Multitask Learners) (2) 3. Experiments■ GPT-1에서 log-uniformly 간격의 크기씩 크기를 늘린 4개의 언어 모델(LM)을 훈련하여 실험을 진행했다. 아키텍처는 아래의 Table 2.에 확인할 수 있다. ■ 가장 용량(모델의 파라미터 수)이 작은 모델은 GPT-1과 동일하며, 두 번째로 작은 모델은 BERT_Large와 동일하다. ■ Table 2.에서 가장 큰 모델이 GPT-2이며, GPT-1보다 10배 이상 많은 파라미터를 가지고 있음을 볼 수 있다.■ 각 모델의 학습률(learning rate)은 WebText의 5%에 해당하는 홀드아웃 샘플에서 최상의 퍼플렉시티를 얻도록 수동으로 조정하였다.- WebText의 5%에 해당하는 데이터에서 가장 좋은 퍼플렉시티를 보이는 학습률을 각각 찾아준 것이다... GPT-2(Language Models are Unsupervised Multitask Learners) (1) Language Models are Unsupervised Multitask Learners 1. Introduction■ ML 시스템은 대규모 데이터셋, 고용량 모델, 지도 학습의 삼박자를 통해 훈련받은 task에 대해서는 뛰어난 성능을 보인다. ■ 그러나 이러한 ML 모델이 outlier나 unseen data를 보게 되었을 때, 혹은 task가 살짝만 달라져도 데이터 분포의 미세한 변화에 취약하고 민감하다. ■ 그래서 이 논문은 각각의 task에 대한 train set을 만들고 레이블링 작업을 할 필요 없이, 다양한 task를 수행할 수 있는 보다 일반적인 시스템을 만드는 것에 지향점을 두고 있다. ■ ML 시스템을 만드는 기본적인 접근법은 task에 대한 올바른 행동을 보여주는 train se.. GPT-1(Improving Language Understanding by Generative Pre-Training) Improving language understanding with unsupervised learning | OpenAI 1. Introduction■ 대부분의 딥러닝 방법론들은 대량의 레이블된 데이터(labeled data) 를 사용해 지도 학습을 수행한다. 즉, 레이블된 데이터가 부족하다면 해당 방법론들을 다양한 도메인에 적용하기 어렵다는 한계가 있다. ■ 어떤 도메인의 데이터가 레이블이 없는 데이터라면, 시간과 비용이 많이 소모되는 데이터 레이블링 작업을 통해 지도 학습을 위한 레이블 데이터를 만들어야 한다. ■ 그러므로 레이블이 없는 데이터(unlabeled data)로부터 언어적 정보(linguistic information)를 활용할 수 있는 모델은 시간과 비용이 많이 드는 데이터 레이블.. RoBERTa: A Robustly Optimized BERT Pretraining Approach 1. Abstract■ 언어 모델(LM) 사전 훈련(pre-training) 방식은 상당한 성능 향상을 이끌었지만, 다양한 방식들을 서로 비교하기는 어렵다.■ 그 이유는, ① 학습 과정에서 계산 비용이 많이 들고 ② 모델마다 다른 크기의 비공개 데이터셋을 사용한 경우가 있으며 ③ 하이퍼파라미터 선택이 최종 결과(모델 성능)에 큰 영향을 미치기 때문이다. ■ 저자들은 BERT 사전 훈련에 대한 재현 연구(replication study)를 통해, 여러 "주요 하이퍼파라미(key hyperparameter)"와 "훈련 데이터의 크기"가 미치는 영향을 측정했으며 ■ 그 결과, BERT가 충분히 훈련되지 않았다(undertrained)는 점을 발견했다. BERT를 제대로 최적화된 방식으로 훈련시키니, 그 이후에.. BERT(Bidirectional Encoder Representations from Transformers) (3) BERT 구현) HyunJae0/BERT-RoBERTa-pytorch-implementation- GitHub - HyunJae0/BERT-RoBERTa-pytorch-implementation-Contribute to HyunJae0/BERT-RoBERTa-pytorch-implementation- development by creating an account on GitHub.github.com 1. Model Architecture■ BERT의 모델 아키텍처는 트랜스포머 인코더 블록을 기반으로 한다. - \( \text{BERT}_{BASE} \)의 경우 은닉 차원 \( H = 768 \), 어텐션 헤드 개수 \( A = 12 \), 인코더 블록(레이어) 개수 \( L = 12 \)- \( \tex.. 이전 1 ··· 4 5 6 7 8 9 10 ··· 27 다음