전체 글 (177) 썸네일형 리스트형 Multi-Task Deep Neural Networks for Natural Language Understanding [1901.11504] Multi-Task Deep Neural Networks for Natural Language Understanding Multi-Task Deep Neural Networks for Natural Language UnderstandingIn this paper, we present a Multi-Task Deep Neural Network (MT-DNN) for learning representations across multiple natural language understanding (NLU) tasks. MT-DNN not only leverages large amounts of cross-task data, but also benefits from a regulariza.. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension ■ 논문에서는 시퀀스-투-시퀀스 모델(트랜스포머 인코더-트랜스포머 디코더)을 사전학습시키기 위한 denoising autoencoder인 BART를 제안한다. ■ BART의 훈련 방식은 (1) 임의의 노이즈 함수(noising function)로 텍스트를 변형시킨 다음, (2) 이를 원래대로 복원하도록 모델을 학습시키는 것으로 이루어진다. ■ BART는 단순한 아키텍처임에도 불구하고 양방향 인코더를 가진다는 점에서 BERT를, 좌에서 우로 생성하는 디코더를 가진다는 점에서 GPT를, 그리고 다른 많은 최신 사전학습 방법론들을 일반화한 모델이다. BERT와 GPT의 장점을 결합한 모델로 볼 수 있다. [1910.13461] BART: Denoising Sequence-to-Sequence Pre-trai.. XLNet: Generalized Autoregressive Pretraining for Language Understanding ■ 양방향 문맥을 모델링할 수 있는 능력 덕분에, BERT와 같은 denoising autoencoding 기반의 사전훈련 방식은 기존의 자기회귀(auto-regressive) 언어 모델링 기반의 접근법(예: GPT)들보다 더 나은 성능을 보여주었다. ■ 그러나, denoising autoencoding은 입력 데이터 일부를 mask로 손상시키는 방식에 의존하기 때문에, BERT는 마스크된 토큰들 간의 의존 관계를 학습하지 못하며, 사전훈련과 파인튜닝 단계 간의 불일치 문제라는 한계를 가진다. ■ 저자들은 auto-regressive(AR) 모델과 auto-encoder(AE) 모델의 장점을 합친 XLNet이라는 모델을 제안하였다. ■ XLNet은 자기회귀 모델인 Transformer-XL의 핵심 아이디.. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (2) 3. Experiments3.1 Experimental Setup ■ GLUE 벤치마크와 SQuAD 데이터셋에서 ELECTRA의 성능을 평가한다. ■ 대부분의 실험에서 BERT와 동일한 데이터, 즉 위키피디아와 BookCorpus에서 가져온 33억 개의 토큰으로 사전학습을 진행하였다. 단, Large 모델에 대해서는, XLNet에서 사용한 ClueWeb, CommonCrawl, Gigaword에서 가져온 330억 개의 토큰으로 사전학습을 진행한다. ■ 모델 아키텍처와 대부분의 하이퍼파라미터는 BERT와 동일하다.■ GLUE 파인튜닝을 위해서 ELECTRA 위에 간단한 linear classifier를 추가하고, SQuAD 파인튜닝을 위해서는 XLNet의 질의응답(QA) 모듈을 추가하였다. - 이 모듈.. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators (1) ■ 이 논문의 접근법은 일부 토큰을 작은 '생성기(generator)'로부터 샘플링한 그럴듯한 대체 토큰으로 교체하여 원본 입력을 바꾼 다음, 각 토큰이 generator 샘플로 교체된 것인지 아닌지를 예측하는 '판별 모델(discriminative model)'을 훈련시킴으로써 100% 모든 토큰을 학습에 활용하는 방식이다. ■ 이러한 접근법으로 BERT보다 훨씬 뛰어난 성능을 보여주었으며, 하나의 GPU를 사용하여 4일 동안 훈련한 모델이 계산량이 30배 더 많은 GPT를 GLUE 벤치마크에서 능가했다. ■ 또한, RoBERTa나 XLNet보다 1/4 미만의 계산량을 사용하면서도 비슷한 성능을, 동일한 계산량을 사용했을 때는 더 뛰어난 성능을 기록하였다. [2003.10555] ELECTRA: .. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations [1909.11942] ALBERT: A Lite BERT for Self-supervised Learning of Language Representations ALBERT: A Lite BERT for Self-supervised Learning of Language RepresentationsIncreasing model size when pretraining natural language representations often results in improved performance on downstream tasks. However, at some point further model increases become harder due to GPU/TPU memory limitations and lo.. GPT-2(Language Models are Unsupervised Multitask Learners) (2) 3. Experiments■ GPT-1에서 log-uniformly 간격의 크기씩 크기를 늘린 4개의 언어 모델(LM)을 훈련하여 실험을 진행했다. 아키텍처는 아래의 Table 2.에 확인할 수 있다. ■ 가장 용량(모델의 파라미터 수)이 작은 모델은 GPT-1과 동일하며, 두 번째로 작은 모델은 BERT_Large와 동일하다. ■ Table 2.에서 가장 큰 모델이 GPT-2이며, GPT-1보다 10배 이상 많은 파라미터를 가지고 있음을 볼 수 있다.■ 각 모델의 학습률(learning rate)은 WebText의 5%에 해당하는 홀드아웃 샘플에서 최상의 퍼플렉시티를 얻도록 수동으로 조정하였다.- WebText의 5%에 해당하는 데이터에서 가장 좋은 퍼플렉시티를 보이는 학습률을 각각 찾아준 것이다... GPT-2(Language Models are Unsupervised Multitask Learners) (1) Language Models are Unsupervised Multitask Learners 1. Introduction■ ML 시스템은 대규모 데이터셋, 고용량 모델, 지도 학습의 삼박자를 통해 훈련받은 task에 대해서는 뛰어난 성능을 보인다. ■ 그러나 이러한 ML 모델이 outlier나 unseen data를 보게 되었을 때, 혹은 task가 살짝만 달라져도 데이터 분포의 미세한 변화에 취약하고 민감하다. ■ 그래서 이 논문은 각각의 task에 대한 train set을 만들고 레이블링 작업을 할 필요 없이, 다양한 task를 수행할 수 있는 보다 일반적인 시스템을 만드는 것에 지향점을 두고 있다. ■ ML 시스템을 만드는 기본적인 접근법은 task에 대한 올바른 행동을 보여주는 train se.. 이전 1 2 3 4 5 ··· 23 다음