Self-Supervised Pre-Training Model 1

self-supervised learning이란..?

앞에서 배운 transformer를 이용해서 self-supervisied learning이라는 task를 통해 pre trained, fine tuning의 형태로 NLP의 많은 task의 성능을 올린 모델에 대해 살펴보겠다.

최신 Trend

self-attention block을 더 많이 쌓아 모델을 더 deep하게 만들어 가겠다.

self-attention을 통해서 다양한 분야까지 범위를 확장

self-attention은 NLG 파트에서 greedy decoding 에서는 아직 벗어나지 못하는 한계가 있다.

GPT-1

다양한 special token을 이용해서 NLP의 다양한 task를 다루겠다.

LM task(단어를 순차적으로 예측), 분류 task로 학습된 pre trained모델을 가져와 output layer를 떼고 각각의 task에 맞게 붙여주고 학습을 진행함 ! (새로 붙여준 output layer의 학습률은 상대적으로 크게, 기존에 pretrained 모델의 lr은 작게 해주는 식으로 fine tuning을 진행)

결국 실제 tagging한 데이터는 별로 없으니까, LM task로 학습된 pretrained된 모델을 가져와 조금의 데이터로도 잘 학습 가능하도록 하는 느낌인 것 같다.

스크린샷 2021-09-17 오후 3.34.49.png

BERT