self-supervised learning이란..?
앞에서 배운 transformer를 이용해서 self-supervisied learning이라는 task를 통해 pre trained, fine tuning의 형태로 NLP의 많은 task의 성능을 올린 모델에 대해 살펴보겠다.
self-attention block을 더 많이 쌓아 모델을 더 deep하게 만들어 가겠다.
self-attention을 통해서 다양한 분야까지 범위를 확장
self-attention은 NLG 파트에서 greedy decoding 에서는 아직 벗어나지 못하는 한계가 있다.
다양한 special token을 이용해서 NLP의 다양한 task를 다루겠다.
LM task(단어를 순차적으로 예측), 분류 task로 학습된 pre trained모델을 가져와 output layer를 떼고 각각의 task에 맞게 붙여주고 학습을 진행함 ! (새로 붙여준 output layer의 학습률은 상대적으로 크게, 기존에 pretrained 모델의 lr은 작게 해주는 식으로 fine tuning을 진행)
결국 실제 tagging한 데이터는 별로 없으니까, LM task로 학습된 pretrained된 모델을 가져와 조금의 데이터로도 잘 학습 가능하도록 하는 느낌인 것 같다.