[U stage] Day 34 - Advanced self-supervised pre-training model 2 (2021.09.17)

GPT-2

model 구조 츩면에서는 GPT-1과 다른게 별로 없음

모델의 크기를 키우고, 데이터의 질을 높였다 !

generate task에서 잘 학습을 한다면 zero-shot으로도 잘될 수 있다는 잠재적인 가능성을 보여주었다.

motivation : 모든 task는 QA로 바뀔 수 있다 → 통합된 자연어 task 형태

질좋은 data 어떻게 수집 ? Reddit이라는 사이트에서 외부 link가 추천을 많이 받을 경우 scrap해와서 사용 !

질좋은 data에는 전처리도 중요한데 Subword embedding 방식 중 하나인 BPE를 사용하였음

layer norm을 각각의 sub block으로 적용을 해서 위쪽 layer의 하는 역할이 작아지도록 0에 가까운 값으로 초기화시켜주었음 ! ← 각 레이어에 하는 역할을 줄이려면 0에 가까운 값으로 초기화..?

스크린샷 2021-09-19 오후 1.06.45.png