model 구조 츩면에서는 GPT-1과 다른게 별로 없음
모델의 크기를 키우고, 데이터의 질을 높였다 !
generate task에서 잘 학습을 한다면 zero-shot으로도 잘될 수 있다는 잠재적인 가능성을 보여주었다.
motivation : 모든 task는 QA로 바뀔 수 있다 → 통합된 자연어 task 형태
질좋은 data 어떻게 수집 ? Reddit이라는 사이트에서 외부 link가 추천을 많이 받을 경우 scrap해와서 사용 !
질좋은 data에는 전처리도 중요한데 Subword embedding 방식 중 하나인 BPE를 사용하였음
layer norm을 각각의 sub block으로 적용을 해서 위쪽 layer의 하는 역할이 작아지도록 0에 가까운 값으로 초기화시켜주었음 ! ← 각 레이어에 하는 역할을 줄이려면 0에 가까운 값으로 초기화..?