[U stage] Day 31 - Transformer 2 (2021.09.14) | Notion

Seq2Seq 성능을 개선하고 모델을 대체한 transformer에 대해 알아보겠음

지난 시간에 배운 self attention을 유연하게 확장한 MHA(Multi-Head-Attention)

각각의 head가 서로 다른 정보를 상호 보완적으로 뽑는 역할

추가적인 정리
실습 mha