Seq2Seq 성능을 개선하고 모델을 대체한 transformer에 대해 알아보겠음
지난 시간에 배운 self attention을 유연하게 확장한 MHA(Multi-Head-Attention)
각각의 head가 서로 다른 정보를 상호 보완적으로 뽑는 역할
추가적인 정리
실습 mha