BERT에 대한 간단한 소개 + 학습 / 실행하는 과정 소개
이미지 AutoEncoder에서
Encode : input을 압축된 형태로 표현하는게 목적
Decode : 원본을 그대로 복원하는게 목적
BERT : 마스크를 통해 더 어렵게 문제를 해결하려고 함
입력된 정보를 다시 representation하는 것이 목적
BERT에서 masking할 때 special token은 제외하고 random으로 masking을 진행..
아래 4개의 모델을 학습하여 많던 GLUE task를 모두 해결 가능하다 ! ← 코드 자체도 별로 다르지 않음
Dataset을 구성할 때 Data 설계부터 잘못되는 경우가 있다.. 이러한 경우에는 처음부터 다시 만들어야 함.. → 현업에서 사용할 수 있도록 data를 만들어 주는 것이 중요하다 !
한국어 같은 경우에는 형태소로 분리 후 wordpiece tokenizer를 사용하는 것이 좋더라.. !
형태소 단위로 분리하겠다는 말은 의미를 가지는 최소 단위로 분리하겠다는 말임..
기존 BERT : 입력 : wordpiece, segment A, B 정보만 들어감