BASELINE의 흐름

일단 raw data를 가져와서 id, sentence, sub_entity, obj_entity, label 을 컬럼으로 데이터 프레임을 다시 만들어 줌 ! → 필요한 정보만 다시 가져와서 사용하는 느낌..

일단 간단하게 EDA를 해보자

각 클래스별로 train 개수

전처리를 할 때에 ' 도 들어가게 되므로 제거를 해줘야할 것 같음

스크린샷 2021-09-28 오후 3.01.46.png

tokenizer를 사용하면 [CLS] token과 [SEP] 토큰으로 나뉘게 됨

스크린샷 2021-09-28 오후 3.06.29.png

' ' 같은 불용어를 처리해줘야 함 ! [SEP]를 써주는 것이 맞는가 ?

조지 해리슨 같은 것을 vocab으로 추가