일단 raw data를 가져와서 id, sentence, sub_entity, obj_entity, label 을 컬럼으로 데이터 프레임을 다시 만들어 줌 ! → 필요한 정보만 다시 가져와서 사용하는 느낌..
일단 간단하게 EDA를 해보자
각 클래스별로 train 개수
전처리를 할 때에 ' 도 들어가게 되므로 제거를 해줘야할 것 같음
tokenizer를 사용하면 [CLS] token과 [SEP] 토큰으로 나뉘게 됨
' ' 같은 불용어를 처리해줘야 함 ! [SEP]를 써주는 것이 맞는가 ?
조지 해리슨 같은 것을 vocab으로 추가