BERT를 활용한 실습의 마지막 단계..
주어진 문장의 각 token이 어떤 범주에 속하는지 분류하는 task
NER (Named Entity Recognition) 개체명 인식 : 문맥을 파악해서 문서에서 특정한 의미를 가지고 있는 단어, 어구 등을 인식하는 과정을 의미 !
ko-NER 데이터셋
마스터님은 개체명인식을 할 때 항상 음절 단위로 분석을 하도록 진행을 하심 !
이순 + 신 이면 이상하게.... 되기 떄문에
문장의 길이 같은 것을 확인해보는 것도 좋을 것 같음
태그별 데이터셋이 얼마나 있는지 ?
개수가 부족한 태그.. 학습이 어려움 ! → 추가해주는 방법으로 보완을 할 수 있다.
bert-multilingual-model은 한국어 자체가 8000개 밖에 안되있고 거의 다 음절로 구성이 되어 있기 떄문에 [UNK]로 인식을 하지 않을거다 !
다 테스크에서 우리가 수정하는게 거기서 거기다..