Extraction based MRC 접근이 어떤 의미인지..
text를 생성하는게 아닌 위치.. 만으로 해결 가능 ! 그리고 이런 방식으로 만든 dataset에는 SQuAD, KorQuAD.. NewsQA, Natural Questions 등이 있다..
huggingface library를 이용하면 더 쉽게 접근할 수 있다.
Extraction-based MRC 평가방법에는 크게 EM, F1 score가 있다..
EM은 단어가 완전히 똑같을 경우에만 1점을 부여해서 F1보다는 다소 빡빡함 ! F1는 overlap 비율로 계산해서 부분점수를 받을 수 있다 !
결국 우리의 목적은 이러한 평가 점수를 잘 받는 모델을 만드는 방법이 중요하잖아 ! 그래서 모델 구조를 간단하게 보았다..
결국 모델의 output으로는 문맥을 잘 고려한... vector가 나옴.. 이걸 사용해서.. predict..
준비 단계
띄어쓰기, 형태소, subword 등의 여러 단위 토큰 기준이 사용된다 !
BPE를 주로 사용하는데 BPE 방법론 중 하나인 WordPiece Tokenizer를 본 강의에서 사용함..
WordPiece : 자주 나오는 단어는 하나의 단어로 쪼개고 아닌 경우는 따로 쪼개는 느낌..
Context와 Question을 구분하는 방법 2가지