1. Extraction-based MRC

Extraction based MRC 접근이 어떤 의미인지..

text를 생성하는게 아닌 위치.. 만으로 해결 가능 ! 그리고 이런 방식으로 만든 dataset에는 SQuAD, KorQuAD.. NewsQA, Natural Questions 등이 있다..

huggingface library를 이용하면 더 쉽게 접근할 수 있다.

Extraction-based MRC 평가방법에는 크게 EM, F1 score가 있다..

EM은 단어가 완전히 똑같을 경우에만 1점을 부여해서 F1보다는 다소 빡빡함 ! F1는 overlap 비율로 계산해서 부분점수를 받을 수 있다 !

결국 우리의 목적은 이러한 평가 점수를 잘 받는 모델을 만드는 방법이 중요하잖아 ! 그래서 모델 구조를 간단하게 보았다..

결국 모델의 output으로는 문맥을 잘 고려한... vector가 나옴.. 이걸 사용해서.. predict..

2. Pre-processing

준비 단계

띄어쓰기, 형태소, subword 등의 여러 단위 토큰 기준이 사용된다 !

BPE를 주로 사용하는데 BPE 방법론 중 하나인 WordPiece Tokenizer를 본 강의에서 사용함..

WordPiece : 자주 나오는 단어는 하나의 단어로 쪼개고 아닌 경우는 따로 쪼개는 느낌..

Context와 Question을 구분하는 방법 2가지

  1. [SEP] token을 이용해서 구분
  2. token type ids를 이용해서 구분