04. Passage Retrieval - Sparse Embedding

sparse embedding 중에서도 가장 많이 사용하는 tfidf 배울 예정

1. Introduction to Passage Retrieval

Passage Retrieval : 질문에 맞는 문서를 찾는 것

토트넘이라는 입력이 주어졌을 때 웹이나 wiki 상에서 이것과 관련된 문장을 가져오는 것을 목표..

스크린샷 2021-10-15 오후 11.49.54.png

이러한 시스템을 MRC와 합쳐보게 되면 open domain QA를 할 수 있기 때문에 연구가 진행됨 !

질문에 대한 답을 표현할 것 같은 지문을 모델에 넘기게 되고.. MRC 모델에서 답을 추출하는 2 stage로 진행

스크린샷 2021-10-15 오후 11.50.52.png

Query와 passage를 임배딩한 뒤 유사도로 랭킹을 매기고 유사도가 가장 높은 passage를 선택

유사도는 Inner product나 L2 norm을 사용

스크린샷 2021-10-15 오후 11.52.52.png

2. Passage Embedding and Sparse Embedding

passage embedding을 sparse한 방법으로 적용

sparse ↔ dense의 반대어..!

벡터의 길이는 vocab size와 같게 됨..! 벡터가 있는지 아닌지에 대한 check..! 하나의 단어 (uni-gram)으로 보는 경우도 있지만 조금 더 advanced된 것으로는 2단어(bi-gram)을 하나의 단어로 봄 ! n을 너무 높게까지는 사용안하고.. bi-gram 정도까지는 사용한다 경우에 따라 tri-gram까지 사용