sparse embedding 중에서도 가장 많이 사용하는 tfidf 배울 예정
Passage Retrieval : 질문에 맞는 문서를 찾는 것
토트넘이라는 입력이 주어졌을 때 웹이나 wiki 상에서 이것과 관련된 문장을 가져오는 것을 목표..
이러한 시스템을 MRC와 합쳐보게 되면 open domain QA를 할 수 있기 때문에 연구가 진행됨 !
질문에 대한 답을 표현할 것 같은 지문을 모델에 넘기게 되고.. MRC 모델에서 답을 추출하는 2 stage로 진행
Query와 passage를 임배딩한 뒤 유사도로 랭킹을 매기고 유사도가 가장 높은 passage를 선택
유사도는 Inner product나 L2 norm을 사용
passage embedding을 sparse한 방법으로 적용
sparse ↔ dense의 반대어..!
벡터의 길이는 vocab size와 같게 됨..! 벡터가 있는지 아닌지에 대한 check..! 하나의 단어 (uni-gram)으로 보는 경우도 있지만 조금 더 advanced된 것으로는 2단어(bi-gram)을 하나의 단어로 봄 ! n을 너무 높게까지는 사용안하고.. bi-gram 정도까지는 사용한다 경우에 따라 tri-gram까지 사용