gpl #post-training #embedding #sentence embedding #embedding fine tuning #자연어 임베딩 #임베딩 파인튜닝
-
논문 리뷰) GPL - Generative Pseudo Labeling for Unsupervised Domain AdaptationAI 논문 리뷰 2024. 5. 22. 23:46
[요약]GPL은 GenQ에서 진보된 Unsupervised 방법론으로 볼수 있다. GenQ는 T5를 이용하여, Passage(문서)에서 Query(질문 또는 찾고자 하는 검색어)를 생성하고, 생성된 Query/Passage Pair를 SBERT 학습에 활용하는 것이 핵심이다. GPL은 GenQ에서 몇가지 단계가 추가된다. 1) Query Generation via T5: doc2query 논문에서 제안한 T5를 이용한 Query 생성 방법론을 활용, Passage로부터 Query를 생성. 허깅페이스 기준 doc2query/msmarco-t5-base-v1 등의 모델 활용, 여기까지는 GenQ와 동일 2) Negative Mining via Dense Retrieval : Dense Retrieval(..