bge-m3 #sentence embedding #자연어 임베딩 #m3 임베딩 #임베딩 파인튜닝 #embedding fine tuning
-
논문 리뷰) BGE M3-Embedding : Multi-Lingual, Multi-Functionality, Multi-GranularityAI 논문 리뷰 2024. 5. 21. 21:32
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [Abstract] dense vector, multi-vector, sparse retrieval 방식 3개를 동시에 활용한 것이 큰 특징이다.(문장의 의미를 벡터에 투영하는 Dense 벡터, 전체 임베딩 값을 그대로 활용하는 Multi-vector 방식, 그리고 빈도 기반 방식인 BM25를 모두 활용)input token이 최대 8192까지 가능하다.또한, self 지식증류를 적용하였다.self 지식증류는 3개의 검색에 대한 점수를 통합하고 이를 teacher로서 활용하는 방식이다. 그리고 Batch 전략에 대한 tip을 제안하였다. [1. Introduction]기존 임베딩 모델의 한계 1) 대부분의 임베딩..