llm2vec
-
논문 리뷰) LLM2Vec: Large Language Models Are Secretly Powerful Text EncodersAI 논문 리뷰 2024. 9. 24. 22:28
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [총평]- 24년 4월에 axriv에 등록된, LLM 모델을 임베딩 모델로 변환하는 방법론 제안 - Last Hidden State를 Mean Pooling한 Representation이 좋은 임베딩 표현력을 갖추도록 크게 3가지 기법을 적용. - Bi-directional attention, Masked next token prediction(MNTP), SimCSE - 실험 당시에는 SOTA였을지 모르나, 24년 4월 기준으로 MTEB 9위 달성 (24년 9월 기준으로 MTEB 25위) - 전형적인 LLM 기반 임베딩 모델답게 4096 차원의 높은 차원수가 아쉬움 ※ 본 논문을 읽기전에, 먼저 아래 두 논문을 ..