한국어 임베딩 모델 리더보드
-
임베딩 모델 평가) 한국어 임베딩 모델 리더보드 (3)자연어처리(NLP)와 인공지능(AI) 2025. 3. 20. 17:54
임베딩 모델은 자연어 검색과 클러스터링, 유사도 매칭 등에 널리 쓰이고 있다.특히, 근래에는 LLM/RAG를 통해 임베딩 모델을 접하게 되는 경우가 많을 것이라고 생각한다. 그렇다면, 한국어 성능이 좋은 오픈소스 임베딩 모델은 어떤 것들이 있을까?이 궁금증을 해소하는데, 조금이라도 기여하고자 리더보드를 제작해보았다.(참고로, 블로그 작성 시점은 25년 3월 20일이다.)(리더보드 깃허브 주소 바로가기 : https://github.com/OnAnd0n/ko-embedding-leaderboard) 이전 글 : 임베딩 모델 평가) MTEB 코드 살펴보기 (2) - Custom Model 평가 평가를 위한 몇가지 기준은 다음과 같다. 1. 먼저, 임베딩을 평가하기위한 여러 Task 중가장 중요하다고 생각하는..
-
임베딩 모델 평가) MTEB 코드 살펴보기 (1)자연어처리(NLP)와 인공지능(AI) 2025. 2. 25. 00:00
아래 설명처럼 평가된 한국어 임베딩 모델 순위 확인하기 : https://github.com/OnAnd0n/ko-embedding-leaderboard 다음 글 : 임베딩 모델 평가) MTEB 코드 살펴보기 (2) - Custom Model 평가MTEB(Massive Text Embedding Benchmark)은 텍스트 임베딩 모델을 다양한 자연어 처리(NLP) 태스크에서 평가하기 위한 벤치마크이다. 문장과 문서 임베딩 모델의 성능을 비교할 수 있도록 리더보드가 존재하며, 검색, 클러스터링, 분류, 의미적 유사도 등 여러 태스크로 나뉘어 모델의 임베딩 성능을 평가한다. 현재 MTEB는 2.0버젼으로 리더보드를 새롭게 꾸민 상태이고, MTEB kor(한국어) 버젼도 존재한다.(아래 그림처럼 2.0 버젼..