sentence embedding
-
RAG와 LLM 그리고 임베딩(Embedding) 모델의 동향자연어처리(NLP)와 인공지능(AI) 2024. 5. 20. 21:33
RAG를 통해 LLM을 꽃 피우게하는 조연, ‘임베딩 모델’은 어떻게 흘러가고 있을까? 본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [출처] 기계 학습에서 임베딩이란 무엇인가요?, AWSLLM과 RAG란?최근 몇 년 동안, 대형 언어 모델(LLM, Large Language Models)은 인공지능(AI) 분야에서 뜨거운 주제로 부상하고 있다. LLM은 대규모의 텍스트 데이터를 학습하여 인간 수준의 자연어 처리 능력을 보여주었고, 다양한 응용 분야에서 혁신을 일으키고 있다. 이러한 모델들은 텍스트 생성, 기계 번역, 대화형 AI, 감정 분석 등 다양한 작업에서 탁월한 성능을 발휘하고 ..
-
논문 리뷰) Sentence-BERT : Sentence Embeddings using Siamese BERT-NetworksAI 논문 리뷰 2024. 5. 20. 20:21
Sentence BERT는 아래 BERT의 약점을 지적하며, 이를 개선하고자 한 모델이다.문장 기반 임베딩 방식은 sentence-transformer(BERT)를 이후로 실용성이 크게 개선된다. BERT를 이용해서, 10000개의 문장 내에서 가장 유사한 문장을 찾으려면, 일일이 2개씩 비교해야하므로 C(10000, 2) 번을 수행해야한다.또한, BERT의 구조는 클러스터링과 같은 Unsupervised task에는 효과가 좋지 않았다. 이를 위해서는, Bi-encoder 방식이 필요하다. (Bi-encoder와 Cross-encoder의 개념을 이해해야한다.) 출처 : https://hjkim5004.tistory.com/117 Cross-Encoder : 유사성을 판단할 2개의 문장을 '하나의 인..