자연어 임베딩
-
논문 리뷰) SimCSE_Simple Contrastive Learning of Sentence EmbeddingsAI 논문 리뷰 2024. 5. 21. 20:58
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [요약]21년에 발표된 SimCSE는 Contrastive learning을 통한 학습 방법론을 제안했는데, drop-out을 활용하여 하나의 문장을 Positive Pair(유사 문장)로 구성한 것, 그리고 학습 단위인 Batch 내에서 다른 문장은 Negative로 취급한 것이 핵심 아이디어다. drop-out은 일반화된 모델의 성능을 위해 랜덤하게 일부 뉴런을 비활성화시키는 방식인데, 같은 문장이 입력되더라도 출력되는 임베딩 값이 달라질 수 있게 된다. SimCSE는 이 부분을 활용하여, 동일 문장을 2번 Encoder에 입력함으로써 마치 유사한 문장 2개가 입력되는 것처럼 활용하였다. [핵심 아이디어] ..
-
RAG와 LLM 그리고 임베딩(Embedding) 모델의 동향자연어처리(NLP)와 인공지능(AI) 2024. 5. 20. 21:33
RAG를 통해 LLM을 꽃 피우게하는 조연, ‘임베딩 모델’은 어떻게 흘러가고 있을까? 본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [출처] 기계 학습에서 임베딩이란 무엇인가요?, AWSLLM과 RAG란?최근 몇 년 동안, 대형 언어 모델(LLM, Large Language Models)은 인공지능(AI) 분야에서 뜨거운 주제로 부상하고 있다. LLM은 대규모의 텍스트 데이터를 학습하여 인간 수준의 자연어 처리 능력을 보여주었고, 다양한 응용 분야에서 혁신을 일으키고 있다. 이러한 모델들은 텍스트 생성, 기계 번역, 대화형 AI, 감정 분석 등 다양한 작업에서 탁월한 성능을 발휘하고 ..