AI 논문 리뷰
-
논문 리뷰) Improving Text Embeddings with Large Language ModelAI 논문 리뷰 2024. 5. 23. 22:47
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 23년에 공개된 ‘Improving Text Embeddings with Large Language Model’ 에서는 오픈소스 LLM인 Mistral 7B 모델과 ChatGPT4로 생성한 학습 데이터를 활용한 방식을 제안하였다.LLM 모델을 생성 데이터로 Contrastive learning(InfoNCE loss)한다는 심플한 아이디어로 SOTA(24년 5월 기준, e5-mistral-7b-instruct 모델로 아직까지 6위)를 달성했다. [Abstract]제안자는 합성데이터와 1k 미만의 training step(가중치 업데이트 횟수)만으로 높은 품질의 텍스트 임베딩을 얻었다. 현존하는 방법은 주로 몇단..
-
논문 리뷰) GPL - Generative Pseudo Labeling for Unsupervised Domain AdaptationAI 논문 리뷰 2024. 5. 22. 23:46
[요약]GPL은 GenQ에서 진보된 Unsupervised 방법론으로 볼수 있다. GenQ는 T5를 이용하여, Passage(문서)에서 Query(질문 또는 찾고자 하는 검색어)를 생성하고, 생성된 Query/Passage Pair를 SBERT 학습에 활용하는 것이 핵심이다. GPL은 GenQ에서 몇가지 단계가 추가된다. 1) Query Generation via T5: doc2query 논문에서 제안한 T5를 이용한 Query 생성 방법론을 활용, Passage로부터 Query를 생성. 허깅페이스 기준 doc2query/msmarco-t5-base-v1 등의 모델 활용, 여기까지는 GenQ와 동일 2) Negative Mining via Dense Retrieval : Dense Retrieval(..
-
논문 리뷰) BGE M3-Embedding : Multi-Lingual, Multi-Functionality, Multi-GranularityAI 논문 리뷰 2024. 5. 21. 21:32
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [Abstract] dense vector, multi-vector, sparse retrieval 방식 3개를 동시에 활용한 것이 큰 특징이다.(문장의 의미를 벡터에 투영하는 Dense 벡터, 전체 임베딩 값을 그대로 활용하는 Multi-vector 방식, 그리고 빈도 기반 방식인 BM25를 모두 활용)input token이 최대 8192까지 가능하다.또한, self 지식증류를 적용하였다.self 지식증류는 3개의 검색에 대한 점수를 통합하고 이를 teacher로서 활용하는 방식이다. 그리고 Batch 전략에 대한 tip을 제안하였다. [1. Introduction]기존 임베딩 모델의 한계 1) 대부분의 임베딩..
-
논문 리뷰) SimCSE_Simple Contrastive Learning of Sentence EmbeddingsAI 논문 리뷰 2024. 5. 21. 20:58
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [요약]21년에 발표된 SimCSE는 Contrastive learning을 통한 학습 방법론을 제안했는데, drop-out을 활용하여 하나의 문장을 Positive Pair(유사 문장)로 구성한 것, 그리고 학습 단위인 Batch 내에서 다른 문장은 Negative로 취급한 것이 핵심 아이디어다. drop-out은 일반화된 모델의 성능을 위해 랜덤하게 일부 뉴런을 비활성화시키는 방식인데, 같은 문장이 입력되더라도 출력되는 임베딩 값이 달라질 수 있게 된다. SimCSE는 이 부분을 활용하여, 동일 문장을 2번 Encoder에 입력함으로써 마치 유사한 문장 2개가 입력되는 것처럼 활용하였다. [핵심 아이디어] ..
-
논문 리뷰) Sentence-BERT : Sentence Embeddings using Siamese BERT-NetworksAI 논문 리뷰 2024. 5. 20. 20:21
Sentence BERT는 아래 BERT의 약점을 지적하며, 이를 개선하고자 한 모델이다.문장 기반 임베딩 방식은 sentence-transformer(BERT)를 이후로 실용성이 크게 개선된다. BERT를 이용해서, 10000개의 문장 내에서 가장 유사한 문장을 찾으려면, 일일이 2개씩 비교해야하므로 C(10000, 2) 번을 수행해야한다.또한, BERT의 구조는 클러스터링과 같은 Unsupervised task에는 효과가 좋지 않았다. 이를 위해서는, Bi-encoder 방식이 필요하다. (Bi-encoder와 Cross-encoder의 개념을 이해해야한다.) 출처 : https://hjkim5004.tistory.com/117 Cross-Encoder : 유사성을 판단할 2개의 문장을 '하나의 인..