전체 글
-
논문 리뷰) Improving Text Embeddings with Large Language ModelAI 논문 리뷰 2024. 5. 23. 22:47
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 23년에 공개된 ‘Improving Text Embeddings with Large Language Model’ 에서는 오픈소스 LLM인 Mistral 7B 모델과 ChatGPT4로 생성한 학습 데이터를 활용한 방식을 제안하였다.LLM 모델을 생성 데이터로 Contrastive learning(InfoNCE loss)한다는 심플한 아이디어로 SOTA(24년 5월 기준, e5-mistral-7b-instruct 모델로 아직까지 6위)를 달성했다. [Abstract]제안자는 합성데이터와 1k 미만의 training step(가중치 업데이트 횟수)만으로 높은 품질의 텍스트 임베딩을 얻었다. 현존하는 방법은 주로 몇단..
-
음성인식에서 쓰이는 FFT(Fast Fourier Transform)와 STFT(Short Time Fourier Transform) 그리고 Spectrogram의 개념과 차이점자연어처리(NLP)와 인공지능(AI) 2024. 5. 23. 22:25
[Fourier Transform]시간에 따른 신호의 변화를, 주파수의 관점으로 표현(변환)한 것. 그래프에서, X축을 시간에서 주파수로 바꿨다고 생각하면 됨. [Discrete Fourier Transform]퓨리에 변환의 결과가 이산값(Dicrete)하게 만드는 것이 특징.우리가 실제로 컴퓨터에 활용할 신호는 양자환된 Dicrete신호이므로, DFT가 필요하다. [Fast Fourier Transform]DFT를 빠르게 계산하는 하나의 알고리즘.내츄럴한 DFT는 계산량이 많다. (DFT의 복잡도는 O(N*N)이다.)더 간단히 할 수 있는 방법이 FFT이고, FFT의 복잡도는 (N/2)logN 으로 줄어들 수 있다.가장 일반적으로 사용되는 알고리즘은 쿨리-튜키 알고리즘이다.(단, N=2의 지수승일 때..
-
논문 리뷰) GPL - Generative Pseudo Labeling for Unsupervised Domain AdaptationAI 논문 리뷰 2024. 5. 22. 23:46
[요약]GPL은 GenQ에서 진보된 Unsupervised 방법론으로 볼수 있다. GenQ는 T5를 이용하여, Passage(문서)에서 Query(질문 또는 찾고자 하는 검색어)를 생성하고, 생성된 Query/Passage Pair를 SBERT 학습에 활용하는 것이 핵심이다. GPL은 GenQ에서 몇가지 단계가 추가된다. 1) Query Generation via T5: doc2query 논문에서 제안한 T5를 이용한 Query 생성 방법론을 활용, Passage로부터 Query를 생성. 허깅페이스 기준 doc2query/msmarco-t5-base-v1 등의 모델 활용, 여기까지는 GenQ와 동일 2) Negative Mining via Dense Retrieval : Dense Retrieval(..
-
논문 리뷰) BGE M3-Embedding : Multi-Lingual, Multi-Functionality, Multi-GranularityAI 논문 리뷰 2024. 5. 21. 21:32
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [Abstract] dense vector, multi-vector, sparse retrieval 방식 3개를 동시에 활용한 것이 큰 특징이다.(문장의 의미를 벡터에 투영하는 Dense 벡터, 전체 임베딩 값을 그대로 활용하는 Multi-vector 방식, 그리고 빈도 기반 방식인 BM25를 모두 활용)input token이 최대 8192까지 가능하다.또한, self 지식증류를 적용하였다.self 지식증류는 3개의 검색에 대한 점수를 통합하고 이를 teacher로서 활용하는 방식이다. 그리고 Batch 전략에 대한 tip을 제안하였다. [1. Introduction]기존 임베딩 모델의 한계 1) 대부분의 임베딩..
-
논문 리뷰) SimCSE_Simple Contrastive Learning of Sentence EmbeddingsAI 논문 리뷰 2024. 5. 21. 20:58
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [요약]21년에 발표된 SimCSE는 Contrastive learning을 통한 학습 방법론을 제안했는데, drop-out을 활용하여 하나의 문장을 Positive Pair(유사 문장)로 구성한 것, 그리고 학습 단위인 Batch 내에서 다른 문장은 Negative로 취급한 것이 핵심 아이디어다. drop-out은 일반화된 모델의 성능을 위해 랜덤하게 일부 뉴런을 비활성화시키는 방식인데, 같은 문장이 입력되더라도 출력되는 임베딩 값이 달라질 수 있게 된다. SimCSE는 이 부분을 활용하여, 동일 문장을 2번 Encoder에 입력함으로써 마치 유사한 문장 2개가 입력되는 것처럼 활용하였다. [핵심 아이디어] ..
-
Retrieval-Augmented Generation(RAG)의 흐름과 아키텍쳐자연어처리(NLP)와 인공지능(AI) 2024. 5. 21. 00:01
RAG란?RAG란, LLM이 검색된 결과에 근거하여 답변하는 방식.RAG의 뿌리는 페이스북(현 메타) AI 리서치 논문 (https://arxiv.org/pdf/2005.11401.pdf)이라고 볼수 있다. LLM은 환각(Hallucination)의 한계를 가짐. 또한 공개되지 않은 특정 도메인 분야 지식에 대한 작업에서 효과가 떨어짐. 또한 학습 시점 이후 데이터에 대한 정보가 없음반면 RAG는 최신 데이터에 액세스할 수 있으므로 정보의 최신성을 갖추고, 분야별 애플리케이션에서 우수한 성능을 낼 수 있음또한. 환각 효과를 보정/보완할 수 있음 [기본적인 RAG 수행 흐름] (아래 그림 참조)문서 임베딩을 통한 벡터 DB 생성/저장쿼리에 대한 벡터화 (이때도, 임베딩 활용)쿼리 벡터와 관련이 높은 상위 ..
-
RAG와 LLM 그리고 임베딩(Embedding) 모델의 동향자연어처리(NLP)와 인공지능(AI) 2024. 5. 20. 21:33
RAG를 통해 LLM을 꽃 피우게하는 조연, ‘임베딩 모델’은 어떻게 흘러가고 있을까? 본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [출처] 기계 학습에서 임베딩이란 무엇인가요?, AWSLLM과 RAG란?최근 몇 년 동안, 대형 언어 모델(LLM, Large Language Models)은 인공지능(AI) 분야에서 뜨거운 주제로 부상하고 있다. LLM은 대규모의 텍스트 데이터를 학습하여 인간 수준의 자연어 처리 능력을 보여주었고, 다양한 응용 분야에서 혁신을 일으키고 있다. 이러한 모델들은 텍스트 생성, 기계 번역, 대화형 AI, 감정 분석 등 다양한 작업에서 탁월한 성능을 발휘하고 ..
-
논문 리뷰) Sentence-BERT : Sentence Embeddings using Siamese BERT-NetworksAI 논문 리뷰 2024. 5. 20. 20:21
Sentence BERT는 아래 BERT의 약점을 지적하며, 이를 개선하고자 한 모델이다.문장 기반 임베딩 방식은 sentence-transformer(BERT)를 이후로 실용성이 크게 개선된다. BERT를 이용해서, 10000개의 문장 내에서 가장 유사한 문장을 찾으려면, 일일이 2개씩 비교해야하므로 C(10000, 2) 번을 수행해야한다.또한, BERT의 구조는 클러스터링과 같은 Unsupervised task에는 효과가 좋지 않았다. 이를 위해서는, Bi-encoder 방식이 필요하다. (Bi-encoder와 Cross-encoder의 개념을 이해해야한다.) 출처 : https://hjkim5004.tistory.com/117 Cross-Encoder : 유사성을 판단할 2개의 문장을 '하나의 인..