분류 전체보기
-
논문 리뷰) DPR : Dense Passage Retrieval for Open-Domain Question AnsweringAI 논문 리뷰 2024. 5. 27. 20:04
DPR은 Dense Vector 검색 방식에서 실제로 많이 쓰이는 있는 방법이다.검색어(질문)인 Query들과 검색 대상(문서)이 되는 Passage들 중에서서로 관련이 있는 Query와 Passage끼리 높은 유사도(내적 값)가 나올수 있도록 모델을 학습한 것이 주요 컨셉이다. [검색 방식에 대한 참고 자료]-일반적인 Ensemble Retrieval의 흐름검색에는 크게 3가지 방법론이 있다.키워드 빈도 검색Dense 벡터 검색Graph 기반 검색- 빈도 기반 방식은 유의어를 구분하지 못하고 문장의 맥락을 이해하지 못한다는 근본적 한계가 있지만, BM25는 빠른 계산, 학습이 필요없는 이점, 준수한 성능 등을 이유로 실제 서비스에 많이 활용되고 있다 - Dense 벡터 기준으로 SOTA는 당연히 ..
-
논문 리뷰) Mixtral of Experts (Mixtral 8x7B)AI 논문 리뷰 2024. 5. 25. 14:52
Mistral AI는 파리에 본사를 두고 Google의 DeepMind와 Meta 출신이 공동 창립한 스타트업이다.Mixtral 8x7B 모델로 우리에게 많이 알려졌는데,Mistral 7B 모델의 기본 구조를 그대로 가져가면서, Mixture of Expert를 적용한 것이 큰 특징이다.(Mistral 7B 모델의 기본 구조에 대한 내용은 이전 글에서 소개) [통합 정리] - 대부분 Mistral 7B와 같은 구조이지만 Mixture of Expert를 도입한 것이 큰 특징- FFN(Feed Forward Network)이 8개의 Feedforward blocks(이를 experts라 부름)와 Gate의 구성으로 대체된 차이점 존재.- Gate(router)의 역할은 각 토큰에 대해 두 전문가(expe..
-
논문 리뷰) Mistral 7BAI 논문 리뷰 2024. 5. 25. 14:00
Mistral AI는 파리에 본사를 두고 Google의 DeepMind와 Meta 출신이 공동 창립한 스타트업이다.Mixtral 8 x 7B 모델로 우리에게 많이 알려졌는데, 그 기본이 되는 Mistral 7B 모델을 먼저 알아보고Mixtral 8 x 7B 모델에 대해 리뷰하고자 한다. Mixtral 8 x 7B로 이동 [주요 특징]- Mistral AI에서 만든 Mistral 7B 모델이 LLama2 13B보다 좋은 성능을 보임. - GQA, SWA, Rolling Buffer Cache (+Pre-fill and Chunking)를 통해 빠른 추론을 가능케함. (해당 기법들을 주로 H/W 최적화에 초점이 맞춰져있음) - instruction fine-tuning된 모델 Mistral 7B - In..
-
논문 리뷰) DiffCSE - Difference-based Contrastive Learning for Sentence EmbeddingsAI 논문 리뷰 2024. 5. 23. 23:35
22년에 발표된 DiffCSE는 MLM과 SimCSE를 조합한 방식을 제안하였는데, 특히 Self-prediction 중 Innate relationship prediction을 추가로 활용한 것이 핵심 아이디어다.( Innate relationship prediction이 무엇인지는 이전 글을 참고하길 바란다) 학습 시에 original 문장의 일부를 마스킹하고, 마스킹 된 부분을 Generator 통해 생성한 뒤, 변형된 전체 문장에서 어느 부분이 마스킹된 것인지 Discriminator를 통해 맞히게 하였다. (GAN을 알고 있다면, 이해가 더 쉬울 것이다) 이렇게 마스킹된 부분을 맞히는 작업을 피드백(Loss 함수)에 반영함으로써, 데이터 증강을 위해 수행한 삭제, 마스킹 등의 행위가 문장 본래..
-
문장 기반 임베딩 모델의 Semi-supervised 학습 방법자연어처리(NLP)와 인공지능(AI) 2024. 5. 23. 23:30
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 모델을 학습하기 위해서는 대량의 labeled 학습 데이터가 필요하다. 그렇지만, 대량의 labeled 학습 데이터 구축에는 비용과 시간의 문제가 발생하므로 보통은 Semi-supervised 학습을 통해 문장의 표현을 잘 이해한 기초 모델을 만들고, 이후에 labeled 데이터로 추가 학습을 진행한다. 여기서 문장의 표현을 잘 이해하기 위한 Semi-supervised 학습 방법은 크게 Self-prediction과 Contrastive learning로 구분할 수 있다. [Self-prediction]Self-prediction이란, 하나의 data 내에서 한 부분을 통해서 다른 부분을 예측하도록 하는 학..
-
논문 리뷰) Improving Text Embeddings with Large Language ModelAI 논문 리뷰 2024. 5. 23. 22:47
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 23년에 공개된 ‘Improving Text Embeddings with Large Language Model’ 에서는 오픈소스 LLM인 Mistral 7B 모델과 ChatGPT4로 생성한 학습 데이터를 활용한 방식을 제안하였다.LLM 모델을 생성 데이터로 Contrastive learning(InfoNCE loss)한다는 심플한 아이디어로 SOTA(24년 5월 기준, e5-mistral-7b-instruct 모델로 아직까지 6위)를 달성했다. [Abstract]제안자는 합성데이터와 1k 미만의 training step(가중치 업데이트 횟수)만으로 높은 품질의 텍스트 임베딩을 얻었다. 현존하는 방법은 주로 몇단..
-
음성인식에서 쓰이는 FFT(Fast Fourier Transform)와 STFT(Short Time Fourier Transform) 그리고 Spectrogram의 개념과 차이점자연어처리(NLP)와 인공지능(AI) 2024. 5. 23. 22:25
[Fourier Transform]시간에 따른 신호의 변화를, 주파수의 관점으로 표현(변환)한 것. 그래프에서, X축을 시간에서 주파수로 바꿨다고 생각하면 됨. [Discrete Fourier Transform]퓨리에 변환의 결과가 이산값(Dicrete)하게 만드는 것이 특징.우리가 실제로 컴퓨터에 활용할 신호는 양자환된 Dicrete신호이므로, DFT가 필요하다. [Fast Fourier Transform]DFT를 빠르게 계산하는 하나의 알고리즘.내츄럴한 DFT는 계산량이 많다. (DFT의 복잡도는 O(N*N)이다.)더 간단히 할 수 있는 방법이 FFT이고, FFT의 복잡도는 (N/2)logN 으로 줄어들 수 있다.가장 일반적으로 사용되는 알고리즘은 쿨리-튜키 알고리즘이다.(단, N=2의 지수승일 때..
-
논문 리뷰) GPL - Generative Pseudo Labeling for Unsupervised Domain AdaptationAI 논문 리뷰 2024. 5. 22. 23:46
[요약]GPL은 GenQ에서 진보된 Unsupervised 방법론으로 볼수 있다. GenQ는 T5를 이용하여, Passage(문서)에서 Query(질문 또는 찾고자 하는 검색어)를 생성하고, 생성된 Query/Passage Pair를 SBERT 학습에 활용하는 것이 핵심이다. GPL은 GenQ에서 몇가지 단계가 추가된다. 1) Query Generation via T5: doc2query 논문에서 제안한 T5를 이용한 Query 생성 방법론을 활용, Passage로부터 Query를 생성. 허깅페이스 기준 doc2query/msmarco-t5-base-v1 등의 모델 활용, 여기까지는 GenQ와 동일 2) Negative Mining via Dense Retrieval : Dense Retrieval(..