AI 논문 리뷰
-
논문 리뷰) L^2R: Lifelong Learning for First-stage Retrieval with Backward-Compatible RepresentationsAI 논문 리뷰 2024. 11. 28. 17:30
[총평]- 임베딩 모델에서 Memory-based Continual Learning을 위한 학습 방식을 제안- 새로운 정보가 계속 발생되는 현실을 고려하여, 모델 학습 이후 새로운 Data가 지속적으로 추가되는 상황에 대한 학습 방법론을 제안 지속적인 학습을 위해 Old Data와 New Data에서 각각 데이터를 선별하여 학습하는 방법을 제안모델을 지속하면서도, 기존 데이터에 대한 Vector DB 인덱싱을 다시 할 필요없는 Backward-Compatible 러닝을 제안 이 중 지속적인 학습을 위해 Data를 Selection하는 방식에 대해 집중적으로 리뷰하고자 한다. [기본적인 학습 조건]Continual Learning을 위한, memory-based 방식으로 접근 model 학습을 위한, s..
-
논문 리뷰) Continual Learning of Long Topic Sequences in Neural Information RetrievalAI 논문 리뷰 2024. 10. 29. 22:48
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 총평) - Continual Learning 관점에서 임베딩 모델의 IR 성능을 평가한 논문. - 'Studying Catastrophic Forgetting in Neural Ranking Models' 논문의 후속 연구 (저자는 다름) - IR Task에서 Continual Learning을 위해 데이터셋은 어떻해야하는지, 어떤 특징이 있는지 실험하였음. - 학습 데이터의 주제/작업이 유사하다면, 기억 소실이 적다 - 다른 작업의 학습을 통해 소실된 지식이 유사 작업 학습을 통해 다시 성능 보전이 될 수 있다 (당연한거 아닌가) - 학습 텍스트 분포의 변화가 있는 경우, 긴 텍스트(document)보다 짧은 텍..
-
논문 리뷰) LLM2Vec: Large Language Models Are Secretly Powerful Text EncodersAI 논문 리뷰 2024. 9. 24. 22:28
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [총평]- 24년 4월에 axriv에 등록된, LLM 모델을 임베딩 모델로 변환하는 방법론 제안 - Last Hidden State를 Mean Pooling한 Representation이 좋은 임베딩 표현력을 갖추도록 크게 3가지 기법을 적용. - Bi-directional attention, Masked next token prediction(MNTP), SimCSE - 실험 당시에는 SOTA였을지 모르나, 24년 4월 기준으로 MTEB 9위 달성 (24년 9월 기준으로 MTEB 25위) - 전형적인 LLM 기반 임베딩 모델답게 4096 차원의 높은 차원수가 아쉬움 ※ 본 논문을 읽기전에, 먼저 아래 두 논문을 ..
-
논문 리뷰) Efficient Continual Pre-training for Building DomainSpecific Large Language ModelsAI 논문 리뷰 2024. 8. 18. 00:00
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 총평 :- Pythia를 파인튜닝하여, 금융 분야에 특화된 FinPythia를 학습함.- Continual Pretraining을 비용-효과적으로 수행하기 위한, 'Data-Selection' 전략을 제안함. 1) Task 데이터셋이 존재할 경우, Task 데이터셋과의 임베딩 유사도를 기준으로 Task-similar Domain 데이터셋을 구함 2) Task 데이터셋이 없을 경우, Perplexity(새로움)와 Entropy(다양성)를 기준으로 데이터 샘플링을 수행함.- Task/Domain 데이터를 가지고 LLM에 task-adaptive 및 domain continual pre-training을 수..
-
논문 리뷰) Llama 2 : Open Foundation and Fine-Tuned Chat ModelsAI 논문 리뷰 2024. 6. 24. 23:14
Llama 2_Open Foundation and Fine-Tuned Chat Models 논문은 베일에 쌓인 LLM 학습 방식을 A-Z까지 상세하게 기술한 한줄기의 빛과 같은 논문이다. META는 LLaMa2를 위해 500억 이상의 비용과 시간을 들였지만, 대부분의 학습 방식과 스킬을 공개하였다. [총 평]- open source LLM SOTA를 달성, gpt-3.5-turbo 버전과 성능 유사. - GPT-3.5(InstructGPT 논문)와 비교했을 때 방법론적으로 거의 유사하지만, GQA, Doubled Context, 많은 토큰수, 대화 장기기억을 위한 Ghost Attention, RLHF 반복 수행과 Distribution 맞춰주기, PPO+Reject Sampling Fine-tu..
-
논문 리뷰) RoBERTa: A Robustly Optimized BERT Pretraining ApproachAI 논문 리뷰 2024. 6. 17. 20:55
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. RoBERTa는 모델 명에서 밝혔듯이, BERT의 사전학습 방식 일부를 변경하여, '최적화'를 꾀하고자 한 모델이다.제안자는 BERT가 Undertrained 되었다고 주장한다.그리고 BERT의 아키텍쳐를 따르되, 몇가지 학습 방법론을 바꾸어, SOTA를 달성했다.(그러나, 실제로는 RoBERTa가 꼭 BERT보다 낫다고 볼수 없으며,Base 모델을 RoBERTa/BERT 모두 취하여 실험하는 경우도 많다) 그럼에도 불구하고, BERT 계열의 대표적인 Base 모델이기에 상식(?)으로나마알아두면 좋을 것이라 생각하여 리뷰를 진행하였다. 총평 :BERT에서 제안한 학습 방법보다 더 잘 학습시킬 수 있는 학습 방법..
-
논문 리뷰) ReAct : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELSAI 논문 리뷰 2024. 6. 11. 00:39
ReAct 는 22년도에 나온 Prompt 기법이다.논문의 내용은 길지만, 핵심 내용은 간단하다. ReAct = Reason + Act = 추론 + 실행 즉 ReAct란, 추론의 'CoT'와 실행의 'Action(검색 등)'을 조합하여 답변의 신뢰성과 추론의 능력을 키우고자 의도한 기법이다. Prompting Method를 아래와 같이 4가지 방법으로 구분할수 있다. - Standard Prompt- Reason-only(CoT, Chain of Thought) : 즉, 추론 only - Act-only : Action과 Observation(관찰) only (action은 인터넷이나 문서같은 외부 요소에 접촉하여 정보를 수집)- ReAc..
-
논문 리뷰) Multilingual E5 Text Embeddings (mE5)AI 논문 리뷰 2024. 6. 6. 11:33
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [통합 요약] Multilingual E5 Text Embeddings: A Technical Report는 이름 그대로 논문이 아니라 기술 Report이다. 그래서인지 내용도 굉장히 짧다. 하지만 E5 → E5 mistral 7B → Multilingual E5(이하 mE5)로 이어지는 꾸준한 모델의 발전과 파생 그리고 여러가지 시도를 확인할 수 있다. 그리고 mE5는 생각보다 잘 쓰이는 모델이기도 하다. mE5 모델은 E5 mistral 7B 모델에서 쓰인 2-stage 학습 방법론과 생성 데이터를 BERT 계열의 모델에 적용한 것이다. (E5 mistral 7B는 지난 번 리뷰하였으므로, 설명은 생략하겠다...