AI 논문 리뷰
-
논문 리뷰) LM-Cocktail: Resilient Tuning of Language Models via Model MergingAI 논문 리뷰 2025. 3. 21. 20:28
[총평]- 간결하고, 심플한 구현 방법인 merge로 새로운 도메인 학습 추가가 가능함을 실험적으로 보임. - FlagEmbedding에서 라이브러리로 구현이 되어 있음. 심지어 잘 먹힘. - 임베딩과 LLM으로 모두 실험하였는데, LLM에서 조금 더 기존 도메인 성능 유지가 잘된 것 같음. [Abstract] 사전 학습된 언어 모델은 다운스트림 애플리케이션을 더 잘 지원하도록 지속적으로 미세 조정(fine-tuning)됩니다. 그러나 이 과정은 특정 도메인을 목표로 할 경우, 일반적인 작업에서 성능 저하를 초래할 수 있습니다. 이러한 문제를 해결하기 위해 LM-Cocktail을 제안하며, 이를 통해 미세 조정된 모델이 일반적인 작업에서도 강건함을 유지할 수 있도록 합니다. 해당 방법은 모델 병합(mod..
-
논문 리뷰) ModernBert: Smarter, Better, Faster, Longer A Modern Bidirectional Encoder for Fast Memory Efficent and Long Context Finetuning and InferenceAI 논문 리뷰 2025. 3. 5. 19:23
[총평] - 논문 제목처럼 더 빠르고, Context Length도 길어지고, 성능도 좋아진 인코더 모델의 등장 - LLM 등에 적용된 최신 기법들(RoPE, Flash-Attention, Alter Attention 등)을 인코더 모델에 적용 - 최신 데이터로 사전학습된 이점 - 단, 영어 위주로 학습된 것과 학습데이터가 공개되지 않은 아쉬움.- Answer.AI와 LightOn에서 개발한 모델 (아파치 2.0 라이센스) ModernBERT에 어떠한 기법과 모델 구성요소가 적용되었는지를 위주로 확인해보자. [아키텍쳐 관점에서의 개선] (2.1 Architectural Improvements)1. 모델 구성요소 - Bias Term - RoPE - Pre-Normalization - GeGLU 2. ..
-
논문 리뷰) L^2R: Lifelong Learning for First-stage Retrieval with Backward-Compatible RepresentationsAI 논문 리뷰 2024. 11. 28. 17:30
[총평]- 임베딩 모델에서 Memory-based Continual Learning을 위한 학습 방식을 제안- 새로운 정보가 계속 발생되는 현실을 고려하여, 모델 학습 이후 새로운 Data가 지속적으로 추가되는 상황에 대한 학습 방법론을 제안 지속적인 학습을 위해 Old Data와 New Data에서 각각 데이터를 선별하여 학습하는 방법을 제안모델을 지속하면서도, 기존 데이터에 대한 Vector DB 인덱싱을 다시 할 필요없는 Backward-Compatible 러닝을 제안 이 중 지속적인 학습을 위해 Data를 Selection하는 방식에 대해 집중적으로 리뷰하고자 한다. [기본적인 학습 조건]Continual Learning을 위한, memory-based 방식으로 접근 model 학습을 위한, s..
-
논문 리뷰) Continual Learning of Long Topic Sequences in Neural Information RetrievalAI 논문 리뷰 2024. 10. 29. 22:48
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 총평) - Continual Learning 관점에서 임베딩 모델의 IR 성능을 평가한 논문. - 'Studying Catastrophic Forgetting in Neural Ranking Models' 논문의 후속 연구 (저자는 다름) - IR Task에서 Continual Learning을 위해 데이터셋은 어떻해야하는지, 어떤 특징이 있는지 실험하였음. - 학습 데이터의 주제/작업이 유사하다면, 기억 소실이 적다 - 다른 작업의 학습을 통해 소실된 지식이 유사 작업 학습을 통해 다시 성능 보전이 될 수 있다 (당연한거 아닌가) - 학습 텍스트 분포의 변화가 있는 경우, 긴 텍스트(document)보다 짧은 텍..
-
논문 리뷰) LLM2Vec: Large Language Models Are Secretly Powerful Text EncodersAI 논문 리뷰 2024. 9. 24. 22:28
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [총평]- 24년 4월에 axriv에 등록된, LLM 모델을 임베딩 모델로 변환하는 방법론 제안 - Last Hidden State를 Mean Pooling한 Representation이 좋은 임베딩 표현력을 갖추도록 크게 3가지 기법을 적용. - Bi-directional attention, Masked next token prediction(MNTP), SimCSE - 실험 당시에는 SOTA였을지 모르나, 24년 4월 기준으로 MTEB 9위 달성 (24년 9월 기준으로 MTEB 25위) - 전형적인 LLM 기반 임베딩 모델답게 4096 차원의 높은 차원수가 아쉬움 ※ 본 논문을 읽기전에, 먼저 아래 두 논문을 ..
-
논문 리뷰) Efficient Continual Pre-training for Building DomainSpecific Large Language ModelsAI 논문 리뷰 2024. 8. 18. 00:00
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 총평 :- Pythia를 파인튜닝하여, 금융 분야에 특화된 FinPythia를 학습함.- Continual Pretraining을 비용-효과적으로 수행하기 위한, 'Data-Selection' 전략을 제안함. 1) Task 데이터셋이 존재할 경우, Task 데이터셋과의 임베딩 유사도를 기준으로 Task-similar Domain 데이터셋을 구함 2) Task 데이터셋이 없을 경우, Perplexity(새로움)와 Entropy(다양성)를 기준으로 데이터 샘플링을 수행함.- Task/Domain 데이터를 가지고 LLM에 task-adaptive 및 domain continual pre-training을 수..
-
논문 리뷰) Llama 2 : Open Foundation and Fine-Tuned Chat ModelsAI 논문 리뷰 2024. 6. 24. 23:14
Llama 2_Open Foundation and Fine-Tuned Chat Models 논문은 베일에 쌓인 LLM 학습 방식을 A-Z까지 상세하게 기술한 한줄기의 빛과 같은 논문이다. META는 LLaMa2를 위해 500억 이상의 비용과 시간을 들였지만, 대부분의 학습 방식과 스킬을 공개하였다. [총 평]- open source LLM SOTA를 달성, gpt-3.5-turbo 버전과 성능 유사. - GPT-3.5(InstructGPT 논문)와 비교했을 때 방법론적으로 거의 유사하지만, GQA, Doubled Context, 많은 토큰수, 대화 장기기억을 위한 Ghost Attention, RLHF 반복 수행과 Distribution 맞춰주기, PPO+Reject Sampling Fine-tu..
-
논문 리뷰) RoBERTa: A Robustly Optimized BERT Pretraining ApproachAI 논문 리뷰 2024. 6. 17. 20:55
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. RoBERTa는 모델 명에서 밝혔듯이, BERT의 사전학습 방식 일부를 변경하여, '최적화'를 꾀하고자 한 모델이다.제안자는 BERT가 Undertrained 되었다고 주장한다.그리고 BERT의 아키텍쳐를 따르되, 몇가지 학습 방법론을 바꾸어, SOTA를 달성했다.(그러나, 실제로는 RoBERTa가 꼭 BERT보다 낫다고 볼수 없으며,Base 모델을 RoBERTa/BERT 모두 취하여 실험하는 경우도 많다) 그럼에도 불구하고, BERT 계열의 대표적인 Base 모델이기에 상식(?)으로나마알아두면 좋을 것이라 생각하여 리뷰를 진행하였다. 총평 :BERT에서 제안한 학습 방법보다 더 잘 학습시킬 수 있는 학습 방법..