전체 글
-
논문 리뷰) LM-Cocktail: Resilient Tuning of Language Models via Model MergingAI 논문 리뷰 2025. 3. 21. 20:28
[총평]- 간결하고, 심플한 구현 방법인 merge로 새로운 도메인 학습 추가가 가능함을 실험적으로 보임. - FlagEmbedding에서 라이브러리로 구현이 되어 있음. 심지어 잘 먹힘. - 임베딩과 LLM으로 모두 실험하였는데, LLM에서 조금 더 기존 도메인 성능 유지가 잘된 것 같음. [Abstract] 사전 학습된 언어 모델은 다운스트림 애플리케이션을 더 잘 지원하도록 지속적으로 미세 조정(fine-tuning)됩니다. 그러나 이 과정은 특정 도메인을 목표로 할 경우, 일반적인 작업에서 성능 저하를 초래할 수 있습니다. 이러한 문제를 해결하기 위해 LM-Cocktail을 제안하며, 이를 통해 미세 조정된 모델이 일반적인 작업에서도 강건함을 유지할 수 있도록 합니다. 해당 방법은 모델 병합(mod..
-
임베딩 모델 평가) 한국어 임베딩 모델 리더보드 (3)자연어처리(NLP)와 인공지능(AI) 2025. 3. 20. 17:54
임베딩 모델은 자연어 검색과 클러스터링, 유사도 매칭 등에 널리 쓰이고 있다.특히, 근래에는 LLM/RAG를 통해 임베딩 모델을 접하게 되는 경우가 많을 것이라고 생각한다. 그렇다면, 한국어 성능이 좋은 오픈소스 임베딩 모델은 어떤 것들이 있을까?이 궁금증을 해소하는데, 조금이라도 기여하고자 리더보드를 제작해보았다.(참고로, 블로그 작성 시점은 25년 3월 20일이다.)(리더보드 깃허브 주소 바로가기 : https://github.com/OnAnd0n/ko-embedding-leaderboard) 이전 글 : 임베딩 모델 평가) MTEB 코드 살펴보기 (2) - Custom Model 평가 평가를 위한 몇가지 기준은 다음과 같다. 1. 먼저, 임베딩을 평가하기위한 여러 Task 중가장 중요하다고 생각하는..
-
논문 리뷰) ModernBert: Smarter, Better, Faster, Longer A Modern Bidirectional Encoder for Fast Memory Efficent and Long Context Finetuning and InferenceAI 논문 리뷰 2025. 3. 5. 19:23
[총평] - 논문 제목처럼 더 빠르고, Context Length도 길어지고, 성능도 좋아진 인코더 모델의 등장 - LLM 등에 적용된 최신 기법들(RoPE, Flash-Attention, Alter Attention 등)을 인코더 모델에 적용 - 최신 데이터로 사전학습된 이점 - 단, 영어 위주로 학습된 것과 학습데이터가 공개되지 않은 아쉬움.- Answer.AI와 LightOn에서 개발한 모델 (아파치 2.0 라이센스) ModernBERT에 어떠한 기법과 모델 구성요소가 적용되었는지를 위주로 확인해보자. [아키텍쳐 관점에서의 개선] (2.1 Architectural Improvements)1. 모델 구성요소 - Bias Term - RoPE - Pre-Normalization - GeGLU 2. ..
-
임베딩 모델 평가) MTEB 코드 살펴보기 (2) - Customizing자연어처리(NLP)와 인공지능(AI) 2025. 2. 25. 23:34
아래 설명처럼 평가된 한국어 임베딩 모델 순위 확인하기 : https://github.com/OnAnd0n/ko-embedding-leaderboard 이전 글 : 임베딩 모델 평가) MTEB 코드 살펴보기 (1) 다음 글: 임베딩 모델 평가) 한국어 임베딩 모델 리더보드 (3)앞선 글에서는 MTEB 깃허브의 Example 코드로 Model / Tasks / Evaluation이 어떻게 수행되는지,코드를 중심으로 확인하였다. 이전 글에서는 Model이 Sentence-Transformers로 호출될 때의 코드 흐름을 확인하였는데, MTEB에서는 Sentence-Transformers가 아닌 다른 방식으로도 평가를 수행할수있다.그리고 이에더하여 Customizing하여 모델을 평가할수 있도록 지원하기도..
-
임베딩 모델 평가) MTEB 코드 살펴보기 (1)자연어처리(NLP)와 인공지능(AI) 2025. 2. 25. 00:00
아래 설명처럼 평가된 한국어 임베딩 모델 순위 확인하기 : https://github.com/OnAnd0n/ko-embedding-leaderboard 다음 글 : 임베딩 모델 평가) MTEB 코드 살펴보기 (2) - Custom Model 평가MTEB(Massive Text Embedding Benchmark)은 텍스트 임베딩 모델을 다양한 자연어 처리(NLP) 태스크에서 평가하기 위한 벤치마크이다. 문장과 문서 임베딩 모델의 성능을 비교할 수 있도록 리더보드가 존재하며, 검색, 클러스터링, 분류, 의미적 유사도 등 여러 태스크로 나뉘어 모델의 임베딩 성능을 평가한다. 현재 MTEB는 2.0버젼으로 리더보드를 새롭게 꾸민 상태이고, MTEB kor(한국어) 버젼도 존재한다.(아래 그림처럼 2.0 버젼..
-
논문 리뷰) L^2R: Lifelong Learning for First-stage Retrieval with Backward-Compatible RepresentationsAI 논문 리뷰 2024. 11. 28. 17:30
[총평]- 임베딩 모델에서 Memory-based Continual Learning을 위한 학습 방식을 제안- 새로운 정보가 계속 발생되는 현실을 고려하여, 모델 학습 이후 새로운 Data가 지속적으로 추가되는 상황에 대한 학습 방법론을 제안 지속적인 학습을 위해 Old Data와 New Data에서 각각 데이터를 선별하여 학습하는 방법을 제안모델을 지속하면서도, 기존 데이터에 대한 Vector DB 인덱싱을 다시 할 필요없는 Backward-Compatible 러닝을 제안 이 중 지속적인 학습을 위해 Data를 Selection하는 방식에 대해 집중적으로 리뷰하고자 한다. [기본적인 학습 조건]Continual Learning을 위한, memory-based 방식으로 접근 model 학습을 위한, s..
-
논문 리뷰) Continual Learning of Long Topic Sequences in Neural Information RetrievalAI 논문 리뷰 2024. 10. 29. 22:48
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 총평) - Continual Learning 관점에서 임베딩 모델의 IR 성능을 평가한 논문. - 'Studying Catastrophic Forgetting in Neural Ranking Models' 논문의 후속 연구 (저자는 다름) - IR Task에서 Continual Learning을 위해 데이터셋은 어떻해야하는지, 어떤 특징이 있는지 실험하였음. - 학습 데이터의 주제/작업이 유사하다면, 기억 소실이 적다 - 다른 작업의 학습을 통해 소실된 지식이 유사 작업 학습을 통해 다시 성능 보전이 될 수 있다 (당연한거 아닌가) - 학습 텍스트 분포의 변화가 있는 경우, 긴 텍스트(document)보다 짧은 텍..
-
FP32, TF32, FP16, BF16, Mixed Precision에 대한 이해자연어처리(NLP)와 인공지능(AI) 2024. 10. 3. 09:05
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터에 지원받아 작성하였습니다. 언어 모델은 data science와 computer science의 절묘한 조합이라고 생각합니다.특히, LLM 쪽으로 넘어갈수록 인프라의 한계를 마주하기에, 자원에 대한 이해가 필수입니다. 오늘은 컴퓨터가 우리의 data(모델 가중치, input, output 등)를 어떤 format으로 저장하는지(이를 '부동소수점 표현'이라 한다.)에 대해 정리해보겠습니다.아래 내용부터는 편하게 평서문으로 작성합니다.FP32, TF32, FP16, BFLOAT16, Mixed Precision의 개념 위 그림은 nividia에서 FP32와 TF32, FP16, BF16의 부동소수점 표현방식을 표현한 그림이다. - 어떤 포맷이든,..