modernbert
-
논문 리뷰) ModernBert: Smarter, Better, Faster, Longer A Modern Bidirectional Encoder for Fast Memory Efficent and Long Context Finetuning and InferenceAI 논문 리뷰 2025. 3. 5. 19:23
[총평] - 논문 제목처럼 더 빠르고, Context Length도 길어지고, 성능도 좋아진 인코더 모델의 등장 - LLM 등에 적용된 최신 기법들(RoPE, Flash-Attention, Alter Attention 등)을 인코더 모델에 적용 - 최신 데이터로 사전학습된 이점 - 단, 영어 위주로 학습된 것과 학습데이터가 공개되지 않은 아쉬움.- Answer.AI와 LightOn에서 개발한 모델 (아파치 2.0 라이센스) ModernBERT에 어떠한 기법과 모델 구성요소가 적용되었는지를 위주로 확인해보자. [아키텍쳐 관점에서의 개선] (2.1 Architectural Improvements)1. 모델 구성요소 - Bias Term - RoPE - Pre-Normalization - GeGLU 2. ..