llm #moe #mixtral of expert #mixtral 8x7b
-
논문 리뷰) Mixtral of Experts (Mixtral 8x7B)AI 논문 리뷰 2024. 5. 25. 14:52
Mistral AI는 파리에 본사를 두고 Google의 DeepMind와 Meta 출신이 공동 창립한 스타트업이다.Mixtral 8x7B 모델로 우리에게 많이 알려졌는데,Mistral 7B 모델의 기본 구조를 그대로 가져가면서, Mixture of Expert를 적용한 것이 큰 특징이다.(Mistral 7B 모델의 기본 구조에 대한 내용은 이전 글에서 소개) [통합 정리] - 대부분 Mistral 7B와 같은 구조이지만 Mixture of Expert를 도입한 것이 큰 특징- FFN(Feed Forward Network)이 8개의 Feedforward blocks(이를 experts라 부름)와 Gate의 구성으로 대체된 차이점 존재.- Gate(router)의 역할은 각 토큰에 대해 두 전문가(expe..