decoder-only vs encoder-decoder
-
왜 대부분의 LLM은 Decoder-only 형태로 구현되는걸까자연어처리(NLP)와 인공지능(AI) 2024. 6. 5. 22:11
대부분의 LLM은 Decoder-only 방식으로 구현된다. LLama, Palm, Mistral, GPT 시리즈 등 대부분의 모델이 그러하다. (유일하게 Google의 Gemini 문서에서 Encoder-Decoder를 '언급'하고 있다. 명확하게 Gemini가 Encoder-Decoder라고 표기한 적은 없다) Encoder-Decoder 타입도 있는데, 왜 대부분의 LLM은 Decoder-only 형태로 구성되는걸까? 그 이유는 약 5가지 정도 볼수 있다. 1. simple하게 구현가능한 autoregressive learning과 semi-supervised learning만으로도 강력한 zero-shot 성능을 발휘할 수 있기 때문이다. What Language Model Architectur..