ABOUT ME

인공지능(AI), NLP(자연어처리), Data Science 관련 전반적인 내용에 대해 공부한 것들을 올리는 저의 Archive입니다.

Today
Yesterday
Total
  • 왜 대부분의 LLM은 Decoder-only 형태로 구현되는걸까
    자연어처리(NLP)와 인공지능(AI) 2024. 6. 5. 22:11

    대부분의 LLM은 Decoder-only 방식으로 구현된다.
    LLama, Palm, Mistral, GPT 시리즈 등 대부분의 모델이 그러하다.
    (유일하게 Google의 Gemini 문서에서 Encoder-Decoder를 '언급'하고 있다. 

    명확하게 Gemini가 Encoder-Decoder라고 표기한 적은 없다)

    Encoder-Decoder 타입도 있는데, 왜 대부분의 LLM은 Decoder-only 형태로 구성되는걸까? 

     


    그 이유는 약 5가지 정도 볼수 있다.

     

    1. simple하게 구현가능한 autoregressive learning과 semi-supervised learning만으로도 

    강력한 zero-shot 성능을 발휘할 수 있기 때문이다.

    What Language Model Architecture and Pretraining Objective Work Best for
    Zero-Shot Generalization? 라는 논문에서는
    Decoder-only 방식(Casual / Non-Casual)이 Encoder-decoder 방식보다 더 높은 Zeroshot 성능을 발휘한다고 밝혔다.

     

    또한, 대량의 Corpus에 대해 autoregressive하게 semi-supervised learning을 쉽게 구현할 수 있다.

    출처 : What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?

     

     

     

    2. In-Context Learning(이하 ICL)은 가중치 변화와 유사 효과 가져올 수 있다는 연구 결과가 존재한다. 

    다시 말해, few-shot 예제 등의 Prompt를 통해 가중치 학습의 효과를 가져올수 있다는 것이다.

    Why Can GPT Learn In-Context?
    Language Models Implicitly Perform Gradient Descent as Meta-Optimizers 라는 논문에서는 

    아래 공식과 같이 ICL이 가중치 변화와 유사하게 작용할수 있음을 수학적으로 표현하였다.

    이는 다시말해 Encoder를 추가하여, 굳이 Prompt에 대한 translation 손실을 가져갈 필요가 없는 셈이다.

    출처 : Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers

     

     

    3. Emergent Ability(창발성) : Emergent Ability란, 모델 사이즈가 특정 수준을 넘어서게 되면, 

    학습 능력이 크게 상승하는 것을 말한다.(아래 그림 참고) 

    현재까지 이는 decoder-only에서만 확인된다. 

    (encoder-decoder에 창발효과가 없다는 것은 아님. 그냥 실험 사례가 없음 - 못 찾은 것일수도...)

     

    출처 : A Closer Look at Large Language Models Emergent Abilities

     

     

    4. autoregressive learning을 할 경우, 이전의 출력을 다음의 입력으로 재활용하므로 

    Key, Value를 재사용하는 이점이 생긴다. 이는 속도와 계산에 대해 큰 이점을 가져다준다.

     

     

     

    5. Masked Attention을 통한 Full-rank 효과

    Decoder-only 아키텍처에서는 masking으로 인해 attention matrix가 하삼각 형태(아래 그림의 Casual)로 제한되게 된다. 
    이는 이론적으로 full-rank 상태를 유지하게 하고, 더 강한 표현 능력을 갖는 가능성을 갖게 된다.

     

    출처 : Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

     

    참고 자료 및 출처 :

    https://medium.com/@yumo-bai/why-are-most-llms-decoder-only-590c903e4789

    728x90
Designed by Tistory.