분류 전체보기
-
왜 대부분의 LLM은 Decoder-only 형태로 구현되는걸까자연어처리(NLP)와 인공지능(AI) 2024. 6. 5. 22:11
대부분의 LLM은 Decoder-only 방식으로 구현된다. LLama, Palm, Mistral, GPT 시리즈 등 대부분의 모델이 그러하다. (유일하게 Google의 Gemini 문서에서 Encoder-Decoder를 '언급'하고 있다. 명확하게 Gemini가 Encoder-Decoder라고 표기한 적은 없다) Encoder-Decoder 타입도 있는데, 왜 대부분의 LLM은 Decoder-only 형태로 구성되는걸까? 그 이유는 약 5가지 정도 볼수 있다. 1. simple하게 구현가능한 autoregressive learning과 semi-supervised learning만으로도 강력한 zero-shot 성능을 발휘할 수 있기 때문이다. What Language Model Architectur..
-
논문 리뷰) From Sparse to Dense_GPT-4 Summarization with Chain of Density PromptingAI 논문 리뷰 2024. 6. 2. 10:33
'From Sparse to Dense_GPT-4 Summarization with Chain of Density Prompting'은Chain of Density 방법으로 요약을 수행하는 것을 제안한 논문이다.내용이 매우 짧고 간결하지만, 실용적이다. 논문에서는 좋은 요약이란 무엇인지아래와 같은 전제 조건을 달고, Chain of Density 방법을 제안한다. (전제) 좋은 요약은 정보의 '밀도'가 높고, 자세하면서도 'Entity' 중심이어야한다.(제안) 'Chain of Density' 프롬프트를 사용하여, 점점 더 Entity의 density(밀도)가 높아지도록 요약을 요청함. 그렇다면, Chain of Density (이하 CoD)는 어떻게 수행되는 것일까? 1. 먼저 LLM(ChatGPT..
-
논문 리뷰) Extracting Interpretable Features from Claude 3AI 논문 리뷰 2024. 5. 28. 00:02
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 'Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet'은Claude3 모델을 만든 Anthropic에서 LLM의 내부를 이해하고자 연구한 내용에 대해 공유한 것으로,논문이라기보다는 리포트에 가깝다. 논문은 아니지만, 제법 이슈가 많이되었기에 리뷰를 하고자 한다. [통합 요약]해당 리포트는 굉장히 내용이 길고, 많다. 하지만 이를 짧게 축약하자면, 다음과 같다. "In this work, we focused on applying SAEs to residual stream activations halfway through the ..
-
논문 리뷰) DPR : Dense Passage Retrieval for Open-Domain Question AnsweringAI 논문 리뷰 2024. 5. 27. 20:04
DPR은 Dense Vector 검색 방식에서 실제로 많이 쓰이는 있는 방법이다.검색어(질문)인 Query들과 검색 대상(문서)이 되는 Passage들 중에서서로 관련이 있는 Query와 Passage끼리 높은 유사도(내적 값)가 나올수 있도록 모델을 학습한 것이 주요 컨셉이다. [검색 방식에 대한 참고 자료]-일반적인 Ensemble Retrieval의 흐름검색에는 크게 3가지 방법론이 있다.키워드 빈도 검색Dense 벡터 검색Graph 기반 검색- 빈도 기반 방식은 유의어를 구분하지 못하고 문장의 맥락을 이해하지 못한다는 근본적 한계가 있지만, BM25는 빠른 계산, 학습이 필요없는 이점, 준수한 성능 등을 이유로 실제 서비스에 많이 활용되고 있다 - Dense 벡터 기준으로 SOTA는 당연히 ..
-
논문 리뷰) Mixtral of Experts (Mixtral 8x7B)AI 논문 리뷰 2024. 5. 25. 14:52
Mistral AI는 파리에 본사를 두고 Google의 DeepMind와 Meta 출신이 공동 창립한 스타트업이다.Mixtral 8x7B 모델로 우리에게 많이 알려졌는데,Mistral 7B 모델의 기본 구조를 그대로 가져가면서, Mixture of Expert를 적용한 것이 큰 특징이다.(Mistral 7B 모델의 기본 구조에 대한 내용은 이전 글에서 소개) [통합 정리] - 대부분 Mistral 7B와 같은 구조이지만 Mixture of Expert를 도입한 것이 큰 특징- FFN(Feed Forward Network)이 8개의 Feedforward blocks(이를 experts라 부름)와 Gate의 구성으로 대체된 차이점 존재.- Gate(router)의 역할은 각 토큰에 대해 두 전문가(expe..
-
논문 리뷰) Mistral 7BAI 논문 리뷰 2024. 5. 25. 14:00
Mistral AI는 파리에 본사를 두고 Google의 DeepMind와 Meta 출신이 공동 창립한 스타트업이다.Mixtral 8 x 7B 모델로 우리에게 많이 알려졌는데, 그 기본이 되는 Mistral 7B 모델을 먼저 알아보고Mixtral 8 x 7B 모델에 대해 리뷰하고자 한다. Mixtral 8 x 7B로 이동 [주요 특징]- Mistral AI에서 만든 Mistral 7B 모델이 LLama2 13B보다 좋은 성능을 보임. - GQA, SWA, Rolling Buffer Cache (+Pre-fill and Chunking)를 통해 빠른 추론을 가능케함. (해당 기법들을 주로 H/W 최적화에 초점이 맞춰져있음) - instruction fine-tuning된 모델 Mistral 7B - In..
-
논문 리뷰) DiffCSE - Difference-based Contrastive Learning for Sentence EmbeddingsAI 논문 리뷰 2024. 5. 23. 23:35
22년에 발표된 DiffCSE는 MLM과 SimCSE를 조합한 방식을 제안하였는데, 특히 Self-prediction 중 Innate relationship prediction을 추가로 활용한 것이 핵심 아이디어다.( Innate relationship prediction이 무엇인지는 이전 글을 참고하길 바란다) 학습 시에 original 문장의 일부를 마스킹하고, 마스킹 된 부분을 Generator 통해 생성한 뒤, 변형된 전체 문장에서 어느 부분이 마스킹된 것인지 Discriminator를 통해 맞히게 하였다. (GAN을 알고 있다면, 이해가 더 쉬울 것이다) 이렇게 마스킹된 부분을 맞히는 작업을 피드백(Loss 함수)에 반영함으로써, 데이터 증강을 위해 수행한 삭제, 마스킹 등의 행위가 문장 본래..
-
문장 기반 임베딩 모델의 Semi-supervised 학습 방법자연어처리(NLP)와 인공지능(AI) 2024. 5. 23. 23:30
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 모델을 학습하기 위해서는 대량의 labeled 학습 데이터가 필요하다. 그렇지만, 대량의 labeled 학습 데이터 구축에는 비용과 시간의 문제가 발생하므로 보통은 Semi-supervised 학습을 통해 문장의 표현을 잘 이해한 기초 모델을 만들고, 이후에 labeled 데이터로 추가 학습을 진행한다. 여기서 문장의 표현을 잘 이해하기 위한 Semi-supervised 학습 방법은 크게 Self-prediction과 Contrastive learning로 구분할 수 있다. [Self-prediction]Self-prediction이란, 하나의 data 내에서 한 부분을 통해서 다른 부분을 예측하도록 하는 학..