LLM
-
논문 리뷰) Efficient Continual Pre-training for Building DomainSpecific Large Language ModelsAI 논문 리뷰 2024. 8. 18. 00:00
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 총평 :- Pythia를 파인튜닝하여, 금융 분야에 특화된 FinPythia를 학습함.- Continual Pretraining을 비용-효과적으로 수행하기 위한, 'Data-Selection' 전략을 제안함. 1) Task 데이터셋이 존재할 경우, Task 데이터셋과의 임베딩 유사도를 기준으로 Task-similar Domain 데이터셋을 구함 2) Task 데이터셋이 없을 경우, Perplexity(새로움)와 Entropy(다양성)를 기준으로 데이터 샘플링을 수행함.- Task/Domain 데이터를 가지고 LLM에 task-adaptive 및 domain continual pre-training을 수..
-
논문 리뷰) Llama 2 : Open Foundation and Fine-Tuned Chat ModelsAI 논문 리뷰 2024. 6. 24. 23:14
Llama 2_Open Foundation and Fine-Tuned Chat Models 논문은 베일에 쌓인 LLM 학습 방식을 A-Z까지 상세하게 기술한 한줄기의 빛과 같은 논문이다. META는 LLaMa2를 위해 500억 이상의 비용과 시간을 들였지만, 대부분의 학습 방식과 스킬을 공개하였다. [총 평]- open source LLM SOTA를 달성, gpt-3.5-turbo 버전과 성능 유사. - GPT-3.5(InstructGPT 논문)와 비교했을 때 방법론적으로 거의 유사하지만, GQA, Doubled Context, 많은 토큰수, 대화 장기기억을 위한 Ghost Attention, RLHF 반복 수행과 Distribution 맞춰주기, PPO+Reject Sampling Fine-tu..
-
RAG와 LLM 그리고 임베딩(Embedding) 모델의 동향자연어처리(NLP)와 인공지능(AI) 2024. 5. 20. 21:33
RAG를 통해 LLM을 꽃 피우게하는 조연, ‘임베딩 모델’은 어떻게 흘러가고 있을까? 본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [출처] 기계 학습에서 임베딩이란 무엇인가요?, AWSLLM과 RAG란?최근 몇 년 동안, 대형 언어 모델(LLM, Large Language Models)은 인공지능(AI) 분야에서 뜨거운 주제로 부상하고 있다. LLM은 대규모의 텍스트 데이터를 학습하여 인간 수준의 자연어 처리 능력을 보여주었고, 다양한 응용 분야에서 혁신을 일으키고 있다. 이러한 모델들은 텍스트 생성, 기계 번역, 대화형 AI, 감정 분석 등 다양한 작업에서 탁월한 성능을 발휘하고 ..