전체 글
-
논문 리뷰) L^2R: Lifelong Learning for First-stage Retrieval with Backward-Compatible RepresentationsAI 논문 리뷰 2024. 11. 28. 17:30
[총평]- 임베딩 모델에서 Memory-based Continual Learning을 위한 학습 방식을 제안- 새로운 정보가 계속 발생되는 현실을 고려하여, 모델 학습 이후 새로운 Data가 지속적으로 추가되는 상황에 대한 학습 방법론을 제안 지속적인 학습을 위해 Old Data와 New Data에서 각각 데이터를 선별하여 학습하는 방법을 제안모델을 지속하면서도, 기존 데이터에 대한 Vector DB 인덱싱을 다시 할 필요없는 Backward-Compatible 러닝을 제안 이 중 지속적인 학습을 위해 Data를 Selection하는 방식에 대해 집중적으로 리뷰하고자 한다. [기본적인 학습 조건]Continual Learning을 위한, memory-based 방식으로 접근 model 학습을 위한, s..
-
논문 리뷰) Continual Learning of Long Topic Sequences in Neural Information RetrievalAI 논문 리뷰 2024. 10. 29. 22:48
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 총평) - Continual Learning 관점에서 임베딩 모델의 IR 성능을 평가한 논문. - 'Studying Catastrophic Forgetting in Neural Ranking Models' 논문의 후속 연구 (저자는 다름) - IR Task에서 Continual Learning을 위해 데이터셋은 어떻해야하는지, 어떤 특징이 있는지 실험하였음. - 학습 데이터의 주제/작업이 유사하다면, 기억 소실이 적다 - 다른 작업의 학습을 통해 소실된 지식이 유사 작업 학습을 통해 다시 성능 보전이 될 수 있다 (당연한거 아닌가) - 학습 텍스트 분포의 변화가 있는 경우, 긴 텍스트(document)보다 짧은 텍..
-
FP32, TF32, FP16, BF16, Mixed Precision에 대한 이해자연어처리(NLP)와 인공지능(AI) 2024. 10. 3. 09:05
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터에 지원받아 작성하였습니다. 언어 모델은 data science와 computer science의 절묘한 조합이라고 생각합니다.특히, LLM 쪽으로 넘어갈수록 인프라의 한계를 마주하기에, 자원에 대한 이해가 필수입니다. 오늘은 컴퓨터가 우리의 data(모델 가중치, input, output 등)를 어떤 format으로 저장하는지(이를 '부동소수점 표현'이라 한다.)에 대해 정리해보겠습니다.아래 내용부터는 편하게 평서문으로 작성합니다.FP32, TF32, FP16, BFLOAT16, Mixed Precision의 개념 위 그림은 nividia에서 FP32와 TF32, FP16, BF16의 부동소수점 표현방식을 표현한 그림이다. - 어떤 포맷이든,..
-
Last_hidden_state와 Logit자연어처리(NLP)와 인공지능(AI) 2024. 9. 24. 23:15
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 일반적으로, Last_hidden_state는 logit을 생성하기 위한 입력으로 사용된다.일반적인 흐름: Input → ... → Last Hidden State → Linear Layer → Logits → Softmax → Probabilities [Last_hidden_state]:- 정의: 일반적으로 모델의 마지막 트랜스포머 층(layer)의 출력을 말한다. - 특징: - 고차원의 벡터 표현 (예: BERT-base에서는 768차원). - 각 입력 토큰에 대해 하나의 벡터가 있다. - 입력 시퀀스의 의미적, 문맥적 정보를 포함하고 있다.- 용도: - 다양한 downstream 작업을 위한 ..
-
논문 리뷰) LLM2Vec: Large Language Models Are Secretly Powerful Text EncodersAI 논문 리뷰 2024. 9. 24. 22:28
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [총평]- 24년 4월에 axriv에 등록된, LLM 모델을 임베딩 모델로 변환하는 방법론 제안 - Last Hidden State를 Mean Pooling한 Representation이 좋은 임베딩 표현력을 갖추도록 크게 3가지 기법을 적용. - Bi-directional attention, Masked next token prediction(MNTP), SimCSE - 실험 당시에는 SOTA였을지 모르나, 24년 4월 기준으로 MTEB 9위 달성 (24년 9월 기준으로 MTEB 25위) - 전형적인 LLM 기반 임베딩 모델답게 4096 차원의 높은 차원수가 아쉬움 ※ 본 논문을 읽기전에, 먼저 아래 두 논문을 ..
-
Batch Size, Iteration, Step, Epoch 이해하기자연어처리(NLP)와 인공지능(AI) 2024. 9. 22. 15:05
해당 자료는 대학원때 이영섭 교수님 강의를 들으며 작성한 필기자료를 튜닝하여 블로그에 게제하였습니다. 4개의 가중치(w)를 가진 모델을 훈련하는 상황에서- 총 data 샘플 수 = 100 - batch_size = 2- 1 epoch으로 훈련한다고 해보자.- batch_size = 2이므로, 2개의 data sample로 얻은 loss값마다 가중치 갱신을 수행한다. - 총 100개의 data sample이 존재하므로, 모든 데이터를 학습하려면 총 100 / 2 = 50번의 반복이 필요할 것이다. 이 반복 횟수를 iteration 또는 step이라고 한다. (위 사례에서는 50 step/iteration 수행) 즉, iteration = [총 data sample 수] / [batch_size] 이..
-
논문 리뷰) Efficient Continual Pre-training for Building DomainSpecific Large Language ModelsAI 논문 리뷰 2024. 8. 18. 00:00
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 총평 :- Pythia를 파인튜닝하여, 금융 분야에 특화된 FinPythia를 학습함.- Continual Pretraining을 비용-효과적으로 수행하기 위한, 'Data-Selection' 전략을 제안함. 1) Task 데이터셋이 존재할 경우, Task 데이터셋과의 임베딩 유사도를 기준으로 Task-similar Domain 데이터셋을 구함 2) Task 데이터셋이 없을 경우, Perplexity(새로움)와 Entropy(다양성)를 기준으로 데이터 샘플링을 수행함.- Task/Domain 데이터를 가지고 LLM에 task-adaptive 및 domain continual pre-training을 수..
-
빅데이터 분석기사 5) F 분포와 F 검정(F-test) 그리고 등분산성 검정데이터 사이언스(DS)와 통계 2024. 7. 28. 01:15
F 분포는 '두 카이제곱분포에 대한 비율'로써 정의된다.두 분산을 비교하기 위해, 인위적으로 만든 분포라고 볼 수 있다. F 통계량은 아래와 같이 정의된다. U1,U2은 두 집단의 카이제곱 통계량을 의미 s1, s2 : 두 표본 집단의 표준 편차 σ1, σ2 : 두 모집단의 표준 편차위 F 통계량의 모습에서 유추할 수 있듯이F 통계량은 두 집단의 분산이 같은지 비교하는데 쓰일 수 있다. (등분산 검정) 이러한 F 통계량을 활용한 분산 비교 검정은 회귀분석, Anova 분석 등에서 응용되어 쓰이므로, 그 쓰임새가 많다. 그럼 어떻게 두 분산을 비교하는지 예제를 통해 확인해보자. 예제)수출용 PCB는 탄탄한 내구성을 위해, PCB 기판을 더 두껍게 만들고 있다.PCB 기계의 세팅 값에 변화를 주어, ..