전체 글
-
Last_hidden_state와 Logit자연어처리(NLP)와 인공지능(AI) 2024. 9. 24. 23:15
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 일반적으로, Last_hidden_state는 logit을 생성하기 위한 입력으로 사용된다.일반적인 흐름: Input → ... → Last Hidden State → Linear Layer → Logits → Softmax → Probabilities [Last_hidden_state]:- 정의: 일반적으로 모델의 마지막 트랜스포머 층(layer)의 출력을 말한다. - 특징: - 고차원의 벡터 표현 (예: BERT-base에서는 768차원). - 각 입력 토큰에 대해 하나의 벡터가 있다. - 입력 시퀀스의 의미적, 문맥적 정보를 포함하고 있다.- 용도: - 다양한 downstream 작업을 위한 ..
-
논문 리뷰) LLM2Vec: Large Language Models Are Secretly Powerful Text EncodersAI 논문 리뷰 2024. 9. 24. 22:28
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [총평]- 24년 4월에 axriv에 등록된, LLM 모델을 임베딩 모델로 변환하는 방법론 제안 - Last Hidden State를 Mean Pooling한 Representation이 좋은 임베딩 표현력을 갖추도록 크게 3가지 기법을 적용. - Bi-directional attention, Masked next token prediction(MNTP), SimCSE - 실험 당시에는 SOTA였을지 모르나, 24년 4월 기준으로 MTEB 9위 달성 (24년 9월 기준으로 MTEB 25위) - 전형적인 LLM 기반 임베딩 모델답게 4096 차원의 높은 차원수가 아쉬움 ※ 본 논문을 읽기전에, 먼저 아래 두 논문을 ..
-
Batch Size, Iteration, Step, Epoch 이해하기자연어처리(NLP)와 인공지능(AI) 2024. 9. 22. 15:05
해당 자료는 대학원때 이영섭 교수님 강의를 들으며 작성한 필기자료를 튜닝하여 블로그에 게제하였습니다. 4개의 가중치(w)를 가진 모델을 훈련하는 상황에서- 총 data 샘플 수 = 100 - batch_size = 2- 1 epoch으로 훈련한다고 해보자.- batch_size = 2이므로, 2개의 data sample로 얻은 loss값마다 가중치 갱신을 수행한다. - 총 100개의 data sample이 존재하므로, 모든 데이터를 학습하려면 총 100 / 2 = 50번의 반복이 필요할 것이다. 이 반복 횟수를 iteration 또는 step이라고 한다. (위 사례에서는 50 step/iteration 수행) 즉, iteration = [총 data sample 수] / [batch_size] 이..
-
논문 리뷰) Efficient Continual Pre-training for Building DomainSpecific Large Language ModelsAI 논문 리뷰 2024. 8. 18. 00:00
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 총평 :- Pythia를 파인튜닝하여, 금융 분야에 특화된 FinPythia를 학습함.- Continual Pretraining을 비용-효과적으로 수행하기 위한, 'Data-Selection' 전략을 제안함. 1) Task 데이터셋이 존재할 경우, Task 데이터셋과의 임베딩 유사도를 기준으로 Task-similar Domain 데이터셋을 구함 2) Task 데이터셋이 없을 경우, Perplexity(새로움)와 Entropy(다양성)를 기준으로 데이터 샘플링을 수행함.- Task/Domain 데이터를 가지고 LLM에 task-adaptive 및 domain continual pre-training을 수..
-
빅데이터 분석기사 5) F 분포와 F 검정(F-test) 그리고 등분산성 검정데이터 사이언스(DS)와 통계 2024. 7. 28. 01:15
F 분포는 '두 카이제곱분포에 대한 비율'로써 정의된다.두 분산을 비교하기 위해, 인위적으로 만든 분포라고 볼 수 있다. F 통계량은 아래와 같이 정의된다. U1,U2은 두 집단의 카이제곱 통계량을 의미 s1, s2 : 두 표본 집단의 표준 편차 σ1, σ2 : 두 모집단의 표준 편차위 F 통계량의 모습에서 유추할 수 있듯이F 통계량은 두 집단의 분산이 같은지 비교하는데 쓰일 수 있다. (등분산 검정) 이러한 F 통계량을 활용한 분산 비교 검정은 회귀분석, Anova 분석 등에서 응용되어 쓰이므로, 그 쓰임새가 많다. 그럼 어떻게 두 분산을 비교하는지 예제를 통해 확인해보자. 예제)수출용 PCB는 탄탄한 내구성을 위해, PCB 기판을 더 두껍게 만들고 있다.PCB 기계의 세팅 값에 변화를 주어, ..
-
빅데이터 분석기사 4) 카이제곱 분포와 검정(chi-squared test)데이터 사이언스(DS)와 통계 2024. 7. 27. 22:25
카이 제곱 분포(χ2 분포)는 k개의 서로 독립적인 확률 변수 x에 대해 제곱하여 더한 것이다.이를 식으로 표현하면, 변수 𝑋1, 𝑋2, ⋯,𝑋𝑘에 대해서 카이제곱 분포는 (𝑋1)^2 + (𝑋2)^2 ⋯, (𝑋𝑘)^2가 된다. 그리고 카이 제곱(χ2) 통계량은 아래와 같다.- s : 표본의 표준편차 - σ : 모집단의 표준편차 - 자유도는 n-1 (자유도에 대한 설명 : 빅데이터 분석기사 2) 중심 극한 정리와 t 검정 (t-test) ) 카이 제곱 통계량의 모습을 보고 유추할 수 있겠지만,카이제곱 통계량과 분포는 '표본의 분산'을 통해 '모집단의 분산'을 '추정'할 때 활용될 수 있다. (이 밖에도 카이제곱은 비율(portion)을 검정하기 위한, 적합도/독립성 검정에도 활용될 수..
-
빅데이터 분석기사 3) t 검정(t-test)과 수행 예시데이터 사이언스(DS)와 통계 2024. 7. 27. 21:28
t 분포와 t 검정에 대한 전반적인 설명은 지난 글에서 설명하였으므로, 지난 글 링크로 갈음하고바로 1표본 t 검정, 2표본 t검정, 동일표본 t검정에 대한 수행 예시로 넘어가겠다.(빅데이터 분석기사 2) 중심 극한 정리와 t 분포) 내가 샘플링한 단일 표본으로 '모평균'을 추정하는 것이다.예제) 공장에서 생산한 10000개의 PCB 기판중 임의로 15개를 샘플링하여, 측정한 기판의 두께(mm)는 다음과 같다.[117, 110, 109, 119, 117, 109, 103, 95, 123, 111, 125, 106, 92, 93, 105]공장에서 생산하는 기판 두께의 평균이 110보다 작은지 검정하라.### 아래 자료를 통해 평균이 110보다 작다고 볼수 있는가?### - 귀무가설 : 평균은 110보..
-
빅데이터 분석기사 2) 중심 극한 정리와 t 검정 (t-test)데이터 사이언스(DS)와 통계 2024. 7. 27. 21:12
모집단의 평균을 모르는 상황에서, 샘플링한 표본만으로 모집단의 평균을 추정해야할때t 분포 (또는 z 분포)를 활용할 수 있다. 그렇다면, t 분포는 무엇이고 어떤 식으로 활용할 수 있을까? 예를 들어, 아래와 같은 '평균 추정' 업무를 수행한다고 가정해보자.예제) 공장에서 생산한 10000개의 PCB 기판중 임의로 15개를 샘플링하여, 측정한 기판의 두께(mm)는 다음과 같다.[117, 110, 109, 119, 117, 109, 103, 95, 123, 111, 125, 106, 92, 93, 105]공장에서 생산하는 기판 두께의 평균이 110이라고 볼수 있는가? 모평균에 대한 추정은 중심극한 정리를 통해 t 분포 (또는 z분포)를 활용할 수 있다. 여기서 중심극한 정리란, 모집단의 분포가 정규분포를 ..