전체 글
-
빅데이터 분석기사 4) 카이제곱 분포와 검정(chi-squared test)데이터 사이언스(DS)와 통계 2024. 7. 27. 22:25
카이 제곱 분포(χ2 분포)는 k개의 서로 독립적인 확률 변수 x에 대해 제곱하여 더한 것이다.이를 식으로 표현하면, 변수 𝑋1, 𝑋2, ⋯,𝑋𝑘에 대해서 카이제곱 분포는 (𝑋1)^2 + (𝑋2)^2 ⋯, (𝑋𝑘)^2가 된다. 그리고 카이 제곱(χ2) 통계량은 아래와 같다.- s : 표본의 표준편차 - σ : 모집단의 표준편차 - 자유도는 n-1 (자유도에 대한 설명 : 빅데이터 분석기사 2) 중심 극한 정리와 t 검정 (t-test) ) 카이 제곱 통계량의 모습을 보고 유추할 수 있겠지만,카이제곱 통계량과 분포는 '표본의 분산'을 통해 '모집단의 분산'을 '추정'할 때 활용될 수 있다. (이 밖에도 카이제곱은 비율(portion)을 검정하기 위한, 적합도/독립성 검정에도 활용될 수..
-
빅데이터 분석기사 3) t 검정(t-test)과 수행 예시데이터 사이언스(DS)와 통계 2024. 7. 27. 21:28
t 분포와 t 검정에 대한 전반적인 설명은 지난 글에서 설명하였으므로, 지난 글 링크로 갈음하고바로 1표본 t 검정, 2표본 t검정, 동일표본 t검정에 대한 수행 예시로 넘어가겠다.(빅데이터 분석기사 2) 중심 극한 정리와 t 분포) 내가 샘플링한 단일 표본으로 '모평균'을 추정하는 것이다.예제) 공장에서 생산한 10000개의 PCB 기판중 임의로 15개를 샘플링하여, 측정한 기판의 두께(mm)는 다음과 같다.[117, 110, 109, 119, 117, 109, 103, 95, 123, 111, 125, 106, 92, 93, 105]공장에서 생산하는 기판 두께의 평균이 110보다 작은지 검정하라.### 아래 자료를 통해 평균이 110보다 작다고 볼수 있는가?### - 귀무가설 : 평균은 110보..
-
빅데이터 분석기사 2) 중심 극한 정리와 t 검정 (t-test)데이터 사이언스(DS)와 통계 2024. 7. 27. 21:12
모집단의 평균을 모르는 상황에서, 샘플링한 표본만으로 모집단의 평균을 추정해야할때t 분포 (또는 z 분포)를 활용할 수 있다. 그렇다면, t 분포는 무엇이고 어떤 식으로 활용할 수 있을까? 예를 들어, 아래와 같은 '평균 추정' 업무를 수행한다고 가정해보자.예제) 공장에서 생산한 10000개의 PCB 기판중 임의로 15개를 샘플링하여, 측정한 기판의 두께(mm)는 다음과 같다.[117, 110, 109, 119, 117, 109, 103, 95, 123, 111, 125, 106, 92, 93, 105]공장에서 생산하는 기판 두께의 평균이 110이라고 볼수 있는가? 모평균에 대한 추정은 중심극한 정리를 통해 t 분포 (또는 z분포)를 활용할 수 있다. 여기서 중심극한 정리란, 모집단의 분포가 정규분포를 ..
-
빅데이터 분석기사 1) 정규성 검정(Normality Test)과 p-value데이터 사이언스(DS)와 통계 2024. 7. 26. 01:01
"데이터하는 사람인데... 그래도 국가 자격증은 하나쯤 있어야하지 않을까?" 라는 생각에빅데이터 분석기사 자격증 취득했다. 개인적인 정리와 공유 차원에서 혼동하기 쉬운, 통계 쪽 파트만이라도 글을 작성하고자 한다.그 중에 첫번째는 정규성 검정이다. 정규성이란, 영어로 Normality.즉, '자연스러운', '정상성을 갖춘'이라는 의미를 내포한다. 정규 분포는 아래 그림과 같이 종 모양의 좌/우 대칭한 모습을 보이는데,자연에 존재하는 대부분의 것들은 '정규 분포'를 따른다.그리고 많은 통계 검정이 '정규 분포'를 가정하여 이뤄진다.(적어도 빅데이터 분석기사 수준에서의 분포는 그러하다) 따라서, 통계 검정을 진행하기 전에 보유하고 있는 데이터가 '정규한지 아닌지'에 대한 검정(test)이 필요하다. 이를 ..
-
논문 리뷰) Llama 2 : Open Foundation and Fine-Tuned Chat ModelsAI 논문 리뷰 2024. 6. 24. 23:14
Llama 2_Open Foundation and Fine-Tuned Chat Models 논문은 베일에 쌓인 LLM 학습 방식을 A-Z까지 상세하게 기술한 한줄기의 빛과 같은 논문이다. META는 LLaMa2를 위해 500억 이상의 비용과 시간을 들였지만, 대부분의 학습 방식과 스킬을 공개하였다. [총 평]- open source LLM SOTA를 달성, gpt-3.5-turbo 버전과 성능 유사. - GPT-3.5(InstructGPT 논문)와 비교했을 때 방법론적으로 거의 유사하지만, GQA, Doubled Context, 많은 토큰수, 대화 장기기억을 위한 Ghost Attention, RLHF 반복 수행과 Distribution 맞춰주기, PPO+Reject Sampling Fine-tu..
-
논문 리뷰) RoBERTa: A Robustly Optimized BERT Pretraining ApproachAI 논문 리뷰 2024. 6. 17. 20:55
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. RoBERTa는 모델 명에서 밝혔듯이, BERT의 사전학습 방식 일부를 변경하여, '최적화'를 꾀하고자 한 모델이다.제안자는 BERT가 Undertrained 되었다고 주장한다.그리고 BERT의 아키텍쳐를 따르되, 몇가지 학습 방법론을 바꾸어, SOTA를 달성했다.(그러나, 실제로는 RoBERTa가 꼭 BERT보다 낫다고 볼수 없으며,Base 모델을 RoBERTa/BERT 모두 취하여 실험하는 경우도 많다) 그럼에도 불구하고, BERT 계열의 대표적인 Base 모델이기에 상식(?)으로나마알아두면 좋을 것이라 생각하여 리뷰를 진행하였다. 총평 :BERT에서 제안한 학습 방법보다 더 잘 학습시킬 수 있는 학습 방법..
-
논문 리뷰) ReAct : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELSAI 논문 리뷰 2024. 6. 11. 00:39
ReAct 는 22년도에 나온 Prompt 기법이다.논문의 내용은 길지만, 핵심 내용은 간단하다. ReAct = Reason + Act = 추론 + 실행 즉 ReAct란, 추론의 'CoT'와 실행의 'Action(검색 등)'을 조합하여 답변의 신뢰성과 추론의 능력을 키우고자 의도한 기법이다. Prompting Method를 아래와 같이 4가지 방법으로 구분할수 있다. - Standard Prompt- Reason-only(CoT, Chain of Thought) : 즉, 추론 only - Act-only : Action과 Observation(관찰) only (action은 인터넷이나 문서같은 외부 요소에 접촉하여 정보를 수집)- ReAc..
-
논문 리뷰) Multilingual E5 Text Embeddings (mE5)AI 논문 리뷰 2024. 6. 6. 11:33
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [통합 요약] Multilingual E5 Text Embeddings: A Technical Report는 이름 그대로 논문이 아니라 기술 Report이다. 그래서인지 내용도 굉장히 짧다. 하지만 E5 → E5 mistral 7B → Multilingual E5(이하 mE5)로 이어지는 꾸준한 모델의 발전과 파생 그리고 여러가지 시도를 확인할 수 있다. 그리고 mE5는 생각보다 잘 쓰이는 모델이기도 하다. mE5 모델은 E5 mistral 7B 모델에서 쓰인 2-stage 학습 방법론과 생성 데이터를 BERT 계열의 모델에 적용한 것이다. (E5 mistral 7B는 지난 번 리뷰하였으므로, 설명은 생략하겠다...