분류 전체보기
-
빅데이터 분석기사 1) 정규성 검정(Normality Test)과 p-value데이터 사이언스(DS)와 통계 2024. 7. 26. 01:01
"데이터하는 사람인데... 그래도 국가 자격증은 하나쯤 있어야하지 않을까?" 라는 생각에빅데이터 분석기사 자격증 취득했다. 개인적인 정리와 공유 차원에서 혼동하기 쉬운, 통계 쪽 파트만이라도 글을 작성하고자 한다.그 중에 첫번째는 정규성 검정이다. 정규성이란, 영어로 Normality.즉, '자연스러운', '정상성을 갖춘'이라는 의미를 내포한다. 정규 분포는 아래 그림과 같이 종 모양의 좌/우 대칭한 모습을 보이는데,자연에 존재하는 대부분의 것들은 '정규 분포'를 따른다.그리고 많은 통계 검정이 '정규 분포'를 가정하여 이뤄진다.(적어도 빅데이터 분석기사 수준에서의 분포는 그러하다) 따라서, 통계 검정을 진행하기 전에 보유하고 있는 데이터가 '정규한지 아닌지'에 대한 검정(test)이 필요하다. 이를 ..
-
논문 리뷰) Llama 2 : Open Foundation and Fine-Tuned Chat ModelsAI 논문 리뷰 2024. 6. 24. 23:14
Llama 2_Open Foundation and Fine-Tuned Chat Models 논문은 베일에 쌓인 LLM 학습 방식을 A-Z까지 상세하게 기술한 한줄기의 빛과 같은 논문이다. META는 LLaMa2를 위해 500억 이상의 비용과 시간을 들였지만, 대부분의 학습 방식과 스킬을 공개하였다. [총 평]- open source LLM SOTA를 달성, gpt-3.5-turbo 버전과 성능 유사. - GPT-3.5(InstructGPT 논문)와 비교했을 때 방법론적으로 거의 유사하지만, GQA, Doubled Context, 많은 토큰수, 대화 장기기억을 위한 Ghost Attention, RLHF 반복 수행과 Distribution 맞춰주기, PPO+Reject Sampling Fine-tu..
-
논문 리뷰) RoBERTa: A Robustly Optimized BERT Pretraining ApproachAI 논문 리뷰 2024. 6. 17. 20:55
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. RoBERTa는 모델 명에서 밝혔듯이, BERT의 사전학습 방식 일부를 변경하여, '최적화'를 꾀하고자 한 모델이다.제안자는 BERT가 Undertrained 되었다고 주장한다.그리고 BERT의 아키텍쳐를 따르되, 몇가지 학습 방법론을 바꾸어, SOTA를 달성했다.(그러나, 실제로는 RoBERTa가 꼭 BERT보다 낫다고 볼수 없으며,Base 모델을 RoBERTa/BERT 모두 취하여 실험하는 경우도 많다) 그럼에도 불구하고, BERT 계열의 대표적인 Base 모델이기에 상식(?)으로나마알아두면 좋을 것이라 생각하여 리뷰를 진행하였다. 총평 :BERT에서 제안한 학습 방법보다 더 잘 학습시킬 수 있는 학습 방법..
-
논문 리뷰) ReAct : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELSAI 논문 리뷰 2024. 6. 11. 00:39
ReAct 는 22년도에 나온 Prompt 기법이다.논문의 내용은 길지만, 핵심 내용은 간단하다. ReAct = Reason + Act = 추론 + 실행 즉 ReAct란, 추론의 'CoT'와 실행의 'Action(검색 등)'을 조합하여 답변의 신뢰성과 추론의 능력을 키우고자 의도한 기법이다. Prompting Method를 아래와 같이 4가지 방법으로 구분할수 있다. - Standard Prompt- Reason-only(CoT, Chain of Thought) : 즉, 추론 only - Act-only : Action과 Observation(관찰) only (action은 인터넷이나 문서같은 외부 요소에 접촉하여 정보를 수집)- ReAc..
-
논문 리뷰) Multilingual E5 Text Embeddings (mE5)AI 논문 리뷰 2024. 6. 6. 11:33
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [통합 요약] Multilingual E5 Text Embeddings: A Technical Report는 이름 그대로 논문이 아니라 기술 Report이다. 그래서인지 내용도 굉장히 짧다. 하지만 E5 → E5 mistral 7B → Multilingual E5(이하 mE5)로 이어지는 꾸준한 모델의 발전과 파생 그리고 여러가지 시도를 확인할 수 있다. 그리고 mE5는 생각보다 잘 쓰이는 모델이기도 하다. mE5 모델은 E5 mistral 7B 모델에서 쓰인 2-stage 학습 방법론과 생성 데이터를 BERT 계열의 모델에 적용한 것이다. (E5 mistral 7B는 지난 번 리뷰하였으므로, 설명은 생략하겠다...
-
왜 대부분의 LLM은 Decoder-only 형태로 구현되는걸까자연어처리(NLP)와 인공지능(AI) 2024. 6. 5. 22:11
대부분의 LLM은 Decoder-only 방식으로 구현된다. LLama, Palm, Mistral, GPT 시리즈 등 대부분의 모델이 그러하다. (유일하게 Google의 Gemini 문서에서 Encoder-Decoder를 '언급'하고 있다. 명확하게 Gemini가 Encoder-Decoder라고 표기한 적은 없다) Encoder-Decoder 타입도 있는데, 왜 대부분의 LLM은 Decoder-only 형태로 구성되는걸까? 그 이유는 약 5가지 정도 볼수 있다. 1. simple하게 구현가능한 autoregressive learning과 semi-supervised learning만으로도 강력한 zero-shot 성능을 발휘할 수 있기 때문이다. What Language Model Architectur..
-
논문 리뷰) From Sparse to Dense_GPT-4 Summarization with Chain of Density PromptingAI 논문 리뷰 2024. 6. 2. 10:33
'From Sparse to Dense_GPT-4 Summarization with Chain of Density Prompting'은Chain of Density 방법으로 요약을 수행하는 것을 제안한 논문이다.내용이 매우 짧고 간결하지만, 실용적이다. 논문에서는 좋은 요약이란 무엇인지아래와 같은 전제 조건을 달고, Chain of Density 방법을 제안한다. (전제) 좋은 요약은 정보의 '밀도'가 높고, 자세하면서도 'Entity' 중심이어야한다.(제안) 'Chain of Density' 프롬프트를 사용하여, 점점 더 Entity의 density(밀도)가 높아지도록 요약을 요청함. 그렇다면, Chain of Density (이하 CoD)는 어떻게 수행되는 것일까? 1. 먼저 LLM(ChatGPT..
-
논문 리뷰) Extracting Interpretable Features from Claude 3AI 논문 리뷰 2024. 5. 28. 00:02
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 'Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet'은Claude3 모델을 만든 Anthropic에서 LLM의 내부를 이해하고자 연구한 내용에 대해 공유한 것으로,논문이라기보다는 리포트에 가깝다. 논문은 아니지만, 제법 이슈가 많이되었기에 리뷰를 하고자 한다. [통합 요약]해당 리포트는 굉장히 내용이 길고, 많다. 하지만 이를 짧게 축약하자면, 다음과 같다. "In this work, we focused on applying SAEs to residual stream activations halfway through the ..