AI 논문 리뷰
-
논문 리뷰) ReAct : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELSAI 논문 리뷰 2024. 6. 11. 00:39
ReAct 는 22년도에 나온 Prompt 기법이다.논문의 내용은 길지만, 핵심 내용은 간단하다. ReAct = Reason + Act = 추론 + 실행 즉 ReAct란, 추론의 'CoT'와 실행의 'Action(검색 등)'을 조합하여 답변의 신뢰성과 추론의 능력을 키우고자 의도한 기법이다. Prompting Method를 아래와 같이 4가지 방법으로 구분할수 있다. - Standard Prompt- Reason-only(CoT, Chain of Thought) : 즉, 추론 only - Act-only : Action과 Observation(관찰) only (action은 인터넷이나 문서같은 외부 요소에 접촉하여 정보를 수집)- ReAc..
-
논문 리뷰) Multilingual E5 Text Embeddings (mE5)AI 논문 리뷰 2024. 6. 6. 11:33
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. [통합 요약] Multilingual E5 Text Embeddings: A Technical Report는 이름 그대로 논문이 아니라 기술 Report이다. 그래서인지 내용도 굉장히 짧다. 하지만 E5 → E5 mistral 7B → Multilingual E5(이하 mE5)로 이어지는 꾸준한 모델의 발전과 파생 그리고 여러가지 시도를 확인할 수 있다. 그리고 mE5는 생각보다 잘 쓰이는 모델이기도 하다. mE5 모델은 E5 mistral 7B 모델에서 쓰인 2-stage 학습 방법론과 생성 데이터를 BERT 계열의 모델에 적용한 것이다. (E5 mistral 7B는 지난 번 리뷰하였으므로, 설명은 생략하겠다...
-
논문 리뷰) From Sparse to Dense_GPT-4 Summarization with Chain of Density PromptingAI 논문 리뷰 2024. 6. 2. 10:33
'From Sparse to Dense_GPT-4 Summarization with Chain of Density Prompting'은Chain of Density 방법으로 요약을 수행하는 것을 제안한 논문이다.내용이 매우 짧고 간결하지만, 실용적이다. 논문에서는 좋은 요약이란 무엇인지아래와 같은 전제 조건을 달고, Chain of Density 방법을 제안한다. (전제) 좋은 요약은 정보의 '밀도'가 높고, 자세하면서도 'Entity' 중심이어야한다.(제안) 'Chain of Density' 프롬프트를 사용하여, 점점 더 Entity의 density(밀도)가 높아지도록 요약을 요청함. 그렇다면, Chain of Density (이하 CoD)는 어떻게 수행되는 것일까? 1. 먼저 LLM(ChatGPT..
-
논문 리뷰) Extracting Interpretable Features from Claude 3AI 논문 리뷰 2024. 5. 28. 00:02
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 'Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet'은Claude3 모델을 만든 Anthropic에서 LLM의 내부를 이해하고자 연구한 내용에 대해 공유한 것으로,논문이라기보다는 리포트에 가깝다. 논문은 아니지만, 제법 이슈가 많이되었기에 리뷰를 하고자 한다. [통합 요약]해당 리포트는 굉장히 내용이 길고, 많다. 하지만 이를 짧게 축약하자면, 다음과 같다. "In this work, we focused on applying SAEs to residual stream activations halfway through the ..
-
논문 리뷰) DPR : Dense Passage Retrieval for Open-Domain Question AnsweringAI 논문 리뷰 2024. 5. 27. 20:04
DPR은 Dense Vector 검색 방식에서 실제로 많이 쓰이는 있는 방법이다.검색어(질문)인 Query들과 검색 대상(문서)이 되는 Passage들 중에서서로 관련이 있는 Query와 Passage끼리 높은 유사도(내적 값)가 나올수 있도록 모델을 학습한 것이 주요 컨셉이다. [검색 방식에 대한 참고 자료]-일반적인 Ensemble Retrieval의 흐름검색에는 크게 3가지 방법론이 있다.키워드 빈도 검색Dense 벡터 검색Graph 기반 검색- 빈도 기반 방식은 유의어를 구분하지 못하고 문장의 맥락을 이해하지 못한다는 근본적 한계가 있지만, BM25는 빠른 계산, 학습이 필요없는 이점, 준수한 성능 등을 이유로 실제 서비스에 많이 활용되고 있다 - Dense 벡터 기준으로 SOTA는 당연히 ..
-
논문 리뷰) Mixtral of Experts (Mixtral 8x7B)AI 논문 리뷰 2024. 5. 25. 14:52
Mistral AI는 파리에 본사를 두고 Google의 DeepMind와 Meta 출신이 공동 창립한 스타트업이다.Mixtral 8x7B 모델로 우리에게 많이 알려졌는데,Mistral 7B 모델의 기본 구조를 그대로 가져가면서, Mixture of Expert를 적용한 것이 큰 특징이다.(Mistral 7B 모델의 기본 구조에 대한 내용은 이전 글에서 소개) [통합 정리] - 대부분 Mistral 7B와 같은 구조이지만 Mixture of Expert를 도입한 것이 큰 특징- FFN(Feed Forward Network)이 8개의 Feedforward blocks(이를 experts라 부름)와 Gate의 구성으로 대체된 차이점 존재.- Gate(router)의 역할은 각 토큰에 대해 두 전문가(expe..
-
논문 리뷰) Mistral 7BAI 논문 리뷰 2024. 5. 25. 14:00
Mistral AI는 파리에 본사를 두고 Google의 DeepMind와 Meta 출신이 공동 창립한 스타트업이다.Mixtral 8 x 7B 모델로 우리에게 많이 알려졌는데, 그 기본이 되는 Mistral 7B 모델을 먼저 알아보고Mixtral 8 x 7B 모델에 대해 리뷰하고자 한다. Mixtral 8 x 7B로 이동 [주요 특징]- Mistral AI에서 만든 Mistral 7B 모델이 LLama2 13B보다 좋은 성능을 보임. - GQA, SWA, Rolling Buffer Cache (+Pre-fill and Chunking)를 통해 빠른 추론을 가능케함. (해당 기법들을 주로 H/W 최적화에 초점이 맞춰져있음) - instruction fine-tuning된 모델 Mistral 7B - In..
-
논문 리뷰) DiffCSE - Difference-based Contrastive Learning for Sentence EmbeddingsAI 논문 리뷰 2024. 5. 23. 23:35
22년에 발표된 DiffCSE는 MLM과 SimCSE를 조합한 방식을 제안하였는데, 특히 Self-prediction 중 Innate relationship prediction을 추가로 활용한 것이 핵심 아이디어다.( Innate relationship prediction이 무엇인지는 이전 글을 참고하길 바란다) 학습 시에 original 문장의 일부를 마스킹하고, 마스킹 된 부분을 Generator 통해 생성한 뒤, 변형된 전체 문장에서 어느 부분이 마스킹된 것인지 Discriminator를 통해 맞히게 하였다. (GAN을 알고 있다면, 이해가 더 쉬울 것이다) 이렇게 마스킹된 부분을 맞히는 작업을 피드백(Loss 함수)에 반영함으로써, 데이터 증강을 위해 수행한 삭제, 마스킹 등의 행위가 문장 본래..