논문 리뷰) Continual Learning of Long Topic Sequences in Neural Information Retrieval

AI 논문 리뷰 2024. 10. 29. 22:48

본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다.

총평)

- Continual Learning 관점에서 임베딩 모델의 IR 성능을 평가한 논문.

- 'Studying Catastrophic Forgetting in Neural Ranking Models' 논문의 후속 연구 (저자는 다름)

- IR Task에서 Continual Learning을 위해 데이터셋은 어떻해야하는지, 어떤 특징이 있는지 실험하였음.

- 학습 데이터의 주제/작업이 유사하다면, 기억 소실이 적다

- 다른 작업의 학습을 통해 소실된 지식이 유사 작업 학습을 통해 다시 성능 보전이 될 수 있다 (당연한거 아닌가)

- 학습 텍스트 분포의 변화가 있는 경우, 긴 텍스트(document)보다 짧은 텍스트(query)의 경우가 학습 적응력이 더 낮았다.

(짧은 텍스트에서 어휘가 변경될 때, 모델이 의미를 파악하고 지식을 유지하는 데 있어 긴 텍스트보다 어려운 Task가 될수 있다)

논문의 주요 Research Question. (+ Conclusion)

RQ1: IR에서 지속적인 학습을 위해 작업 시퀀스를 어떻게 설계해야 할까요?

=> 작업을 유사하게, 주제를 유사하게

RQ2: 긴 주제 시퀀스를 학습하는 동안 신경 랭킹 모델의 성능은 어떠하며, 지식 소실의 신호를 감지할 수 있을까요?

=> 지식 소실을 감지하기 위해 3가지 관점의 실험으로 수행.

1. 직접 전이 (Direct Transfer)

2. 정보 업데이트 (Information Update)

3. 언어 변화 (Language Drift)

RQ3: 시퀀스 내의 작업 유사성 수준이 모델의 효과성과 지식 소실에 대한 견고성에 영향을 미치나요?

=> 미칩니다. 작업이 유사할수록 지식 소실이 줄어들거나,

다른 작업의 학습을 통해 소실된 지식이 유사 작업 학습을 통해 다시 성능 보전이 될 수 있습니다.

RQ4: 신경 랭킹 모델은 쿼리 또는 문서의 분포 변화에 어떻게 적응하나요?

=> 문서의 분포변화 (즉, 정보 업데이트)에는 잘 적응합니다. 비교적 긴 텍스트라서 그런것으로 예상됩니다.

파인튜닝할수록, base 성능을 상회하는 모습까지 보이기도 합니다.

쿼리의 분포변화 (즉, 언어 변화)에는 적응하는 모습을 보이나, base 성능을 상회하지는 못합니다.

짧은 텍스트 안에서 변화가 존재하기에, 모델이 적응하지 못하는 것으로 추측합니다.

실험 세팅 (3.1 Continual learning setting and metrics)

n개의 작업 시퀀스, S = {T 1, . . . , T i , . . . , T n}에 대해

작업 시퀀스의 각 시점에서(즉, 순차적인 미세 조정 후)

모델이 새로운 작업에 적응하는 능력과 지식 소실에 대한 견고성을 평가

=> 실제 실험에서는 시퀀스 내에서 무작위로 선택된 5개의 작업 하위 집합을 추적/평가

(전체 작업 추적은 비용이 너무 커서)

여기서 score(i,θj)는 시퀀스에서 j번째 작업 Tj를 학습한 모델을 사용해

작업 Ti에 대해 계산한 랭킹 지표(*MRR을 적용)를 의미.

시퀀스 내의 모든 j에 대해 mf(i,θj)를 관찰함으로써,

어떤 작업이 기억소실에 부정적 전이 영향을 크게 미치는지(높은 값) 또는 낮은 영향을 미치는지(낮은 값)를 확인.

<실험 모델>

Vanilla BERT (VBert): BERT 언어 모델의 마지막 층의 평균 출력을 기반으로 선형 층을 적용하여 랭킹 점수를 예측.
Mono-T5-Ranker (MonoT5): T5-base 모델을 기반으로 한 모델로, 긍정/부정 토큰을 생성하도록 미세 조정.

실험을 위한 데이터셋 구성 (4. MSMarco Continual Learning corpus)

클러스터링과 임계점을 활용해 데이터셋을 구성.

TS/TM/TL은 클러스터링을 통해 주제별로 그룹화한 데이터셋

RS/RM/RL은 무작위로 구성한 랜덤 데이터셋(주제없이 섞임)

(여기서 S : Small, M: Mid, L : Large을 의미함)

IR 성능 확인을 위한 시나리오 수립 (4.3 IR-driven controlled stream-based scenario)

1. 직접 전이 (Direct Transfer) :

작업 시퀀스는 (T_init, T_i+, T_j, T_i-)로, 작업 T_i+와 T_i-는 주제 작업 T_i에 속하며 크기가 다름(|T_i-| < |T_i+|).

이 설정은 동일한 주제가 새로운 데이터(새로운 쿼리와 관련 문서)와 함께 스트림에 다시 나타나는 경우를 나타냄.

=> 학습순서 : i+ > j > i-

2. 정보 업데이트 (Information Update):

작업 시퀀스는 (T_init, T_i', T_i'')로, T_i'와 T_i''는 문서 분포는 다르지만 쿼리 분포는 유사함.

직관적으로, 이는 주제와 관련된 새로운 트렌드나 문서 컬렉션의 업데이트와 같은 문서 요구사항의 변화를 나타낼 수 있음.

=> 학습순서 : T_init, > T_i', > T_i''

3. 언어 변화 (Language Drift):

정보 업데이트와 반대로, 작업 시퀀스는 (T_init, T_i*, T_i**)로, T_i*와 T_i**는 문서 분포는 유사하지만 쿼리 분포는 다름. 이는 동일한 주제에서 쿼리의 표현 방식이나 초점이 변화하는 경우에 해당할 수 있음.

=> 학습순서 : T_init > T_i* > T_i**

실험 결과 분석 1( 5.2 Fine-grained analysis)

주제별 n개의 작업 데이터셋 중에서 무작위로 선택된 5개의 작업을 선택.

(5 selected topics 데이터가 1st, 2nd, 3rd, 4th로 4개씩 존재하는 상태)

데이터셋 내 작업끼리의 유사성을 기준으로 정렬하고, 데이터셋 별로 존재하는 5개 작업의 mf 점수 평균을 추정.

4번째 dataset을 제외한 1/2/3번째 데이터셋은 데이터셋 내의 작업끼리의 유사도가 낮았음.

4번째는 유사도가 어느정도 존재함.

=> 작업 유사도가 존재하는 ‘4th’가 mf 스코어가 제일 좋음 (숫자가 작음, 즉, forgetting이 적음)

실험 결과 분석2 (5.3 RQ3: Behavior on IR-driven controlled settings)

5-(a). 직접 전이에 대한 실험 : 작업이 변하면 (i => j), MRR 성능이 떨어짐.

유사 데이터인, i- 데이터로 다시 파인튜닝하면, 성능이 약간 회복됨.

5-(b). 정보 업데이트에 대한 실험 : Document의 분포가 다르더라도, 학습후 금세 적응하는 모습.

base 모델을 상회하기도 한다.

5-(b). 언어 변화에 대한 실험 : Query의 분포가 다르더라도, 학습후 어느정도 적응하는 모습.

그러나, base 모델을 상회하지는 못한다.

(이는 쿼리의 길이와 관련이 있을 수 있는데, 짧은 텍스트(즉, 쿼리)에서 어휘가 변경될 때, 모델이 의미를 파악하고 지식을 유지하는 데 있어 긴 텍스트(예: 정보 업데이트에서의 문서)보다 어려울 수 있다는 의견을 비침)

728x90

저작자표시 비영리 변경금지

'AI 논문 리뷰' 카테고리의 다른 글

논문 리뷰) ModernBert: Smarter, Better, Faster, Longer A Modern Bidirectional Encoder for Fast Memory Efficent and Long Context Finetuning and Inference (1)	2025.03.05
논문 리뷰) L^2R: Lifelong Learning for First-stage Retrieval with Backward-Compatible Representations (0)	2024.11.28
논문 리뷰) LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders (1)	2024.09.24
논문 리뷰) Efficient Continual Pre-training for Building DomainSpecific Large Language Models (1)	2024.08.18
논문 리뷰) Llama 2 : Open Foundation and Fine-Tuned Chat Models (0)	2024.06.24

ABOUT ME