diffcse #simcse #sentece embedding #임베딩 파인튜닝 #embedding fine-tuning #unsupervised sentence learning
-
논문 리뷰) DiffCSE - Difference-based Contrastive Learning for Sentence EmbeddingsAI 논문 리뷰 2024. 5. 23. 23:35
22년에 발표된 DiffCSE는 MLM과 SimCSE를 조합한 방식을 제안하였는데, 특히 Self-prediction 중 Innate relationship prediction을 추가로 활용한 것이 핵심 아이디어다.( Innate relationship prediction이 무엇인지는 이전 글을 참고하길 바란다) 학습 시에 original 문장의 일부를 마스킹하고, 마스킹 된 부분을 Generator 통해 생성한 뒤, 변형된 전체 문장에서 어느 부분이 마스킹된 것인지 Discriminator를 통해 맞히게 하였다. (GAN을 알고 있다면, 이해가 더 쉬울 것이다) 이렇게 마스킹된 부분을 맞히는 작업을 피드백(Loss 함수)에 반영함으로써, 데이터 증강을 위해 수행한 삭제, 마스킹 등의 행위가 문장 본래..