문장 벡터
-
논문 리뷰) Sentence-BERT : Sentence Embeddings using Siamese BERT-NetworksAI 논문 리뷰 2024. 5. 20. 20:21
Sentence BERT는 아래 BERT의 약점을 지적하며, 이를 개선하고자 한 모델이다.문장 기반 임베딩 방식은 sentence-transformer(BERT)를 이후로 실용성이 크게 개선된다. BERT를 이용해서, 10000개의 문장 내에서 가장 유사한 문장을 찾으려면, 일일이 2개씩 비교해야하므로 C(10000, 2) 번을 수행해야한다.또한, BERT의 구조는 클러스터링과 같은 Unsupervised task에는 효과가 좋지 않았다. 이를 위해서는, Bi-encoder 방식이 필요하다. (Bi-encoder와 Cross-encoder의 개념을 이해해야한다.) 출처 : https://hjkim5004.tistory.com/117 Cross-Encoder : 유사성을 판단할 2개의 문장을 '하나의 인..