claude3 #llm black box #sae #dictionary learning
-
논문 리뷰) Extracting Interpretable Features from Claude 3AI 논문 리뷰 2024. 5. 28. 00:02
본 글은 [Open-Up] 오픈소스 소프트웨어 통합지원센터로부터 지원받아 작성하였습니다. 'Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet'은Claude3 모델을 만든 Anthropic에서 LLM의 내부를 이해하고자 연구한 내용에 대해 공유한 것으로,논문이라기보다는 리포트에 가깝다. 논문은 아니지만, 제법 이슈가 많이되었기에 리뷰를 하고자 한다. [통합 요약]해당 리포트는 굉장히 내용이 길고, 많다. 하지만 이를 짧게 축약하자면, 다음과 같다. "In this work, we focused on applying SAEs to residual stream activations halfway through the ..