멀티모달과 CLIP 입문에 달린 전체 댓글 · 질문
클립 제로샷 분류에서 많이 쓰이는 거죠? 이미지 태깅 프로젝트에서 써봤는데
클립 프로세서가 이미지랑 텍스트 전처리를 같은 인터페이스로 처리한다는 게 흥미롭긴 한데, 내부적으로 이미지 토크나이저랑 텍스트 토크나이저가 따로 있는 건가요? 공유하는 건지 분리된 건지가 궁금하더라고요