[PyTorch] CLIP의 text encoder에는 attention mask가 존재합니다.

CLIP의 text encoder 내부의 Multi_head_attention에서 attention mask가 None으로 입력되는 줄 알았다. 아이디어를 구현하기 위해 attention mask 부분을 만들어서 넣어줬더니.. 성능이 엄청 떨어졌다. 한번 확인해보니 CLIP의 text encoder에서 attention mask가 None으로 입력되는 것이 아니라 다음과 같이 들어간다. 근데 어떤 layer에서는 None으로 들어가기 때문에 구체적으로 확인해볼 필요는 있다. 항상 저렇게 attention mask가 들어가는게 아니다. BERT 구조임에도 autoregressive하게 문장을 보게 하려는 의도 인듯?

[PyTorch] register_hook을 사용하여 Transformer 내부의 Attention matrix(Torch.Tensor)의 gradient 받아오기

[논문 읽기] VTN(2021), Video Transformer Network

[논문 읽기] MViT(2021), Multiscale Vision Transformers

[논문 읽기] TimeSformer(2021), Is Space-Time Attention All You Need for Video Understanding?

[논문 읽기] Video Swin Transformer(2021)

[논문 읽기] BoTNet(2021), Bottleneck Transformers for Visual Recognition

[Paper Review] ACT(2020), End-to-End Object Detection with Adaptive Clustering Transformer

[Paper Review] Set Transformer(2018), A Framework for Attention-based Permutation-Invariant Neural Networks

트랜스포머 정리

트랜스포머 헷갈리는 부분 정리 단어 토큰은 id 형태로 정수로 표현된다. one hot 으로 표현된 단어 토큰들을 concat하여 행렬을 만들어준다. 행렬을 nn.Embedding에 전달하여 정수를 벡터로 표현한다.(학습을 통해 단어의 분산 표현이 가능해짐. 분산 표현이 가능해지면 다른 단어들과 유사도를 측정 가능) 이제 단어 임베딩들을 nn.Linear에 전달하여 Key, Query, Value로 만들어줍니다. 단어 임베딩을 바로 사용하지 않고 별도의 K, Q, V로 만들어서 self-attention에 전달하는 이유는 K,Q,V의 의미가 다 다르기 떄문. Q : 현재 기준으로 삼는 단어의 정보 K : Q와 비교할 단어의 정보 V : 실제로 각 K 단어에서 가져올 정보 Q, K, V 모두 다르게 학습됌..
