반응형
Multi_head_attention에서 target sequence length와 source sequence length 의미
연구를 위해 pytorch의 multi head attention에 attention mask를 씌워줘야 했다.
도큐먼트를 보면 L은 target sequence length를 의미하고 S는 source sequence length를 말하는데, 이 둘은 무엇일까?
pytorch 내부 코드를 뜯어보니 target sequence length는 query의 길이를 의미한다.
soure sequence length는 key의 길이를 의미함.
구글링해도 관련 내용을 찾기 어려워서 작성해본당. 나만 모르고 다 아는 내용이라서 구글링해도 못찾았던 거일수도?
반응형
'Python > PyTorch 공부' 카테고리의 다른 글
Segmentation mask의 center point 계산하기 (0) | 2022.08.21 |
---|---|
[PyTorch] CLIP의 text encoder에는 attention mask가 존재합니다. (0) | 2022.08.01 |
[PyTorch] Tensor.retain_grad() (0) | 2022.07.19 |
[PyTorch] register_hook을 사용하여 Transformer 내부의 Attention matrix(Torch.Tensor)의 gradient 받아오기 (0) | 2022.07.14 |
[Pytorch] Sementation mask 시각화 하기 (0) | 2022.06.26 |