반응형
    
    
    
  Multi_head_attention에서 target sequence length와 source sequence length 의미
연구를 위해 pytorch의 multi head attention에 attention mask를 씌워줘야 했다.

도큐먼트를 보면 L은 target sequence length를 의미하고 S는 source sequence length를 말하는데, 이 둘은 무엇일까?

pytorch 내부 코드를 뜯어보니 target sequence length는 query의 길이를 의미한다.
soure sequence length는 key의 길이를 의미함.
구글링해도 관련 내용을 찾기 어려워서 작성해본당. 나만 모르고 다 아는 내용이라서 구글링해도 못찾았던 거일수도?
반응형
    
    
    
  'Python > PyTorch 공부' 카테고리의 다른 글
| Segmentation mask의 center point 계산하기 (0) | 2022.08.21 | 
|---|---|
| [PyTorch] CLIP의 text encoder에는 attention mask가 존재합니다. (0) | 2022.08.01 | 
| [PyTorch] Tensor.retain_grad() (0) | 2022.07.19 | 
| [PyTorch] register_hook을 사용하여 Transformer 내부의 Attention matrix(Torch.Tensor)의 gradient 받아오기 (0) | 2022.07.14 | 
| [Pytorch] Sementation mask 시각화 하기 (0) | 2022.06.26 |