Centroid Transformers: Learning to Abstract with Attention
Lemeng Wu, Xingchao Liu, Qiang Liu, arXiv 2021
PDF, Transformer By SeonghoonYu August 02th, 2021
Summary
센트로이드 트랜스포머는 N개의 입력값을 M개의 요소로 요약합니다. 이 과정에서 필요없는 정보를 버리고 트랜스포머의 계산 복잡도를 O(MN)으로 감소합니다. M개의 요소는 Clustering의 centroid로 생각해 볼 수 있는데, 이 M개의 요소를 어떻게 선정하는 지가 핵심 아이디어로 생각해볼 수 있습니다.
M개의 centroid를 선정하기 위해 입력값 x와 centroid 사이의 유사도를 측정하고 손실함수를 설계하여 centroid를 업데이트 합니다. 논문에서는 M=N/3을 사용합니다.
$\phi$는 유사도를 측정하는 함수인데, Sim에서는 내적, V에서는 FC 같은 학습가능한 값으로 설정합니다.
N과 M이 너무 큰 경우에 모델의 complexity는 어마어마 합니다. 3D cloud data의 경우에 N=1024 가 되는데, N을 축소하기 위하여 KNN Approximation을 사용합니다. N개의 요소를 k개로 축소하여 centroid attention을 수행합니다.
$N_{j,k}$는 x와 u의 L2 distance를 계산하여 오름차순으로 정렬한 뒤 k개 요소를 sample한 것입니다. 즉, n개중 k개에 대해서만 centroid attention을 수행합니다.
Experiment
3D point cloud 성능
Image classification
What I like about the paper
- Centroid attention maps N inputs to M elements for sumarizing information and discarding useless information in N inputs
my github about what i read