Pix2Seq: A Language Modeling Framework for Object Detection PDF, Object Detection, Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton, arXiv 2021 Summary Object Detection을 language task의 관점에서 푸는 모델입니다. Language framework를 사용하므로 기존 object detection 알고리즘의 복잡한 앵커 박스, nms의 필요성이 사라집니다. 바운딩 박스와 클래스를 토큰으로 나타내어 prediction을 수행하는데 기존 모델과 비슷한 성능을 보여줍니다. encoder-decoder 구조를 사용하는데 이미지를 입력 받아..