반응형

NLP 7

[Paper Review] BERT(2018), Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, arXiv 2018 PDF, NLP By SeonghoonYu July 22th, 2021 Summary BETR is a multi-layer bidirectional Transformer encoder and learn the word embedding by using the unlabeled data. And then the learned word embbeding is fine-tuned using labeled data from downstre..

논문 읽기/NLP 2021.07.22

[논문 읽기] PyTorch 코드로 살펴보는 Transformer(2017)

안녕하세요, 오늘 읽은 논문은 transformer을 제안하는 Attention is All You Need 입니다. 논문에서는 self-attention 으로 구성된 encoder와 decoder을 사용합니다. self-attention 작동 방법이 이해가 되질 않아서 2~3일 동안 공부했네요..ㅎㅎ 저는 이해가 잘 안될때는 코드와 함께 보는 편입니다. 코드를 보면서 어떤 과정으로 데이터가 처리되는지 확인하면 이해가 더 잘되는 것 같아요. 자연어처리 모델은 익숙하지가 않아서 아래 깃허브를 참고하면서 공부했어요. 구현 코드와 논문 설명이 함께 되어 있어서, 큰 도움이 되었습니다 ㅎㅎ bentrevett/pytorch-seq2seq Tutorials on implementing a few sequence-..

논문 읽기/NLP 2021.06.28

[논문 읽기] PyTorch 코드로 살펴보는 Convolutional Sequence to Sequence Learning(2017)

안녕하세요, 오늘 읽은 논문은 Convolutional Sequence to Sequence Learning 입니다. 해당 논문은 rnn이 아닌 convolution 연산으로 번역을 수행합니다. seq2seq 구조인 encoder, decoder 구조를 갖고 있으며, 두 구조 모두 conv layer로 이루어져 있습니다. 이미지 task에서 사용하는 conv 연산을 어떻게 문자 task에서 활용할 수 있을 까요?? 1d convolution 연산은 filter 크기 만큼 1차원 벡터의 정보를 취합합니다. kernel_size=3인 1d conv 연산을 수행하면 3개의 입력값을 받아 filter 가중치를 거쳐서 1개의 값을 출력합니다. 입력값에 순서대로 conv filter를 적용하면, receptive ..

논문 읽기/NLP 2021.06.24

[딥러닝] Computer Vision과 NLP에서의 attention 함께 살펴보기

안녕하세요, 최근에 NLP를 공부하고 있는데, CV에서 사용하는 attention을 생각하고 NLP의 attention을 공부했더니 이해가 잘 안되더라구요 ㅎㅎ 두 분야의 attention을 함께 살펴보도록 하겠습니다. Computer Vision CV에서 attention은 피쳐맵에서 픽셀 또는 채널 간 중요한 요소를 계산하여 중요도에 따른 가중치 정보를 담은 attention vector를 생성합니다. 그리고 이 attention vector를 피쳐맵에 곱하여 가중치를 가하죠. 대표적으로 SENet, CBAM, SKNet이 있습니다. SENet을 잠시 살펴보면 피쳐맵에서 채널 간 가중치를 계산하여 이 가중치를 피쳐맵에 element-wise로 곱합니다. class SEBlock(nn.Module): ..

[논문 읽기] PyTorch 구현 코드로 살펴보는 Attention(2015), Neural Machine Translation by jointly Learning to Align and Translate

안녕하세요, 오늘 읽은 논문은 Neural Machine Translation by jointly Learning to Align and Translate 입니다. 해당 논문은 Seq2Seq 구조에서 Attention 매커니즘과 양방향 RNN(bidirectional RNN)을 제안합니다. Seq2Seq 구조는 Encoder와 decoder로 구성됩니다. encoder의 역할은 source sentence를 입력 받아, 고정된 벡터 크기로 반환합니다. 저자는 이 고정된 길이의 벡터가 긴 문장을 번역하는데 문제점으로 작용한다고 합니다. 따라서 decode가 어떤 source sentence에 집중해야 하는지 결정하도록 합니다. decoder를 attention 매커니즘으로 작동하게 함으로써, encoder..

논문 읽기/NLP 2021.06.19

[논문 읽기] PyTorch 구현 코드로 살펴보는 GRU(2014), Learning Phrase Representation using RNN Encoder-Decoder for Statistical Machine Translation

안녕하세요, 오늘 읽은 논문은 Learning Phrase Representation using RNN Encoder-Decoder for Stistical Machine Translation 입니다. 해당 논문에서는 GRU를 제안합니다. 이전 포스팅에서 살펴보았던 Seq2Seq와 이 논문의 차이점은 (1) LSTM 대신에 GRU를 사용합니다. (2) decoder의 각 셀에 context vector와 embedding vector를 추가합니다. 즉 hidden states 정보뿐만 아니라 embedding, context 정보까지 활용합니다. GRU(Gated Recurrent Units) GRU는 LSTM에서 영감을 받아 탄생한 구조입니다. LSTM보다 단순한 구조를 갖고 있으며, cell을 사용하..

논문 읽기/NLP 2021.06.16

[논문 읽기] PyTorch 구현 코드로 살펴보는 Seq2Seq(2014), Sequence to Sequence Learning with Neural Networks

안녕하세요, 오늘 읽은 논문은 Seq2Seq, Sequence to Sequence Learning with Neural Networks 입니다. ㅎㅎ 자연어 처리 분야 논문은 처음 읽어보네요!! Seq2Seq부터 transformer까지 차근차근 읽어나갈 생각입니다. Seq2Seq를 구현하고, 불러온 데이터셋으로 학습까지 해보는 과정은 아래 포스팅에서 확인하실 수 있습니다. [논문 구현] PyTorch로 Seq2Seq(2014) 구현하고 학습하기 안녕하세요, 이번 포스팅에서는 PyTorch로 Seq2Seq를 구현하고 학습해보도록 하겠습니다. 작업 환경은 Google Colab에서 진행했습니다. PyTorch 코드는 아래 깃허브에서 참고했습니다. bentrevett/pytorch-se deep-learn..

논문 읽기/NLP 2021.06.15
반응형