Attention Is All You Need
Abstract
- 성능 좋은 시퀀스 변환 모델은 대체로 인코더와 디코더를 포함한 복잡한 RNN 또는 CNN 신경망에 기반을 두고 있음
- 성능이 우수한 모델들은 어텐션 메커니즘으로 인코더와 디코더를 연결한 구조임
본 논문에서는 어텐션 메커니즘만을 기반으로 하는 새로운 단순한 신경망 구조인 Transformer를 제안
- 어텐션 기법으로 재귀적으로 각각의 시퀀스를 처리하지 않고 오직 행렬 곱을 이용해서 병렬적으로 시퀀스 데이터를 처리하기 때문에 전보다 훨씬 더 빠른 처리가 가능함
- WMT 2014 data set을 이용해서 영어를 독일어로 번역하는 작업, 영어를 불어로 번역하는 작업에서 훨씬 개선된 성능을 보여줌
- 크거나 한정된 학습 데이터를 가지고서도 다른 task들에 성공적으로 일반화될 수 있음을 보임
1. Introduction
- RNN, LSTM, GRU 등의 여러 딥러닝 모델들이 존재하며, 해당 모델을 이용하여 기계 번역, sequence 모델링 및 변환 문제에 효과적으로 이용하고 있음
- RNN같은 모델은 한번에 한 단어씩 반복적으로 입력으로 넣고 hidden state 값을 갱신시키는 방식으로 학습을 함

- 하지만 RNN모델은 모든 데이터를 한꺼번에 처리하는 것이 아니라 모델의 입력으로 sequence position t에 따라 순차적으로 입력에 넣어주어야 함(병렬적인 처리가 어렵다는 문제가 존재)
- long-term dependecy problems로 앞에 있는 객체의 영향력이 뒤에까지 온전히 전달되지 못한다는 것
- 또한 sequence라는 것은 단어 간의 연관성이 있는데, RNN은 각 단어에 대한 전파력이 앞으로만 전달되니까 모든 단어들 간의 관계성을 파악하기 쉽지 않다는 문제점이 존재함
- 단어를 순차적으로 처리하기 때문에 뒤에 나올 문장에 앞 문장에서 얻은 정보를 전달하기 어려우며, 문장의 길이가 길어질수록 더 어려워짐
- 그리고 레이어의 아웃풋을 바로 구할수 있는것이 아니라 문장의 길이만큼 수행할 필요가 있기 때문에 메모리 및 속도 측면에서도 문제가 존재함
본 논문에서는 Attention 메커니즘만 사용한 transformer 모델을 제안함
2. Background
Self-Attention