T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
T5(Text-to-Text Transfer Transformer) 논문 리뷰
- 모든 NLP Task를 text-to-text format으로 변환하여 학습한 모델

- task 자체도 text로 바꾸고 input값과 함께 넣어주고, output값 또한 text로 뽑아내겠다 하는 것이 궁극적인 목표
1. what is text to text?

- 기존 분류 문제에서는 l am a great man이라는 sentence를 인풋으로 넣고 target값으로 1을 뽑아낼 수 있도록 파인튜닝을 해주었음
- 하지만 해당 모델에서는 task 자체를 학습시키기 위해서 task를 text 자체로 같이 넣어서 학습시킴
- 학습 시키는 데이터의 이름인 cola sentence를 text로 바꾸고, l am a great man라는 sentence와 함께 input값으로 넣어주게 되면 1이라는 label을 acceptable이라는 text target으로 바꿔서 뽑아낼 수 있도록 학습시킴
2. Transfer learning in NLP

- 해당 논문에서는 BERT Style model과 T5 모델을 비교하면서 소개함
- BERT Style model은 text를 넣었을때, 할 수 있는 작업이 classification or span prediction이라고 주장함
- 해당 이유는 인코더만 있는 모델이고, single prediction per input token이나 single prediction for an entire input sequence를 뽑아 내는 것을 목적으로 하기 때문에 이것은 BERT Style model의 가장 큰 단점이라고 설명함
- 하지만 T5 모델의 경우, text를 넣어서 모든 NLP task를 풀 수 있도록 모두 text로 처리하기 때문에 모든 NLP task에서 동일한 모델, loss, hyperparameter를 사용 가능하다고 주장함
T5에 적용된 방법론들
