[논문 리뷰] GPT-1 : Improving Language Understanding by Generative Pre-Training (OpenAI)
GPT: Generative Pre-Training of a Language Model
1. Introduction

- 세상에는 label이 있는 데이터보다 label이 없는 데이터가 더 많음
- 우리는 항상 다운스트림 태스크에서 label이 존재하는 데이터를 위주로 학습을 시켜왔음
- 하지만 세상에는 label이 없는 데이터가 훨씬 많으며, 해당 데이터를 잘 활용한다면 supervised learning에서 더 좋은 퍼포먼스를 보여주지 않을까? 라는 아이디어에서 출발

- 대량의 unlabeled text dataset이 존재
- generative pre-training language model을 통해서 대량의 unlabeled text dataset을 사전학습 시킴
- 그 후 우리가 알고자 하는 도메인의 labeled text 데이터를 이용하여 fine-tuning시킴
<주장하는 바>
3번을 바로 하는 것이 아니라 1→2→3을 하는 것이 더 도움이 되지 않겠냐는 말
Unlabeled text의 challenging(문제점)
- 단어 수준(word level) 이상에서 정보를 얻기가 쉽지 않음
- transfer에 유용한 text 표현을 배우는 것에 어떤 형태의 최적화 목적(Optimization Objective)이 가장 좋은지 불분명
- language modeling, machine translation, discourse coherence와 같은 다양한 objective들이 연구되었는데, 다양한 작업들에서 어느 한쪽이 항상 우위를 점하지 않고 작업마다 우위를 점하는 objective가 달랐기 때문
- 이렇게 학습된 표현들을 목표 작업(target task)으로 transfer시키는 가장 효과적인 방법이 불분명
- 이런 불분명성은 NLP에서의 준지도학습(semi-supervised learning)을 더 어렵게 만들었음