[논문 리뷰] GPT-1 : Improving Language Understanding by Generative Pre-Training (OpenAI)

GPT: Generative Pre-Training of a Language Model

1. Introduction

Untitled

세상에는 label이 있는 데이터보다 label이 없는 데이터가 더 많음
우리는 항상 다운스트림 태스크에서 label이 존재하는 데이터를 위주로 학습을 시켜왔음
하지만 세상에는 label이 없는 데이터가 훨씬 많으며, 해당 데이터를 잘 활용한다면 supervised learning에서 더 좋은 퍼포먼스를 보여주지 않을까? 라는 아이디어에서 출발

Untitled

대량의 unlabeled text dataset이 존재
generative pre-training language model을 통해서 대량의 unlabeled text dataset을 사전학습 시킴
그 후 우리가 알고자 하는 도메인의 labeled text 데이터를 이용하여 fine-tuning시킴

<주장하는 바>

3번을 바로 하는 것이 아니라 1→2→3을 하는 것이 더 도움이 되지 않겠냐는 말

Unlabeled text의 challenging(문제점)

단어 수준(word level) 이상에서 정보를 얻기가 쉽지 않음
1. transfer에 유용한 text 표현을 배우는 것에 어떤 형태의 최적화 목적(Optimization Objective)이 가장 좋은지 불분명
  - language modeling, machine translation, discourse coherence와 같은 다양한 objective들이 연구되었는데, 다양한 작업들에서 어느 한쪽이 항상 우위를 점하지 않고 작업마다 우위를 점하는 objective가 달랐기 때문
2. 이렇게 학습된 표현들을 목표 작업(target task)으로 transfer시키는 가장 효과적인 방법이 불분명
  - 이런 불분명성은 NLP에서의 준지도학습(semi-supervised learning)을 더 어렵게 만들었음