BERT: Bidirectional Encoder Representations from Transformer
- Transformer의 인코더 구조만 사용
- 사용 데이터셋
- BooksCorpus (800M words)
- English Wikipedia (2,500M words)
- 번역 모델이 아닌 범용 모델이므로 대용량의 코퍼스를 사용하여 두 가지 과업을 이용하여 pretraining을 수행
- Masked language model (MLM): bidirectional pre-training for language representations
- Next sentence prediction (NSP)

- 사전 학습된 BERT는 이후 단순한 출력 레이어를 추가하는 것만으로도 다양한 자연어처리 과업에서 SOTA 성능을 달성
BERT의 구조

- Multi-layer bidirectional Transformer encoder
- L : number of layers (Transformer block) = 인코더의 레이어 수
- H : hidden size = 히든 노드의 수
- A : number of self attention heads = multi-head-attention 의 수
- BERT- base
- L = 12, H=768, A = 12
- Total parameters = 110M(1억 1천만개)
- Same model size as OpenAI GPT
- BERT- large
- L = 24, H=1024, A = 16
- Total parameters = 340M(1억 1천만개)
BERT: Input/Output Representations
- BERT는 다양한 하위태스크의 문제를 핸들링하기 위해 input sequence가 유연하게 만들어져야 함
- input sequence가 single sentence가 올 수도 있고, pair of sentence가 올 수도 있음(ex: Question-Answer)
- BERT에서는 sentence와 sequence의 개념이 일반적인 개념과는 다름
- sentence : 연속적인 단어들의 나열이면 그것을 sentence라고 봄(일반적인 문장이 아니어도 됨)
- sequence : BERT에 들어가는 입력을 의미하는데, 앞서 정의한 sentence가 single sentence일수도 있고, pair of sentence일수도 있음
