
- **텍스트 요약(Text Summarization)**이란 위 그림과 같이 긴 길이의 문서(Document) 원문을 핵심 주제만으로 구성된 짧은 요약(Summary) 문장들로 변환하는 것
- 상대적으로 큰 텍스트인 뉴스 기사로 작은 텍스트인 뉴스 제목을 만들어내는 것이 텍스트 요약의 대표적인 예
- 중요한 것은 요약 전후에 정보 손실 발생이 최소화되어야 한다는 점
- 텍스트의 길이가 크게 줄어들었지만, 요약문은 문서 원문이 담고 있는 정보를 최대한 보존하고 있어야 함
- 원문의 길이가 길수록 어려운 문제가 됨
추출적 요약(Extractive Summarization)
- 추출적 요약은 단어 그대로 원문에서 문장들을 추출해서 요약하는 방식
- 10개의 문장으로 구성된 텍스트가 있다면, 그중 핵심적인 문장 3개를 꺼내와서 3개의 문장으로 구성된 요약문을 만드는 것
- 꺼내온 3개의 문장이 원문에서 중요한 문장일 수는 있어도, 3개의 문장의 연결이 자연스럽지 않을 수도 있음
- 주로 전통적인 머신 러닝 방식에 속하는 텍스트 랭크(TextRank)와 같은 알고리즘을 사용해서 이 방법을 사용
- 가장 대표적인 것이 네이버 뉴스 서비스에 있는
요약봇
기능
추상적 요약(Abstractive Summarization)
- 추상적 요약은 원문으로부터 내용이 요약된 새로운 문장을 생성해내는 것
- 새로운 문장이라는 것은 결과로 나온 문장이 원문에 원래 없던 문장일 수도 있다는 것을 의미
- 자연어 처리 분야 중 자연어 생성(Natural Language Generation, NLG)의 영역
- 추출적 요약은 원문을 구성하는 문장 중 어느 것이 요약문에 들어갈 핵심문장인지를 판별한다는 점에서 문장 분류(Text Classification) 문제로 볼 수 있을 것