논문 링크 : https://arxiv.org/abs/1409.3215
참고 코드 링크 :
Abstract
- 여러층의 LSTM을 사용하여 Encoder와 Decoder 네트워크를 분리하여 학습 (긴 문장에도 좋은 성능)
- LSTM 레이어가 4개 층일 때 최고의 효과를 보았다고 함 (perplexity, 단층 대비 10% 감소 효과)
- 입력 문장을 받은 Encoder는 마지막 hidden state에서 출력된 고정 크기의 벡터를 출력하고, Decoder는 이 벡터를 사용해 문장을 생성
- <EOS> 생성 : 시퀀스의 끝(End-of-Sentence), 여기에 이르면 출력 내용을 생성하는 일을 중단함
- Encoder 의 출력(고정 크기 벡터)은 매우 긴 문장에서 성능 하락의 원인이 됨 ⇒ Attention 등장 배경
- WMT' 14 데이터 셋을 이용, 영어→불어 번역에서 BLEU 스코어 34.8점을 달성함 (SMT : 33.3)
- BLEU (bilingual evaluation understudy) : 기계 번역의 품질을 측정하는데 사용하는 지표, 실제 사람이 한 번역과 기계 번역의 유사성을 계산(n-gram)하는 방식으로 구함
- 학습 과정에서 입력 문장의 순서를 뒤집어서 훈련하니 더 좋은 성능이 나옴
1. Introduction
Machine Translation 기법
- Rule-based MT : Dictionary, 문법 기반의 번역 (Parser, Analyzer, Generator, Transfer Lexicon)
- Statistical MT : 이미 번역된 문서들을 바탕으로한 통계 기반의 번역
- Hybrid MT : Rule-based와 Statistical을 함께 사용
- Neural MT : Deep Learning을 활용한 번역