
[딥러닝 논문 리뷰]Attention Is All You Need 논문 리뷰 Transformer
·
Data Science/딥러닝 논문 리뷰
Abstact 기존의 주요 시퀀스 변환 모델들은 복잡한 RNN순환신경망이나 CNN합성곱신경망을 기반으로 하며, 인코더와 디코더를 포함.기존의 가장 성능이 좋은 시퀀스 변환 모델들 또한 인코더와 디코더를 Attention 메커니즘을 통해 연결하는 구조.이 저자들은 RNN, CNN을 완전히 배제하고 Attention을 기반으로 한 Transformer모델을 제안.Transformer 모델은 더 좋은 품질, 더 좋은 병렬성, 더 짧은 학습시간을 자랑하며 SOTA StateOfTheArt모델에 등극. WMT2014Englishto−Germantranslation,WMT2014English−to−Frenchtranslation1. Introduction 기존 RNN계열 모델들의..