728x90 Transformer1 [논문 리뷰] Attention Is All You Need (Transformer) 0. Abstract시퀀스 데이터(예: 시간에 따라 변화하는 데이터, 텍스트 데이터 등)를 다루는 기존의 모델은 대부분 encoder와 decoder를 가지는 RNN(Recurrent Neural Network, 순환 신경망)나 CNN(Convolutional Neural Network, 합성곱 신경망)이었다. 그리고 성능이 좋은 모델들은 Attention 기법을 사용해서 encodder와 decoder를 연결시켰다. 이 논문에서는 RNN과 CNN과는 달리, 순수하게 Attention 기법만을 사용한 새로운 아키텍쳐 Transformer를 소개한다. 1. IntroductionSequence modeling이나 특정 데이터셋 안에서 학습하는 Transductive 문제(언어 모델, 번역 )에 대해서는 .. 2024. 7. 29. 이전 1 다음 반응형