-
[논문리뷰] Attention is All you Need(Vaswani et al., 2017)Paper Review🧾 2025. 9. 25. 12:14
초록 (Abstract)
이 논문은 기존의 자연어 처리 모델들이 안고 있던 구조적 한계를 단번에 뒤집은 아이디어에서 출발한다.
RNN도 CNN도 없이, 오직 Self-Attention만으로 시퀀스 모델링이 가능할까? 이 질문에 대한 대답이 바로 Transformer다.Transformer는 Attention 메커니즘만으로 전체 입력 시퀀스 간의 관계를 학습하며, 구조적으로 병렬화가 가능해 학습 속도와 성능 모두에서 큰 이점을 보인다.
이 리뷰에서는 Transformer의 등장 배경부터 모델 구조, 핵심 구성요소, 실험 결과, 그리고 그 이후의 영향까지 다뤄본다.배경 및 문제의식 (Why Transformer?)
(1) RNN: 반복적 계산의 한계
딥러닝에서 순차 데이터(문장, 음성 등)를 처리할 때, 초기의 시퀀스 처리 모델은 RNN을 중심으로 발전했다.
RNN은 각 단어의 정보를 다음 단어로 전달하며 문맥을 반영하는 구조지만, 긴 문장에서는 앞 내용을 잊어버리는 현상이 자주 발생했다.
(이걸 기울기 소실 문제라고 한다.)(2) LSTM과 GRU: 기억을 더 오래, 더 똑똑하게
이 문제를 해결하기 위해 등장한 게 LSTM과 GRU다.
LSTM은 기억의 흐름을 조절하는 게이트를 만들어 정보 손실을 줄였고, GRU는 LSTM보다 좀 더 간단하게 비슷한 성능을 낸다.하지만 이 모델들도 여전히 순차적으로 계산해야 하기 때문에 병렬 처리에 한계가 있었다.
(3) Seq2Seq와 병목 문제
이전에는 Encoder가 문장을 한 줄 요약(context vector)해서 Decoder에게 넘기는 구조였는데,
이게 너무 정보를 압축해버려서 문장이 조금만 길어져도 중요한 내용이 날아가곤 했다.
그래서 등장한 게 Attention Mechanism이다.(4) Attention의 등장
그러다 2015년에 Bahdanau Attention이 제안되면서 흐름이 바뀌었다.
Decoder가 입력 전체를 다 보면서 어떤 단어에 주목할지를 학습하게 되었다.
이 방식은 병목 문제를 해결하는 데 효과적이었다.이 개념이 너무 좋아서 나중에는 사람들이 이렇게 묻기 시작했다:
“그럼 RNN 없이 Attention만 써도 모델이 돌아가는 거 아냐?”
그 질문에 답한 게 바로 이 논문이다.Transformer 아키텍처 개요

Transformer는 기존 RNN 계열 구조를 완전히 배제하고, Encoder와 Decoder 모두를 Self-Attention과 Feed-Forward Network로 구성했다.
- Encoder는 입력 문장을 Self-Attention을 통해 정리
- Decoder는 이전에 생성한 단어들과 Encoder 출력을 참고해서 다음 단어를 예측
- 각 Layer는 Multi-Head Attention → FFN → LayerNorm 구조로 반복됨
(1) Encoder 구조
- 입력 → Embedding + Positional Encoding
- 각 레이어:
- Multi-Head Self-Attention
- Add & Layer Norm
- Feed-Forward Network
- Add & Layer Norm
(2) Decoder 구조
- Decoder 입력은 이전 단어들
- Encoder의 출력과 결합하여 다음 단어를 예측
- 각 레이어:
- Masked Multi-Head Self-Attention
- Encoder-Decoder Attention
- Feed-Forward Network + Layer Norm
핵심 개념 요약

(1) Scaled Dot-Product Attention

- Q: Query, K: Key, V: Value
- Q, K, V 벡터 사이의 유사도를 softmax로 계산(가중합을 구함)
(2) Multi-Head Attention
- 여러 개의 Attention을 병렬로 돌려서 다양한 관계를 포착
- 결과를 concat 후 선형 변환
(3) Positional Encoding
- Transformer는 순서를 따르지 않으므로, 위치 정보를 인코딩해줘야 함
- sin, cos 함수를 이용해 각 위치마다 고유한 벡터를 생성
실험 결과는 어땠을까?
- WMT 2014 영어→독일어: BLEU 28.4
- WMT 2014 영어→프랑스어: BLEU 41.8
- 기존의 RNN 기반 모델보다 정확도는 향상, 학습 속도는 비약적으로 증가
- 특히 병렬 처리가 가능하다는 게 가장 큰 장점으로 보임
기여 및 장점
- RNN을 버리고 새로운 구조를 제안한 용기
- Self-Attention을 체계적으로 정리하고 구조화한 점
- 모델이 병렬 처리 가능하고, 학습도 빠르고 성능도 좋다
- 이후 BERT, GPT 같은 모델들이 전부 이 구조에서 출발했다는 점에서 영향력도 큼
한계 및 후속 발전
- Attention 연산이 길이에 따라 O(n²) 이라 문장이 길어지면 계산이 많이 든다
- 위치 정보(Positional Encoding)가 고정된 방식이라 유연성이 떨어질 수 있음
- 그래서 이후에는 Longformer, Performer 같은 경량 구조들이 등장하게 된다
정리하며
이 논문은 그냥 좋은 논문을 넘어서, 한 시대를 바꾼 논문이다.
"RNN 없이도 시퀀스를 처리할 수 있다"는 생각은 당시에 정말 혁명적이었고, 지금은 사실상 NLP의 표준이 되었다.
처음엔 복잡해 보이지만, Q-K-V만 이해하고 나면 전체 구조는 꽤 직관적이다.<저자 정보>
- 논문 제목: Attention Is All You Need
- 저자: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
- 소속: Google Brain
- 발표 연도: 2017
- 링크: arXiv:1706.03762
반응형'Paper Review🧾' 카테고리의 다른 글