[논문리뷰] Attention is All you Need(Vaswani et al., 2017)

Paper Review🧾 2025. 9. 25. 12:14

초록 (Abstract)

이 논문은 기존의 자연어 처리 모델들이 안고 있던 구조적 한계를 단번에 뒤집은 아이디어에서 출발한다.
RNN도 CNN도 없이, 오직 Self-Attention만으로 시퀀스 모델링이 가능할까? 이 질문에 대한 대답이 바로 Transformer다.

Transformer는 Attention 메커니즘만으로 전체 입력 시퀀스 간의 관계를 학습하며, 구조적으로 병렬화가 가능해 학습 속도와 성능 모두에서 큰 이점을 보인다.
이 리뷰에서는 Transformer의 등장 배경부터 모델 구조, 핵심 구성요소, 실험 결과, 그리고 그 이후의 영향까지 다뤄본다.

배경 및 문제의식 (Why Transformer?)

(1) RNN: 반복적 계산의 한계

딥러닝에서 순차 데이터(문장, 음성 등)를 처리할 때, 초기의 시퀀스 처리 모델은 RNN을 중심으로 발전했다.
RNN은 각 단어의 정보를 다음 단어로 전달하며 문맥을 반영하는 구조지만, 긴 문장에서는 앞 내용을 잊어버리는 현상이 자주 발생했다.
(이걸 기울기 소실 문제라고 한다.)

(2) LSTM과 GRU: 기억을 더 오래, 더 똑똑하게

이 문제를 해결하기 위해 등장한 게 LSTM과 GRU다.
LSTM은 기억의 흐름을 조절하는 게이트를 만들어 정보 손실을 줄였고, GRU는 LSTM보다 좀 더 간단하게 비슷한 성능을 낸다.

하지만 이 모델들도 여전히 순차적으로 계산해야 하기 때문에 병렬 처리에 한계가 있었다.

(3) Seq2Seq와 병목 문제

이전에는 Encoder가 문장을 한 줄 요약(context vector)해서 Decoder에게 넘기는 구조였는데,
이게 너무 정보를 압축해버려서 문장이 조금만 길어져도 중요한 내용이 날아가곤 했다.

그래서 등장한 게 Attention Mechanism이다.

(4) Attention의 등장

그러다 2015년에 Bahdanau Attention이 제안되면서 흐름이 바뀌었다.
Decoder가 입력 전체를 다 보면서 어떤 단어에 주목할지를 학습하게 되었다.
이 방식은 병목 문제를 해결하는 데 효과적이었다.

이 개념이 너무 좋아서 나중에는 사람들이 이렇게 묻기 시작했다:

“그럼 RNN 없이 Attention만 써도 모델이 돌아가는 거 아냐?”
그 질문에 답한 게 바로 이 논문이다.

Transformer 아키텍처 개요

Transformer는 기존 RNN 계열 구조를 완전히 배제하고, Encoder와 Decoder 모두를 Self-Attention과 Feed-Forward Network로 구성했다.

Encoder는 입력 문장을 Self-Attention을 통해 정리
Decoder는 이전에 생성한 단어들과 Encoder 출력을 참고해서 다음 단어를 예측
각 Layer는 Multi-Head Attention → FFN → LayerNorm 구조로 반복됨

(1) Encoder 구조

입력 → Embedding + Positional Encoding
각 레이어:
- Multi-Head Self-Attention
- Add & Layer Norm
- Feed-Forward Network
- Add & Layer Norm

(2) Decoder 구조

Decoder 입력은 이전 단어들
Encoder의 출력과 결합하여 다음 단어를 예측
각 레이어:
- Masked Multi-Head Self-Attention
- Encoder-Decoder Attention
- Feed-Forward Network + Layer Norm

핵심 개념 요약

(1) Scaled Dot-Product Attention

Q: Query, K: Key, V: Value
Q, K, V 벡터 사이의 유사도를 softmax로 계산(가중합을 구함)

(2) Multi-Head Attention

여러 개의 Attention을 병렬로 돌려서 다양한 관계를 포착
결과를 concat 후 선형 변환

(3) Positional Encoding

Transformer는 순서를 따르지 않으므로, 위치 정보를 인코딩해줘야 함
sin, cos 함수를 이용해 각 위치마다 고유한 벡터를 생성

실험 결과는 어땠을까?

WMT 2014 영어→독일어: BLEU 28.4
WMT 2014 영어→프랑스어: BLEU 41.8
기존의 RNN 기반 모델보다 정확도는 향상, 학습 속도는 비약적으로 증가
특히 병렬 처리가 가능하다는 게 가장 큰 장점으로 보임

기여 및 장점

RNN을 버리고 새로운 구조를 제안한 용기
Self-Attention을 체계적으로 정리하고 구조화한 점
모델이 병렬 처리 가능하고, 학습도 빠르고 성능도 좋다
이후 BERT, GPT 같은 모델들이 전부 이 구조에서 출발했다는 점에서 영향력도 큼

한계 및 후속 발전

Attention 연산이 길이에 따라 O(n²) 이라 문장이 길어지면 계산이 많이 든다
위치 정보(Positional Encoding)가 고정된 방식이라 유연성이 떨어질 수 있음
그래서 이후에는 Longformer, Performer 같은 경량 구조들이 등장하게 된다

정리하며

이 논문은 그냥 좋은 논문을 넘어서, 한 시대를 바꾼 논문이다.
"RNN 없이도 시퀀스를 처리할 수 있다"는 생각은 당시에 정말 혁명적이었고, 지금은 사실상 NLP의 표준이 되었다.
처음엔 복잡해 보이지만, Q-K-V만 이해하고 나면 전체 구조는 꽤 직관적이다.

<저자 정보>

논문 제목: Attention Is All You Need
저자: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
소속: Google Brain
발표 연도: 2017
링크: arXiv:1706.03762

'Paper Review🧾' 카테고리의 다른 글

[Paper Review] emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation (0)	2026.05.21
[논문리뷰] A CNN-RNN Combined Structure for Real-World Violence Detection in Surveillance Cameras (0)	2025.10.01
[논문리뷰] Anomaly detection in surveillance videos using transformer based attention model (0)	2025.09.30

ABOUT ME

히히호호 히히호호

초록 (Abstract)

배경 및 문제의식 (Why Transformer?)

(1) RNN: 반복적 계산의 한계

(2) LSTM과 GRU: 기억을 더 오래, 더 똑똑하게

(3) Seq2Seq와 병목 문제

(4) Attention의 등장

Transformer 아키텍처 개요

(1) Encoder 구조

(2) Decoder 구조

핵심 개념 요약

(1) Scaled Dot-Product Attention

(2) Multi-Head Attention

(3) Positional Encoding

실험 결과는 어땠을까?

기여 및 장점

한계 및 후속 발전

정리하며

'Paper Review🧾' 카테고리의 다른 글

티스토리툴바

ABOUT ME

초록 (Abstract)

배경 및 문제의식 (Why Transformer?)

(1) RNN: 반복적 계산의 한계

(2) LSTM과 GRU: 기억을 더 오래, 더 똑똑하게

(3) Seq2Seq와 병목 문제

(4) Attention의 등장

Transformer 아키텍처 개요

(1) Encoder 구조

(2) Decoder 구조

핵심 개념 요약

(1) Scaled Dot-Product Attention

(2) Multi-Head Attention

(3) Positional Encoding

실험 결과는 어땠을까?

기여 및 장점

한계 및 후속 발전

정리하며

'Paper Review🧾' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바