ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [논문리뷰] Attention is All you Need(Vaswani et al., 2017)
    Paper Review🧾 2025. 9. 25. 12:14

     

    초록 (Abstract)

    이 논문은 기존의 자연어 처리 모델들이 안고 있던 구조적 한계를 단번에 뒤집은 아이디어에서 출발한다.
    RNN도 CNN도 없이, 오직 Self-Attention만으로 시퀀스 모델링이 가능할까? 이 질문에 대한 대답이 바로 Transformer다.

    Transformer는 Attention 메커니즘만으로 전체 입력 시퀀스 간의 관계를 학습하며, 구조적으로 병렬화가 가능해 학습 속도와 성능 모두에서 큰 이점을 보인다.
    이 리뷰에서는 Transformer의 등장 배경부터 모델 구조, 핵심 구성요소, 실험 결과, 그리고 그 이후의 영향까지 다뤄본다.

     

    배경 및 문제의식 (Why Transformer?)

     

    (1) RNN: 반복적 계산의 한계

    딥러닝에서 순차 데이터(문장, 음성 등)를 처리할 때, 초기의 시퀀스 처리 모델은 RNN을 중심으로 발전했다.
    RNN은 각 단어의 정보를 다음 단어로 전달하며 문맥을 반영하는 구조지만, 긴 문장에서는 앞 내용을 잊어버리는 현상이 자주 발생했다.
    (이걸 기울기 소실 문제라고 한다.)

    (2) LSTM과 GRU: 기억을 더 오래, 더 똑똑하게

    이 문제를 해결하기 위해 등장한 게 LSTMGRU다.
    LSTM은 기억의 흐름을 조절하는 게이트를 만들어 정보 손실을 줄였고, GRU는 LSTM보다 좀 더 간단하게 비슷한 성능을 낸다.

     

    하지만 이 모델들도 여전히 순차적으로 계산해야 하기 때문에 병렬 처리에 한계가 있었다.

    (3) Seq2Seq와 병목 문제

    이전에는 Encoder가 문장을 한 줄 요약(context vector)해서 Decoder에게 넘기는 구조였는데,
    이게 너무 정보를 압축해버려서 문장이 조금만 길어져도 중요한 내용이 날아가곤 했다.


    그래서 등장한 게 Attention Mechanism이다.

    (4) Attention의 등장

    그러다 2015년에 Bahdanau Attention이 제안되면서 흐름이 바뀌었다.
    Decoder가 입력 전체를 다 보면서 어떤 단어에 주목할지를 학습하게 되었다.
    이 방식은 병목 문제를 해결하는 데 효과적이었다.

     

    이 개념이 너무 좋아서 나중에는 사람들이 이렇게 묻기 시작했다:

    “그럼 RNN 없이 Attention만 써도 모델이 돌아가는 거 아냐?”
    그 질문에 답한 게 바로 이 논문이다.

     

     

    Transformer 아키텍처 개요

    Transformer는 기존 RNN 계열 구조를 완전히 배제하고, Encoder와 Decoder 모두를 Self-Attention과 Feed-Forward Network로 구성했다.

     

    • Encoder는 입력 문장을 Self-Attention을 통해 정리
    • Decoder는 이전에 생성한 단어들과 Encoder 출력을 참고해서 다음 단어를 예측
    • 각 Layer는 Multi-Head Attention → FFN → LayerNorm 구조로 반복됨

     

    (1) Encoder 구조

    • 입력 → Embedding + Positional Encoding
    • 각 레이어:
      • Multi-Head Self-Attention
      • Add & Layer Norm
      • Feed-Forward Network
      • Add & Layer Norm

    (2) Decoder 구조

    • Decoder 입력은 이전 단어들
    • Encoder의 출력과 결합하여 다음 단어를 예측
    • 각 레이어:
      • Masked Multi-Head Self-Attention
      • Encoder-Decoder Attention
      • Feed-Forward Network + Layer Norm

     

    핵심 개념 요약

    (1) Scaled Dot-Product Attention

    • Q: Query, K: Key, V: Value
    • Q, K, V 벡터 사이의 유사도를 softmax로 계산(가중합을 구함)

    (2) Multi-Head Attention

    • 여러 개의 Attention을 병렬로 돌려서 다양한 관계를 포착
    • 결과를 concat 후 선형 변환

    (3) Positional Encoding

    • Transformer는 순서를 따르지 않으므로, 위치 정보를 인코딩해줘야 함
    • sin, cos 함수를 이용해 각 위치마다 고유한 벡터를 생성

     

    실험 결과는 어땠을까?

    • WMT 2014 영어→독일어: BLEU 28.4
    • WMT 2014 영어→프랑스어: BLEU 41.8
    • 기존의 RNN 기반 모델보다 정확도는 향상, 학습 속도는 비약적으로 증가
    • 특히 병렬 처리가 가능하다는 게 가장 큰 장점으로 보임

     

    기여 및 장점

    • RNN을 버리고 새로운 구조를 제안한 용기
    • Self-Attention을 체계적으로 정리하고 구조화한 점
    • 모델이 병렬 처리 가능하고, 학습도 빠르고 성능도 좋다
    • 이후 BERT, GPT 같은 모델들이 전부 이 구조에서 출발했다는 점에서 영향력도 큼

     

    한계 및 후속 발전

    • Attention 연산이 길이에 따라 O(n²) 이라 문장이 길어지면 계산이 많이 든다
    • 위치 정보(Positional Encoding)가 고정된 방식이라 유연성이 떨어질 수 있음
    • 그래서 이후에는 Longformer, Performer 같은 경량 구조들이 등장하게 된다

     


     

    정리하며

    이 논문은 그냥 좋은 논문을 넘어서, 한 시대를 바꾼 논문이다.
    "RNN 없이도 시퀀스를 처리할 수 있다"는 생각은 당시에 정말 혁명적이었고, 지금은 사실상 NLP의 표준이 되었다.
    처음엔 복잡해 보이지만, Q-K-V만 이해하고 나면 전체 구조는 꽤 직관적이다.

     

     

     

     

    <저자 정보>

    • 논문 제목: Attention Is All You Need
    • 저자: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
    • 소속: Google Brain
    • 발표 연도: 2017
    • 링크: arXiv:1706.03762

     

    반응형
Designed by Tistory.