[논문리뷰] Anomaly detection in surveillance videos using transformer based attention model

Paper Review🧾 2025. 9. 30. 17:29

논문 개요

이 논문은 감시 영상에서 이상행동(anomaly)을 탐지하기 위해, 약지도 학습(weakly supervised learning) 기반의 접근법을 제안한다.

놀라운 점은 이 모델이 프레임 단위 라벨 없이도 학습할 수 있다는 것이다. 즉, "이 영상에는 이상행동이 있다"는 정도의 라벨만 있어도, 어떤 순간에 이상이 있었는지를 프레임 단위로 예측해낸다.

핵심 아이디어는 frame-level annotation 없이도 video-level label만을 사용하여 세밀한 frame-level anomaly score를 추정하는 것이다.

I. Introduction

(1) 이상행동 감지는 왜 어려울까?

감시 시스템에서의 이상행동 탐지는 여전히 많은 시간과 인력을 요구한다. 특히, 영상의 프레임 단위로 수작업 라벨링을 해야 하는 기존 방식은 현실적으로 확장성이 떨어진다.
이에 따라 최근에는 약지도 학습(Weakly Supervised Learning) 방식이 주목받고 있다.

약지도 학습 방식은 frame-level 주석 없이 video-level 레이블만 필요하여 비용 효율적임.
기존 MIL 방식은 일부 이상행동만 학습하거나, 정상 구간을 이상으로 잘못 판단할 수 있는 한계가 있음.
이를 해결하기 위해 RTFM 모델과 transformer 기반 특징 추출 방식을 결합한 새로운 방법을 제안함.

(2) 기존 방식의 한계

비지도 학습: 정상 행동의 분포를 학습 후 이상치를 감지하려고 했지만, 실제 상황에서는 잘 안 맞음. (편향됨)
생성 모델 기반: 정상 샘플을 복원하고 오차를 이상으로 판단 (오버피팅 문제)
약지도 학습: MIL을 통해 이상/정상 비디오에서 학습. 영상 전체에 라벨만 붙이고 내부적으로 이상을 찾아내지만, 여전히 정상 구간을 이상으로 분류하는 오류가 많았음.
그래프 신경망, attention 기반 방법: 계산량이 많거나 장기 의존성 처리에 한계

본 논문은:
- Videoswin Transformer로 고품질의 시계열 특징을 추출하고
- dilated convolution 기반 attention layer로 장기-단기 의존성 학습을 효율적으로 수행함
- 기존 MIL/RTFM 대비 더 우수한 성능을 실험적으로 입증

기존 MIL(Multiple Instance Learning) 기반 방법은 다음과 같은 한계를 가지고 있다:

이상 프레임 일부만을 제대로 학습함 → 정상 구간을 이상으로 분류하는 오류 발생
프레임 간 시간적 관계(temporal dependency)를 학습하지 못함 → 행동 전후의 맥락 정보 손실

III. Proposed Method

A. Stage 1: Feature Extraction

영상 프레임을 snippet 단위(16프레임)로 나누어 처리
Swin Transformer 구조를 사용해 local window self-attention으로 고품질 특징 추출
연산 효율성과 시공간 정보 반영력을 동시에 확보

왜 VideoSwin인가?
기존 CNN(I3D 등) 대비, 정밀한 국소 특징 표현이 가능하며,
공간-시간 관계를 동시에 반영함 → 복잡한 이상 행동 탐지에 유리

B. Stage 2: Attention Layer

이상행동은 짧은 순간 발생할 수도 있고, 앞뒤 맥락과 연결되기도 합니다.
이를 반영하기 위해 short-range / long-range temporal attention을 결합한 모듈을 설계했습니다.

Short-range module: Conv1D 기반 → 인접 snippet 간 특징 학습
Long-range module: Pairwise self-attention → 전체 snippet 간 연관성 학습
두 출력을 concat → residual 연결 후 최종 attention 출력 생성

왜 둘 다 필요한가?

Short-range: 급작스러운 움직임(예: 넘어짐, 주먹질) 포착
Long-range: 전후 맥락(예: 다가오는 행동, 도망 등) 반영 가능

C. Stage 3: Anomaly Detection

RTFM(Robust Temporal Feature Magnitude) 기반 이상 점수 계산:

각 snippet의 feature vector L2 norm을 계산
이상일수록 특징 벡터의 크기(norm)가 크다는 가정
이상 bag과 정상 bag의 상위 K개 평균 norm 차이를 최대화하도록 학습

직관적 해석:
격렬하거나 복잡한 이상 행동일수록 feature magnitude가 크다 → 이 점을 활용한 단순하지만 효과적인 이상 판단

IV. Experiments

A. Dataset

ShanghaiTech Campus Dataset
437개 비디오 (정상: 307, 이상: 130)
12개 시나리오 배경
Zhong et al. 방식에 따라 weakly-supervised 구조로 라벨링

B. Evaluation Metric

Frame-level AUC (Area Under Curve)
ROC 곡선 면적 기반 → 이상 탐지 성능 평가

C. Implementation Details

Feature Extractor: VideoSwin (Kinetics 사전학습)
Input: 32개 snippet (각 16프레임, 224x224 해상도)
RTFM 구조: 3-layer FC + dropout + sigmoid
Optimizer: Adam, lr=0.001, batch size=32, epoch=500

D. Result Analysis

주요 성능 비교 (AUC 기준)

MethodFeatureAUC (%)

MIL	I3D	92.3
MIL	VideoSwin	96.9
RTFM	I3D	93.0
RTFM	VideoSwin	96.4
Proposed	I3D	93.7
Proposed	VideoSwin	97.9

Attention Layer 비교

Attention TypeFeatureAUC (%)

CBAM	VideoSwin	96.9
No Attention	VideoSwin	97.1
Proposed	VideoSwin	97.9

기존 attention 구조는 왜 성능이 낮았나?
CBAM, LSTM 등은 고차원 feature에서 gradient 소실이나 일반화 어려움이 있었고,
본 논문의 attention layer는 pairwise attention + residual 연결로 이를 보완함

V. Conclusion

약지도 학습 기반으로도 frame-level anomaly detection이 가능함을 실증
VideoSwin + dilated attention layer를 통해 정확도 향상
실험 결과, 기존 MIL 및 RTFM보다 우수한 성능 (AUC 97.9%)

향후 과제:

Positive bag 내 노이즈 제거
이상 행동의 정밀 분류(classification) 확장
실시간 시스템으로의 적용 최적화

<저자 정보>

논문 제목: Anomaly Detection in Surveillance Videos using Transformer Based Attention Model
저자: Kapil Deshpande, Sanjay Kumar Sonbhadra, Narinder Singh Punn, Sonali Agarwal
소속: IIIT Allahabad
발표 연도: 2022
논문 링크: arXiv:2206.01524
코드: GitHub Repository

'Paper Review🧾' 카테고리의 다른 글

[Paper Review] emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation (0)	2026.05.21
[논문리뷰] A CNN-RNN Combined Structure for Real-World Violence Detection in Surveillance Cameras (0)	2025.10.01
[논문리뷰] Attention is All you Need(Vaswani et al., 2017) (0)	2025.09.25

ABOUT ME

히히호호 히히호호

논문 개요

I. Introduction

(1) 이상행동 감지는 왜 어려울까?

(2) 기존 방식의 한계

III. Proposed Method

A. Stage 1: Feature Extraction

B. Stage 2: Attention Layer

C. Stage 3: Anomaly Detection

IV. Experiments

A. Dataset

B. Evaluation Metric

C. Implementation Details

D. Result Analysis

주요 성능 비교 (AUC 기준)

Attention Layer 비교

V. Conclusion

'Paper Review🧾' 카테고리의 다른 글

티스토리툴바

ABOUT ME

논문 개요

I. Introduction

(1) 이상행동 감지는 왜 어려울까?

(2) 기존 방식의 한계

III. Proposed Method

A. Stage 1: Feature Extraction

B. Stage 2: Attention Layer

C. Stage 3: Anomaly Detection

IV. Experiments

A. Dataset

B. Evaluation Metric

C. Implementation Details

D. Result Analysis

주요 성능 비교 (AUC 기준)

Attention Layer 비교

V. Conclusion

'Paper Review🧾' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바