-
[논문리뷰] Anomaly detection in surveillance videos using transformer based attention modelPaper Review🧾 2025. 9. 30. 17:29
논문 개요
이 논문은 감시 영상에서 이상행동(anomaly)을 탐지하기 위해, 약지도 학습(weakly supervised learning) 기반의 접근법을 제안한다.
놀라운 점은 이 모델이 프레임 단위 라벨 없이도 학습할 수 있다는 것이다. 즉, "이 영상에는 이상행동이 있다"는 정도의 라벨만 있어도, 어떤 순간에 이상이 있었는지를 프레임 단위로 예측해낸다.
핵심 아이디어는 frame-level annotation 없이도 video-level label만을 사용하여 세밀한 frame-level anomaly score를 추정하는 것이다.
I. Introduction
(1) 이상행동 감지는 왜 어려울까?
감시 시스템에서의 이상행동 탐지는 여전히 많은 시간과 인력을 요구한다. 특히, 영상의 프레임 단위로 수작업 라벨링을 해야 하는 기존 방식은 현실적으로 확장성이 떨어진다.
이에 따라 최근에는 약지도 학습(Weakly Supervised Learning) 방식이 주목받고 있다.- 약지도 학습 방식은 frame-level 주석 없이 video-level 레이블만 필요하여 비용 효율적임.
- 기존 MIL 방식은 일부 이상행동만 학습하거나, 정상 구간을 이상으로 잘못 판단할 수 있는 한계가 있음.
- 이를 해결하기 위해 RTFM 모델과 transformer 기반 특징 추출 방식을 결합한 새로운 방법을 제안함.
(2) 기존 방식의 한계
- 비지도 학습: 정상 행동의 분포를 학습 후 이상치를 감지하려고 했지만, 실제 상황에서는 잘 안 맞음. (편향됨)
- 생성 모델 기반: 정상 샘플을 복원하고 오차를 이상으로 판단 (오버피팅 문제)
- 약지도 학습: MIL을 통해 이상/정상 비디오에서 학습. 영상 전체에 라벨만 붙이고 내부적으로 이상을 찾아내지만, 여전히 정상 구간을 이상으로 분류하는 오류가 많았음.
- 그래프 신경망, attention 기반 방법: 계산량이 많거나 장기 의존성 처리에 한계
본 논문은: -
- Videoswin Transformer로 고품질의 시계열 특징을 추출하고
- dilated convolution 기반 attention layer로 장기-단기 의존성 학습을 효율적으로 수행함
- 기존 MIL/RTFM 대비 더 우수한 성능을 실험적으로 입증
더보기기존 MIL(Multiple Instance Learning) 기반 방법은 다음과 같은 한계를 가지고 있다:
- 이상 프레임 일부만을 제대로 학습함 → 정상 구간을 이상으로 분류하는 오류 발생
- 프레임 간 시간적 관계(temporal dependency)를 학습하지 못함 → 행동 전후의 맥락 정보 손실
III. Proposed Method
A. Stage 1: Feature Extraction
- 영상 프레임을 snippet 단위(16프레임)로 나누어 처리
- Swin Transformer 구조를 사용해 local window self-attention으로 고품질 특징 추출
- 연산 효율성과 시공간 정보 반영력을 동시에 확보
왜 VideoSwin인가?
기존 CNN(I3D 등) 대비, 정밀한 국소 특징 표현이 가능하며,
공간-시간 관계를 동시에 반영함 → 복잡한 이상 행동 탐지에 유리B. Stage 2: Attention Layer
이상행동은 짧은 순간 발생할 수도 있고, 앞뒤 맥락과 연결되기도 합니다.
이를 반영하기 위해 short-range / long-range temporal attention을 결합한 모듈을 설계했습니다.- Short-range module: Conv1D 기반 → 인접 snippet 간 특징 학습
- Long-range module: Pairwise self-attention → 전체 snippet 간 연관성 학습
- 두 출력을 concat → residual 연결 후 최종 attention 출력 생성
왜 둘 다 필요한가?
- Short-range: 급작스러운 움직임(예: 넘어짐, 주먹질) 포착
- Long-range: 전후 맥락(예: 다가오는 행동, 도망 등) 반영 가능
C. Stage 3: Anomaly Detection
RTFM(Robust Temporal Feature Magnitude) 기반 이상 점수 계산:
- 각 snippet의 feature vector L2 norm을 계산
- 이상일수록 특징 벡터의 크기(norm)가 크다는 가정
- 이상 bag과 정상 bag의 상위 K개 평균 norm 차이를 최대화하도록 학습
직관적 해석:
격렬하거나 복잡한 이상 행동일수록 feature magnitude가 크다 → 이 점을 활용한 단순하지만 효과적인 이상 판단IV. Experiments
A. Dataset
- ShanghaiTech Campus Dataset
- 437개 비디오 (정상: 307, 이상: 130)
- 12개 시나리오 배경
- Zhong et al. 방식에 따라 weakly-supervised 구조로 라벨링
B. Evaluation Metric
- Frame-level AUC (Area Under Curve)
- ROC 곡선 면적 기반 → 이상 탐지 성능 평가
C. Implementation Details
- Feature Extractor: VideoSwin (Kinetics 사전학습)
- Input: 32개 snippet (각 16프레임, 224x224 해상도)
- RTFM 구조: 3-layer FC + dropout + sigmoid
- Optimizer: Adam, lr=0.001, batch size=32, epoch=500
D. Result Analysis
주요 성능 비교 (AUC 기준)
MethodFeatureAUC (%)MIL I3D 92.3 MIL VideoSwin 96.9 RTFM I3D 93.0 RTFM VideoSwin 96.4 Proposed I3D 93.7 Proposed VideoSwin 97.9 Attention Layer 비교
Attention TypeFeatureAUC (%)CBAM VideoSwin 96.9 No Attention VideoSwin 97.1 Proposed VideoSwin 97.9 기존 attention 구조는 왜 성능이 낮았나?
CBAM, LSTM 등은 고차원 feature에서 gradient 소실이나 일반화 어려움이 있었고,
본 논문의 attention layer는 pairwise attention + residual 연결로 이를 보완함V. Conclusion
- 약지도 학습 기반으로도 frame-level anomaly detection이 가능함을 실증
- VideoSwin + dilated attention layer를 통해 정확도 향상
- 실험 결과, 기존 MIL 및 RTFM보다 우수한 성능 (AUC 97.9%)
향후 과제:
- Positive bag 내 노이즈 제거
- 이상 행동의 정밀 분류(classification) 확장
- 실시간 시스템으로의 적용 최적화
<저자 정보>
- 논문 제목: Anomaly Detection in Surveillance Videos using Transformer Based Attention Model
- 저자: Kapil Deshpande, Sanjay Kumar Sonbhadra, Narinder Singh Punn, Sonali Agarwal
- 소속: IIIT Allahabad
- 발표 연도: 2022
- 논문 링크: arXiv:2206.01524
- 코드: GitHub Repository
반응형'Paper Review🧾' 카테고리의 다른 글