GPT, BERT와 같은 대형 언어 모델(LLMs) 및 Transformer 기반 아키텍처의 등장은 자연어 처리(NLP) 분야에서 혁신을 일으켰습니다. 그러나 이러한 모델들은 종종 관련 없는 문맥에 주의가 과도하게 할당되는 문제로 인해 특정 작업에서 성능이 제한됩니다. Differential Transformer(DIFF Transformer)는 이러한 비효율성을 해결하고자 설계된 새로운 아키텍처로, 주의 메커니즘을 개선하여 중요한 문맥에 집중하고 잡음을 줄이는 데 중점을 둡니다. 본 논문은 DIFF Transformer가 기존 Transformer에 비해 긴 문맥 처리, 환각 감소, 핵심 정보 검색, 성능 효율성 측면에서 어떻게 향상되는지를 설명합니다.
1. Differential Transformer 서론
최근 Transformer 모델은 연속 데이터를 처리하는 우수한 능력과 확장 가능성 덕분에 대형 언어 모델(LLM)의 표준 아키텍처가 되었습니다. 그러나 이러한 모델들도 한계가 있습니다. Transformer 모델의 핵심은 주의 메커니즘에 있으며, 이 메커니즘은 softmax 함수를 사용하여 토큰의 시퀀스에 주의 가중치를 할당합니다. 이 방식은 일부 경우에는 효과적이지만, softmax 기반 주의는 종종 문맥의 관련 없는 부분에도 주의 점수를 할당하게 되어 주의력 잡음이라는 현상이 발생합니다. 이로 인해 모델이 주의를 잘못 배분하게 되어 정보 검색, 질문 응답, 텍스트 요약과 같은 작업에서 성능이 저하됩니다.
Differential Transformer는 이러한 문제를 해결하기 위해 새로운 차별적 주의 메커니즘을 도입했습니다. 두 개의 주의 맵 간의 차이를 계산함으로써 DIFF Transformer는 주의력 잡음을 효과적으로 줄이고, 중요한 정보에 주의를 집중할 수 있습니다. 이를 통해 긴 문맥 시퀀스를 처리할 때 성능이 향상됩니다.
2. 차별적 주의 메커니즘
Differential Transformer의 핵심은 차별적 주의 메커니즘입니다. 기존 Transformer는 입력 시퀀스에 주의 점수를 분배하기 위해 단일 softmax 함수를 사용하지만, DIFF Transformer는 두 개의 softmax 함수를 사용하여 두 개의 주의 맵을 계산합니다. 그런 다음 이 두 맵을 차감하여 중요한 정보를 분리하고 잡음을 제거합니다. 이러한 차감 과정은 관련 없는 토큰의 주의 점수를 줄이고, 더 집중되고 희소한 주의 패턴을 촉진합니다.
수학적으로, query, key, value 행렬을 기준으로 Differential Transformer의 주의 계산은 다음과 같이 정의됩니다:
$$ \text{DiffAttn}(X) = (\text{softmax}(\frac{Q_1 K_1^T}{\sqrt{d}}) – \lambda \text{softmax}(\frac{Q_2 K_2^T}{\sqrt{d}}))V $$
여기서 ( Q_1 ), ( K_1 ), ( Q_2 ), ( K_2 )는 query와 key 행렬이며, (\lambda)는 두 주의 맵 간의 균형을 제어하는 학습 가능한 스칼라입니다.
이로 인해 DIFF Transformer는 중요한 문맥에 집중할 수 있으며, 여러 문서 기반 질문 응답 및 텍스트 요약과 같이 관련 없는 정보로 쉽게 압도되는 작업에 특히 유용합니다.
3. 기존 Transformer와의 주요 차이점
3.1 주의 메커니즘
기존 Transformer:
- 기존 Transformer는 단일 softmax 함수를 사용하여 시퀀스 내 모든 토큰에 주의를 할당합니다. 이는 순차 데이터를 효율적으로 처리할 수 있지만, 종종 관련 없는 토큰에 너무 많은 주의를 할당하게 되어 주의력 잡음 문제가 발생합니다.
DIFF Transformer:
- 반대로 DIFF Transformer는 두 개의 softmax 주의 맵 간의 차이를 계산하는 차별적 주의 메커니즘을 사용합니다. 이 접근 방식은 관련 없는 토큰을 효과적으로 제거하여 주의력 잡음을 줄입니다. 그 결과, 모델은 중요한 정보에 더 잘 집중할 수 있으며, 긴 문맥 처리, 핵심 정보 검색, 질문 응답 작업에서 성능이 향상됩니다.
3.2 긴 문맥 처리
기존 Transformer:
- Transformer 모델은 매우 긴 입력 시퀀스에서 성능이 떨어지는 경향이 있습니다. 문맥 길이가 수만 개 이상의 토큰으로 증가하면, 주의력 잡음이 더 문제가 되며, 모델이 문맥의 관련 없는 부분에 주의를 기울이기 시작합니다.
DIFF Transformer:
- DIFF Transformer는 문맥 길이가 증가하더라도 일관된 성능을 유지합니다. 예를 들어, 64K 토큰과 같은 긴 시퀀스에서도 Negative Log-Likelihood (NLL)가 지속적으로 감소하는 경향을 보였습니다. 이는 DIFF Transformer가 긴 문맥 작업에서 훨씬 더 효과적으로 작동함을 나타내며, 문서 검색이나 긴 텍스트 요약과 같은 응용에 적합합니다.
3.3 핵심 정보 검색
기존 Transformer:
- 대형 문맥에서 여러 중요한 정보를 검색하는 작업(multi-needle retrieval)에서 기존 Transformer 모델은 정보가 많아질수록 정확도가 떨어집니다. 이는 모델이 복잡한 문맥 내에서 중요한 정보를 효과적으로 구분하지 못하기 때문입니다.
DIFF Transformer:
- DIFF Transformer는 multi-needle retrieval 작업에서 기존 Transformer보다 우수한 성능을 발휘합니다. 이 모델은 더 많은 방해 요소가 존재하더라도 중요한 정보를 잘 구분할 수 있으며, 이는 대형 데이터세트에서 특정 정보를 검색하는 작업에 강점을 가집니다.
3.4 환각 감소
기존 Transformer:
- Transformer 모델에서 자주 발생하는 문제 중 하나는 환각(hallucination)입니다. 모델이 입력 데이터에 기반하지 않은 내용을 생성하는 문제로, 특히 텍스트 요약이나 질문 응답 작업에서 이러한 오류는 큰 성능 저하로 이어집니다.
DIFF Transformer:
- DIFF Transformer는 입력의 올바른 부분에 주의를 더 효과적으로 할당함으로써 환각 발생률을 줄입니다. 실험에 따르면, DIFF Transformer는 요약 및 질문 응답 작업에서 일관되게 더 정확하고 환각이 없는 출력을 생성합니다.
3.5 활성화 이상치(Activation Outliers)
기존 Transformer:
- Transformer 모델은 종종 매우 큰 활성화 값을 생성하는 활성화 이상치(activation outliers) 문제를 겪습니다. 이는 훈련 및 양자화 과정에서 문제를 일으키며, 모델의 정밀도를 줄이기 어렵게 만듭니다(예: 32비트에서 16비트 이하로 줄이는 경우).
DIFF Transformer:
- DIFF Transformer는 활성화 이상치의 발생 빈도를 크게 줄여 모델의 양자화를 보다 효율적으로 수행할 수 있게 합니다. 이는 자원 제약이 있는 환경에서 대형 언어 모델을 배포할 때 매우 중요하며, 더 낮은 비트 너비의 attention 커널을 사용할 수 있게 해줍니다.
4. 어블레이션 연구: GroupNorm과 λ 초기화
DIFF Transformer 아키텍처에서 GroupNorm과 λ(람다) 초기화는 모델 성능에 중요한 역할을 합니다.
GroupNorm:
GroupNorm은 DIFF Transformer에서 각 주의 헤드의 출력을 정규화하는 데 사용됩니다. 여러 주의 헤드가 서로 다른 크기의 출력을 생성하는 경향이 있기 때문에, GroupNorm은 이러한 출력을 유사한 범위로 맞추어 학습을 더 안정적으로 만듭니다. 어블레이션 연구에서 GroupNorm을 제거했을 때 성능이 크게 저하되었으며, 이는 GroupNorm이 모델 안정성에 중요한 역할을 한다는 것을 보여줍니다.
λ 초기화:
DIFF Transformer의 λ 매개변수는 차별적 주의 메커니즘에서 두 번째 주의 맵에 할당된 가중치를 제어합니다. 두 가지 초기화 전략이 실험되었습니다: 지수적 감소(exponential decay)와 고정 초기화(constant initialization). 실험 결과, DIFF Transformer는 λ 초기화 방법에 대해 성능이 강건한 것으로 나타났습니다. 즉, 다양한 초기화 방법에도 불구하고 성능이 안정적으로 유지되었습니다.
5. 결론
DIFF Transformer는 주의력 잡음을 줄이고 관련 문맥을 증폭시키는 차별적 주의 메커니즘을 도입함으로써 기존 Transformer 모델에 비해 상당한 개선을 보였습니다. 이러한 개선 사항은 긴 문맥 처리, 핵심 정보 검색, 환각 감소 및 인컨텍스트 학습 작업에서 DIFF Transformer가 탁월한 성능을 발휘할 수 있게 합니다. 또한 활성화 이상치를 줄여
자원 제한 환경에서도 효율적으로 모델을 배포할 수 있습니다.
향후 DIFF Transformer의 연구 방향으로는 저비트 주의 커널 개발 및 키-값 캐시의 효율적인 압축 기술이 있으며, 주의 패턴의 희소성을 활용할 수 있습니다. 이러한 발전을 통해 DIFF Transformer는 NLP 응용 분야에서 성능을 더욱 최적화하고 자원 요구 사항을 줄일 수 있는 강력한 도구로 자리 잡을 수 있습니다.
논문 링크 : https://arxiv.org/pdf/2410.05258
다른 글로 놀러오세요 : https://dajeblog.co.kr/review-chain-of-thoughtcot/