Differential Transformer
마이크로스프트에서 새로운 트랜스포머 아키텍처(differentialTranformer)를 소개했습니다.
자연어 처리(natural language processing) 관련하여 논문 리뷰(review), 논문 구현(reproduction), 데이터전처리, 새로운 기술 리뷰에 대해 다루고자 합니다.
마이크로스프트에서 새로운 트랜스포머 아키텍처(differentialTranformer)를 소개했습니다.
Chain-of-Thought(CoT)
Chain-of-Thought
인공지능 모델을 파인튜닝할 때 Gradient Clipping이라는 기술을 자주 사용합니다. 이 기술은 새로운 데이터를 학습할 때 모델의 가중치가 급격하게 변화하는 것을 방지하는 역할을 합니다. 이번 포스팅에서는 Gradient Clipping의 원리와 작동 방식을 좀 더 자세히 알아보겠습니다. 그래디언트 클래핑이란? 신경망 학습 과정에서 발생하는 그래디언트 폭주(Gradient Exploding) 문제를 해결하는 중요한 기법입니다. 그래디언트 폭주는 역전파 과정에서 그래디언트가 지나치게 커져 가중치