최근 인공지능 연구 분야에서 Chain-of-Thought (CoT) 프롬프팅 기법이 주목받고 있습니다. 이 기법은 대규모 언어 모델의 추론 능력을 향상시키는 데 효과적이라고 알려져 왔습니다. 이에, 텍사스 대학교 오스틴의 Zayne Sprague를 비롯한 연구진은 CoT의 실제 효과를 검증하기 위해 광범위한 메타 분석과 실험을 수행하였고, 논문(To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning)에 실험 결과를 2024.09.18 공개하였습니다. 이에, 자세히 소개드릴까 합니다.
논문 : https://arxiv.org/pdf/2409.12183
연구진은 주요 머신러닝/자연어처리 컨퍼런스의 4,600여 편의 논문을 검토하고, 516편을 선별하여 CoT의 효과를 체계적으로 분석했습니다. 14개의 작업 카테고리를 정의하고, Llama, Mistral, GPT 등 다양한 언어 모델을 사용하여 1,218개의 실험 비교를 수행했습니다.
연구 결과, CoT의 효과는 예상보다 제한적인 것으로 나타났습니다. CoT는 주로 수학, 논리, 상징적 추론이 필요한 작업에서 큰 성능 향상을 보였지만, 다른 유형의 작업에서는 그 효과가 미미했습니다. 수학 관련 작업에서 CoT를 사용했을 때 평균 56.9%의 성능을 보인 반면, 사용하지 않았을 때는 45.5%의 성능을 보였습니다. 그러나 다른 카테고리에서는 CoT 사용 여부에 따른 성능 차이가 거의 없었습니다(56.8% vs 56.1%).
이 연구는 CoT 프롬프팅의 실제 가치를 재평가하고, 그 사용에 대한 더 신중한 접근이 필요함을 시사합니다. 연구진은 CoT가 추가적인 계산 비용을 수반한다는 점을 고려할 때, 그 사용이 항상 정당화되지 않을 수 있다고 주장합니다.
결론적으로, CoT는 강력한 도구이지만, 그 효과는 특정 유형의 작업에 국한될 수 있습니다. 따라서 연구자들과 실무자들은 CoT의 선택적 사용을 고려하고, 더 효율적인 추론 방법을 개발하는 데 주력해야 한다고 이야기합니다.