RLHF(4) : instructGPT, Training Language Models to Follow Instructions with Human Feedback

instructGPT는 Training Language Models to Follow Instructions with Human Feedback라는 논문으로 소개가 되었습니다. ChatGPT로 매우 유명한 논문이 되었습니다. 다양한 자료가 나와 있고, 이를 보완하기 위한 논문도 쏟아져 나오고 있습니다. 오늘은 instructGPT를 수식적으로 살펴보고, 이를 보완하기 위한 논문도 함께 살펴보도록 하겠습니다.

paper link :

related link : https://openai.com/research/instruction-following

instructGPT
개요

instructGPT 논문 리뷰

instructGPT서론

언어 모델은 자연어 처리(NLP)의 핵심 구성 요소로, 텍스트 생성, 번역, 감정 분석 등 다양한 작업에 사용됩니다. 최근의 연구는 이러한 모델이 인간의 피드백을 통해 학습하고, 이를 통해 더욱 정교하고 유용한 결과를 생성할 수 있음을 보여주었습니다. 이 블로그 글에서는 언어 모델이 인간의 피드백을 통해 지시사항을 어떻게 따르도록 훈련되는지에 대해 설명하겠습니다. 이를 위해, 우리는 수학적 모델링과 알고리즘을 사용하여 이 과정을 이해하고 설명하겠습니다.

인간의 피드백을 통한 학습

언어 모델이 인간의 피드백을 통해 학습하는 기본적인 아이디어는 간단합니다. 모델은 특정 작업에 대한 지시사항을 받고, 그에 따라 행동합니다. 이후, 인간은 모델의 행동을 평가하고 피드백을 제공합니다. 이 피드백은 모델이 더 나은 행동을 학습하는 데 사용됩니다.

이러한 학습 과정을 수학적으로 표현하면 다음과 같습니다. 모델의 행동을 b라고 하고, 인간의 피드백을 f라고 합시다. 모델은 피드백 f를 최대화하는 행동 b를 선택하려고 합니다. 이는 다음과 같은 최적화 문제로 표현될 수 있습니다:

max_b f(b)

이 최적화 문제는 강화 학습의 프레임워크 내에서 해결될 수 있습니다. 강화 학습에서, 에이전트(여기서는 언어 모델)는 환경과 상호작용하며 보상을 최대화하려고 합니다. 이 경우, 보상은 인간의 피드백 f로 간주될 수 있습니다.

피드백과 보상 함수

강화 학습에서 가장 중요한 요소 중 하나는 보상 함수입니다. 이 함수는 에이전트의 행동이 얼마나 좋은지를 측정합니다. 여기서는 인간의 피드백 f를 보상 함수로 사용합니다.

보상 함수를 r(b)라고 하면, 이는 인간의 피드백 f와 동일하게 설정됩니다. 즉, r(b) = f(b)입니다. 이 경우, 에이전트는 다음과 같은 보상 최대화 문제를 해결하려고 합니다:

max_b r(b)

이 문제는 강화 학습의 기본적인 프레임워크인 벨만 방정식을 사용하여 해결될 수 있습니다. 벨만 방정식은 에이전트의 가치 함수를 최적화하는 방법을 제공합니다. 가치 함수 V(b)는 특정 행동 b를 선택했을 때 에이전트가 기대할 수 있는 미래의 총 보상을 나타냅니다. 벨만 방정식은 다음과 같습니다:

V(b) = r(b) + γ * E[V(b’)]

여기서 γ는 할인 계수이며, E[V(b’)]는 다음 행동 b’에 대한 가치 함수의 기대값입니다.

훈련과 평가

언어 모델을 훈련하는 과정은 이 보상 함수를 최대화하는 행동을 찾는 것입니다. 이를 위해, 우리는 다양한 훈련 알고리즘을 사용할 수 있습니다. 예를 들어, Q-학습, SARSA, Actor-Critic 등의 알고리즘을 사용할 수 있습니다.

이러한 알고리즘은 모두 벨만 방정식을 기반으로 하며, 에이전트가 보상을 최대화하는 행동을 찾도록 돕습니다. 이들은 모두 다음과 같은 업데이트 규칙을 사용합니다:

V(b) ← r(b) + γ * max_b’ V(b’)

이 규칙은 에이전트가 현재의 보상과 미래의 최대 가치를 고려하여 가치 함수를 업데이트하도록 합니다.

훈련이 완료되면, 우리는 모델을 평가할 수 있습니다. 이를 위해, 우리는 모델에게 새로운 지시사항을 제공하고, 그에 따른 행동을 관찰합니다. 이 행동은 인간의 피드백을 통해 평가되며, 이는 모델이 얼마나 잘 훈련되었는지를 나타냅니다.

피드백의 한계와 개선 방안

그러나 이러한 접근법에는 몇 가지 한계가 있습니다. 첫째, 모든 피드백이 동일하게 유용하지는 않습니다. 어떤 피드백은 모델의 행동을 크게 개선하는 데 도움이 되지만, 다른 피드백은 그렇지 않을 수 있습니다. 이 문제를 해결하기 위해, 우리는 피드백의 품질을 측정하고, 이를 학습 과정에 반영하는 방법을 고려해야 합니다.

둘째, 피드백은 종종 지연되어 제공됩니다. 즉, 모델이 행동을 한 후에야 피드백을 받을 수 있습니다. 이는 학습 과정을 복잡하게 만듭니다. 이 문제를 해결하기 위해, 우리는 지연된 피드백을 처리하는 알고리즘을 개발해야 합니다.

이러한 한계를 극복하기 위한 한 가지 방법은 보상 예측 모델을 사용하는 것입니다. 이 모델은 특정 행동이 얼마나 좋은 피드백을 받을지를 예측합니다. 이를 통해, 우리는 피드백의 품질을 더 잘 이해하고, 지연된 피드백을 더 효과적으로 처리할 수 있습니다.

instructGPT 보상 예측 모델

보상 예측 모델은 특정 행동 b에 대한 보상 r(b)를 예측하는 함수입니다. 이 모델은 다음과 같은 형태를 가질 수 있습니다:

r_hat(b) = θ^T * φ(b)

여기서 θ는 모델의 파라미터이고, φ(b)는 행동 b의 특성을 나타내는 벡터입니다. 이 모델은 행동의 특성과 보상 사이의 선형 관계를 가정합니다.

이 모델을 학습하기 위해, 우리는 피드백을 사용하여 파라미터 θ를 업데이트합니다. 이를 위해, 우리는 다음과 같은 손실 함수를 최소화합니다:

L(θ) = (r(b) – r_hat(b))^2

이 손실 함수는 실제 보상 r(b)와 예측 보상 r_hat(b) 사이의 제곱 오차를 나타냅니다. 이를 최소화함으로써, 우리는 보상 예측 모델을 학습할 수 있습니다.

instructGPT 결론

이 블로그 글에서는 언어 모델이 인간의 피드백을 통해 지시사항을 어떻게 따르도록 훈련되는지에 대해 설명했습니다. 이 과정은 강화 학습의 프레임워크를 사용하며, 인간의 피드백을 보상 함수로 사용합니다. 또한, 피드백의 한계와 이를 극복하기 위한 방법에 대해서도 논의했습니다. 이러한 접근법은 언어 모델이 더욱 유용하고 정교한 결과를 생성하는 데 도움이 될 수 있습니다. 이는 인공 지능이 우리의 일상 생활에 더욱 통합되는 미래를 열어줄 수 있습니다.


RLHF의 과제와 한계에 대한 검토

고찰

ChatGPT가 등장한 이후 OpenAI에서 사용하는 RLHF(Human Feedback Reinforcement Learning) 학습 방법이 많은 주목을 받으며 LLM(Large Language Model) 미세 조정의 핵심 방법이 되었습니다. RLHF 방법은 교육에서 인간의 피드백을 사용하여 도움이 되지 않거나 왜곡되거나 편향된 출력을 최소화하여 AI 모델을 인간의 가치에 맞춥니다.

그러나 RLHF 방법에도 몇 가지 단점이 있는데, 최근 MIT CSAIL, Harvard University, Columbia University 및 기타 기관의 수십 명의 연구원이 공동으로 리뷰 논문을 발표하여 해당 분야의 200여 개 이상의 연구 논문을 체계적으로 분석하고 논의했습니다. RLHF 방법을 철저히 연구합니다.

그림

논문 링크 : https://huggingface.co/papers/2307.15217

전반적으로 이 백서는 RLHF의 한계를 강조하고 더 안전한 AI 시스템을 개발하려면 다각적인 접근 방식이 필요함을 보여줍니다. 연구팀은 다음과 같은 작업을 수행했습니다.

  • RLHF 및 관련 방법의 공개 문제 및 근본적인 한계를 조사합니다.
  • 실제로 RLHF를 이해, 개선 및 보완하는 방법을 설명합니다.
  • RLHF 시스템에 대한 커뮤니티 감독을 개선하기 위한 감사 및 공개 표준을 제안합니다.

특히 논문의 핵심 내용은 다음 세 부분으로 구성됩니다.

1. RLHF가 직면한 특정 문제. 연구팀은 RLHF 관련 문제를 분류하고 조사했으며, RLHF의 프레임워크 내에서 개선된 방법을 사용하여 해결하기 쉽고 해결할 수 있는 RLHF가 직면한 문제와 다른 사람이 해결해야 하는 RLHF의 근본적인 한계를 구분했습니다. 메서드 정렬 문제를 수정합니다.

2. RLHF를 보다 광범위한 기술 안전 프레임워크에 통합합니다. 이 논문은 RLHF가 안전한 AI 개발을 위한 완전한 프레임워크가 아님을 보여주고 RLHF를 더 잘 이해하고 개선하며 보완하는 데 도움이 되는 몇 가지 방법을 설명하고 문제를 줄이기 위한 여러 중복 전략의 중요성을 강조합니다.

3. 거버넌스와 투명성. 이 백서에서는 업계 표준 개선의 과제를 분석합니다. 예를 들어 연구원들은 RLHF를 사용하여 AI 시스템을 교육하는 회사가 교육 세부 사항을 공개하는 것의 유용성에 대해 논의했습니다.

논문의 핵심 부분의 구조와 기본적인 내용을 살펴보자.

아래 그림 1과 같이 본 연구에서는 RLHF와 관련된 인적 피드백 수집, 보상 모델링 및 정책 최적화의 3가지 프로세스를 분석합니다. 그 중 피드백 프로세스는 모델 출력에 대한 사람의 평가를 유도하고 보상 모델링 프로세스는감독 학습사람의 평가를 모방한 보상 모델 교육, 전략 최적화 프로세스 최적화인공 지능모델 평가를 더 잘 보상하는 출력을 생성하는 시스템. 논문의 세 번째 장에서는 이러한 세 가지 프로세스와 합동 훈련 보상 모델 및 전략의 네 가지 측면에서 RLHF 방법의 문제점과 과제를 논의합니다.

그림

논문의 세 번째 장에 요약된 문제는 다음과 같습니다. 개발을 위해 RLHF에 크게 의존인공 지능시스템에 보안 위험이 있습니다. RLHF는 유용하지만 개발의 인간적 측면을 다루지는 않습니다.인공 지능기본적인 도전.

그림

연구팀은 단일 전략이 포괄적인 솔루션으로 간주되어서는 안 된다고 생각합니다. 더 좋은 방법은 여러 보안 방법과 함께 “심층 방어”를 사용하는 것인데, 논문 4장에서는 RLHF를 이해하고 개선하고 보완하는 측면에서 AI 보안을 개선하는 방법에 대해 자세히 설명합니다.

그림

논문의 다섯 번째 장에서는 RLHF 거버넌스가 직면한 위험 요소와 감사 조치에 대해 설명합니다.

그림

한계에 대한 요약

이 연구는 실제로 많은 문제가 RLHF의 근본적인 한계에서 비롯되며 비 RLHF 방법으로 피하거나 보상해야 한다는 것을 발견했습니다. 따라서 이 논문은 (1) RLHF 및 기타 접근 방식의 근본적인 한계에 대한 기술 진보를 평가하고 (2) 심층 방어 보안 조치를 채택하고 연구 결과를 과학적으로 공개적으로 공유하여 AI를 해결하는 두 가지 전략의 중요성을 강조합니다. 커뮤니티 정렬 문제.

또한 이 연구는 RL 정책의 어려운 문제와 같은 RLHF에 고유하지 않은 몇 가지 문제와 문제 및 AI 조정에 근본적인 몇 가지 문제를 조명합니다.

관심 있는 독자는 논문의 원문을 읽고 연구 내용에 대해 자세히 알아볼 수 있습니다.

블로그 내 참조 링크 :

답글 남기기