[논문 리뷰] LLAMa2

하룻밤 사이에 대형 모델의 패턴이 다시 크게 바뀌었습니다. 오늘은 자연어에 또 하나의 역사가 새겨지는 날입니다. FaceBook에서 LLama2를 공개하였습니다. 무려 파라미터가 70B입니다. LLama2 관련하여 논문 리뷰를 진행해보겠습니다.

Llama는 틀림없이 AI 커뮤니티에서 가장 강력한 오픈 소스 대형 모델이었습니다. 그러나 오픈 소스 계약으로 인해 상업적 용도로 무료로 사용할 수 없었습니다.

최근 메타에서 드디어 대망의 무료 상용 버전 Llama 2를 출시했습니다.

LLAMa2

이번에 메타가 출시한 라마2 모델 시리즈는 70억, 130억, 700억 세 가지 종류가 있다.  

보고서에 따르면 Llama 1과 비교하여 Llama 2는 훈련 데이터가 40% 더 많고 컨텍스트 길이가 두 배이며 그룹화를 채택합니다. 구체적으로, Llama 2 사전 훈련 모델은 2조 개의 토큰 으로 훈련되고 미세 조정된 Chat 모델은 100만 개의 인간 라벨 데이터로 훈련 됩니다 .

표1

발표된 평가 결과는 LLama2가 추론, 코딩, 숙달 및 지식 테스트를 포함한 여러 외부 테스트에서 우수한 성능을 보였다는 것을 보여줍니다.기준테스트에서 다른 오픈 소스보다 우수한 성능언어 모델.

표2

다음으로 Meta에서 발행한 기술 보고서에서 Llama2에 대해 자세히 알아보겠습니다.

개요

640 5
  • paper link : https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
  • project link : https://github.com/facebookresearch/llama

일반적으로 사전 훈련되고 미세 조정된 대규모 집합으로언어 모델(LLM), Llama2 모델 시리즈매개변수크기는 70억에서 700억까지 다양합니다. 그중 Llama2-Chat은 특히 대화형 사용 사례에 최적화되어 있습니다.

표3
Llama2-Chat 교육파이프라인.

대부분을 제외한 라마 2 모델 시리즈기준테스트에서 오픈 소스 모델을 능가하는 것 외에도 Meta의 유용성과 보안에 대한 인적 평가를 기반으로 폐쇄 소스 모델을 대체하기에 적합할 수도 있습니다.

표4
안전성 관련 사람 평가 : Llama2 Chat과 다른 open-source and closed-source model과의 비교 결과

Meta는 Llama2-Chat의 미세 조정 및 보안 개선을 통해 커뮤니티가 작업을 기반으로 구축할 수 있는 방법을 자세히 설명합니다.언어 모델의 책임있는 발전에 기여합니다.

사전 훈련

Llama2 모델의 새로운 제품군을 만들기 위해 Meta는 Llama 1 논문에 설명된 사전 교육 방법을 기반으로 최적화된 자동 회귀 변환기를 사용하고 성능을 개선하기 위해 몇 가지 변경 사항을 적용합니다.

특히 Meta는 보다 강력한데이터 청소, 혼합 데이터를 업데이트하고 총 교육 토큰 수를 40% 늘렸고 컨텍스트 길이를 두 배로 늘렸습니다. 아래 표 1은 Llama2와 Llama 1의 상세 데이터를 비교한 것이다.

표5

라마 2 훈련신체공개적으로 사용 가능한 소스의 혼합 데이터를 포함하며 Meta 제품 또는 서비스 관련 데이터는 포함하지 않습니다. Llama2는 표준 Transformer 아키텍처, RMSNorm을 사용한 사전 정규화, SwiGLU를 포함하여 Llama 1의 대부분의 사전 훈련 설정 및 모델 아키텍처를 사용합니다.활성화 기능및 회전 위치 내장.

슈퍼에서매개변수반면 Meta는 AdamW를 사용합니다.옵티마이저β_1 = 0.9, β_2 = 0.95, eps = 10^−5로 훈련을 수행합니다. 코사인을 사용하는 동안학습률계획(2000단계 워밍업)하고 결국에는학습률절정으로 약화학습률10%의.

아래의 그림 5는 이러한 슈퍼를 보여줍니다.매개변수Llama2의 훈련 손실 곡선을 설정합니다.

표6

트레이닝 하드웨어 측면에서 Meta는 RSC(Research Super Cluster)와 내부 프로덕션 클러스터에서 모델을 사전 트레이닝했습니다. 두 클러스터 모두 NVIDIA A100을 사용했습니다.

사전 훈련의 탄소 발자국 측면에서 Meta는 이전 연구 방법에 따라 GPU 장치의 전력 소비 추정 및 탄소 효율을 사용하여 Llama2 모델의 사전 훈련으로 발생하는 탄소 배출량을 계산했습니다.

사전훈련중 Llama2에서 각 모델별 탄소배출량 관련 표
사전훈련중 Llama2에서 각 모델별 탄소배출량 관련 표

Llama2 사전 훈련된 모델 평가

Meta는 표준 학술에서 Llama 1, Llama2 기본 모델, MPT(MosaicML) 및 Falcon과 같은 오픈 소스 모델을 보고합니다.기준위의 결과.

아래의 표 3은 이러한 모델을 인기 있는 시리즈로 요약한 것입니다.기준전반적인 성능에서 결과는 Llama2가 Llama 1보다 낫다는 것을 보여줍니다.

표6

오픈 소스 모델 외에도 Meta는 Llama2 70B의 결과를 클로즈드 소스 모델과 비교했으며 그 결과는 아래 표 4와 같습니다. Llama2 70B는 MMLU 및 GSM8K에서 GPT-3.5에 가깝지만 인코딩에서기준에는 상당한 차이가 있습니다.

게다가 거의 모든 분야에서기준결과적으로는 Llama2 70B의 결과가 Google PaLM(540B)과 같거나 더 낫지만 GPT-4와 PaLM-2-L의 성능에는 여전히 큰 차이가 있습니다.

표7

미세 조정

Llama2-Chat은 명령 정렬 및 RLHF를 포함하여 상당한 계산 및 주석 리소스가 필요한 정렬 기술을 수개월에 걸쳐 연구하고 반복적으로 적용한 결과입니다.

감독 미세 조정(SFT)

제3자 지도 미세 조정 데이터는 다양한 소스에서 사용할 수 있지만 Meta는 이러한 데이터 중 많은 데이터가 충분히 다양하지 않고 특히 LLM을 대화식 지침에 맞추는 데 충분하지 않다는 것을 발견했습니다. 따라서 그들은 먼저 아래 표 5와 같이 고품질 SFT 데이터의 수천 가지 예를 수집하는 데 집중했습니다.

표8

미세 조정 중에 각 샘플은 프롬프트와 답변으로 구성됩니다. 모델 시퀀스 길이가 올바르게 채워지도록 Meta는 트레이닝 세트의 모든 프롬프트와 답변을 연결합니다. 특수 토큰을 사용하여 프롬프트와 응답 조각을 분리하고 자동 회귀 목표를 활용하여 사용자 프롬프트에서 토큰 손실을 0으로 만듦으로써 응답 토큰에서만 역전파합니다. 마지막으로 모델을 두 번 미세 조정했습니다.

RLHF

RLHF는 미세 조정을 위한 모델 훈련 절차입니다.언어 모델, 인간의 선호도 및 지침에 따라 모델 행동을 추가로 정렬합니다. Meta는 인간의 선호도에 대한 경험적 샘플링을 나타내는 데이터를 수집하므로 인간 어노테이터는 두 모델 출력 중 선호하는 것을 선택할 수 있습니다. 이 사람의 피드백은 사람 어노테이터의 선호도 패턴을 학습한 다음 자동으로 선호도를 결정하는 보상 모델을 훈련하는 데 사용됩니다.

아래 표 6은 시간 경과에 따라 Meta에서 수집하고 여러 오픈 소스 선호도 데이터 세트와 비교한 보상 모델링 데이터에 대한 통계를 보고합니다. 그들은 사람이 적용한 특정 기준, 즉 메타 보상 모델링 데이터를 기반으로 100만 개 이상의 이진 비교의 대규모 데이터 세트를 수집했습니다.

힌트와 답변의 토큰 수는 텍스트 도메인에 따라 다릅니다. 초록 및 온라인 포럼 데이터에 대한 프롬프트는 일반적으로 더 긴 반면 대화에 대한 프롬프트는 일반적으로 더 짧습니다. 기존 오픈 소스 데이터 세트와 비교할 때 선호도 데이터는 평균 길이가 더 긴 대화 전환이 더 많습니다.

표9

보상 모델은 모델 응답 및 해당 단서(이전 라운드의 컨텍스트 포함)를 입력으로 사용하고 모델 생성의 품질(예: 유용성 및 안전성)을 나타내는 스칼라 점수를 출력합니다. 이 응답 점수를 보상으로 사용하여 Meta는 RLHF 동안 Llama 2-Chat을 최적화하여 인간의 선호도에 더 잘 맞추고 유용성과 안전성을 향상시킵니다.

보상 모델링을 위한 인간 선호도 주석의 각 배치에서 Meta는 모델을 평가하기 위한 테스트 세트로 1000개의 샘플을 취하고 해당 테스트 세트 “메타-유용성” 및 “메타-안전성”에 대한 모든 단서 모음을 각각 호출합니다.

아래 표 7에 보고됨정확성결과. 예상대로 Meta의 자체 보상 모델은 Llama 2-Chat을 기반으로 수집된 내부 테스트 세트에서 가장 잘 수행되었으며, “유용성” 보상 모델은 “Meta 유용성” 테스트 세트에서 가장 잘 수행되었으며 유사하게 “Security” 보상 모델은 “Meta Security” 테스트 세트에서 가장 잘 수행되었습니다.

전반적으로 Meta의 보상 모델은 GPT-4를 포함한 모든 기준을 능가합니다. 흥미롭게도 GPT-4는 이 보상 모델링 작업에 직접적으로 훈련되거나 구체적으로 타겟팅되지 않았음에도 불구하고 다른 비메타 보상 모델보다 성능이 뛰어납니다.

표10

줌 트렌드. Meta는 데이터 및 모델 크기 측면에서 보상 모델의 확장 추세를 연구하고 매주 수집되는 보상 모델 데이터의 양이 증가함에 따라 다양한 모델 크기를 미세 조정합니다. 이러한 경향은 아래의 그림 6에 보고되어 있으며 유사한 양의 데이터를 가진 더 큰 모델에 대한 더 높은 성능의 예상 결과를 보여줍니다.

표11

더일괄주석이 달린 인간 선호도 데이터로 더 나은 보상 모델을 훈련하고 더 많은 신호를 수집할 수 있습니다. 따라서 Meta는 여기에서 RLHF-V1, …, RLHF-V5라고 하는 RLHF 모델의 연속 버전을 훈련했습니다.

RLHF는 여기서 두 가지 주요 알고리즘을 사용하여 미세 조정됩니다.

  • 근접 정책 최적화(PPO)
  • 거부 샘플링 미세 조정.

RLHF 결과

첫 번째는 모델 기반 평가 결과입니다. 아래의 그림 11은 Meta 내부의 안전성 및 유용성 보상 모델에 의해 평가된 안전성 및 유용성 측면에서 다양한 SFT 및 RLHF 버전의 진행 상황을 보고합니다.

표12

인체 평가 결과를 살펴보겠습니다. 아래 그림 12에서 볼 수 있듯이 Llama 2-Chat 모델은 단일 라운드 및 다중 라운드 프롬팅 모두에서 오픈 소스 모델을 훨씬 능가합니다. 특히 Llama 2-Chat 7B는 힌트의 60%에서 MPT-7B-chat을 능가하고 있으며, Llama 2-Chat 34B는 같은 크기의 Vicuna-33B 및 Falcon 40B에 비해 75% 이상의 전체 승률을 나타냅니다.

표13

여기서 Meta는 인간 평가의 몇 가지 한계도 지적합니다.

결과에 따르면 Llama 2-Chat은 사람의 평가 측면에서 ChatGPT와 동등하지만 사람의 평가에는 몇 가지 한계가 있다는 점에 유의해야 합니다.

  • 학술 및 연구 표준에 따라 이 문서에는 4k 힌트의 큰 힌트 세트가 있습니다. 그러나 여기에는 훨씬 더 많을 수 있는 이러한 모델의 실제 사용은 포함되지 않습니다.
  • 프롬프트의 다양성은 결과에 영향을 미치는 또 다른 요인일 수 있습니다. 예를 들어 이 논문에서 설정된 프롬프트에는 코딩 또는 추론 관련 프롬프트가 포함되어 있지 않습니다.
  • 이 문서에서는 최종 세대의 멀티턴 대화만 평가합니다. 평가에 대한 보다 흥미로운 접근 방식은 모델에게 작업을 완료하도록 요청하고 여러 대화에서 모델의 전반적인 경험에 점수를 매기는 것입니다.
  • 인간 쌍모델 생성에 대한 평가는 본질적으로 주관적이고 시끄럽습니다. 따라서 다른 힌트 집합이나 다른 명령으로 평가하면 다른 결과가 나올 수 있습니다.

안전성

연구는 일반적으로 사용되는 세 가지를 사용했습니다.기준Llama 2의 안전성은 세 가지 주요 차원에 대해 평가되었습니다.

  • 진정성은 의미한다언어 모델TruthfulQA를 사용하면 오류 메시지가 표시됩니까?기준;
  • 독성 수단언어 모델ToxiGen을 사용하여 “독성”, 무례하고 유해한 콘텐츠를 생성할지 여부기준;
  • 편견언어 모델편향된 콘텐츠를 생성할지 여부, BOLD 사용기준.

사전 훈련된 안전성

첫째, 사전 학습 데이터는 모델에 매우 중요합니다. Meta는 사전 학습 데이터의 안전성을 평가하기 위한 실험을 수행합니다.

이 연구는 ToxiGen 데이터 세트에서 미세 조정된 HateBERT 분류기를 사용하여 사전 훈련된 데이터를 측정합니다.신체영어 데이터의 “독성”, 구체적인 결과는 아래 그림 13에 나와 있습니다.

표14

편향의 문제를 분석하기 위해 본 연구에서는 pre-training을 통계적으로 분석하였다.신체에서 대명사와 동일성 관련 용어와 그 비율은 다음 표 9와 같다.

표15

또한 언어 분포 측면에서 Llama 2는신체다루는 언어와 그 비율은 아래 표 10에 나와 있습니다.

표16

안전성을 위한 미세 조정

특히 Meta는 보안 미세 조정에 다음 기술을 사용합니다: 1. 감독된 보안 미세 조정, 2. 보안 RLHF, 3. 보안 컨텍스트 증류.

Meta는 Llama 2-Chat 개발 초기에 감독된 미세 조정 중에 보안 데모에서 배울 수 있다는 것을 관찰했습니다. 모델은 자세한 보안 응답을 작성하고, 보안 문제를 해결하고, 주제가 민감한 이유를 설명하고, 더 유용한 정보를 제공하는 방법을 빠르게 학습했습니다. 특히 모델이 보안 응답을 출력할 때 일반 주석보다 자세히 작성하는 경향이 있습니다. 따라서 Meta는 수천 개의 감독 시연을 수집한 후 모델에 보다 미묘한 응답을 작성하는 방법을 가르치기 위해 RLHF로 완전히 전환했습니다. 전체 튜닝을 위해 RLHF를 사용하는 또 다른 이점은 탈옥 시도에 대해 모델을 보다 강력하게 만든다는 것입니다.

표17

Meta는 먼저 안전에 대한 인간의 선호도에 대한 데이터를 수집하여 RLHF를 수행합니다. 여기에서 주석 작성자는 안전하지 않은 행동을 유발한다고 생각하는 프롬프트를 작성한 다음 프롬프트에 대한 여러 모델 응답을 비교하고 일련의 지침에 따라 가장 안전한 응답을 선택합니다. 그런 다음 인간 선호도 데이터를 사용하여 안전한 보상 모델을 훈련하고 모델에서 샘플링하기 위해 RLHF 단계에서 적대적 프롬프트를 재사용합니다.

아래 그림 15와 같이 Meta는 안전성과 유용성 측면에서 모델 성능의 결과로 평균 보상 모델 점수를 사용합니다. Meta는 안전한 데이터의 비율을 늘렸을 때 위험하고 적대적인 프롬프트를 처리하는 모델의 성능이 크게 향상되었음을 관찰했습니다.

표18

마지막으로 Meta는 컨텍스트 증류를 통해 RLHF 파이프라인을 개선합니다. 여기에는 “당신은 안전하고 책임감 있는 조수입니다”와 같은 안전한 사전 프롬프트를 프롬프트 앞에 추가한 다음 사전 프롬프트가 없는 더 안전한 응답을 기반으로 모델을 미세 조정하여 기본적으로 안전한 사전 프롬프트(컨텍스트)를 모델로 추출하여 더 안전한 모델 응답을 생성하는 작업이 포함됩니다.

메타는 보안 보상을 허용하는 표적 접근 방식을 사용합니다.모델 선택각 샘플에 대해 컨텍스트 증류를 사용할지 여부입니다.

640 22

아래의 그림 17은 다양한 LLM에 대한 전반적인 위반 비율과 안전 등급을 보여줍니다.

표19

아래의 그림 18은 단일 및 다중 전환 대화에 대한 위반 비율을 보여줍니다. 모델 전반에 걸친 추세는 여러 라운드의 대화가 안전하지 않은 응답을 이끌어낼 가능성이 더 높다는 것입니다. 즉, Llama 2-Chat은 특히 다단계 대화에서 기준선에 비해 여전히 좋은 성능을 보입니다.

표20

아래의 그림 19는 다양한 LLM에 대한 다양한 범주의 보안 침해 비율을 보여줍니다.

표21
표22

답글 남기기