RLHF(2) : Learning to summarize from human feedback 논문 리뷰

오늘은 RLHF 두번째 시리즈 “Learning to summarize from human feedback” 입니다. ChatBPT의 근본이 되는 아주 중요한 논문입니다. 인간의 피드백은 블로거에게 매우 중요합니다. 이는 미래의 블로그 게시물의 품질 향상을 돕는 데 뿐만 아니라 블로그 주변의 커뮤니티를 구축하는 데도 도움이 됩니다. 이 피드백은 종종 리뷰에 포함되며, 칭찬, 비판, 제안, 일반적인 관찰 등이 될 수 있습니다. 독자들의 관점은 블로거가 성장하는 데 도움이 되며, 때로는 블로거가 고려하지 못했던 신선한 통찰력을 제공할 수 있습니다.

Learning to summarize from human feedback
Learning to summarize from human feedback

Learning to summarize from human feedback

피드백을 받는 것이 유익한 것은 사실이지만, 이해하는 것도 중요합니다. 리뷰를 해독하기 위해서는 기본적인 메시지를 찾아야 합니다. 리뷰어가 무엇을 표현하려고 하는지 무엇일까요? 피드백의 본질을 이해하는 것은 표면 수준의 코멘트를 넘어서 더 깊은 맥락을 찾는 것을 포함합니다.

요약의 중요성

간결성

정보가 풍부한 시대에 있어, 요약은 필수적인 기술이 되었습니다. 간결함은 효과적인 커뮤니케이션의 열쇠입니다. 리뷰를 요약하면, 상세한 피드백에서 중요한 요점을 추출할 수 있습니다. 이는 블로거가 피드백의 가장 중요한 부분을 식별하고 그에 따라 행동하는 것을 쉽게 만듭니다.

독자 참여 향상

또한, 요약은 독자 참여를 높일 수 있습니다. 잘 요약된 피드백 조각은 독자에게 더 넓은 대중의 의견을 보여줄 수 있는 스냅샷을 제공할 수 있습니다. 이는 또한 더 많은 독자들이 그들의 생각을 공유하도록 자극할 수 있으며, 이는 블로그의 커뮤니티를 더욱 풍부하게 만듭니다.

리뷰 요약 : 주요 포인트 이해하기

효과적으로 요약하려면, 먼저 리뷰의 주요 포인트를 이해해야 합니다. 이는 주의 깊게 읽고, 반복되는 주제를 식별하고, 피드백의 전반적인 톤을 이해하는 것을 포함합니다. 이러한 요소를 염두에 두고, 블로거는 피드백의 본질을 요약한 간결한 요약을 생성할 수 있습니다.

요약의 DOs와 DON’Ts

DOs

요약은 항상 피드백의 원래 감정을 유지해야 합니다. 요약은 주요 포인트를 정확하게 나타내야 하며, 원래의 리뷰에 없는 새로운 아이디어를 도입해서는 안됩니다.

DON’Ts

요약하는 과정에서 중요한 요점을 놓치지 않도록 주의해야 합니다. 과도하게 단순화하는 것은 피드백의 중요한 측면을 놓칠 수 있습니다. 또한, 편견은 반드시 피해야 합니다. 요약은 피드백의 공정한 반영이어야 하며, 개인적인 견해에 영향을 받아서는 안됩니다.

요약을 위한 도구와 기법

수동 요약

사람의 이해력을 대체할 수는 없지만, 수동 요약은 시간이 오래 걸릴 수 있습니다. 그러나, 이는 콘텐츠에 깊이 관여할 수 있는 기회를 제공하며, 피드백에 대한 더 미세한 이해를 증진합니다.

자동 요약 도구

여러 자동 도구가 요약에 도움이 될 수 있습니다. 이러한 도구들은 알고리즘을 사용하여 주요 포인트를 강조하여 빠르게, 비록 항상 완벽하지는 않지만, 요약을 제공합니다. 이러한 도구들은 대량의 피드백을 다룰 때 유익할 수 있지만, 중요한 뉘앙스를 간과하지 않도록 주의를 기울여야 합니다.

배운 것을 적용하기: 실세계 시나리오에서 요약 사용하기

효과적으로 요약하는 능력은 블로거가 피드백을 해석하는 데 유용한 기술일 뿐만 아니라, 다양한 분야에서 광범위한 가치를 지닌 커뮤니케이션 도구입니다. 요약이라는 행위는 다양한 삶의 측면에서 명확성을 향상시키고 이해를 높이며, 소중한 시간을 절약할 수 있습니다. 요약 기술이 중요한 역할을 하는 몇 가지 실세계 시나리오를 살펴봅시다.

학문 연구: 학문적 경력 중에 읽어야 하는 수많은 연구 논문, 기사, 그리고 책들을 생각해보세요. 모든 세부 사항을 기억하는 것은 사실상 불가능합니다. 그러나 중요한 포인트들을 요약함으로써, 핵심 정보를 더 쉽게 관리할 수 있는 방식으로 유지할 수 있습니다. 학습 또는 복습 세션 동안 이러한 요약은 전체 자료를 다시 볼 필요 없이 빠르게 복습할 수 있는 매우 유익한 자료가 될 수 있습니다.

비즈니스 회의: 비즈니스 회의는 종종 복잡한 주제에 대한 논의를 포함하는데, 이로 인해 길고 상세한 회의록이 생성될 수 있습니다. 이러한 회의록을 간결한 포인트로 요약하는 것은 모든 참석자가 핵심 사항을 빠르게 파악하는 데 도움이 되며, 다음 단계나 실행 항목을 더욱 명확하게 만듭니다. 이렇게 하면 모두가 같은 페이지에 있을 수 있고, 중요한 정보가 과정에서 누락되는 것을 방지할 수 있습니다.

일일 뉴스 소비: 오늘날의 빠르게 변하는 세상에서 현재의 이벤트를 이해하는 것은 중요하지만, 뉴스의 양이 너무 많아 어려울 수 있습니다. 이런 경우에 요약이 도움이 됩니다. 뉴스 기사나 보고서를 간략한 요약으로 축약함으로써, 많은 시간을 투자하지 않고도 정보를 얻을 수 있습니다.

개인적인 커뮤니케이션: 효과적인 요약은 일상적인 대화에서도 강력한 도구가 될 수 있습니다. 예를 들어, 복잡한 개념을 친구에게 설명하거나 사건을 서술할 때, 잘 요약된 버전은 듣는 사람이 더 잘 이해하도록 돕고, 불필요한 세부 사항 없이 대화를 유지하게 합니다.

의료: 의료 분야에서는 전문가들이 종종 방대한 의료 기록을 다루어야 합니다. 환자의 병력, 증상, 치료 계획을 소화하기 쉬운 포인트로 요약하는 것은 과정을 더 효율적으로 만들고, 중요한 세부 사항이 놓치지 않도록 보장합니다.

결론적으로, 요약 기술은 다양한 맥락에서 다용도로 사용할 수 있습니다. 이러한 기술을 효과적으로 배우고 적용함으로써, 커뮤니케이션을 향상시키고 이해를 높이며, 시간을 절약하여 어떤 일을 하더라도 더 효율적으로 만들 수 있습니다. 계속 연습하고, 당신의 요약 기술이 일상 생활을 어떻게 변화시키는지 지켜시죠.

지속적인 개선과 학습

다른 기술과 마찬가지로, 요약도 연습과 학습으로 개선할 수 있습니다. 정기적으로 블로그 리뷰를 요약하고, 다른 사람들의 요약을 읽고, 도구와 자원을 활용하는 것은 모두 요약 기술을 세련되게 만드는 데 기여할 수 있습니다.

결론

디지털 시대에는 콘텐츠가 방대하고 주의력이 짧아짐에 따라, 블로그 리뷰의 피드백을 요약하는 예술은 모든 블로거에게 필수적인 기술입니다. 이를 통해 효율적인 커뮤니케이션을 가능하게 하고 독자들을 더 잘 이해할 수 있게 됩니다. 목표는 피드백의 본질을 정확하게 이해하고, 중요한 정보를 잃지 않고 축약하는 것입니다. 계속 배우고, 계속 요약하고, 블로그 작성 여정이 어떻게 향상되는지 지켜보세요.

FAQs

블로그 포스트 리뷰에서 요약이 중요한 이유는 무엇인가요? 요약은 블로거가 피드백에서 주요 포인트를 추출하는 데 도움이 되므로, 가장 중요한 부분을 식별하고 그에 따라 행동하는 것이 더 쉬워집니다.

요약의 DOs와 DON’Ts는 무엇인가요? 요약은 원래의 감정을 유지해야 하며, 주요 포인트를 정확하게 나타내고, 새로운 아이디어를 도입해서는 안됩니다. 중요한 요점을 놓치거나, 과도하게 단순화하거나, 편향되어서는 안됩니다.

자동화 도구는 블로그 리뷰를 완벽하게 요약할 수 있나요? 자동화 도구는 빠른 요약을 제공할 수 있지만, 피드백에 있는 중요한 뉘앙스를 놓칠 수 있습니다.

어디에서 요약 기술을 적용할 수 있나요? 요약 기술은 학술 연구, 비즈니스 회의, 일상적인 커뮤니케이션 등 다양한 맥락에서 유용합니다.

나의 요약 기술을 어떻게 향상시킬 수 있나요? 정기적인 연습, 다른 사람들로부터의 학습, 그리고 사용 가능한 자원과 도구의 활용은 모두 요약 기술을 향상시키는 데 도움이 될 수 있습니다.

논문 관련 전문가 피드백

리뷰 1

  • 요약 및 기여 : 이 논문은 사람의 피드백을 통한 텍스트 요약에 대한 철저한 연구를 제시합니다. 그 동기는 우도 훈련과 중첩 기반 점수(예: BLEU 및 ROUGE)가 실제 인간 만족도를 모델링하는 데 좋지 않다는 것입니다. 이 논문은 먼저 참조 요약에 대해 MLE로 모델을 사전 훈련한 다음 보상이 학습된 이진 분류기인 PPO에 의한 인간 피드백을 강화합니다. 결과는 이 접근 방식이 지도 학습 및 참조 요약(TL;DR 또는 헤드라인과 같이 일반적으로 시끄러움)보다 낫다는 것을 보여줍니다.
  • 강점 : 실험은 매우 잘 수행되었으며 논문과 27페이지의 보충 자료에 문서화되어 있습니다.
  • 약점: 그러나 두 가지 주요 우려 사항이 있습니다. 1. 저자들도 언급했듯이 이 논문은 기본적으로 [3, 58]의 확장된 분석입니다. 기본적으로 분류 기반 보상 및 PPO의 핵심 기술은 [58]에서 탐구되었으며 주요 확장은 이 논문이 더 크고 더 잘 설계된 모델을 사용하고 온라인 설정을 오프라인 설정에 적용한다는 것입니다. 따라서 이 논문은 기계 학습의 의미에서 참신함이 거의 없다고 생각합니다. 그러나 저자는 관련 작업(86행)에서 이에 대해 매우 정직합니다. 그러나 Border Impacts 섹션은 [3, 58]로 풀어야 합니다. 이 논문의 기여는 주로 요약 작업을 위한 엔지니어링과 광범위한 실험의 문서화에 있다고 생각합니다. 2. 논문은 ROUGE 점수가 인간의 만족도를 측정하는 데 적합하지 않을 수 있다고 주장합니다(4행). 이것은 직관적이지만 이 백서에서는 테스트되지 않았습니다. ROUGE 점수에 대해 RL을 수행하고 유사한 성능을 달성한다고 가정하면 사람의 피드백으로 RL을 수행할 필요가 없습니다. 실제로 저자는 그들의 모델이 ROUGE 점수(Sec F.4)뿐만 아니라 1-7 리커트 인간 평가(본문)에서 높은 성능을 달성한다고 보고합니다. ROUGE는 실제로 인간의 만족도와 높은 상관관계를 보여주고 있지 않습니까? 저자는 오프라인 인적 피드백이 온라인 인적 피드백보다 낫다고 주장합니다. 그러나 이것이 테스트 되었습니까? 기타 우려 사항: 3. 섹션 3.4 -> “보상 모델”의 공식이 약간 혼란스럽습니다. 보상 모델 r_theta는 문장 x와 후보 요약 y를 입력으로 취하고 이 요약이 더 나은 경우 출력합니다. 그러나 보상 모델 r_theta는 한 번에 하나의 후보 요약만 고려하므로 요약이 *더 나은*지 아닌지 예측할 수 없습니다(두 요약을 비교할 때만 의미 있음). 더 나은 공식화 방법은 보상 모델 r_theta가 요약이 *좋은*지 여부를 예측하는 것이라고 생각합니다. 쌍별 인간 주석에서 점수가 높은 요약은 좋은 것으로 간주되는 반면 점수가 낮은 요약은 나쁜 것으로 간주됩니다. 그렇다면 이 백서에서 사용된 인간 피드백 프로토콜이 최적인지 확실하지 않습니다. 어쩌면 우리는 pointwise 주석을 할 수 있습니다. 4. 결과는 리드-3 기준선(처음 세 단어를 선택하는 것 같나요? 아니면 토큰?)이 모델보다 CNN/DM 데이터 세트의 1-7 등급에서 0.5-1포인트 더 우수함을 보여줍니다. 학습된 모델이 이 데이터 세트에서 전혀 효과적이지 않다는 것을 의미합니까? 또는 이 데이터 세트에 이 단계에서 진지한 연구를 방해하는 체계적인 문제가 있습니까? 이 논문은 상당한 실험적 노력을 기울였기 때문에 이 논문은 아마도 출판할 가치가 있을 것입니다(다른 A-to-B 적용 논문과 비교할 때).
  • 정확성 : 예, 실험은 매우 엄격하고 잘 문서화된 것으로 보입니다.
  • 선명도 : 예.
  • 선행 작업과의 관계 : 예.
  • 재현성 : 예
  • 추가 피드백: 업데이트: 저자가 내 주요 관심사 중 하나를 잘 다루었기 때문에 1점(6->7)을 올립니다. 이 논문이 NLP 컨퍼런스(예: NeurIPS와 거의 동일한 타임라인을 갖는 EMNLP)와 비교하여 NeurIPS에서 충분히 광범위한 청중을 끌어들일지 100% 확신하지 못하기 때문에 내 신뢰 점수는 변경되지 않습니다. 그러나 나는 그것을 주요 관심사로 보지 않습니다. NeurIPS는 기계 학습 애플리케이션 논문을 허용하며, 이 논문은 일반적으로 인간 참여형 학습의 증거를 추가합니다. 또한 ML과 NLP 사이의 경계가 명확하지 않으며 주요 과학적 판단이 되어서는 안 됩니다. 일부 리뷰어가 글에 대해 우려하는 경우가 있지만 저는 주로 형식보다는 내용으로 논문을 판단합니다. 또한 현재의 글쓰기 스타일은 단점이라기보다는 장점이라고 생각합니다. 현재 글은 논문의 주요 아이디어를 쉽게 이해할 수 있도록 도와주며, 관심이 있는 경우 보조 자료에서 자세한 내용이나 추가 증거를 찾아볼 수 있습니다. 실제로 지루하고 책이 많은 저널 논문(종종 서면으로 반복적임)보다 읽기가 훨씬 쉽습니다. 그래도 글쓰기에 대한 제안이 하나 있습니다. 각 부록 섹션의 제목을 나열하고 선택적으로 해당 섹션의 주요 결과를 요약하는 부록의 목차를 포함할 수 있습니다.

리뷰 2

  • 요약 및 기여: 이 문서에서는 RL(PPO)을 사용하여 사람의 피드백에서 추상적인 요약 모델을 학습합니다. 인간은 모델의 실측 참조 및 샘플을 제공받고 선호하는 것을 선택하도록 요청받습니다. 그런 다음 보상 모델을 교육하는 데 사용되며, 기본 지도 학습으로 미세 조정된 버전에 가깝게 요약 모델을 유지하는 KL 용어와 결합됩니다. 이 절차는 반복적으로 수행할 수 있습니다. 더 나은 모델은 인간의 선호도 평가를 위한 더 나은 후보를 생성할 수 있습니다. 이 논문은 TL;DR 말뭉치에서 인간 보상으로 대규모 GPT 변환기 모델(1.3B-6.7B)을 훈련하면 표준 감독 학습이 실패하는 인간이 평가한 인간 참조를 실제로 능가하는 모델로 이어진다는 것을 보여줍니다. 이 논문은 이러한 요약을 더 좋게 만드는 요인을 분석합니다. 중요한 개념의 적용 범위가 하나임을 발견했습니다. 또한 그림 5는 보상 학습과 감독 기준선(인간의 판단에 대해 너무 많이 최적화하고 기본 감독 모델에서 너무 멀리 벗어나면 성능이 저하되기 시작함)과의 거리를 균형을 맞추는 것이 중요함을 보여줍니다. 마지막으로, 종이 연구는 CNN/DM으로 전송되고 인간 피드백에서도 강력한 결과를 발견하여 이러한 선호도가 감독된 예보다 더 전송 가능할 수 있음을 시사합니다.
  • 강점: 이 논문은 두 가지 특히 주목할 만한 기여를 합니다(이전 작업과 매우 유사한 기술도 아닙니다). 첫째, 이 논문은 기본 모델 크기와 데이터 수집 측면에서 인간 선호도 학습을 확장합니다. 결과적으로 그들이 구축한 시스템은 매우 강력합니다. reddit 및 CNN/DM 모두에서 사람이 참조한 것과 비교했을 때 놀라울 정도로 잘 작동합니다. 따라서 결론은 아마도 이전 Ziegler 작업을 포함하여 이 맥락에서 다른 작업의 결론과 실질적으로 다르며 결과적으로 주목할 만합니다. 둘째, 생성된 데이터 세트는 이 작업에 대한 인간의 판단에 관심이 있는 다른 요약 연구자에게 상당한 유용성이 있을 수 있습니다(많은 사람이 있어야 합니다 🙂 ). 저자는 많은 데이터를 수집했으며, 총판결수를 정하기는 사실 어려웠지만 부록 표 10의 마지막 열까지 합산해야 하나요? 이것은 그림 6에서 볼 때 최소 64k인 것 같습니다. 경험적으로 이 문서는 매우 높은 기준을 유지하고 있습니다. 선별되지 않은 예를 보여주는 웹사이트는 훌륭하고 가지고 놀기에 매우 재미있고 유익했습니다. 인간의 평가는 신중하게 수행됩니다. 부록은 이것에 대한 좋은 증거입니다. 저자는 어노테이터를 교육하고 작업을 수행하도록 유도하는 방법에 대해 많은 생각을 했습니다. 연구자 동의율과 라벨러 동의율 사이의 비교는 라벨링의 품질을 보정하는 데에도 유용합니다. 전반적으로 저자는 그들의 모델이 매우 잘 작동한다는 것을 광범위하게 보여주었고 이 작업에 대한 새로운 표준을 설정할 가능성이 높습니다.
  • 약점: 이 문서는 기본적으로 “신규”를 제공하지 않습니다. 저자는 Ziegler et al.의 접근 방식을 취하고 약간의 수정을 가하여 확장했음을 자유롭게 인정합니다. 그러나 경험적 결과의 중요성과 추가 데이터 수집 노력을 고려할 때 이것이 NeurIPS에 대한 거래를 깨뜨리는 것이라고 생각하지 않습니다. 불행하게도, 논문의 시스템은 또한 많은 연구자들에게 도달할 수 없습니다. 인간의 선호에 따라 6.7B 모델을 최적화하는 데 320 GPU 일이 걸렸으며 이는 증분 프로세스였으므로 아마도 개발 전반에 걸쳐 여러 번 수행되었을 것입니다. 그러나 이것은 단순히 2020년 사전 교육 연구의 삶의 사실입니다. 가장 중요한 것은 이 논문이 다른 작업의 기술과 너무 많이 비교되지 않는다는 것입니다. 논문의 기준선은 가치가 있습니다. 감독된 기준선과 T5 미세 조정 모델을 사용합니다. 그러나 요약/사전 교육 공간(특히 PEGASUS)에서 엄청난 양의 작업을 고려할 때 다른 기술과 경험적으로 비교하고 이러한 기술이 절대적인 측면에서 어떻게 누적되는지 이해하는 것이 좋았을 것입니다. 적어도 저자는 인간의 판단으로부터 보상 학습을 넘어 요약에서 관련 이전 작업에 대한 논의를 추가해야 합니다. 적용 범위와 같은 요소를 개선할 수 있는 다른 기술은 무엇입니까?
  • 정확성 : 이 작업은 경험적 관점에서 매우 신중하게 수행되었습니다. 저는 신문의 주장에 확신합니다.
  • 명료성 : 얼마나 많은 판결이 수집되었는지 정확히 판단할 수 없는 것을 제외하고는 논문이 대부분 명확했습니다. 많은 세부 사항이 부록에 위임되어 있으므로 읽기가 매우 쉽습니다. 이것은 많은 상호 참조로 이어지지만 본문을 따라야 합니다.
  • 이전 작업과의 관계 : 일반적으로 그렇습니다. 위에서 논의한 바와 같이 좀 더 실증적인 비교를 해보면 좋을 것입니다. 그러나 나는 저자들이 그들의 접근 방식이 참신하지 않다는 점에 대해 솔직하다는 점에 감사합니다.
  • 재현성 : 예
  • 추가 피드백 : 점수에 대한 자신감을 높였지만 논문에 대한 나의 평가는 변함이 없습니다.

검토 3

  • Summary and Contributions : 이 논문은 pairwise human preference에서 학습한 reward를 기반으로 대규모 pre-trained model을 fine-tuning하여 summarization model을 제시한다. 훈련된 요약자는 참조(역시 사람이 작성)보다 사람이 선호하는 요약을 생성할 수 있습니다.
  • 강점 : + 프레임워크는 신경 모델이 요약 품질 측면에서 인간 참조를 선택할 수 있음을 보여줍니다(예: 길이와 비교하여 정량화하기 어려울 수 있음).
  • 단점 : – 미세 조정 프로세스가 완료되는 데 시간이 오래 걸립니다. 뉴스에 대한 도메인 간 실험은 도메인 내 조정이 여전히 필요함을 보여줍니다. – 중요한 것은 작성자가 알 수 있듯이 보상 기능은 사소한 세부 사항을 선택할 수 있습니다. 즉, 내용이나 문법에 관한 요약의 변경에 민감할 수 있습니다. 보상 기능이 모델 훈련의 핵심이라는 점을 감안할 때 훈련 쌍의 품질과 다양성이 보상 기능 학습에 어떤 영향을 미치는지에 대해 더 많은 분석을 제공할 필요가 있습니다.
  • 정확성 : 구현이 올바른 것 같습니다.
  • 명료성 : 논문은 대부분 잘 작성되었으며 더 자세한 내용을 사용할 수 있는 곳이 여러 군데 있습니다. 이 논문은 종종 부록의 결과를 언급하여 일반적으로 이해를 해칩니다. 올바른 위치에 결과가 제시된 결론 목록을 읽고 있는 것과 같습니다.
  • 선행 작업과의 관계 : 관련 작업은 해당 분야의 최근 발전을 반영했습니다.
  • 재현성 : 예
  • 추가 피드백 : 업데이트: 피드백을 주신 작성자에게 감사드립니다. 긴 보충 파일에 나열하는 것보다 주요 논문의 올바른 위치에 주요 결과를 포함하는 것이 이 작업에 도움이 될 것이라고 생각합니다. 이 경우 NLP 저널 논문이 더 적절할 것입니다. 이 작업의 주요 기여는 이전 작업에서 채택된 모델을 기반으로 실험 결과를 분석하는 데 있습니다. 이 작업을 개선할 수 있는 두 가지 주요 방향이 있습니다. 첫째, 어떤 유형의 인간 피드백이 어떤 개선으로 이어지는지 분석합니다. 예를 들어, 250행에서 “최소한의 편집 수행”이 언급된 경우 이를 명확히 하고 다른 유형의 편집으로 분류할 수 있습니다. 둘째, 이 본문에 정말 많은 결과가 제시되어야 하기 때문에 이러한 유형의 작업에 8페이지가 충분한지 잘 모르겠습니다.

검토 4

  • 요약 및 기여 : 저자는 인간 요약 평가의 대규모 고품질 데이터 세트를 수집합니다. 또한 해당 데이터 세트를 사용하여 강화 학습을 통해 사전 훈련된 요약 모델을 미세 조정합니다. 그들은 Reddit TL;DR 데이터 세트에서 실험하고 인간 참조와 모든 기준선을 모두 훨씬 능가합니다.
  • 강점 : 저자는 고품질 요약 데이터 세트를 수집합니다. 이는 사람의 피드백 점수로 요약 모델을 직접 최적화하는 데 유용합니다.
  • 약점: 논문이 잘 정리되지 않았습니다. 세부 사항, 기여 및 실험 결과를 따르기가 어렵습니다. DeepSets(https://arxiv.org/abs/1703.06114) 및 SoftmaxBottleneck(https://arxiv.org/abs/1711.03953)과 같이 잘 구성된 다른 문서를 주의 깊게 참조하는 것이 좋습니다. 다음은 가독성을 향상시키기 위한 몇 가지 권장 사항입니다. – “사람의 피드백에서 요약하는 법 배우기”라는 제목이 모호합니다. 요약의 품질을 향상시키기 위해 사람의 피드백을 사용하는 다른 작업도 있습니다. 기존 작품과의 차이점을 명시하는 것이 좋습니다. – 논문의 많은 부분이 부록에 의존합니다. 예를 들어 섹션 3.4 모델에서 대부분의 세부 사항은 본문에 지정되어 있지 않습니다. 컨퍼런스 문서는 부록 없이도 이해할 수 있어야 합니다. – 소개 부분에서, 저자에게 주요 기여를 명시할 것을 권장합니다. 예를 들어, SoftmaxBottleneck 논문에서 저자는 “우리의 기여는 두 가지입니다. 첫째, 우리는 Softmax 병목 현상을 다음으로 식별합니다. 둘째, 우리는 간단하고 효과적인 방법을 제안합니다…”로 소개 섹션을 마무리합니다. – 논문 [58]은 실험 섹션에 추가해야 합니다. 저자들이 언급했듯이 [58]은 가장 관련성이 높은 기준선 방법인 것 같습니다. [58]과 비교하여 무엇이 얼마나 개선되었는지 명시하는 것이 좋습니다. 저자는 #85~#88 및 #142~#146에서 개선 사항을 언급했지만 대부분 모호하고 설득력이 없습니다. 예를 들어 “라벨러와 하이터치 관계 유지”는 좋은 기여가 될 수 없습니다. 저자는 “우리의 기여는 두 가지입니다. 첫째, 우리는 Softmax 병목 현상을 다음으로 식별합니다. 둘째, 우리는 간단하고 효과적인 방법을 제안합니다…”로 소개 섹션을 마무리합니다. – 논문 [58]은 실험 섹션에 추가해야 합니다. 저자들이 언급했듯이 [58]은 가장 관련성이 높은 기준선 방법인 것 같습니다. [58]과 비교하여 무엇이 얼마나 개선되었는지 명시하는 것이 좋습니다. 저자는 #85~#88 및 #142~#146에서 개선 사항을 언급했지만 대부분 모호하고 설득력이 없습니다. 예를 들어 “라벨러와 하이터치 관계 유지”는 좋은 기여가 될 수 없습니다. 저자는 “우리의 기여는 두 가지입니다. 첫째, 우리는 Softmax 병목 현상을 다음으로 식별합니다. 둘째, 우리는 간단하고 효과적인 방법을 제안합니다…”로 소개 섹션을 마무리합니다. – 논문 [58]은 실험 섹션에 추가해야 합니다. 저자들이 언급했듯이 [58]은 가장 관련성이 높은 기준선 방법인 것 같습니다. [58]과 비교하여 무엇이 얼마나 개선되었는지 명시하는 것이 좋습니다. 저자는 #85~#88 및 #142~#146에서 개선 사항을 언급했지만 대부분 모호하고 설득력이 없습니다. 예를 들어 “라벨러와 하이터치 관계 유지”는 좋은 기여가 될 수 없습니다. [58] 가장 관련성이 높은 기본 방법인 것 같습니다. [58]과 비교하여 무엇이 얼마나 개선되었는지 명시하는 것이 좋습니다. 저자는 #85~#88 및 #142~#146에서 개선 사항을 언급했지만 대부분 모호하고 설득력이 없습니다. 예를 들어 “라벨러와 하이터치 관계 유지”는 좋은 기여가 될 수 없습니다. [58] 가장 관련성이 높은 기본 방법인 것 같습니다. [58]과 비교하여 무엇이 얼마나 개선되었는지 명시하는 것이 좋습니다. 저자는 #85~#88 및 #142~#146에서 개선 사항을 언급했지만 대부분 모호하고 설득력이 없습니다. 예를 들어 “라벨러와 하이터치 관계 유지”는 좋은 기여가 될 수 없습니다.
  • 정확성 : 충분하지 않습니다. 많은 세부 사항이 생략되었습니다.
  • 선명도 : 충분하지 않습니다. 내 권장 사항은 “약점” 섹션을 참조하십시오.
  • 선행 작업과의 관계 : 충분하지 않습니다. 내 권장 사항은 “약점” 섹션을 참조하십시오.
  • 재현성 : 예
  • 추가 피드백 : 포스트 AR: 작성자 답변을 준비해주셔서 감사하고 오해에 대해 사과드립니다. 이 작업을 완전히 과소평가해서 점수를 4점(2->6) 올립니다. 새로운 체크포인트와 데이터셋으로 재미있는 후속작들이 많이 나올 거라 믿습니다. 나는 여전히 저널 형식이 메시지를 명확하게 전달하는 데 적합하다고 생각하지만(T5 용지와 같이) 인상적인 결과로 인해 수락하는 편입니다. 

답글 남기기