wtf는 grpo?!? -Kdnuggets

저자의 이미지 | 표의 문자
강화 학습 알고리즘은 인공 지능 및 기계 학습 영역의 일부였습니다. 이 알고리즘은 목표를 목표로합니다 환경과의 시행 착오 상호 작용을 통해 누적 보상을 극대화하여 목표를 추구합니다..
수십 년 동안 그들은 로봇 공학, 게임 및 복잡한 퍼즐 해결과 같은 시뮬레이션 된 환경에 주로 적용되었지만, 최근 몇 년 동안 실제 응용 분야에서 특히 영향력있는 사용을 위해 강화 학습으로의 대규모 전환이있었습니다. 대부분의 대규모 언어 모델 (LLM)이 대화 적 맥락에서 인간 선호도와 더 잘 조정하는 데있어 가장 무모한 것으로 나타났습니다. 그리고 이것은 어디에 있습니다 GRPO (그룹 상대 정책 최적화),, 개발 방법 Deepseek점점 더 관련성이 높아졌습니다.
이 기사는 GRPO가 무엇인지 공개하고 더 간단하고 이해할 수있는 이야기를 사용하여 LLM의 맥락에서 어떻게 작동하는지 설명합니다. 시작합시다!
내부 GRPO (그룹 상대 정책 최적화)
LLM은 컨텍스트를 기반으로 한 사용자 쿼리에 대한 응답을 생성하는 작업이있을 때 때때로 제한됩니다. 예를 들어, 주어진 문서, 코드 스 니펫 또는 사용자가 제공 한 배경을 기반으로 질문에 대답하도록 요청하면 일반적인 “세계 지식”을 무시하거나 모순 될 수 있습니다. 본질적으로, LLM이 훈련을받을 때 얻은 지식, 즉 언어를 이해하고 생성하는 법을 배우기 위해 수많은 텍스트 문서로 영양을 공급 받는다.
GRPO는 LLM 기능을 향상 시키도록 설계되었으며, 특히 위에서 설명한 문제를 전시 할 때. 그것은 인기있는 강화 학습 접근법, 근위 정책 최적화 (PPO)의 변형이며, PPO의 메모리 사용 제한을 최적화하면서 수학적 추론에 뛰어나도록 설계되었습니다.
GRPO를 더 잘 이해하려면 먼저 PPO를 간단히 살펴 보겠습니다. 간단히 말해서 LLM의 맥락에서 PPO는 시행 착오를 통해 사용자에 대한 모델의 생성 된 응답을 신중하게 향상 시키려고하지만 모델이 이미 알려진 지식과는 너무 멀어지게하지 않습니다. 이 원칙은 학생이 더 나은 에세이를 작성하도록 훈련하는 과정과 비슷합니다. PPO는 학생이 피드백에 따라 작문 스타일을 완전히 바꾸는 것을 원하지 않지만 알고리즘은 작고 꾸준한 수정으로 그들을 안내함으로써 학생이 추적을 유지하면서 에세이 작문 기술을 점차적으로 향상시킬 수 있도록 도와줍니다.
한편, GRPO는 한 걸음 넘어지며, 이곳은 GRPO 그룹의 “G”가 작용하는 곳입니다. 이전 학생의 사례로 돌아가서 GRPO는 학생의 에세이 작문 기술을 개별적으로 수정하는 데 제한되지 않습니다. 다른 학생 그룹이 비슷한 과제에 어떻게 반응하는지 관찰하여 대답이 가장 정확하고 일관되며 그룹의 다른 학생들과 맥락 적으로 일치하는 사람들에게 보상합니다. LLM 및 강화 학습 전문 용어로 돌아가서, 이러한 종류의 협업 접근법은 특히 긴 대화에서 일관성을 유지하거나 수학적 문제를 해결하는 것과 같은 도전적인 작업에서보다 논리적이고 강력하며 원하는 LLM 행동과 일치하는 추론 패턴을 강화하는 데 도움이됩니다.
위의 은유에서, 개선하도록 훈련받는 학생은 현재 강화 학습 알고리즘의 정책이며, LLM 버전이 업데이트되는 것과 관련이 있습니다. 강화 학습 정책은 기본적으로 모델의 내부 가이드 북과 비슷합니다. 모델에 현재 상황이나 작업에 따라 다음 이동 또는 응답을 선택하는 방법을 알려줍니다. 한편, GRPO에있는 다른 학생들의 그룹은 대체 응답 또는 정책의 집단과 같습니다. 일반적으로 동일한 모델의 여러 모델 변형 또는 다른 교육 단계 (성숙 버전)에서 샘플링됩니다.
GRPO에서 보상의 중요성
GRPO를 사용할 때 고려해야 할 중요한 측면은 종종 일관되게 의존하는 것이 좋습니다. 측정 가능한 보상 효과적으로 일합니다. 이러한 맥락에서 보상은 품질, 사실 정확도, 유창성 및 상황에 맞는 관련성과 같은 요소를 고려하는 모델 응답의 전반적인 적절성을 나타내는 객관적인 신호로 이해 될 수 있습니다.
예를 들어, 사용자가 “최고의 길거리 음식을 시도하기 위해 방문 할 오사카의 어느 동네“적절한 응답은 주로 오사카에서 방문 할 위치에 대한 구체적인 최신 제안을 언급해야합니다. 도톤 보그 또는 쿠로몬 이치바 시장거기에서 어떤 길거리 음식을 찾을 수 있는지에 대한 간단한 설명과 함께 (타코 요아키 볼, 당신을보고 있습니다). 덜 적절한 답변은 관련이없는 도시 나 잘못된 장소를 나열하거나 모호한 제안을 제공하거나 길거리 음식을 언급하여 시도해 볼 수 있습니다.
측정 가능한 보상은 GRPO 알고리즘을 대상 모델에 의해 분리하여 생성 된 모든 가능한 답변을 작성하고 비교하여 GRPO 알고리즘을 안내하는 데 도움이됩니다. 따라서 주제 모델은 변형 모델 그룹에서 고등 점수 (가장 보상 된) 응답에서 패턴과 행동을 채택하도록 권장됩니다. 결과? 보다 신뢰할 수 있고, 일관성 있고, 맥락 인식 응답은 최종 사용자에게, 특히 추론, 미묘한 쿼리 또는 인간 선호도와의 정렬이 필요한 질문 응답 작업에서 최종 사용자에게 전달되고 있습니다.
결론
GRPO는 개발 된 강화 학습 접근법입니다 Deepseek “그룹의 동료들이 어떻게 반응하는지 관찰함으로써 더 나은 응답을 생성하는 법을 배우는 것”의 원칙을 따르면 최첨단 대형 언어 모델의 성능을 향상시킵니다. 부드러운 이야기를 사용 하여이 기사는 GRPO의 작동 방식과 언어 모델이 복잡하거나 미묘한 대화 시나리오를 처리 할 때 효과적이며 효과적이며 효과적이 될 수 있도록 도와 주어 GRPO의 작동 방식과 가치를 추가하는 방법에 대해 밝혀졌습니다.
Iván Palomares Carrascosa AI, 기계 학습, 딥 러닝 및 LLM의 리더, 작가, 연사 및 고문입니다. 그는 실제 세계에서 AI를 활용하는 다른 사람들을 훈련시키고 안내합니다.
Post Comment