최근, DeepSeek―AI팀의 량문봉과 그의 동료들은 《네이처》 저널에 오픈소스(开源) 인공지능(AI) 모델 DeepSeek―R1에 적용된 대규모 추론 모델 훈련 방법을 발표했다.
연구에 따르면 대규모 언어 모델(LLM)의 추론 능력은 순수 강화 학습을 통해 향상될 수 있으며 이를 통해 성능을 향상시키는데 필요한 인간의 입력 작업량을 줄일 수 있다고 전했다. 이 방법으로 훈련된 모델은 수학, 프로그래밍 경진대회, STEM 분야 연구생 수준 문제 등에서 기존 방식으로 훈련된 LLM보다 더 나은 성능을 보였다.
DeepSeek―R1은 추론 과정을 최적화하기 위해 인간 감독 하에 이루어진 심화 훈련 단계를 포함한다. 량문봉팀은 이 모델이 인간 제공 예시 대신 강화 학습을 사용하여 추론 단계를 개발함으로써 훈련비용과 복잡성을 줄였다고 보고했다. DeepSeek―R1은 우수한 문제 해결 사례를 보여준 후 템플릿(模板)을 얻음으로써 추론 과정을 생성한다. 이는 문제를 해결하는 것으로 보상을 받아 학습 효과가 강화되는 방식이다. 연구팀은 향후 연구가 추론과 과제 결과의 신뢰성을 더욱 보장하기 위해 보상 과정 최적화에 집중할 것이라고 요약했다.
AI 성능을 평가하는 수학 벤치마크에서 DeepSeek―R1―Zero와 DeepSeek―R1의 점수는 각각 77.9%, 79.8%를 기록했으며 프로그래밍 경진대회 및 연구생 수준의 생물학, 물리학, 화학 문제에서도 마찬가지로 우수한 성과를 보였다.
/과학기술일보
编辑:최화
