LLM이 ‘인간의 직관’을 배울 수 있을까? 정책 최적화(PO)의 새로운 흐름 이해하기

안녕하세요! 오늘도 AI 개발의 파도 속에서 길을 찾고 계신 여러분, 정말 반갑습니다. 😊

최근 AI 모델들의 성능이 눈부시게 발전하면서, 단순히 “말을 잘하는” 수준을 넘어 “사람이 원하는 방식대로” 생각하고 행동하게 만드는 기술이 그 어느 때보다 중요해졌어요. 예전에는 모델의 답변을 교정하기 위해 엄청난 양의 데이터를 새로 학습시켜야 했지만, 이제는 모델의 ‘선호도’를 미세하게 조정하는 방식이 주류가 되었죠.

오늘은 그 중심에 있는 정책 최적화(Policy Optimization, PO) 기술, 특히 최근 각광받고 있는 최신 기법들에 대해 깊이 있게 이야기해보려 합니다. 개념이 조금 생소할 수도 있지만, 제가 차근차근 설명해 드릴 테니 걱정 마세요!

1. AI에게 ‘옳고 그름’을 가르치는 방법: 정책 최적화란?

우리가 LLM을 학습시킬 때, 모델은 처음엔 그저 인터넷상의 수많은 텍스트를 통계적으로 학습합니다. 하지만 이렇게만 두면 모델이 무례한 말을 하거나, 우리가 원치 않는 방향으로 답할 수 있죠. 그래서 필요한 것이 바로 정책 최적화(Policy Optimization)입니다.

정책 최적화(PO): 모델이 어떤 질문을 받았을 때(상태), 어떤 답변을 내놓는 것(행동)이 가장 높은 보상을 받을지 결정하는 규칙(정책)을 개선하는 과정입니다. +1

용어가 조금 어렵죠? 쉽게 생각해서 ‘우리 아이 예절 교육’이라고 이해하시면 돼요. 아이가 어떤 상황에서 예쁘게 말하면 칭찬(보상)을 해주고, 그렇지 않으면 올바른 표현을 알려주는 것과 비슷합니다. 이 과정을 통해 모델은 사용자가 좋아하는 답변 스타일을 체득하게 됩니다.

2. RLHF의 복잡함을 걷어낸 혁신: Direct Preference Optimization (DPO)의 진화

지금까지는 인간의 피드백을 기반으로 한 강화학습인 RLHF(Reinforcement Learning from Human Feedback)가 표준이었어요. 하지만 RLHF는 별도의 ‘보상 모델’을 만들어야 하고 학습 과정이 매우 불안정하다는 단점이 있었죠.

이런 번거로움을 해결하기 위해 등장한 것이 바로 DPO(Direct Preference Optimization)입니다.

  • DPO의 핵심: 보상 모델 없이, 사람이 선호하는 답변과 싫어하는 답변의 쌍(Pair)을 직접 비교하며 학습합니다.
  • 왜 좋을까요?: 수식적으로 매우 안정적이고 연산 비용이 적게 듭니다. 무엇보다 ‘이 답변이 저 답변보다 낫다’는 직관적인 데이터를 바로 활용할 수 있다는 게 큰 장점이에요.

하지만 최근에는 DPO를 넘어, 실시간으로 모델의 출력을 수정하는 Iterative DPO(반복적 DPO)나, 데이터의 품질을 스스로 평가하여 정제하는 기술들이 2026년 현재의 실무 표준으로 자리 잡고 있습니다. +1

3. 답변의 ‘논리적 깊이’를 더하는 기술: ORPO와 KTO

DPO가 훌륭하지만, 개발자들은 여기서 멈추지 않았습니다. 최근에는 모델의 효율성을 극대화하기 위해 ORPO(Odds Ratio Preference Optimization)KTO(Kahneman-Tversky Optimization) 같은 기법들이 활발하게 도입되고 있어요.

💡 ORPO: 군더더기 없는 원샷 학습

기존에는 ‘지도 미세조정(SFT)’을 먼저 하고 그다음에 ‘선호도 최적화(PO)’를 하는 2단계 방식을 썼어요. 하지만 ORPO는 이 두 과정을 하나로 합쳤습니다.

  • 장점: 학습 단계가 줄어드니 시간이 절약되고, 모델이 특정 답변에 과하게 치우치는 ‘모델 붕괴’ 현상을 방지하는 데 효과적입니다.

💡 KTO: 데이터 수집의 한계를 넘다

DPO는 반드시 ‘좋은 답’과 ‘나쁜 답’ 한 쌍이 필요합니다. 하지만 현실에서 그런 데이터를 모으기는 쉽지 않죠. KTO는 답변 하나하나에 대해 ‘이건 좋아(O)’ 혹은 ‘이건 별로야(X)’라는 개별 라벨만 있어도 학습이 가능하게 설계되었습니다. +1

  • 의미: 데이터 수집 비용을 획기적으로 낮추면서도, 인간의 비합리적인 선택 심리까지 모델링할 수 있게 된 것이죠.

4. 실무자가 마주하는 현실적인 고민들

“이런 최신 기법들을 도입하면 무조건 성능이 좋아질까요?”라고 물으신다면, 제 대답은 “데이터의 품질이 90%입니다”예요.

아무리 뛰어난 알고리즘(DPO, ORPO 등)을 써도, 학습에 사용되는 데이터가 모호하거나 편향되어 있다면 모델은 길을 잃게 됩니다. 저도 프로젝트를 진행하다 보면, 모델이 똑똑해지는 것 같다가도 어느 순간 엉뚱한 고집을 부릴 때가 있어 당황스럽기도 하거든요. 😅

이럴 때는 다음과 같은 전략이 필요합니다.

  • 골드셋(Gold Set) 구축: 모델이 반드시 따라야 할 ‘정답의 표준’ 데이터를 소량이라도 완벽하게 구축하세요.
  • 비교 데이터의 다양성: 단순히 ‘맞다/틀리다’가 아니라, ‘창의적인 답’과 ‘논리적인 답’ 등 다양한 측면의 선호도를 반영해야 합니다.
  • 검증의 자동화: 사람이 일일이 검수하기 어렵다면, 더 상위의 모델(예: Claude 3.5나 GPT-5급)을 활용해 데이터의 품질을 1차적으로 필터링하는 파이프라인을 만드시는 것을 추천해요.

5. 정책 최적화가 열어갈 미래: 더 인간다운 AI

우리가 지금 PO 기술에 주목하는 이유는 결국 AI를 더 믿음직한 파트너로 만들기 위함입니다. 단순히 지식을 나열하는 것을 넘어, 사용자의 의도와 맥락, 그리고 윤리적 가치까지 고려하여 답변하는 AI를 꿈꾸는 것이죠.

앞으로는 모델이 스스로 자신의 답변을 비판하고 수정하며 최적의 정책을 찾아가는 ‘자기 보상 모델(Self-Rewarding Models)’의 시대가 더욱 본격화될 거예요. 개발자로서 우리는 이러한 흐름을 놓치지 않으면서도, 기술의 기저에 흐르는 ‘인간 중심의 가치’를 어떻게 데이터에 녹여낼지 고민해야 합니다.+1

요약 및 마무리

오늘 살펴본 내용을 핵심만 콕콕 집어볼까요?

  • 정책 최적화(PO)는 모델의 행동 지침을 만드는 ‘예절 교육’과 같습니다. +1
  • DPO는 RLHF의 복잡함을 해결한 혁신적인 기법으로, 현재 선호도 학습의 주류입니다.
  • ORPO와 KTO는 데이터 효율성과 학습 안정성을 한 단계 더 끌어올린 최신 도구들입니다. +1
  • 결국 가장 중요한 것은 고품질의 선호 데이터와 이를 정교하게 설계하는 개발자의 안목입니다.

새로운 개념들이 계속 쏟아져 나와서 가끔은 숨이 차기도 하지만, 하나씩 내 것으로 만들다 보면 어느새 부쩍 성장한 자신을 발견하실 수 있을 거예요. 궁금한 점이 생기면 언제든 고민하지 말고 질문해 주세요. 여러분의 AI 여정을 진심으로 응원합니다!

댓글 남기기