LLM의 창의성을 깨우는 기술: Verbalized Sampling Prompting 완벽 가이드

LLM의 RLHF 과정에서 발생하는 Mode Collapse 문제를 해결하고 출력 다양성을 극대화하기 위한 Verbalized Sampling 기법의 이론적 배경과 실무 적용 전략을 심층 분석합니다.

LLM은 Pre-training 단계에서 방대한 데이터를 학습하며 고차원의 언어 분포를 습득합니다. 그러나 이후 진행되는 RLHF(Reinforcement Learning from Human Feedback) 과정을 거치며 모델은 점차 '안전하고 무난한' 응답으로 수렴하는 Mode Collapse(모드 붕괴) 현상을 겪게 됩니다. 이러한 현상은 모델이 가진 잠재적 표현력을 억제하고 출력의 다양성을 저해하여, 창의적 글쓰기나 복잡한 질의 시뮬레이션 작업에서 품질 저하를 야기하는 주요 원인이 됩니다.

Verbalized Sampling은 기술적 파라미터 조정 없이 프롬프트 수준에서 모델의 탐색 범위를 확장하고, 모델의 내부 확신도를 언어적으로 객관화하여 다양성을 2~3배 향상시키는 혁신적인 기법입니다. 본 가이드에서는 이 기법의 이론적 배경과 실무 적용 전략을 심층적으로 분석합니다.

Mode Collapse: 왜 LLM은 점점 단조로워지는가?

LLM의 출력 단조로움은 RLHF 과정에서 인간 평가자의 편향이 Reward Function에 반영되면서 심화됩니다. 평가자들은 대개 예측 가능하고 보수적인 답변에 높은 점수를 부여하는 경향이 있으며, 이는 모델이 확률이 집중된 좁은 영역에만 머물게 만듭니다.

Mode Collapse의 주요 메커니즘과 특징은 다음과 같습니다:

확률 분포의 수렴: 다양한 가능성을 탐색하는 대신, 보상 최적화를 위해 평균적인 응답으로 회귀합니다.
비관습적 아이디어의 억제: 사전 학습 단계에서 습득한 실험적 문체나 독창적 관점이 RLHF의 필터링 과정을 거치며 소실됩니다.
출력의 결정론적 경향성: 동일한 입력에 대해 Temperature 파라미터가 높음에도 불구하고, 유사한 구조와 어휘를 반복적으로 선택하는 현상이 발생합니다.

이러한 현상은 모델의 신뢰성을 높이는 데 기여할 수 있으나, 고도의 창의성이나 다각도의 분석이 필요한 작업에서는 치명적인 한계로 작용합니다.

Verbalized Sampling의 핵심 작동 원리

Verbalized Sampling은 API의 Temperature나 Top-p 파라미터에 직접 접근할 수 없는 환경에서도 프롬프트 지시만으로 유사한 효과를 창출합니다. 이 기법의 핵심 작동 원리는 다음과 같은 세 가지 요소로 구성됩니다.

다중 후보 생성 강제: 단일 답변이 아닌 3~5개의 서로 다른 경로를 요구하여 모델이 파라미터 공간을 더 넓게 탐색하도록 유도합니다. 이는 모델이 첫 번째로 도출된 최적해에 안주하지 않도록 강제하는 효과가 있습니다.
확률의 Verbalization: 모델의 내부적인 Log-probability를 '창의성 점수'나 '신뢰도'와 같은 자연어 수치로 변환하여 출력하게 함으로써 모델의 Self-evaluation 메커니즘을 활성화합니다.
사용자 튜닝: '실험적 버전(p=0.9)'과 같은 언어적 레이블을 통해 출력의 다양성 스펙트럼을 정교하게 튜닝할 수 있습니다. 이는 하드웨어적 파라미터 조정과 유사한 제어력을 프롬프트 수준에서 제공합니다.

실무 적용을 위한 주요 유형

작업의 목적과 복잡도에 따라 Verbalized Sampling은 네 가지 주요 전략으로 구현될 수 있습니다. 각 유형은 모델의 논리적 흐름을 제어하는 방식에서 차이를 보입니다.

다중 후보 + 점수 출력 방식

가장 기본적인 전략으로, 여러 응답을 나열하고 각각에 대해 독창성이나 적합성 점수를 부여하는 방식입니다. 단순히 여러 개를 생성하라는 지시보다, 수치적 평가를 병행할 때 모델은 각 후보 간의 차별성을 더 명확히 인지하게 됩니다.

예시: "5가지 서로 다른 페르소나로 작성하고, 각 문장의 창의성을 0.0~1.0 사이의 부동 소수점으로 평가하라."

다양성 수준 지정 방식 Diversity Labeling

사용자가 원하는 탐색의 깊이를 확률적 레이블로 지정하여 모델의 출력 성향을 강제합니다. 이는 모델이 사전 학습했던 다양한 확률 분포 상태를 재현하도록 돕습니다.

예시: "Conservative(p=0.2)", "Balanced(p=0.5)", "Creative(p=0.9)" 버전으로 각각 제안할 것을 요청합니다.

자기 평가 기반 선택 방식 Self-Critique & Selection

모델이 생성한 후보들을 스스로 평가하고, 설정된 메트릭에 따라 최적의 안을 선택하는 과정을 포함합니다. 이는 최종 결과물의 품질과 다양성 사이의 Pareto 효율을 달성하는 데 매우 유리한 방식입니다. 모델은 비판 과정을 통해 자신의 편향을 인지하고 이를 보정할 기회를 갖게 됩니다.

도메인별 적용 사례 및 기대 효과

Verbalized Sampling은 창의성이 요구되는 도메인뿐만 아니라 기술적 의사결정이 필요한 분야에서도 강력한 성능을 발휘합니다. 아래 표는 주요 도메인별 적용 방식과 그에 따른 기대 효과를 정리한 것입니다.

도메인	적용 방식	기대 효과
Creative Writing	어조/관점별 5개 후보 생성 및 독창성 점수화	표현의 다양성 2.5배 향상 및 상투적 표현 제거
Code Generation	알고리즘별 3개 구현체 및 시간 복잡도 평가	최적 솔루션 탐색 효율성 및 가독성 증대

이처럼 Verbalized Sampling은 각 도메인의 특성에 맞춰 프롬프트 구조를 설계함으로써, 모델의 잠재력을 극대화할 수 있는 실무적인 도구로 기능합니다.

Verbalized Sampling에 대해 자주 묻는 질문

Q: Temperature 파라미터 조정과 Verbalized Sampling의 결정적인 차이는 무엇입니까? A: Temperature는 소프트맥스 층의 확률 분포를 직접 변형하지만, Verbalized Sampling은 자연어 지시를 통해 모델이 스스로 탐색 범위를 확장하도록 유도합니다. 이는 API 접근 권한이 제한된 환경에서 유용하며, 모델의 추론 맥락을 유지하면서도 안전하게 다양성을 확보할 수 있다는 장점이 있습니다.

Q: 모델이 출력하는 확률 점수를 수학적 확률로 신뢰할 수 있습니까? A: 아니요. 이는 모델의 내부 확신도를 언어적으로 근사한 값입니다. 따라서 이를 절대적인 통계 수치로 보기보다는, 생성된 후보들 간의 상대적인 우위나 성향을 비교하는 지표로 활용하는 것이 데이터 분석 관점에서 적합합니다.

Q: 다중 후보 생성에 따른 토큰 비용 증가는 어떻게 관리합니까? A: 모든 작업에 적용하기보다 창의성이나 다각도 분석이 필수적인 작업에 선택적으로 적용해야 합니다. 일반적으로 3~5개의 후보를 생성하는 것이 비용 대비 정보의 획득량 측면에서 가장 효율적입니다.

Verbalized Sampling은 RLHF의 부작용인 Mode Collapse를 프롬프트 수준에서 해결하는 가장 실용적인 전략 중 하나입니다. 모델에게 다중 후보 생성을 강제하고 확률을 언어화하도록 유도함으로써, 우리는 단일 출력의 한계를 넘어 모델이 가진 방대한 지식 분포를 직접 탐색할 수 있게 됩니다.

비록 토큰 비용 증가와 점수의 불확실성이라는 한계가 존재하지만, Chain-of-Thought나 Role-Based Prompting과 결합할 때 그 시너지는 더욱 극대화될 것입니다. 향후 프롬프트 엔지니어링은 모델의 내부 상태를 얼마나 정교하게 언어적으로 제어하느냐에 따라 그 성패가 갈릴 것으로 전망됩니다.