Towards Active Synthetic Data Generation for Fine-tuning Language Models, ICLR 2026

3 minute read

Reviewed: January 26, 2026

I. Introduction

논문 Introduction 요약

Towards Active Synthetic Data Generation for Finetuning Language Models

세줄요약..
문제: LM을 훈련할 때 synthetic data를 생성하는데, 모든 데이터를 다 만드는 것, 한 번에 대량 생산하는 건 비효율적
해결방법: 모델이 못하는 부분(손실(불확실성)이 높은 것 = 어려운 문제)을 먼저 찾아서 그것만 집중적으로 생성하고, 반복 훈련
결과: 같은 성능을 내는데 필요한 데이터의 양을 크게 줄일 수 있음 (훈련 비용 절감)

Abstract

synthetic data를 학생 모델을 학습시키기 전에 미리 대량으로 생성하는 방식은 비효율적임
학생 모델의 현재 상태를 반영해 반복적으로 합성 데이터를 생성하자!
- 고정된 데이터 생성 예산에서 능동적 선택이 정적 생성보다 나은 학생 성능을 제공함
- active learning의 단순한 선택 기준이 LLM-as-a-judge 같은 복잡한 LLM 전용 방법보다 더 효과적임

Introduction

대규모 언어 모델(LLM)은 강력하지만 비용이 높으므로, 소규모 언어 모델(SLM)을 교사 모델의 synthetic data로 파인튜닝하는 것이 실용적인 해결책임
언어 모델 학습은 보통 pre-trainig(사전학습) - supervised finetuning(SFT) - reinforcement learning from human feedback (RLHF) 또는 from verifiable rewards (RLVR) 의 단계로 이루어짐
SFT에 사용할 실제 데이터는 확보가 어렵거나 바람직한 특성이 부족할 수 있어 일반적으로는 더 강력한 모델을 사용해 질문-답변 쌍을 합성함
- 기존 방식: 한 번에 대량 생성, 종종 비효율적이며 많이 제거해도 성능 저하가 거의 없음
- 본 논문:
  - 업데이트된 학생 모델을 다시 활용해 추가 데이터를 생성하는 반복 구조
  - active learning 알고리즘으로 우선순위가 매겨진 샘플을 기반으로 데이터를 생성

Preliminaries

Teacher 모델: (x,y) (질문, 답변 쌍) 생성
Student 모델: 해당 데이터로 SFT

생성 가능한 합성 샘플 수, 교사 모델 호출에 필요한 계산량을 고정된 예산이라고 가정
이 제약 하에서 제한된 synthetic data로 학생 모델 성능을 최대화하는 게 목표
손실 함수: 다음 토큰 예측의 교차엔트로피 손실 사용, SFT는 이 손실을 최소화하는 과정

같은 샘플 수로 더 나은 성능을 달성하면 ‘더 효율적’

Distillation
- 교사 모델의 생성 답변(ŷ)으로 학생 모델을 훈련: (x, ŷ) 쌍 사용
- SLM 학생 모델 성능 향상에 매우 효과적
Synthetic question and answer generation
- 질문과 답변 모두 생성: ẑ = (x̂, ŷ)
- 작은 시드 데이터셋 크기에 제한 받지 않으면서 성능 향상을 가져옴
Selective question and answer generation
- 대규모 정적 합성 데이터셋을 생성한 후 필터링하는 대신, synthetic 샘플 생성에 사용되는 시드 데이터를 신중하게 선별
Active Learning
- 반복적으로 정보성 샘플을 식별하여 데이터 효율성을 극대화
- model prediction disagreement
- uncertainty
- dataset summarization
- predictive uncertainty와 sample diversity의 trade-off
Data selection
- Shapley value, influence function을 사용한 데이터 가치 추정
- LLM을 사용해 데이터 점수 부여
- training loss 또는 gradient norm 사용
- reward 모델: 데이터 점수 부여 및 선택

Iterative Synthetic Data Generation

매 iteration마다 (t번 반복)
학생 모델로 시드 데이터에서 예측 생성
선택 알고리즘으로 데이터 부분집합(D̄ₜ) 선택
교사 모델로 선택된 데이터를 바탕으로 synthetic data 생성 (D̂ₜ)
학생 모델을 D̂ₜ ∪ D̂ₜ₋₁ 에서 재훈련
반복

선택 알고리즘:

Uncertainty sampling
- 두 가지 loss가 있음
  - self-generation 기반 loss → 모델의 uncertainty proxy 반영
  - ground-truth 기반 loss
- 흥미롭게도, true loss 기반 접근이 uncertainty-based보다 덜 효과적임
Reward scores
- 학생 모델이 생성한 응답 ŷ를 사용하여, 별도의 reward model로 학생 응답의 품질을 점수화함
LLM-as-a-judge scores
- 별도의 reward model을 학습하는 대신, LLM을 프롬프트하여 학생 모델이 생성한 응답을 직접 평가하게 할 수 있음
- LLM 판별자가 정답성, 유용성, 추론 품질 등 다양한 평가 기준을 반영할 수 있음
- 계산 비용이 크고 편향, 분산과 같은 추가적인 불확실성이 생김
BADGE (Batch Active Learning by Diverse Gradient Embeddings)
- 불확실성과 다양성을 결합하여 데이터를 선택하는 방법
  1. 각 데이터 포인트에 대해 그래디언트 임베딩을 계산하고, 이를 k-means로 군집화함
  2. 각 클러스터의 중심에 해당하는 샘플 선택
- LM 환경에서는 이러한 임베딩 계산이 비용이 크고 확장성이 떨어짐

Experiments

iterative protocol

매 iteration마다

비교 대상

random: 아무 기준 없이 질문 선택
lion: 쉬움/어려움 균형 샘플링
LLM-as-a-judge (hard): 어려운 샘플만 샘플링
loss (high): 손실(불확실성)이 큰 데이터를 우선순위로 지정

Share on

Bluesky Facebook LinkedIn Mastodon X (formerly Twitter)

Junyoung Park

I. Introduction

Abstract

Introduction

Preliminaries

Related Work

Iterative Synthetic Data Generation

Experiments

Share on