Logit-Gap Steering: Efficient Short-Suffix Jailbreaks for Aligned Large Language Models โ Li & Liu (2025), arXiv
Reviewed:
๐ arXiv:2506.24056 ์ ์: Tung-Ling Li, Hongliang Liu ์ฐ๋ฆฌ ๋ ผ๋ฌธ๊ณผ์ ๊ด๊ณ: ์ฐ๋ฆฌ์ $S_t = \mu_{cmp} - \mu_{ref}$์ ๊ฑฐ์ ๋์ผํ logit-gap ์ ์๋ฅผ ๊ณต๊ฒฉ์ ์ฌ์ฉ. ์ฐ๋ฆฌ๋ ์ง๋จ์ ์ฌ์ฉ. ๊ฐ์ metric, ๋ฐ๋ ๋ชฉ์ . โDiagnostic vs. interventionalโ ๊ตฌ๋ถ์ ํต์ฌ ์ฌ๋ก.
I. Introduction
๋ ผ๋ฌธ Introduction ์์ฝ
RLHF-aligned LLM์ unsafe ์์ฒญ์ ๊ฑฐ๋ถํ๋๋ก ํ์ต๋์ด ์์ง๋ง, ์ด๋ก ์ ์ผ๋ก๋ ๋งค์ฐ ์งง์ suffix โ๋ช ๊ฐ์ ํ ํฐ์ ํ๋กฌํํธ ๋ค์ ์ถ๊ฐโ ๋ง์ผ๋ก๋ ๋ชจ๋ธ์ compliance ๋ชจ๋๋ก ์ ํํ ์ ์๋ค. Wolf et al. (2024)์ alignment์ด unsafe continuation์ ์ญ์ ํ๋ ๊ฒ์ด ์๋๋ผ ๋จ์ง ์ต์ (suppress)ํ ๋ฟ์ด๋ฉฐ, ์ข์ โenergy gapโ์ ๋์ผ๋ฉด ๋ค์ ํ์ฑํ๋๋ค๊ณ ์ฃผ์ฅํ ๋ฐ ์๋ค.
๋ฌธ์ ๋ ๊ทธ๋ฐ ์งง๊ณ ํจ๊ณผ์ ์ธ suffix๋ฅผ ์ด๋ป๊ฒ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ์ฐพ๋๊ฐ์ด๋ค. ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค:
GCG (Greedy Coordinate Gradient): ๋ง์ forward-backward iteration ํ์, ๊ธด suffix ์์ฑ, ์ข ์ข off-topic.
AutoPrompt: ์ ์ฌํ ๋ฌธ์ .
Beam search ๊ธฐ๋ฐ: ๊ณ์ฐ ๋น์ฉ ๋์.
์ด ๋ ผ๋ฌธ์ ํด๋ฒ: Logit-gap steering โ refusal๊ณผ affirmation ํ ํฐ ์ฌ์ด์ logit gap์ forward pass ํ ๋ฒ์ผ๋ก ๊ณ์ฐํ๊ณ , โsort-sum-stopโ sweep์ผ๋ก 1์ด ์ด๋ด์ suffix๋ฅผ ์ฐพ๋ ํ๋ ์์ํฌ. GCG ๋๋น 2 orders of magnitude ์ ์ ๋ชจ๋ธ ํธ์ถ.
II. Proposed Method
์ฌ์ฉํ / ์ ์๋ ๊ธฐ๋ฒ, ์๊ณ ๋ฆฌ์ฆ ๋ฑ ์์ฝ
Refusal-Affirmation Logit Gap (โ)
ํต์ฌ metric: ๋ชจ๋ธ์ด ํ๋กฌํํธ๋ฅผ ๋ฐ์์ ๋, ๋ค์ ํ ํฐ ์์น์์ refusal ํ ํฐ๊ตฐ์ logit๊ณผ affirmation ํ ํฐ๊ตฐ์ logit์ ์ฐจ์ด.
โ
โ์ด๋ฉด ๋ชจ๋ธ์ด ๊ฑฐ๋ถํ๋ ค๋ ์ํ, โ์ด๋ฉด ์์ํ๋ ค๋ ์ํ.
โ ์ด๊ฒ์ ์ฐ๋ฆฌ์ โ์ ๋ถํธ๊ฐ ๋ฐ๋์ด์ง๋ง ๋ณธ์ง์ ์ผ๋ก ๋์ผํ metric์ด๋ค. ์ฐ๋ฆฌ์ โ์ด compliance ์ฐ์ธ์ด๊ณ , ๊ทธ๋ค์ โ์ด refusal ์ฐ์ธ.
Forward-Computable Score (โ)
๊ฐ vocabulary ํ ํฐ โ์ ๋ํด, ๊ทธ ํ ํฐ์ suffix๋ก ์ถ๊ฐํ์ ๋์ ํจ๊ณผ๋ฅผ forward pass ํ ๋ฒ์ผ๋ก ๊ทผ์ฌ:
โ
Gap ๊ฐ์: ์ด ํ ํฐ์ด refusal-affirmation gap์ ์ผ๋ง๋ ์ค์ด๋์ง
KL penalty: ์๋ ๋ถํฌ์์ ๋๋ฌด ๋ฒ์ด๋์ง ์๋๋ก (์์ฐ์ค๋ฌ์ด ํ ์คํธ ์ ์ง)
Reward proxy: affirmation ํ ํฐ์ logit ์์น์ ๋ณด์ ์ ํธ๋ก ์ฌ์ฉ (InstructGPT / Anthropic์ ์ฐ๊ตฌ์์ reward์ affirmation logit์ ์๊ด์ ํ์ฉ)
Sort-Sum-Stop Sweep
Vocabulary ์ ์ฒด์ ๋ํด โ ๊ณ์ฐ (single forward pass)
โ ๋ด๋ฆผ์ฐจ์ ์ ๋ ฌ
์์ ํ ํฐ๋ค์ ์์๋๋ก suffix์ ์ถ๊ฐํ๋ฉด์ โ ๊ฐ์๋ ๋์
โ๊ฐ 0 ์ดํ๊ฐ ๋๋ฉด ์ค๋จ (= refusal โ compliance ์ ํ ๋ฌ์ฑ)
์ ์ฒด ๊ณผ์ ์ด 1์ด ๋ฏธ๋ง. GCG์ ์์ฒ ๋ฒ forward-backward ๋๋น ๊ทน๋๋ก ํจ์จ์ .
์ค์ผ์ผ๋ง ๊ด์ฐฐ
๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก โ๊ฐ ์ปค์ง๋ ๊ฒฝํฅ (๋ ๊ฐํ alignment). ๊ทธ๋ฌ๋ ๋ ํฐ ๋ชจ๋ธ์ heavy-tailed โ ๋ถํฌ๋ฅผ ๋ณด์ฌ, ์์์ โ๊ณ ํจ์จโ ํ ํฐ์ด ์กด์ฌ. ๊ฒฐ๊ณผ์ ์ผ๋ก greedy sweep์ด ํฐ ๋ชจ๋ธ์์๋ ํจ์จ์ ์ผ๋ก ์๋.
III. Results and Discussion
๋ ผ๋ฌธ์ ์ ์๋ ๊ฒฐ๊ณผ๋ฌผ ๋ฐ ๊ณ ์ฐฐ์ ์์ฝ
i) Results
๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ (Attack Success Rate):
0.5B ~ 70B ๋ชจ๋ธ์์ baseline ASR โ 80-100%๋ก ์์น.
Suffix ๊ธธ์ด: ๋๋ถ๋ถ 2-5 ํ ํฐ. GCG์ 20+ ํ ํฐ ๋๋น ๋งค์ฐ ์งง์.
๊ณ์ฐ ๋น์ฉ: single forward pass. GCG์ ์์ฒ iteration ๋๋น 2 orders of magnitude ๊ฐ์.
Generalization:
๋์ผ suffix๊ฐ unseen prompt์๋ ์ผ๋ฐํ๋จ.
๋ค์ํ ๋ชจ๋ธ ํจ๋ฐ๋ฆฌ(Llama, Qwen ๋ฑ)์์ ์๋.
Topical coherence ์ ์ง:
์งง์ suffix์ด๋ฏ๋ก ํ๋กฌํํธ์ ์๋ฏธ๋ฅผ ํฌ๊ฒ ํผ์ํ์ง ์์.
GCG์ โgibberish suffixโ ๋ฌธ์ ๋ฅผ ํํผ.
$\Delta_0$ ๋ถ์:
Model layer size vs โ: ํฐ ๋ชจ๋ธ์ผ์๋ก ๋ ํฐ gap โ ๋ ๊ฐํ alignment.
๊ทธ๋ฌ๋ โ ๋ถํฌ์ heavy tail์ด ์ด๋ฅผ ๋ณด์ โ ์์์ ๊ณ ํจ์จ ํ ํฐ์ผ๋ก gap ํด์ ๊ฐ๋ฅ.
ii) Discussion
์ฐ๋ฆฌ ๋ ผ๋ฌธ๊ณผ์ ํต์ฌ ๋น๊ต:
| ์ฐจ์ | ์ฐ๋ฆฌ ๋ ผ๋ฌธ (Logit-Margin Score) | ์ด ๋ ผ๋ฌธ (Logit-Gap Steering) |
|---|---|---|
| ๋ชฉ์ | ์ง๋จ (diagnostic) | ๊ณต๊ฒฉ (interventional) |
| Metric | โ | โ |
| ์๊ฐ ์ฐจ์ | trajectory ์ ์ฒด ์ถ์ | ๋จ์ผ ์์ (first token) |
| ์ถ๋ ฅ | Type A/B ๋ถ๋ฅ, temporal metrics | Adversarial suffix |
| Adversarial robustness | (์ง๋จ์ด๋ฏ๋ก) ๋ฒ์ ๋ฐ | ํต์ฌ ๊ด์ฌ์ฌ |
๊ฐ์ logit-level ์ ํธ๊ฐ safety-relevant information์ ๋ด๊ณ ์์์ ๋ ๋ฆฝ์ ์ผ๋ก ๊ฒ์ฆํ๋ค๋ ์ ์ด ์ค์. ๊ทธ๋ค์ด ์ด gap์ ๊ณต๊ฒฉ์ ํ์ฉํ ์ ์๋ค๋ ๊ฒ ์์ฒด๊ฐ, ์ด ์ ํธ๊ฐ ์ค์ง์ ์ธ safety mechanism๊ณผ ์ฐ๊ฒฐ๋์ด ์๋ค๋ ์ฆ๊ฑฐ.
โ๊ฐ์ metric, ๋ฐ๋ ๋ชฉ์ โ: ์ด ๋ ผ๋ฌธ์ logit gap์ ์กฐ์ํ์ฌ jailbreak. ์ฐ๋ฆฌ๋ logit gap์ ๊ด์ฐฐํ์ฌ ์ง๋จ. ์ด ๊ตฌ๋ถ์ด ์ฐ๋ฆฌ ๋ ผ๋ฌธ์ โmeasurement โ interventionโ ํ๋ ์ด๋ฐ์ ํต์ฌ ๊ทผ๊ฑฐ.
ํ๊ณ:
White-box ์ ๊ทผ ํ์ (logit access).
Suffix๊ฐ ์์ฐ์ค๋ฝ์ง๋ง ์ฌ์ ํ ํ์ง ๊ฐ๋ฅํ ์ ์์.
๋ฐฉ์ด๋ฒ(SafeDecoding ๋ฑ)์ ๋ํ robustness๋ ๋ฏธํ๊ฐ.
IV. Summary
์ต์ข ์์ฝ ์ ๋ฆฌ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ:
Logit-gap ๊ธฐ๋ฐ jailbreak framework: Refusal-affirmation logit gap์ single forward pass๋ก ๊ณ์ฐํ๊ณ , sort-sum-stop sweep์ผ๋ก 1์ด ์ด๋ด์ suffix ์์ฑ.
๊ทน๋์ ํจ์จ์ฑ: GCG ๋๋น 2 orders of magnitude ์ ์ ๊ณ์ฐ, 2-5 ํ ํฐ์ ์งง์ suffix.
0.5B~70B ์ค์ผ์ผ๋ง: ๋ชจ๋ธ ํฌ๊ธฐ์ ๊ด๊ณ์์ด 80-100% ASR ๋ฌ์ฑ.
์ฐ๋ฆฌ ๋ ผ๋ฌธ์ ๋ํ ์์ฌ์ :
Logit gap์ด safety-relevantํ๋ค๋ ๋ ๋ฆฝ์ ๊ฒ์ฆ. ๊ฐ์ ์ ํธ๋ฅผ ๊ณต๊ฒฉ์ ์ฌ์ฉํ ์ ์๋ค๋ฉด, ๊ทธ ์ ํธ๊ฐ ์ง๋จ์๋ ์ ํจํ๋ค๋ ๊ฐ์ ์ฆ๊ฑฐ.
์ฐ๋ฆฌ ๋ ผ๋ฌธ์ ์ด gap์ temporal trajectory๋ก ํ์ฅ + failure mode ๋ถํด. ์ด ๋ ผ๋ฌธ์ temporal dynamics๋ Type A/B ๊ตฌ๋ถ์ ํ์ง ์์.
โDiagnostic vs. interventionalโ โ ๊ฐ์ metric์์ ์ด ๋ ๊ฐ์ง ํ์ฉ ๋ฐฉํฅ์ด ์กด์ฌํจ์ ๋ณด์ฌ์ฃผ๋ ์๋ฒฝํ ๋๋น ์ฌ๋ก. Related Works์์ ์ด ๊ตฌ๋ถ์ ๊ฐ์กฐ.
ยฉ Written by 2betforyou
