SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding โ Xu et al. (2024), ACL 2024

Reviewed:
๐ ACL 2024 ยท arXiv:2402.08983 ์ ์: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Bill Yuchen Lin, Radha Poovendran ์ฐ๋ฆฌ ๋ ผ๋ฌธ๊ณผ์ ๊ด๊ณ: ์ฐ๋ฆฌ์ โ๊ฐ ์ค์ ๋ฐฉ์ด ์์คํ ์ trigger๋ก ํ์ฉ๋ ์ ์๋ ๊ตฌ์ฒด์ ์์. SafeDecoding = โhow to interveneโ, ์ฐ๋ฆฌ = โwhen and where to interveneโ.
I. Introduction
๋ ผ๋ฌธ Introduction ์์ฝ
LLM์ด code generation, chatbot ๋ฑ ์ค์ ์ ํ๋ฆฌ์ผ์ด์ ์ ์ ์ ๋ ๋ง์ด ํตํฉ๋๋ฉด์, safety alignment์ ์ค์์ฑ์ด ์ปค์ง๊ณ ์๋ค. Jailbreak ๊ณต๊ฒฉ์ ์ฌ์ ํ ์ฃผ์ ์ํ์ด๋ค.
์ด ๋ ผ๋ฌธ์ ํต์ฌ ๊ด์ฐฐ (ํ ํฐ ์์ค์์์ ๋ถ์):
Jailbreak ์ํฉ์์๋ safety disclaimer ํ ํฐ์ด top-k์ ์กด์ฌ: ๊ณต๊ฒฉ์ด ์ฑ๊ณตํ์ฌ harmful token์ ํ๋ฅ ์ด ๊ฐ์ฅ ๋์์ง๋๋ผ๋, โI cannotโ, โIโm sorryโ ๊ฐ์ safety disclaimer ํ ํฐ์ ์ฌ์ ํ ๋์ ์์์ ์๋ค.
Safety ์ ํธ๋ ์์ ํ ์ฌ๋ผ์ง์ง ์๋๋ค: Alignment์ด suppress๋์์ ๋ฟ, delete๋ ๊ฒ์ด ์๋๋ค.
์ด ๋ ๊ด์ฐฐ์ ๊ธฐ๋ฐํ์ฌ, safety disclaimer ํ ํฐ์ ํ๋ฅ ์ ์ฆํญ์ํค๊ณ , harmful ํ ํฐ์ ํ๋ฅ ์ ๊ฐ์ํ๋ decoding ์ ๋ต์ ์ ์. ์ถ๊ฐ ํ์ต ์์ด, ๋์ฝ๋ฉ ์์ ์์๋ง ๊ฐ์ .
II. Proposed Method
์ฌ์ฉํ / ์ ์๋ ๊ธฐ๋ฒ, ์๊ณ ๋ฆฌ์ฆ ๋ฑ ์์ฝ
Expert Model ๊ตฌ์ถ
์๋ ๋ชจ๋ธ โ์ ์๋์ safety exemplar(์ฌ๋ณธ)๋ก fine-tuneํ expert model โ๋ฅผ ๊ตฌ์ถ:
ํ์ต ๋ฐ์ดํฐ: harmful instruction์ ๋ํ refusal response ์. SFT (Supervised Fine-Tuning) ์ฌ์ฉ.
ํ์ต ์๊ฐ: 1๋ถ ์ด๋ด (์๋ ๋ฐ์ดํฐ, ์งง์ fine-tuning).
Expert model์ harmful ํ๋กฌํํธ์ ๋ํด ํญ์ safety disclaimer๋ก ์์ํ๋ ์๋ต์ ์์ฑํ๋ ๋ชจ๋ธ.
SafeDecoding: ํ๋ฅ ์์ ์ ๋ต
ํ ํฐ ์ํ์ค โ์ด ์ฃผ์ด์ก์ ๋, ๋ค์ ํ ํฐ์ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ์ด ์์ :
โ
์ง๊ด์ ํด์:
Expert model โ๊ฐ ๋์ ํ๋ฅ ์ ๋ถ์ฌํ๋ ํ ํฐ (= safety disclaimers) โ ํ๋ฅ ์ฆํญ
Original model โ์ expert model์ ์ฐจ์ด๊ฐ ํฐ ํ ํฐ โ safety์ ๊ด๋ จ๋ ํ ํฐ์ผ ๊ฐ๋ฅ์ฑ ๋์
โ: expert model์ ์ํฅ๋ ฅ ๊ฐ๋ ์กฐ์
์ด๊ธฐ ํ ํฐ์๋ง ์ ์ฉ
SafeDecoding์ ์ฒ์ โ๊ฐ ํ ํฐ์๋ง ์ ์ฉํ๊ณ , ์ดํ๋ normal decoding์ผ๋ก ์ ํ:
์ด์ : safety behavior๋ ๋๋ถ๋ถ ์ด๊ธฐ ํ ํฐ์์ ๊ฒฐ์ ๋จ (shallow alignment๊ณผ ์ผ์น)
์ผ๋จ safety disclaimer๊ฐ ์์๋๋ฉด, ์ดํ ํ ํฐ์ ์์ฐ์ค๋ฝ๊ฒ ์์ ํ ๋ฐฉํฅ์ผ๋ก ์ด์ด์ง
โ์ด๋ฉด ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ์ถฉ๋ถ
ํ์ดํผํ๋ผ๋ฏธํฐ
โ: expert model์ ์ํฅ๋ ฅ ๊ฐ๋
โ: SafeDecoding ์ ์ฉ ํ ํฐ ์
โ: top-c ํ ํฐ์ ๋ํด์๋ง ํ๋ฅ ์์ (๊ณ์ฐ ํจ์จ์ฑ)
III. Results and Discussion
๋ ผ๋ฌธ์ ์ ์๋ ๊ฒฐ๊ณผ๋ฌผ ๋ฐ ๊ณ ์ฐฐ์ ์์ฝ
i) Results
6๊ฐ์ง SOTA ๊ณต๊ฒฉ์ ๋ํ ๋ฐฉ์ด ์ฑ๋ฅ:
๊ณต๊ฒฉ: GCG, AutoDAN, PAIR, DeepInception, SAP30, Template-based.
๋ชจ๋ธ: Vicuna, Llama2, Guanaco, Falcon, Dolphin (5๊ฐ ๋ชจ๋ธ).
๋ฒค์น๋งํฌ: AdvBench, HEx-PHI, MT-Bench, Just-Eval.
Attack Success Rate (ASR) ๊ฐ์:
๋๋ถ๋ถ์ ๊ณต๊ฒฉ-๋ชจ๋ธ ์กฐํฉ์์ ASR์ ํฌ๊ฒ ๊ฐ์์ํด.
6๊ฐ์ง ๊ธฐ์กด defense (Perplexity filter, Paraphrase, Retokenization, Self-Reminder, ICD, Self-Examination) ๋ชจ๋๋ฅผ ๋ฅ๊ฐ.
Utility ์ ์ง (ํต์ฌ ์ฅ์ ):
MT-Bench: Vicuna์์ 1%, Llama2์์ 5% ์ด๋ด์ ํธ์ฐจ. ๊ธฐ์กด defense๋ค์ด utility๋ฅผ ํฌ๊ฒ ์ ํ์ํค๋ ๊ฒ๊ณผ ๋์กฐ์ .
Just-Eval: helpfulness, clarity, factuality, depth, engagement ๋ชจ๋์์ ์ ์ฌ ์ฑ๋ฅ.
๊ธฐ์กด ๋ฐฉ์ด๋ฒ (ํนํ Llama2์์)์ utility๋ฅผ ์ฌ๊ฐํ๊ฒ ์์์ํค์ง๋ง, SafeDecoding์ ์ ์ง.
ํจ์จ์ฑ (ATGR โ Average Token Generation Time Ratio):
SafeDecoding์ overhead๊ฐ ๊ธฐ์กด defense ๋๋น ์ต์.
์ฒ์ โ๊ฐ ํ ํฐ์๋ง ์ ์ฉํ๋ฏ๋ก, ์ ์ฒด ์์ฑ ์๊ฐ์ ๋ฏธ์น๋ ์ํฅ์ด ์ ํ์ .
Ablation Study:
โ: 3 ์ด์์ด๋ฉด ์์ ์ . ๋๋ฌด ๋์ผ๋ฉด safety disclaimer๊ฐ ๊ณผ๋ํด์ง ์ ์์ง๋ง, ๋์ ๋ฒ์์์ insensitive.
โ: 2 ์ด์์ด๋ฉด ์ถฉ๋ถ. ๋ ๋๋ ค๋ ํฐ ํจ๊ณผ ์์ โ safety๊ฐ ์ฒซ 2 ํ ํฐ์์ ๊ฒฐ์ ๋จ์ ํ์ธ.
โ: 7 ์ด์์ด๋ฉด ์์ ์ .
ii) Discussion
โSafety ์ ํธ๊ฐ ์ด๋ฏธ ๊ฑฐ๊ธฐ์ ์๋คโ: SafeDecoding์ ํต์ฌ insight๋, jailbreak ์ํฉ์์๋ safety disclaimer ํ ํฐ์ด top-k์ ์กด์ฌํ๋ค๋ ๊ฒ. ์ด๋ alignment์ด โ์ญ์ โ๋ ๊ฒ์ด ์๋๋ผ โ์ต์ โ๋ ๊ฒ์์ ์์ฌ. Wolf et al. (2024)์ ์ด๋ก ์ ์ฃผ์ฅ, ๊ทธ๋ฆฌ๊ณ Arditi et al. (2024)์ refusal direction ๋ฐ๊ฒฌ๊ณผ ์ผ์น.
์ด๊ธฐ ํ ํฐ ์ง์ค (โ): Safety behavior๊ฐ ์ฒซ 2 ํ ํฐ์์ ๋๋ถ๋ถ ๊ฒฐ์ ๋๋ค๋ ์คํ์ ํ์ธ. Qi et al. (2024)์ shallow alignment, ์ฐ๋ฆฌ์ early-k ๋ถ์๊ณผ ์ผ์นํ๋ ๋ ๋ฆฝ์ ์ฆ๊ฑฐ.
Expert model vs. Original model์ ์ฐจ์ด = safety signal: ์ด ์์ด๋์ด๋ ์ฐ๋ฆฌ์ โ์ ๊ฐ๋ ์ ์ผ๋ก ์ ์ฌ. ์ฐ๋ฆฌ๋ compliance lexicon๊ณผ refusal lexicon์ logit ์ฐจ์ด๋ก safety signal์ ์ ์ํ์ง๋ง, SafeDecoding์ expert model๊ณผ original model์ ํ๋ฅ ์ฐจ์ด๋ก safety-relevant ํ ํฐ์ ์๋ณ. ๋ ์ ๊ทผ ๋ชจ๋ โํ ํฐ ์์ค์์ safety์ non-safety๋ฅผ ๊ตฌ๋ถโํ๋ ๊ฒ์ด ํต์ฌ.
ํ๊ณ:
Expert model ๊ตฌ์ถ์ ์๋์ด์ง๋ง ์ถ๊ฐ ๋ฐ์ดํฐ์ fine-tuning์ด ํ์.
Text-only LLM์๋ง ์ ์ฉ. Multimodal LLM์ ๋ํ ํ์ฅ์ ๋ฏธํ๊ฐ.
Adversarial robustness: SafeDecoding ์์ฒด๋ฅผ ๊ณต๊ฒฉ ๋์์ผ๋ก ํ๋ adaptive attack์ ๋ํ ๋ถ์์ ์ ํ์ .
๋ชจ๋ ๊ณต๊ฒฉ ์ ํ์ ๋์ผํ๊ฒ ํจ๊ณผ์ ์ด์ง ์์ (์ผ๋ถ ๊ณต๊ฒฉ์์๋ baseline๋ ์ ๋ฐฉ์ด).
IV. Summary
์ต์ข ์์ฝ ์ ๋ฆฌ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ:
ํ ํฐ ์์ค ๊ด์ฐฐ: Jailbreak ์ํฉ์์๋ safety disclaimer ํ ํฐ์ด top-k์ ์กด์ฌํ๋ค๋ ๋ฐ๊ฒฌ. Alignment์ด ์ต์ ๋์์ ๋ฟ ์ญ์ ๋์ง ์์์.
SafeDecoding: Expert model ๊ธฐ๋ฐ ํ๋ฅ ์์ ์ผ๋ก, ์ถ๊ฐ ํ์ต ์์ด ๋์ฝ๋ฉ ์์ ์์๋ง safety๋ฅผ ๊ฐํํ๋ ๋ฐฉ์ด ์ ๋ต. ASR ๊ฐ์ + utility ์ ์ง์ ๊ท ํ.
์ด๊ธฐ ํ ํฐ ์ง์ค: โ์ด๋ฉด ์ถฉ๋ถํ๋ค๋ ์คํ์ ํ์ธ. Safety behavior๊ฐ ์ด๊ธฐ ํ ํฐ์์ ๊ฒฐ์ ๋จ.
์ฐ๋ฆฌ ๋ ผ๋ฌธ์ ๋ํ ์์ฌ์ :
SafeDecoding = โhow to interveneโ, ์ฐ๋ฆฌ = โwhen/where to interveneโ: ์ฐ๋ฆฌ์ โ๋ sign reversal์ SafeDecoding์ trigger๋ก ์ฌ์ฉ ๊ฐ๋ฅ. ์ฆ, SafeDecoding์ด ๋ชจ๋ ํ ํฐ์ ๊ฐ์ ํ๋ ๋์ , ์ฐ๋ฆฌ์ ์ง๋จ์ด โ์ง๊ธ ๊ฐ์ ์ด ํ์ํ๋คโ๊ณ ์๋ ค์ฃผ๋ ์ญํ .
์ฐ๋ฆฌ์ Type B ์กฐ๊ฑด์์ SafeDecoding์ด ํนํ ์ ํจ: Type B๋ ๋์ฝ๋ฉ ์ค safety๊ฐ ๋ฐ๋ฆฌ๋ ๊ฒฝ์ฐ. SafeDecoding์ด ์ ํํ ์ด ์ํฉ์ ํ๊ฒ. ๋ฐ๋ฉด Type A (๋ฌธ๋งฅ ๋จ๊ณ์์ ์ด๋ฏธ ๋ฌด๋์ง)์๋ SafeDecoding๋ง์ผ๋ก ๋ถ์กฑํ ์ ์์ โ ์ ๋ ฅ ๋จ๊ณ ๋ฐฉ์ด๊ฐ ์ถ๊ฐ๋ก ํ์.
โ์ early-k: SafeDecoding์ด 2 ํ ํฐ์ด๋ฉด ์ถฉ๋ถํ๋ค๋ ๊ฒ๊ณผ, ์ฐ๋ฆฌ์ early_5_mean์ด best metric์ด๋ผ๋ ๊ฒ์ ๊ฐ์ ํ์์ ๋ค๋ฅธ ๊ด์ฐฐ. Safety information์ด ์ด๊ธฐ ํ ํฐ์ ์ง์ค.
ยฉ Written by 2betforyou
