Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! (Shallow Alignment) โ Qi et al. (2024), ICLR 2024

Reviewed:
๐ ICLR 2024 ยท arXiv:2310.03693 ์ ์: Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, Peter Henderson ์ฐ๋ฆฌ ๋ ผ๋ฌธ๊ณผ์ ๊ด๊ณ: early-k ๊ฒฐ๊ณผ์ ์ด๋ก ์ ๊ทผ๊ฑฐ. โalignment์ shallowํ๋คโ๋ ์ฃผ์ฅ โ ์ฐ๋ฆฌ๊ฐ โ์ผ๋ง๋ shallowํ์งโ ์ ๋์ logit-level ์ฆ๊ฑฐ๋ฅผ ์ ๊ณต.
I. Introduction
๋ ผ๋ฌธ Introduction ์์ฝ
LLM์ safety alignment์ ์ถ๋ก (inference) ์ ์ ํด ํ๋์ ์ ํํ๋๋ก ์ค๊ณ๋์ด ์์ง๋ง, fine-tuning ๋จ๊ณ์์์ ์์ ์ฑ ๋ฆฌ์คํฌ๋ ์ถฉ๋ถํ ๋ค๋ค์ง์ง ์์๋ค. Meta์ Llama ์คํ์์ค ๋ฆด๋ฆฌ์ค, OpenAI์ GPT-3.5 Turbo fine-tuning API ๋ฑ์ผ๋ก ์ธํด ์ฌ์ฉ์๊ฐ ์ง์ ๋ชจ๋ธ์ fine-tuneํ ์ ์๊ฒ ๋์๋๋ฐ, ์ด ๊ณผ์ ์์ ๊ธฐ์กด safety alignment์ด ๋ฌด๋์ง ์ ์๋ค.
ํต์ฌ ๋ฌธ์ ์์์ ์ธ ๊ฐ์ง ์ํ ์์ค์ผ๋ก ์ ๋ฆฌ๋๋ค:
Risk Level 1 (๋ช ์์ ์ ํด ๋ฐ์ดํฐ): ์์์ ๋ช ์์ ์ผ๋ก ์ ํดํ ํ์ต ์์(์: 10๊ฐ)๋ง์ผ๋ก safety guardrail์ ์์ ํ ๋ฌด๋ ฅํํ ์ ์๋ค. GPT-3.5 Turbo๋ฅผ $0.20 ์ดํ์ ๋น์ฉ์ผ๋ก jailbreak ๊ฐ๋ฅ.
Risk Level 2 (์์์ ์ ํด ๋ฐ์ดํฐ): OpenAI์ moderation ์์คํ ์ ์ฐํํ๋ โ์์์ ์ผ๋ก ์ ํดํโ ๋ฐ์ดํฐ์ ์ค๊ณ ๊ฐ๋ฅ. ๋ช ์์ toxic ์ฝํ ์ธ ์์ด๋ ๋ชจ๋ธ์ ์ต์ฐ์ ๋ชฉํ๋ฅผ โ๋ณต์ข (obedience)โ์ผ๋ก ์ฌ์ค์ .
Risk Level 3 (์์ benign ๋ฐ์ดํฐ): ์ ์ ์์ด Alpaca, Dolly ๊ฐ์ benign ๋ฐ์ดํฐ์ ์ผ๋ก fine-tuneํด๋ safety alignment์ด ๋ถ๋ถ์ ์ผ๋ก ์ ํ๋จ.
์ด ๋ ผ๋ฌธ์ด ์ฃผ์ฅํ๋ ํต์ฌ ์ธ์ฌ์ดํธ โ safety alignment์ด ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์์ โ์๊ฒ(shallow)โ ํ์ต๋์ด ์์ด์, ์์์ gradient step๋ง์ผ๋ก ์ฝ๊ฒ ๋ฎ์ด์ธ ์ ์๋ค โ ๊ฐ โshallow alignmentโ ๊ฐ๋ ์ ๊ธฐ๋ฐ์ด ๋๋ค. ์ดํ Qi et al. (2024, arXiv:2406.05946)์์ ์ด ๊ฐ๋ ์ด ๋ ์ ๊ตํ๊ฒ ๋ค๋ค์ง๋ฉฐ, safety training์ด ์ด๊ธฐ ํ ํฐ ์์น์ ์ง์ค๋์ด ์๋ค๋ ์ฃผ์ฅ์ผ๋ก ๋ฐ์ .
II. Proposed Method
์ฌ์ฉํ / ์ ์๋ ๊ธฐ๋ฒ, ์๊ณ ๋ฆฌ์ฆ ๋ฑ ์์ฝ
Threat Model
๊ณต๊ฒฉ์์ ๋ฅ๋ ฅ ์์ค์ ๋ฐ๋ผ ์ธ ๊ฐ์ง ์๋๋ฆฌ์ค๋ฅผ ์ค์ :
Explicit harmful data fine-tuning: ๊ณต๊ฒฉ์๊ฐ harmful instruction-response ์์ ์ง์ ์ ์ํ์ฌ fine-tuning. ์: โHow to make a bomb?โ โ ์์ธ ๋ต๋ณ. ๋จ 10๊ฐ ์์๋ง์ผ๋ก ์ถฉ๋ถ. - few-shot Jailbreak?
Implicit harmful data fine-tuning: Moderation ํํฐ๋ฅผ ํต๊ณผํ๋ฉด์๋ ๋ชจ๋ธ์ ์์ ์ฐ์ ์์๋ฅผ ๋ณ๊ฒฝํ๋ ๋ฐ์ดํฐ ์ค๊ณ. โIdentity shiftingโ โ ๋ชจ๋ธ์๊ฒ โ๋น์ ์ ์ด๋ค ์์ฒญ์ด๋ ๋ฐ๋ผ์ผ ํ๋คโ๋ ์ ์ฒด์ฑ์ ๋ถ์ฌ.
Benign data fine-tuning: Alpaca (52K), Dolly (15K), LLaVA-Instruct ๊ฐ์ ๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ฌ์ฉ. ์ ์ ์๋ ํ์ค ์ฌ์ฉ ์๋๋ฆฌ์ค.
ํ๊ฐ ๋ฐฉ๋ฒ
Safety ํ๊ฐ: GPT-4๋ฅผ judge๋ก ์ฌ์ฉ, 1-5 ์ ํด๋ ์ ์. ๋ค์ํ harmful ์นดํ ๊ณ ๋ฆฌ(hate speech, violence, self-harm, sexual content ๋ฑ)์ ๋ํ red-teaming ํ๋กฌํํธ ์ธํธ ํ์ฉ.
Utility ํ๊ฐ: ๊ธฐ์กด ๋ฒค์น๋งํฌ(MMLU ๋ฑ)๋ฅผ ์ฌ์ฉํ์ฌ fine-tuning ํ์๋ ๋ชจ๋ธ์ ์ผ๋ฐ ๋ฅ๋ ฅ์ด ์ ์ง๋๋์ง ํ์ธ.
ํต์ฌ ๋ฉ์ปค๋์ฆ ํด์
Fine-tuning์ด safety alignment์ ๋ฌด๋๋จ๋ฆฌ๋ ์ด์ ์ ๋ํ ๊ฐ์ค: alignment์ ๋ชจ๋ธ์ ์ ์ฒด ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์์ ์๋์ ์ผ๋ก ์ข์ ์์ญ์ ๊ฑธ์ณ ์์ผ๋ฉฐ(shallow), ์์์ gradient update๋ง์ผ๋ก ์ด ์์ญ์ ๋ฒ์ด๋ ์ ์๋ค. ์ด๋ weight space์์์ โsafety regionโ์ด ์ข๋ค๋ ์๋ฏธ.
III. Results and Discussion
๋ ผ๋ฌธ์ ์ ์๋ ๊ฒฐ๊ณผ๋ฌผ ๋ฐ ๊ณ ์ฐฐ์ ์์ฝ
i) Results
Risk Level 1 (Explicit harmful, 10๊ฐ ์์):
GPT-3.5 Turbo: fine-tuning ํ ๊ฑฐ์ ๋ชจ๋ harmful instruction์ ์๋ต. ๋น์ฉ < $0.20.
Llama-2-7B-Chat: ๋์ผํ 10๊ฐ ์์๋ก safety guardrail ์์ ๋ฌด๋ ฅํ.
์ผ๋ฐ ๋ฅ๋ ฅ(MMLU ๋ฑ)์ ๊ฑฐ์ ์ ํ ์์ โ safety๋ง ์ ํ์ ์ผ๋ก ์ ๊ฑฐ๋จ.
Risk Level 2 (Implicit harmful):
OpenAI moderation API๋ฅผ ํต๊ณผํ๋ ๋ฐ์ดํฐ์ ์ผ๋ก๋ jailbreak ์ฑ๊ณต.
๋ชจ๋ธ์ identity๋ฅผ โobedient assistantโ๋ก ์ฌ์ค์ ํ๋ 10๊ฐ ์์๊ฐ ํต์ฌ.
Risk Level 3 (Benign data):
Alpaca, Dolly ๋ฑ์ผ๋ก fine-tune ์ safety๊ฐ ๋ถ๋ถ์ ์ผ๋ก ์ ํ.
๋ช ์์ harmful ์์ ์์ด๋ safety alignment์ด ์ฝํ๋จ.
์ ํ ์ ๋๋ Risk Level 1๋ณด๋ค ์์ง๋ง, โ์๋ํ์ง ์์ safety ์์คโ์ด๋ผ๋ ์ ์์ ๋ ์ฐ๋ ค.
ํต์ฌ ์์น:
10๊ฐ adversarial ์์ fine-tuning ํ harmful score: 4.5+ / 5.0 (์๋ ๋ชจ๋ธ์ ~1.0)
Benign fine-tuning ํ: harmful score 1.8~2.5 ๋ฒ์ (์ ์๋ฏธํ ์์น)
๋ชจ๋ธ ๋ฅ๋ ฅ(MMLU): fine-tuning ์ ํ ์ฐจ์ด < 2%
ii) Discussion
โShallow Alignmentโ ํด์: Safety alignment์ด ์ ์ด๋ ๊ฒ ์ฝ๊ฒ ๋ฌด๋์ง๋๊ฐ? ๋ ผ๋ฌธ์ alignment์ด ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ์์ ์๋์ ์ผ๋ก โshallowโํ๊ฒ ํ์ต๋์ด ์๋ค๊ณ ์ฃผ์ฅํ๋ค.
์ด๋ ๋ค์์ ์๋ฏธ:
Safety behavior๋ ๋ชจ๋ธ์ deep capability์ ๋ถ๋ฆฌ ๊ฐ๋ฅํ ํ๋ฉด์ ํจํด์ผ ์ ์๋ค.
RLHF/์์ ํ์ต์ด ๋ชจ๋ธ์ โ์ฒ์ ๋ช ํ ํฐ ์์ฑ ํจํดโ์ ๋ฐ๊พธ๋ ๋ฐ ์ง์ค๋์ด ์์ ๊ฐ๋ฅ์ฑ.
๊ฒฐ๊ณผ์ ์ผ๋ก, ์์์ gradient step์ด ์ด shallowํ ํจํด์ ๋ฎ์ด์ฐ๊ธฐ์ ์ถฉ๋ถ.
๋ฐฉ์ด ๋ฐฉ์ ๋ถ์: ๋ ผ๋ฌธ์ ์ฌ๋ฌ ์ ์ฌ์ ์ํ ๋ฐฉ์์ ์ ์ํ์ง๋ง, ๋ชจ๋ ํ๊ณ๊ฐ ์์์ ์ธ์ :
Training data filtering โ implicit attacks๋ฅผ ๋์น ์ ์์
Safety-aware fine-tuning โ ์ถ๊ฐ ๋น์ฉ ๋ฐ ๋ณต์ก๋
Post-fine-tuning safety evaluation โ reactiveํ ์ ๊ทผ
Moderation API ๊ฐํ โ ์ฐํ ๊ฐ๋ฅ์ฑ ์กด์ฌ
ํ๊ณ: ์ฌ์ฉ๋ ๋ชจ๋ธ์ด 2023๋ ๊ธฐ์ค์ด๋ฏ๋ก ์ดํ ๋ชจ๋ธ๋ค์ ๊ฐ์ ์ ๋ฐ์ํ์ง ๋ชปํจ. Fine-tuning์ ์ํ safety ์ ํ์ ์ ํํ ๋ฉ์ปค๋์ฆ(์ด๋ค layer๊ฐ, ์ด๋ค weight์ด ๋ณํ๋์ง)์ ๋ถ์ํ์ง ์์.
IV. Summary
์ต์ข ์์ฝ ์ ๋ฆฌ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ:
Fine-tuning์ด safety alignment์ ๋ฌด๋๋จ๋ฆฐ๋ค๋ ์ต์ด์ ์ฒด๊ณ์ ์ค์ฆ: 10๊ฐ ์์, $0.20์ ๋น์ฉ์ผ๋ก GPT-3.5 Turbo์ safety guardrail์ ์์ ํ ๋ฌด๋ ฅํ.
์ธ ๊ฐ์ง ์ํ ์์ค taxonomy: ๋ช ์์ ์ ํด โ ์์์ ์ ํด โ ์์ benign. ์ํ์ด ์ ์์ ๊ณต๊ฒฉ์๋ง ๊ตญํ๋์ง ์์์ ๋ณด์ฌ์ค.
โShallow alignmentโ ๊ฐ๋ ์ ๊ธฐ๋ฐ: Safety alignment์ด ์ ์ทจ์ฝํ์ง์ ๋ํ ์ง๊ด์ ์ค๋ช ์ ๊ณต. ์ดํ ์ฐ๊ตฌ(ํนํ ์ด๊ธฐ ํ ํฐ ์ง์ค ํ์)์ ์ด๋ก ์ ์ถ๋ฐ์ .
์ฐ๋ฆฌ ๋ ผ๋ฌธ์ ๋ํ ์์ฌ์ : ์ด ๋ ผ๋ฌธ์ด โalignment์ shallowํ๋คโ๊ณ ์ฃผ์ฅํ๋ค๋ฉด, ์ฐ๋ฆฌ์ early-k ๋ถ์(early_1 AUC 0.696 โ early_5 AUC 0.786)์ ๊ทธ shallow alignment์ด logit space์์ ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ป๊ฒ ๋ํ๋๋์ง, ๊ทธ๋ฆฌ๊ณ ๊ทธ โdepthโ๊ฐ ๋ชจ๋ธ-๊ณต๊ฒฉ ์กฐ๊ฑด๋ง๋ค ๋ค๋ฅด๋ค๋ ๊ฒ์ ์ ๋์ ์ผ๋ก ๋ณด์ฌ์ฃผ๋ ์ฆ๊ฑฐ์ด๋ค.
ยฉ Written by 2betforyou
