Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? โ Yin et al. (2025), ICLR 2026 Withdrawn Submission

Reviewed:
๐ arXiv:2510.06036 (ICLR 2026 Withdrawn Submission) ์ ์: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, et al. ์ฐ๋ฆฌ ๋ ผ๋ฌธ๊ณผ์ ๊ด๊ณ: ๊ฐ์ฅ ์ง์ ์ ์ธ โtemporal safetyโ ๋น๊ต ๋์. ๊ทธ๋ค์ reasoning chain ์์ค, ์ฐ๋ฆฌ๋ token generation ์์ค์์ temporal dynamics๋ฅผ ๋ถ์. ์ฐ๋ฆฌ์ โ์ sign reversal์ด ์ด๋ค์ โcliffโ ํ์์ token-level ๋์๋ฌผ.
I. Introduction
๋ ผ๋ฌธ Introduction ์์ฝ
Large Reasoning Models (LRMs) โ DeepSeek-R1, QwQ, Phi-4-Reasoning ๋ฑ multi-step reasoning ๋ฅ๋ ฅ์ ๊ฐ์ถ ์ต์ ๋ชจ๋ธ๋ค โ ์ด ๋ฐ์ด๋ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ์ฌ๊ฐํ safety ์ทจ์ฝ์ ์ด ์กด์ฌํ๋ค. ๊ทธ๋ฌ๋ ์ด ์ทจ์ฝ์ ์ด ์ ๋ฐ์ํ๋์ง๋ ์ ์ดํด๋์ง ์๊ณ ์์๋ค.
์ด ๋ ผ๋ฌธ์ ํต์ฌ ๋ฐ๊ฒฌ: โRefusal Cliffโ โ ๋ง์ poorly-aligned reasoning model๋ค์ด thinking process ๋์์๋ harmful prompt๋ฅผ ์ ํํ ์๋ณํ๊ณ ๊ฐํ refusal intention์ ์ ์งํ์ง๋ง, ์ถ๋ ฅ ์์ฑ ์ง์ ์ ๋ง์ง๋ง ํ ํฐ๋ค์์ refusal score๊ฐ ๊ธ๊ฒฉํ ๋จ์ด์ง๋ ํ์.
์ฆ, ์ด ๋ชจ๋ธ๋ค์ด โ๋ณธ์ง์ ์ผ๋ก unsafeโํ ๊ฒ์ด ์๋๋ผ, ๋ด๋ถ์ ์ผ๋ก๋ ๊ฑฐ๋ถ ์๋๋ฅผ ๊ฐ๊ณ ์๋๋ฐ ๊ทธ ์๋๊ฐ ์ฒด๊ณ์ ์ผ๋ก ์ต์ (suppressed)๋๊ณ ์๋ค๋ ๊ฒ์ด๋ค.
์ด ๋ฐ๊ฒฌ์ด ์ค์ํ ์ด์ : safety alignment์ ์คํจ๊ฐ โ๋ชจ๋ธ์ด ์ ํดํจ์ ์ธ์ํ์ง ๋ชปํด์โ๊ฐ ์๋๋ผ โ์ธ์์ ํ์ง๋ง ๊ทธ ์ธ์์ด ์ถ๋ ฅ์ผ๋ก ์ด์ด์ง์ง ์์์โ๋ผ๋ ์ .
โ ์ด๋ ๋ฐฉ์ด ์ ๋ต์ ๋ฐฉํฅ์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ฐ๊ฟ์ผ ํจ์ ์์ฌํ๋ค.
II. Proposed Method
์ฌ์ฉํ / ์ ์๋ ๊ธฐ๋ฒ, ์๊ณ ๋ฆฌ์ฆ ๋ฑ ์์ฝ
Linear Probing์ผ๋ก Refusal Intention ์ถ์
Refusal Prober: Logistic regression ๋ชจ๋ธ์ ํ์ตํ์ฌ, ๋ชจ๋ธ์ hidden state โ์์ refusal ํ๋ฅ ์ ์์ธก:
โ
ํ์ต ๋ฐ์ดํฐ: AdvBench (refusal examples) + UltraChat (non-refusal examples)
๋ง์ง๋ง layer์ ๋ง์ง๋ง ํ ํฐ ์์น์์ hidden state ์ถ์ถํ์ฌ ํ์ต
์ด prober๋ฅผ ๋ชจ๋ ํ ํฐ ์์น์ ์ ์ฉํ์ฌ, reasoning chain ์ ์ฒด์ ๊ฑธ์น refusal intention trajectory๋ฅผ ์ถ์
Refusal Cliff ์ ๋ํ
Misalignment Score (MS): ๊ฐ ํ์ต ์์ โ์ ๋ํด, ๋ด๋ถ refusal intention์ ์ต๋๊ฐ(plateau score โ)๊ณผ ์ค์ ์ถ๋ ฅ ์ง์ ์ refusal score(โ)์ ์ฐจ์ด:
โ
โ๊ฐ ๋์์๋ก โ ๋ด๋ถ์ ์ผ๋ก๋ refusal์ โ์ํ์ง๋งโ ์ถ๋ ฅ์์๋ ์ต์ ๋ ๊ฒ.
Causal Intervention Analysis
์ด๋ค attention head๊ฐ refusal intention์ ์ต์ ํ๋์ง ์๋ณ:
๊ฐ๋ณ attention head๋ฅผ ablate/activateํ์ฌ refusal score ๋ณํ ์ธก์
์์์ attention head๊ฐ refusal behavior์ ๋ถ์ ์ ์ผ๋ก ๊ธฐ์ฌํจ์ ๋ฐ๊ฒฌ โ โsafety-suppressing headsโ
Cliff-as-a-Judge (๋ฐ์ดํฐ ์ ํ)
โ๋ฅผ ํ์ฉํ ์์ ํ์ต ๋ฐ์ดํฐ ์ ํ ๋ฐฉ๋ฒ:
โ๊ฐ ๊ฐ์ฅ ๋์ ์์ = ๋ชจ๋ธ์ด ๊ฐ์ฅ ๋ง์ด โ์ต์ โํ๋ ๊ฒฝ์ฐ = ๊ฐ์ฅ informativeํ ์์ ํ์ต ๋ฐ์ดํฐ
์ต์ subset โ ์ ํ: โ๊ฐ ๋์ โ๊ฐ ์์๋ฅผ ์ ํํ์ฌ fine-tuning
III. Results and Discussion
๋ ผ๋ฌธ์ ์ ์๋ ๊ฒฐ๊ณผ๋ฌผ ๋ฐ ๊ณ ์ฐฐ์ ์์ฝ
i) Results
Refusal Cliff ํ์ ํ์ธ:
QwQ, Skywork-OR1, Hermes4 ๋ฑ ์ฌ๋ฌ reasoning model์์ ์ผ๊ด๋๊ฒ ๊ด์ฐฐ.
Thinking process ๋์ refusal score๊ฐ ๋์ plateau๋ฅผ ์ ์ง (๋ชจ๋ธ์ด ๋ด๋ถ์ ์ผ๋ก โ์ด๊ฑด ์ํํ๋คโ๊ณ ์ธ์).
Output ์์ฑ ์ง์ ํ ํฐ๋ค์์ refusal score๊ฐ ๊ธ๊ฒฉํ ํ๋ฝ (cliff).
์ aligned๋ ๋ชจ๋ธ(์: Qwen3-Thinking)์์๋ cliff๊ฐ ๊ด์ฐฐ๋์ง ์์ โ cliff๊ฐ misalignment์ ์งํ.
Causal Intervention ๊ฒฐ๊ณผ:
Sparseํ attention head ์ธํธ๊ฐ refusal suppression์ ์ฑ ์.
์ด head๋ค์ ablateํ๋ฉด refusal์ด ํ๋ณต๋จ โ suppression mechanism์ด localizable.
Cliff-as-a-Judge ๋ฐ์ดํฐ ์ ํ ํจ๊ณผ:
์ ์ฒด 40K ๋ฐ์ดํฐ ์ค ๋จ 700๊ฐ (1.7%)๋ง์ผ๋ก comparableํ safety performance ๋ฌ์ฑ.
Rule-based ์ ํ์ 21,566๊ฐ (-46.1%) ํ์, LLM-as-a-judge๋ 5,616๊ฐ (-86.0%) ํ์.
JailbreakBench, WildJailbreak ๋ฑ์์ ASR 5% ์ดํ ๋ฌ์ฑ.
MMLU-Pro, ARC-C์์ reasoning capability ๋ณด์กด โ safety-reasoning trade-off ์ต์ํ.
ii) Discussion
โ๋ชจ๋ธ์ ์๋ค, ํ์ง๋ง ๋งํ์ง ์๋๋คโ: Refusal cliff์ ๊ฐ์ฅ ์ค์ํ ํจ์. Safety alignment ์คํจ์ ์์ธ์ด โ๋ชจ๋ธ์ด ์ ํดํจ์ ์ธ์ํ์ง ๋ชปํด์โ๊ฐ ์๋๋ผ, ์ธ์์ ์ถ๋ ฅ์ผ๋ก ๋ฒ์ญํ๋ ๊ณผ์ ์์ suppression์ด ๋ฐ์ํ๋ค๋ ๊ฒ. ์ด๋ ๋ฐฉ์ด ์ ๊ทผ์ โ๋ ๋ง์ ์์ ํ์ตโ์์ โsuppression ๋ฉ์ปค๋์ฆ ์ ๊ฑฐโ๋ก ๋ฐ๊ฟ์ผ ํจ์ ์์ฌ.
Reasoning chain ์์ค์ temporal dynamics: ๊ธฐ์กด token-level temporal ๋ถ์(์ฐ๋ฆฌ ๋ ผ๋ฌธ ํฌํจ)๊ณผ ๋ค๋ฅธ granularity์์์ temporal ๊ด์ฐฐ. Reasoning model์์๋ ์๋ฐฑ~์์ฒ ํ ํฐ์ thinking chain์ด ์์ผ๋ฏ๋ก, ๊ทธ chain ์ ์ฒด์ ๊ฑธ์น refusal intention์ ์งํ๋ฅผ ๋ณผ ์ ์์.
Less-is-more effect: ๊ฐ์ฅ informativeํ ์์์ ์์๋ง์ผ๋ก๋ ํจ๊ณผ์ ์ธ safety alignment์ด ๊ฐ๋ฅ. ์ด๋ ๋ฐ์ดํฐ ํ์ง > ์์ด๋ผ๋ ์ผ๋ฐ์ ์ธ ๊ด์ฐฐ๊ณผ ์ผ์นํ์ง๋ง, โ๋ผ๋ ๊ตฌ์ฒด์ ์ธ metric์ผ๋ก ์ ๋ํ.
ํ๊ณ:
Reasoning model (LRM)์๋ง ์ ์ฉ. ์ผ๋ฐ chat model์์๋ thinking chain์ด ์์ผ๋ฏ๋ก cliff ํ์ ์์ฒด๊ฐ ๋ค๋ฅธ ํํ๋ก ๋ํ๋ ์ ์์.
Linear probing์ด refusal intention์ ์์ ํ ํํ์ธ์ง๋ ๋ถํ์ค.
ICLR 2026์์ withdrawn โ review ๊ณผ์ ์์์ ๊ตฌ์ฒด์ ํ๊ณ์ ๋ฏธ๊ณต๊ฐ.
IV. Summary
์ต์ข ์์ฝ ์ ๋ฆฌ
์ด ๋ ผ๋ฌธ์ ํต์ฌ ๊ธฐ์ฌ:
Refusal Cliff ํ์ ๋ฐ๊ฒฌ: Reasoning model์ด ๋ด๋ถ์ ์ผ๋ก ๊ฑฐ๋ถ ์๋๋ฅผ ์ ์งํ๋ฉด์๋ ์ถ๋ ฅ ์ง์ ์ ๊ธ๊ฒฉํ ์ต์ ๋๋ ํ์. Safety ์คํจ์ ์๋ก์ด ๋ฉ์ปค๋์ฆ ์ ์.
Causal mechanism ์๋ณ: ์์์ attention head๊ฐ refusal suppression์ ์ฑ ์. ์ด head๋ค์ ์ ๊ฑฐํ๋ฉด refusal ํ๋ณต ๊ฐ๋ฅ.
Cliff-as-a-Judge: โ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์ ํ์ผ๋ก, 1.7% ๋ฐ์ดํฐ๋ง์ผ๋ก ํจ๊ณผ์ ์ธ safety alignment ๋ฌ์ฑ.
์ฐ๋ฆฌ ๋ ผ๋ฌธ์ ๋ํ ์์ฌ์ :
Granularity ์ฐจ์ด: ๊ทธ๋ค์ reasoning chain ์์ค(์๋ฐฑ ํ ํฐ), ์ฐ๋ฆฌ๋ token generation ์์ค(~60 ํ ํฐ). ๊ฐ์ โsafety is temporalโ ๊ด์ฐฐ์ด์ง๋ง ์๋ก ๋ค๋ฅธ scale.
โ์ cliff์ ๋์: ์ฐ๋ฆฌ์ โ (safety activation์ด ์ผ์ง๋ ์์ )์ ๊ทธ๋ค์ cliff (safety๊ฐ ๊บผ์ง๋ ์์ )๋ ๊ฐ์ ํ์์ ๋ฐ๋ ๋ฐฉํฅ. ์ฐ๋ฆฌ๋ โ์ธ์ ์์ ์ด ์ผ์ง๋๊ฐโ, ๊ทธ๋ค์ โ์ธ์ ์์ ์ด ๊บผ์ง๋๊ฐโ.
Sign reversal๊ณผ cliff: ์ฐ๋ฆฌ์ sign reversal (โ, ์คํจํ jailbreak์ 44.3%)์ด token-level์์์ mini-cliff์ ํด๋น.
ํฌ์ง์ ๋: ์ฐ๋ฆฌ ๋ ผ๋ฌธ์ ์ผ๋ฐ chat model์ token-level temporal diagnostic, ์ด ๋ ผ๋ฌธ์ reasoning model์ chain-level temporal analysis. ์ํธ๋ณด์์ ์ด๋ฉฐ, โsafety as a temporal processโ ์ฐ๊ตฌ ํ๋ฆ์ ์๋ก ๋ค๋ฅธ ๊ธฐ์ฌ.
ยฉ Written by 2betforyou
