Posts by Tags

Understanding the Statistical Accuracy-Communication Trade-off in Personalized Federated Learning with Minimax Guarantees, Xin Yu et al., ICML 2025

2 minute read

Reviewed: January 02, 2026

federated-learning paper-review status-in-progress

FL의 중요한 문제점: data heterogeneity(데이터 이질성)

Synthetic Data from Diffusion Models Improves ImageNet Classification, Shekoofeh Azizi et al., TMLR 2023

6 minute read

Reviewed: January 02, 2026

federated-learning paper-review status-in-progress

최근 denoising diffusion probabilistic models(DDPMs)가 GAN과 품질면애서 비교할 수 있는 이미지를 생성하며 학습 중 더 큰 안정성을 제공함.

Communication-Efficient Federated Data Augmentation on Non-IID Data

5 minute read

Reviewed: January 05, 2026

federated-learning importance-high paper-review status-in-progress

Non-IID Dataset 에서 누락된 sample을 생성하기 위해 Conditional Variational AutoEncoder, CVAE를 채택함.

FRAug: Tackling Federated Learning with Non-IID Features via Representation Augmentation, ICCV 2023

6 minute read

Reviewed: January 05, 2026

federated-learning importance-high paper-review status-in-progress

Federated Representation Augmentation, FRAug

Class-Balanced Loss Based on Effective Number of Samples, CVPR 2019

4 minute read

Reviewed: January 24, 2026

federated-learning paper-review status-in-progress

long-tail: skewed distribution, 소수의 지배적인 class가 대부분의 예제를 차지하지만, 다른 대부분의 class는 상대적으로 적은 예제 - 데이터 불균형

Using Synthetic Data for Data Augmentation to Improve Classification Accuracy

less than 1 minute read

Reviewed: January 25, 2026

federated-learning paper-review

요약이 아직 작성되지 않았습니다.

Towards Active Synthetic Data Generation for Fine-tuning Language Models, ICLR 2026

3 minute read

Reviewed: January 26, 2026

federated-learning paper-review

Towards Active Synthetic Data Generation for Finetuning Language Models

Federated Balanced Learning, CVPR 2026

3 minute read

Reviewed: January 26, 2026

federated-learning paper-review

기존 연구들은 Non-IID를 최적화 단계(그래디언트/손실함수 수정)에서 문제를 해결하려 노력함 → Model drift 가 발생된 것을 교정하려는 시도, 근본적 문제(샘플의 불균형)을 해결하는 것이 아님

Balancing Cost and Effectiveness of Synthetic Data Generation Strategies for LLMs, NeurIPS ‘24 Workshop on Fine-Tuning in Modern Machine Learning: Principles and Scalability

Overview image for Balancing Cost and Effectiveness of Synthetic Data Generation Strategies for LLMs, NeurIPS ‘24 Workshop on Fine-Tuning in Modern Machine Learning: Principles and Scalability

3 minute read

Reviewed: January 26, 2026

federated-learning paper-review

Balancing Cost and Effectiveness of Synthetic Data Generation…

Do Generated Data Always Help Contrastive Learning?, ICLR 2024

6 minute read

Reviewed: February 02, 2026

federated-learning paper-review status-in-progress

인용 이유. Federated Balanced Learning에서 합성 데이터와 실제 데이터 간의 비율 또는 균형에 대한 탐색의 예시로 인용. 기존 연구 동향을 제시

Judging LLM-as-judge with MT-Bench and Chatbot Arena, NeurIPS 2024

4 minute read

Reviewed: February 02, 2026

federated-learning paper-review status-in-progress

인용 이유. LLM-as-judge 방식을 활용해 합성 데이터의 난이도 및 품질을 평가하고 데이터를 선별하는 기존의 인기있는 방법을 언급.

Data-Free Knowledge Distillation for Heterogeneous Federated Learning, ICML 2021 PMLR 139

4 minute read

Reviewed: February 07, 2026

federated-learning paper-review status-in-progress

FL의 데이터 이질성 - 일반적으로 비독립적이고 동일하게 분포되지 않은, Non-IID 방식으로 분포되어있어, 본질적으로 편향된 로컬 최적점을 유발함.

Communication-Efficient Federated Data Augmentation on Non-IID Data

5 minute read

Reviewed: January 05, 2026

federated-learning importance-high paper-review status-in-progress

Non-IID Dataset 에서 누락된 sample을 생성하기 위해 Conditional Variational AutoEncoder, CVAE를 채택함.

FRAug: Tackling Federated Learning with Non-IID Features via Representation Augmentation, ICCV 2023

6 minute read

Reviewed: January 05, 2026

federated-learning importance-high paper-review status-in-progress

Federated Representation Augmentation, FRAug

Jailbroken: How Does LLM Safety Training Fail? — Wei et al. (2024), NeurIPS 2023(Oral)

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 NeurIPS 2023 · arXiv:2307.02483 저자: Alexander Wei, Nika Haghtalab, Jacob Steinhardt (UC Berkeley) 우리 논문과의 관계: Type A/B 분류의 이론적 토대. Competing objectives ↔ Type B, mismatched generalization ↔ Type A로 대응시킬 수 있음.

Logit-Gap Steering: Efficient Short-Suffix Jailbreaks for Aligned Large Language Models — Li & Liu (2025), arXiv

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 arXiv:2506.24056 저자: Tung-Ling Li, Hongliang Liu 우리 논문과의 관계: 우리의 $St = \mu{cmp} - \mu{ref}$와 거의 동일한 logit-gap 정의를 공격에 사용. 우리는 진단에 사용. 같은 metric, 반대 목적. “Diagnostic vs. interventional” 구분의 핵심 사례.

Refusal in Language Models Is Mediated by a Single Direction — Arditi et al. (2024), NeurIPS 2024

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 NeurIPS 2024 · arXiv:2406.11717 저자: Andy Arditi, Oscar Obeso, Aaquib Syed, Daniel Paleka, Nina Panickssery, Wes Gurnee, Neel Nanda 우리 논문과의 관계: Representation-level에서의 safety 분석. 우리의 temporal construct validity 실험에서 이 refusal direction과 $St$의 step별 상관을…

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? — Yin et al. (2025), ICLR 2026 Withdrawn Submission

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 arXiv:2510.06036 (ICLR 2026 Withdrawn Submission) 저자: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, et al. 우리 논문과의 관계: 가장 직접적인 “temporal safety” 비교 대상. 그들은 reasoning chain 수준, 우리는 token generation 수준에서 temporal dynamics를…

SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding — Xu et al. (2024), ACL 2024

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 ACL 2024 · arXiv:2402.08983 저자: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Bill Yuchen Lin, Radha Poovendran 우리 논문과의 관계: 우리의 ⁍가 실제 방어 시스템의 trigger로 활용될 수 있는 구체적 예시. SafeDecoding = “how to intervene”, 우리 = “when and where to intervene”.

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! (Shallow Alignment) — Qi et al. (2024), ICLR 2024

Overview image for Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! (Shallow Alignment) — Qi et al. (2024), ICLR 2024

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 ICLR 2024 · arXiv:2310.03693 저자: Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, Peter Henderson 우리 논문과의 관계: early-k 결과의 이론적 근거. “alignment은 shallow하다”는 주장 → 우리가 “얼마나 shallow한지” 정량적 logit-level 증거를 제공.

Llava Guard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models

1 minute read

Reviewed: November 08, 2025

jailbreak-attacks paper-review status-done

VLM(Vision-Language Model): Text 및 Image 생성. Visual and Textual Inputs.

Attention is All You Need

2 minute read

Reviewed: November 11, 2025

jailbreak-attacks paper-review status-in-progress

기존의 방식은 병렬처리가 어려움. 병렬처리가 가능해도, 단어의 위치 정보가 손실됨.

Claude 3.7 Sonnet Systen Card

1 minute read

Reviewed: November 26, 2025

jailbreak-attacks paper-review status-done

거부 및 정책 위반 분류기뿐만 아니라 응답의 유용성을 측정하는 “유용성” 분류기를 사용해 응답을 평가함.

GPT-4 Technical Report

less than 1 minute read

Reviewed: November 26, 2025

jailbreak-attacks paper-review status-done

이전 GPT 모델과 마찬가지로, 인간 피드백을 통한 강화 학습(RLHF, Reinforcement Learning from Human Feedback)을 사용해 produce response better aligned with user’s intent.

The Llama 3 Herd of Models

6 minute read

Reviewed: November 26, 2025

jailbreak-attacks paper-review status-done

Llama 3(.1) 모델의 Technical Report

Jailbroken: How Does LLM Safety Training Fail? — Wei et al. (2024), NeurIPS 2023(Oral)

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 NeurIPS 2023 · arXiv:2307.02483 저자: Alexander Wei, Nika Haghtalab, Jacob Steinhardt (UC Berkeley) 우리 논문과의 관계: Type A/B 분류의 이론적 토대. Competing objectives ↔ Type B, mismatched generalization ↔ Type A로 대응시킬 수 있음.

Logit-Gap Steering: Efficient Short-Suffix Jailbreaks for Aligned Large Language Models — Li & Liu (2025), arXiv

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 arXiv:2506.24056 저자: Tung-Ling Li, Hongliang Liu 우리 논문과의 관계: 우리의 $St = \mu{cmp} - \mu{ref}$와 거의 동일한 logit-gap 정의를 공격에 사용. 우리는 진단에 사용. 같은 metric, 반대 목적. “Diagnostic vs. interventional” 구분의 핵심 사례.

Refusal in Language Models Is Mediated by a Single Direction — Arditi et al. (2024), NeurIPS 2024

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 NeurIPS 2024 · arXiv:2406.11717 저자: Andy Arditi, Oscar Obeso, Aaquib Syed, Daniel Paleka, Nina Panickssery, Wes Gurnee, Neel Nanda 우리 논문과의 관계: Representation-level에서의 safety 분석. 우리의 temporal construct validity 실험에서 이 refusal direction과 $St$의 step별 상관을…

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? — Yin et al. (2025), ICLR 2026 Withdrawn Submission

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 arXiv:2510.06036 (ICLR 2026 Withdrawn Submission) 저자: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, et al. 우리 논문과의 관계: 가장 직접적인 “temporal safety” 비교 대상. 그들은 reasoning chain 수준, 우리는 token generation 수준에서 temporal dynamics를…

SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding — Xu et al. (2024), ACL 2024

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 ACL 2024 · arXiv:2402.08983 저자: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Bill Yuchen Lin, Radha Poovendran 우리 논문과의 관계: 우리의 ⁍가 실제 방어 시스템의 trigger로 활용될 수 있는 구체적 예시. SafeDecoding = “how to intervene”, 우리 = “when and where to intervene”.

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! (Shallow Alignment) — Qi et al. (2024), ICLR 2024

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 ICLR 2024 · arXiv:2310.03693 저자: Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, Peter Henderson 우리 논문과의 관계: early-k 결과의 이론적 근거. “alignment은 shallow하다”는 주장 → 우리가 “얼마나 shallow한지” 정량적 logit-level 증거를 제공.

Llava Guard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models

1 minute read

Reviewed: November 08, 2025

jailbreak-attacks paper-review status-done

VLM(Vision-Language Model): Text 및 Image 생성. Visual and Textual Inputs.

Attention is All You Need

2 minute read

Reviewed: November 11, 2025

jailbreak-attacks paper-review status-in-progress

기존의 방식은 병렬처리가 어려움. 병렬처리가 가능해도, 단어의 위치 정보가 손실됨.

Claude 3.7 Sonnet Systen Card

1 minute read

Reviewed: November 26, 2025

jailbreak-attacks paper-review status-done

거부 및 정책 위반 분류기뿐만 아니라 응답의 유용성을 측정하는 “유용성” 분류기를 사용해 응답을 평가함.

GPT-4 Technical Report

less than 1 minute read

Reviewed: November 26, 2025

jailbreak-attacks paper-review status-done

이전 GPT 모델과 마찬가지로, 인간 피드백을 통한 강화 학습(RLHF, Reinforcement Learning from Human Feedback)을 사용해 produce response better aligned with user’s intent.

The Llama 3 Herd of Models

6 minute read

Reviewed: November 26, 2025

jailbreak-attacks paper-review status-done

Llama 3(.1) 모델의 Technical Report

Understanding the Statistical Accuracy-Communication Trade-off in Personalized Federated Learning with Minimax Guarantees, Xin Yu et al., ICML 2025

2 minute read

Reviewed: January 02, 2026

federated-learning paper-review status-in-progress

FL의 중요한 문제점: data heterogeneity(데이터 이질성)

Synthetic Data from Diffusion Models Improves ImageNet Classification, Shekoofeh Azizi et al., TMLR 2023

6 minute read

Reviewed: January 02, 2026

federated-learning paper-review status-in-progress

최근 denoising diffusion probabilistic models(DDPMs)가 GAN과 품질면애서 비교할 수 있는 이미지를 생성하며 학습 중 더 큰 안정성을 제공함.

Communication-Efficient Federated Data Augmentation on Non-IID Data

5 minute read

Reviewed: January 05, 2026

federated-learning importance-high paper-review status-in-progress

Non-IID Dataset 에서 누락된 sample을 생성하기 위해 Conditional Variational AutoEncoder, CVAE를 채택함.

FRAug: Tackling Federated Learning with Non-IID Features via Representation Augmentation, ICCV 2023

6 minute read

Reviewed: January 05, 2026

federated-learning importance-high paper-review status-in-progress

Federated Representation Augmentation, FRAug

Class-Balanced Loss Based on Effective Number of Samples, CVPR 2019

4 minute read

Reviewed: January 24, 2026

federated-learning paper-review status-in-progress

long-tail: skewed distribution, 소수의 지배적인 class가 대부분의 예제를 차지하지만, 다른 대부분의 class는 상대적으로 적은 예제 - 데이터 불균형

Using Synthetic Data for Data Augmentation to Improve Classification Accuracy

less than 1 minute read

Reviewed: January 25, 2026

federated-learning paper-review

요약이 아직 작성되지 않았습니다.

Towards Active Synthetic Data Generation for Fine-tuning Language Models, ICLR 2026

3 minute read

Reviewed: January 26, 2026

federated-learning paper-review

Towards Active Synthetic Data Generation for Finetuning Language Models

Federated Balanced Learning, CVPR 2026

3 minute read

Reviewed: January 26, 2026

federated-learning paper-review

기존 연구들은 Non-IID를 최적화 단계(그래디언트/손실함수 수정)에서 문제를 해결하려 노력함 → Model drift 가 발생된 것을 교정하려는 시도, 근본적 문제(샘플의 불균형)을 해결하는 것이 아님

Balancing Cost and Effectiveness of Synthetic Data Generation Strategies for LLMs, NeurIPS ‘24 Workshop on Fine-Tuning in Modern Machine Learning: Principles and Scalability

3 minute read

Reviewed: January 26, 2026

federated-learning paper-review

Balancing Cost and Effectiveness of Synthetic Data Generation…

Do Generated Data Always Help Contrastive Learning?, ICLR 2024

6 minute read

Reviewed: February 02, 2026

federated-learning paper-review status-in-progress

인용 이유. Federated Balanced Learning에서 합성 데이터와 실제 데이터 간의 비율 또는 균형에 대한 탐색의 예시로 인용. 기존 연구 동향을 제시

Judging LLM-as-judge with MT-Bench and Chatbot Arena, NeurIPS 2024

4 minute read

Reviewed: February 02, 2026

federated-learning paper-review status-in-progress

인용 이유. LLM-as-judge 방식을 활용해 합성 데이터의 난이도 및 품질을 평가하고 데이터를 선별하는 기존의 인기있는 방법을 언급.

Data-Free Knowledge Distillation for Heterogeneous Federated Learning, ICML 2021 PMLR 139

4 minute read

Reviewed: February 07, 2026

federated-learning paper-review status-in-progress

FL의 데이터 이질성 - 일반적으로 비독립적이고 동일하게 분포되지 않은, Non-IID 방식으로 분포되어있어, 본질적으로 편향된 로컬 최적점을 유발함.

Jailbroken: How Does LLM Safety Training Fail? — Wei et al. (2024), NeurIPS 2023(Oral)

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 NeurIPS 2023 · arXiv:2307.02483 저자: Alexander Wei, Nika Haghtalab, Jacob Steinhardt (UC Berkeley) 우리 논문과의 관계: Type A/B 분류의 이론적 토대. Competing objectives ↔ Type B, mismatched generalization ↔ Type A로 대응시킬 수 있음.

Logit-Gap Steering: Efficient Short-Suffix Jailbreaks for Aligned Large Language Models — Li & Liu (2025), arXiv

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 arXiv:2506.24056 저자: Tung-Ling Li, Hongliang Liu 우리 논문과의 관계: 우리의 $St = \mu{cmp} - \mu{ref}$와 거의 동일한 logit-gap 정의를 공격에 사용. 우리는 진단에 사용. 같은 metric, 반대 목적. “Diagnostic vs. interventional” 구분의 핵심 사례.

Refusal in Language Models Is Mediated by a Single Direction — Arditi et al. (2024), NeurIPS 2024

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 NeurIPS 2024 · arXiv:2406.11717 저자: Andy Arditi, Oscar Obeso, Aaquib Syed, Daniel Paleka, Nina Panickssery, Wes Gurnee, Neel Nanda 우리 논문과의 관계: Representation-level에서의 safety 분석. 우리의 temporal construct validity 실험에서 이 refusal direction과 $St$의 step별 상관을…

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? — Yin et al. (2025), ICLR 2026 Withdrawn Submission

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 arXiv:2510.06036 (ICLR 2026 Withdrawn Submission) 저자: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, et al. 우리 논문과의 관계: 가장 직접적인 “temporal safety” 비교 대상. 그들은 reasoning chain 수준, 우리는 token generation 수준에서 temporal dynamics를…

SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding — Xu et al. (2024), ACL 2024

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 ACL 2024 · arXiv:2402.08983 저자: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Bill Yuchen Lin, Radha Poovendran 우리 논문과의 관계: 우리의 ⁍가 실제 방어 시스템의 trigger로 활용될 수 있는 구체적 예시. SafeDecoding = “how to intervene”, 우리 = “when and where to intervene”.

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! (Shallow Alignment) — Qi et al. (2024), ICLR 2024

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 ICLR 2024 · arXiv:2310.03693 저자: Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, Peter Henderson 우리 논문과의 관계: early-k 결과의 이론적 근거. “alignment은 shallow하다”는 주장 → 우리가 “얼마나 shallow한지” 정량적 logit-level 증거를 제공.

Llava Guard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models

1 minute read

Reviewed: November 08, 2025

jailbreak-attacks paper-review status-done

VLM(Vision-Language Model): Text 및 Image 생성. Visual and Textual Inputs.

Claude 3.7 Sonnet Systen Card

1 minute read

Reviewed: November 26, 2025

jailbreak-attacks paper-review status-done

거부 및 정책 위반 분류기뿐만 아니라 응답의 유용성을 측정하는 “유용성” 분류기를 사용해 응답을 평가함.

GPT-4 Technical Report

less than 1 minute read

Reviewed: November 26, 2025

jailbreak-attacks paper-review status-done

이전 GPT 모델과 마찬가지로, 인간 피드백을 통한 강화 학습(RLHF, Reinforcement Learning from Human Feedback)을 사용해 produce response better aligned with user’s intent.

The Llama 3 Herd of Models

6 minute read

Reviewed: November 26, 2025

jailbreak-attacks paper-review status-done

Llama 3(.1) 모델의 Technical Report

Attention is All You Need

2 minute read

Reviewed: November 11, 2025

jailbreak-attacks paper-review status-in-progress

기존의 방식은 병렬처리가 어려움. 병렬처리가 가능해도, 단어의 위치 정보가 손실됨.

Understanding the Statistical Accuracy-Communication Trade-off in Personalized Federated Learning with Minimax Guarantees, Xin Yu et al., ICML 2025

2 minute read

Reviewed: January 02, 2026

federated-learning paper-review status-in-progress

FL의 중요한 문제점: data heterogeneity(데이터 이질성)

Synthetic Data from Diffusion Models Improves ImageNet Classification, Shekoofeh Azizi et al., TMLR 2023

6 minute read

Reviewed: January 02, 2026

federated-learning paper-review status-in-progress

최근 denoising diffusion probabilistic models(DDPMs)가 GAN과 품질면애서 비교할 수 있는 이미지를 생성하며 학습 중 더 큰 안정성을 제공함.

Communication-Efficient Federated Data Augmentation on Non-IID Data

5 minute read

Reviewed: January 05, 2026

federated-learning importance-high paper-review status-in-progress

Non-IID Dataset 에서 누락된 sample을 생성하기 위해 Conditional Variational AutoEncoder, CVAE를 채택함.

FRAug: Tackling Federated Learning with Non-IID Features via Representation Augmentation, ICCV 2023

6 minute read

Reviewed: January 05, 2026

federated-learning importance-high paper-review status-in-progress

Federated Representation Augmentation, FRAug

Class-Balanced Loss Based on Effective Number of Samples, CVPR 2019

4 minute read

Reviewed: January 24, 2026

federated-learning paper-review status-in-progress

long-tail: skewed distribution, 소수의 지배적인 class가 대부분의 예제를 차지하지만, 다른 대부분의 class는 상대적으로 적은 예제 - 데이터 불균형

Do Generated Data Always Help Contrastive Learning?, ICLR 2024

6 minute read

Reviewed: February 02, 2026

federated-learning paper-review status-in-progress

인용 이유. Federated Balanced Learning에서 합성 데이터와 실제 데이터 간의 비율 또는 균형에 대한 탐색의 예시로 인용. 기존 연구 동향을 제시

Judging LLM-as-judge with MT-Bench and Chatbot Arena, NeurIPS 2024

4 minute read

Reviewed: February 02, 2026

federated-learning paper-review status-in-progress

인용 이유. LLM-as-judge 방식을 활용해 합성 데이터의 난이도 및 품질을 평가하고 데이터를 선별하는 기존의 인기있는 방법을 언급.

Data-Free Knowledge Distillation for Heterogeneous Federated Learning, ICML 2021 PMLR 139

4 minute read

Reviewed: February 07, 2026

federated-learning paper-review status-in-progress

FL의 데이터 이질성 - 일반적으로 비독립적이고 동일하게 분포되지 않은, Non-IID 방식으로 분포되어있어, 본질적으로 편향된 로컬 최적점을 유발함.

Jailbroken: How Does LLM Safety Training Fail? — Wei et al. (2024), NeurIPS 2023(Oral)

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 NeurIPS 2023 · arXiv:2307.02483 저자: Alexander Wei, Nika Haghtalab, Jacob Steinhardt (UC Berkeley) 우리 논문과의 관계: Type A/B 분류의 이론적 토대. Competing objectives ↔ Type B, mismatched generalization ↔ Type A로 대응시킬 수 있음.

Logit-Gap Steering: Efficient Short-Suffix Jailbreaks for Aligned Large Language Models — Li & Liu (2025), arXiv

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 arXiv:2506.24056 저자: Tung-Ling Li, Hongliang Liu 우리 논문과의 관계: 우리의 $St = \mu{cmp} - \mu{ref}$와 거의 동일한 logit-gap 정의를 공격에 사용. 우리는 진단에 사용. 같은 metric, 반대 목적. “Diagnostic vs. interventional” 구분의 핵심 사례.

Refusal in Language Models Is Mediated by a Single Direction — Arditi et al. (2024), NeurIPS 2024

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 NeurIPS 2024 · arXiv:2406.11717 저자: Andy Arditi, Oscar Obeso, Aaquib Syed, Daniel Paleka, Nina Panickssery, Wes Gurnee, Neel Nanda 우리 논문과의 관계: Representation-level에서의 safety 분석. 우리의 temporal construct validity 실험에서 이 refusal direction과 $St$의 step별 상관을…

Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning? — Yin et al. (2025), ICLR 2026 Withdrawn Submission

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 arXiv:2510.06036 (ICLR 2026 Withdrawn Submission) 저자: Qingyu Yin, Chak Tou Leong, Linyi Yang, Wenxuan Huang, Wenjie Li, Xiting Wang, et al. 우리 논문과의 관계: 가장 직접적인 “temporal safety” 비교 대상. 그들은 reasoning chain 수준, 우리는 token generation 수준에서 temporal dynamics를…

SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding — Xu et al. (2024), ACL 2024

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 ACL 2024 · arXiv:2402.08983 저자: Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Bill Yuchen Lin, Radha Poovendran 우리 논문과의 관계: 우리의 ⁍가 실제 방어 시스템의 trigger로 활용될 수 있는 구체적 예시. SafeDecoding = “how to intervene”, 우리 = “when and where to intervene”.

Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! (Shallow Alignment) — Qi et al. (2024), ICLR 2024

4 minute read

Reviewed: February 26, 2026

importance-high llm-safety paper-review status-in-progress

📎 ICLR 2024 · arXiv:2310.03693 저자: Xiangyu Qi, Yi Zeng, Tinghao Xie, Pin-Yu Chen, Ruoxi Jia, Prateek Mittal, Peter Henderson 우리 논문과의 관계: early-k 결과의 이론적 근거. “alignment은 shallow하다”는 주장 → 우리가 “얼마나 shallow한지” 정량적 logit-level 증거를 제공.

Junyoung Park

Posts by Tags

federated-learning

importance-high

jailbreak-attacks

llm-safety

paper-review

status-done

status-in-progress