최근 팔로알토 네트웍스의 유닛 42(Unit 42) 연구진이 대형 언어 모델(LLM)의 안전 장치를 우회할 수 있는 새로운 기법인 ’디셉티브 딜라이트(Deceptive Delight)’를 발표했다. 이 기법은 정상적인 대화 흐름 속에 악의적인 지시를 숨겨 넣어 모델을 교묘하게 속이는 방법으로, 평균 64.6%의 성공률을 보이며 세 번의 대화 턴 내에 해로운 콘텐츠를 생성할 수 있는 것으로 나타났다.
이 기법은 기존의 ‘크레셴도(Crescendo)’ 같은 다중 턴 공격과는 달리, 점진적으로 모델을 유도해 유해한 출력을 만들어내는 방식이다. 특히 세 번째 턴에서 악성 출력의 강도와 구체성이 크게 증가하며, 연구 결과에 따르면 두 번째에서 세 번째 턴 사이에 해로움 점수(Harmfulness Score)가 21% 상승하고, 콘텐츠 품질 점수(Quality Score)는 33% 증가한 것으로 확인됐다.
또한 ‘디셉티브 딜라이트’ 기법은 대형 언어 모델이 긴 대화에서 맥락을 유지하는 데 어려움을 겪는 점을 악용한다. 연구진은 “모델은 안전한 콘텐츠와 위험한 콘텐츠가 혼합된 프롬프트를 처리할 때 맥락을 일관되게 평가하는 데 한계를 보인다”고 설명했다. 복잡하거나 긴 문장에서 모델은 안전한 측면을 우선적으로 다루면서, 중요한 위험 요소를 간과하거나 잘못 해석할 수 있다.
유닛 42는 이러한 기법을 테스트하기 위해 8개의 인공지능(AI) 모델에 대해 증오, 괴롭힘, 자해, 성적 콘텐츠, 폭력, 위험 등 6개의 광범위한 범주에 걸쳐 40개의 유해 주제를 사용해 실험을 진행했다. 그 결과, 특히 폭력 카테고리에서 대부분의 모델이 가장 높은 공격 성공률(ASR)을 기록했다.
중국 시안의 시디안 대학(Xidian University)과 360 AI 보안 연구소(360 AI Security Lab)의 연구진도 유사한 기법인 ’컨텍스트 퓨전 어택(Context Fusion Attack, CFA)’을 발표했다. 이 기법은 악의적인 키워드를 무해한 용어로 교체하면서 실제 악성 의도를 숨기는 방식으로, LLM의 맥락을 교묘하게 조작해 안전 장치를 우회할 수 있게 만든다.
이에 대한 대응책으로는 강력한 콘텐츠 필터링 전략을 채택하고, 프롬프트 엔지니어링을 통해 LLM의 내성을 강화하는 것이 제시되었다. 또한 입력 및 출력의 허용 범위를 명확히 정의하는 것도 중요한 대책으로 강조되었다. 하지만 연구진들은 “이번 연구 결과가 AI가 본질적으로 불안전하다는 증거로 해석되어서는 안 된다”고 말하며, 다중 방어 전략의 필요성을 강조했다.
완벽한 방어를 기대하기는 어렵지만, 새롭게 등장하는 연구는 LLM이 ‘패키지 혼란’ 현상에 취약하다는 사실을 밝혀내기도 했다. 이 현상은 개발자들에게 존재하지 않는 패키지를 추천할 가능성이 있으며, 이러한 패키지가 오픈소스 저장소에 악성 코드로 배포될 위험성도 있다. 연구에 따르면 상용 모델에서 평균 5.2%, 오픈소스 모델에서 21.7%의 패키지가 허상으로 생성되는 것으로 나타났으며, 205,474개의 고유한 허상 패키지 이름이 발견됐다.