지난 6월 27일, 클라우드플레어(Cloudflare)의 DNS 리졸버 서비스인 1.1.1.1이 BGP(Border Gateway Protocol) 하이재킹 사건과 경로 유출로 인해 장애를 겪었다.
이 기술적 문제는 상당히 복잡했으나, 70개국 300개의 네트워크에 영향을 미친 것에 비해 전반적인 영향은 비교적 낮았다고 평가되었다. 사건의 세부 내용, 그 영향 및 재발 방지 조치에 대해 자세히 살펴보겠다.
브라질 기반 통신사 ‘Eletronet S.A.’이 1.1.1.1/32 IP 주소를 잘못 광고하기 시작했다. 이 잘못된 광고는 여러 네트워크, 특히 Tier 1 공급자에게 수용되어 1.1.1.1 DNS 리졸버로 향하는 트래픽이 블랙홀에 빠지게 하여 서비스가 일부 사용자에게 제공되지 못하게 되었다. 1.1.1.1/32 경로의 특이성으로 인해 BGP 라우터들이 클라우드플레어의 합법적인 1.1.1.0/24 경로보다 더 매력적으로 여기게 된 것이 원인이었다.
불과 1분 후, Nova Rede de Telecomunicações Ltda (AS262504)이 1.1.1.0/24 경로를 상위 AS1031에 유출시켜 문제를 더욱 확산시켰다. 이 경로 유출은 정상적인 BGP 라우팅 경로를 방해하여 추가적인 연결 문제와 지연을 초래했다.
이번 하이재킹과 경로 유출 사건은 다양한 영향을 미쳤다. 일부 사용자는 1.1.1.1에 전혀 접근할 수 없었고, 다른 일부 사용자는 큰 지연을 겪었다. 특히 미국과 독일에서 발생한 트래픽이 브라질로 잘못 라우팅되었다.
클라우드플레어 엔지니어들은 저녁 6월 27일 8시경 문제를 식별하고 대응에 나섰다. 문제의 네트워크와의 피어링 세션을 비활성화하고 관련 네트워크와 협력하여 약 2시간 만에 하이재킹 문제를 해결했다. 경로 유출 문제는 다음날 새벽 2시경 완전히 해결되었다.
이번 사건에 대한 클라우드플레어 대응은 강력한 라우팅 보안 조치의 중요성을 강조한다. 특히, Resource Public Key Infrastructure(RPKI)의 도입이 큰 역할을 했다. RPKI를 통해 네트워크는 BGP 경로 광고의 정당성을 암호학적으로 검증하여 잘못된 경로의 수용을 방지할 수 있었다.
향후 클라우드플레어는 BGP 보안을 강화하기 위해 다음과 같은 장기 전략을 제시했다:
-경로 유출 감지 시스템 강화: 더 많은 데이터 소스를 통합하고 실시간 데이터 포인트를 통합하여 경로 유출을 더 효과적으로 감지할 계획이다.
-RPKI 도입 촉진: Route Origin Validation(ROV)을 위한 RPKI의 광범위한 도입을 장려하고 있다.
-MANRS 원칙 구현: 유효하지 않은 접두사 길이를 거부하고 강력한 필터링 메커니즘을 적용하는 MANRS 원칙을 도입하고 있다.
-긴 접두사 거부 권장: Default-Free Zone (DFZ)에서 24보다 긴 IPv4 접두사를 거부하도록 네트워크에 권장하고 있다.
-ASPA 객체 배포: BGP 광고의 AS 경로를 검증하는 데 사용되는 ASPA 객체의 배포를 촉진하고 있다.
-RFC9234 및 Discard Origin Authorization(DOA) 구현 탐색: BGP 경로 광고의 유효성을 검증하고 권한을 부여하는 이러한 조치를 탐구하고 있다.
클라우드플레어 DNS 장애 사건은 BGP 라우팅 시스템의 취약성을 여실히 드러낸다. 이번 사건은 빠르게 해결되었고 영향도 제한적이었지만, RPKI와 MANRS 원칙과 같은 보안 조치의 채택이 얼마나 중요한지 다시 한번 상기시켜 준다. 인터넷 인프라가 계속 발전함에 따라, 이러한 사건들은 글로벌 연결성을 뒷받침하는 프로토콜을 보호하는 것이 얼마나 중요한지 보여준 좋은 사례다..
★정보보안 대표 미디어 데일리시큐 / Dailysecu, Korea's leading security media!★