[CloudFlare] CloudFlare, 502 Bad Gateway 발생하며 사이트 연결 불가해…

CloudFlare 502 Bad Gateway
CloudFlare 502 Bad Gateway

CloudFlare, 502 Bad Gateway 오류 발생

디스코드, 리그오브레전드, 나무위키, 개드립넷 등 많은 CloudFlare 사용하던 사이트 전체 마비…

 

CloudFlare 는 CDN 및 DNS를 호스팅해주는 전세계적인 크기를 자랑하는 호스팅 서비스 이다.

이 서버가 2019년 07월 02일 오후 11시 15분 경에 마비가 되었다.

Major 급 장애로 모든 Region 이 마비가 되었다. 자세한 것은 아래 내용을 참고하자.

 

CDN : Contents Delivery Network 의 약자로 어느 지역, 위치에서든 동일한 파일을 빠르게 다운로드 받을 수 있도록 하는 네트워크

DNS : Domain Name System 의 약자로 blog.supersu.kr 같은 URL 을 가진것을 127.0.0.1 과 같이 숫자로 되어있는 형태 대신에 URL 형태로 받아들일 수 있도록 일종의 host 규칙이 성립되도록 하는 시스템

 

 

왜 마비가 되었나?

CloudFlare Logo
CloudFlare Logo

CloudFlare 측은 CloudFlare 의 서버 상태를 파악할 수 있는 https://cloudflarestatus.com 에서 아래와 같이 발표 하였다.

 

Major outage impacted all Cloudflare services globally. We saw a massive spike in CPU that caused primary and secondary systems to fall over. We shut down the process that was causing the CPU spike. Service restored to normal within ~30 minutes. We’re now investigating the root cause of what happened.

전 세계적으로 대규모의 운영중단이 모든 CloudFlare 서비스에 영향을 미쳤습니다. 우리는 CPU가 크게 증가하여 주 서버 및 보조 서버가 다운 되는 것을 확인했습니다. CPU 가 급상승하는 것을 유발하는 프로세스를 종료하였으며, 30분 이내로 서비스가 정상으로 복원되었습니다. 우리는 이 현상에 대한 원인을 조사하고 있습니다.

LINK : https://www.cloudflarestatus.com/incidents/tx4pgxs6zxdr

CPU 상승이 된 원인이 중국 발 DDoS 라는 얘기가 있던데…

Digital Attack Map DDoS Tracker

Digital Attack Map 에 대한 기록에 따르면 DDoS 공격이 CloudFlare 의 전 Region 마비 시점과 우연찮게 일치하는 것으로 보여 중국 쪽의 DDoS 공격이 아닌 가 하는 의심이 드는것으로 알려져 있다.

 

그럼 Down 된 원인은?

 

This is a short placeholder blog and will be replaced with a full post-mortem and disclosure of what happened today.

For about 30 minutes today, visitors to Cloudflare sites received 502 errors caused by a massive spike in CPU utilization on our network. This CPU spike was caused by a bad software deploy that was rolled back. Once rolled back the service returned to normal operation and all domains using Cloudflare returned to normal traffic levels.

This was not an attack (as some have speculated) and we are incredibly sorry that this incident occurred. Internal teams are meeting as I write performing a full post-mortem to understand how this occurred and how we prevent this from ever occurring again.

이것은 짧은 블로그 글이며 오늘 있었던 사항에 대해 완벽한 사후 분석 및 공개자료로 대체할 것 입니다.

오늘 약 30분 동안, CloudFlare 사이트 방문자들은 네트워크 상의 CPU 사용률이 크게 증가하여 502 오류를 응답받았습니다. 이 CPU 튐 현상은 잘못 롤백된 소프트웨어 배포로 인해 발생하였습니다. 롤백 후, 정상 작동으로 돌아갔으며 CloudFlare 를 사용하는 모든 도메인에 대한 트래픽이 정상화 되었습니다.

이것은 (DDoS) 공격이 아니었고(일부에서 추측한 사항), 우리는 이 사건이 발생했다는 것에 대해 깊은 유감을 표하고 있습니다. 내부 팀원들은 어떻게 이러한 일이 발생했는지, 그리고 우리가 어떻게 이런 일이 다시는 일어나지 않기 위해 추후에 완전히 분석을 하여 안내할 것 입니다.

LINK : https://blog.cloudflare.com/cloudflare-outage/

CloudFlare 의 간단한 공식 블로그 발표에 의하면 CPU 사용률이 매우 높아져서 502 Bad Gateway 오류를 발생시켰으며, 잘못된 소프트웨어 배포에 의해 발생한 것으로 확인되고 있다고 발표했다.

 

다행이도 DDoS 공격은 아니었던것으로 밝혀졌다.

 

영향 받은 사이트는?

대표적으로 CloudFlare 를 사용하는 사이트는 나무위키, 리그오브레전드 홈페이지, 디스코드, 개드립넷 등을 포함한 일부 메이저 / 마이너급 사이트들이었으며, 불법 사이트(An**4, Man****ru 등)등도 해당이 되었을 정도로 모든 영역에 영향이 갔다.

 

끝으로

CloudFlare 를 사용하는 모든 사이트가 영향을 받을 정도로 Major 급 장애 사례를 보았을 때 이러한 사례는 추후 웹 운영이나 서버 운영에 많은 도움이 될 것으로 예상된다.