남궁훈 카카오 비상대책위원회 재발방지대책 공동 소위원장은 7일 카카오가 개최한 개발자 행사 '이프카카오 데브 2022'에서 기조연설을 통해 이러한 내용을 발표했다. 그는 SK㈜ C&C 데이터센터 화재로 인한 서비스 먹통 사태에 책임을 지고 지난 10월 19일 각자대표 자리에서 물러났다. 이후 약 한 달 반 동안 서비스 장애 재발 방지책을 강구해왔다.
이날 첫 발표자로 나선 남궁 소위원장은 먼저 "이번 소위원회 활동을 통해 (카카오가) 가장 본질을 놓치고 있었다는 것을 깨달았다. 카카오 환경·사회·투명경영(ESG)을 위한 최우선 과제는 '우리 서비스를 안정적으로 제공하는 것' 그 자체였다"고 말했다.
이어 미흡했던 서버 이중화가 서비스 복구 지연의 주요 원인이라고 짚은 뒤 인프라 개선을 위해 △과거 원인 분석 △재발 방지책 △미래 투자 등 크게 3가지 관점에서 실천 과제를 이행해 나가겠다고 강조했다.
주요 인프라를 모두 다중화한다는 방침이다. 대상 인프라는 데이터센터를 비롯해 데이터센터 내 모니터링 시스템과 데이터·서비스, 플랫폼과 운영 도구 등이다. 특히 데이터센터 운영관리 도구는 현재 이중화를 마쳤고 향후 삼중화하겠다는 계획이다. 원활한 서비스를 제공하기 위한 핵심인 메인 백본 센터는 현재 2곳에서 3곳으로 확대한다. 데이터센터 간에 늘어날 트래픽에 대응할 수 있도록 별도 전용 망도 구성하기로 했다.
이날 고 소위원장은 카카오의 인프라 개선 방향을 공유했다. 파트너사와 협력해 업무 연속성 계획(BCP)을 수립하고 이를 통해 자연재해나 사건·사고로 서비스가 중단되는 시간을 줄인다. 재해복구(DR) 체계도 강화한다. 삼중화에 더해 '플러스 알파' 구조로 개선하는 식이다. 추가로 고 소위원장은 "이 모든 것이 무력화되더라도 꼭 단기간 내에 살려야 할 서비스·기능 등을 위해 원격지 DR 데이터센터를 별도 구축하는 방안도 검토 중"이라고 덧붙였다. 카카오는 이러한 인프라 개선을 위해 향후 5년간 투자 금액을 지난 5년에 비해 3배 이상으로 늘릴 방침이다.
카카오는 올해 10·15 데이터센터 화재 이후 서비스 복구가 지연됐던 원인으로 △서버 자동 전환 시스템이 판교 데이터센터 내에만 설치돼 있고 △서비스 개발·관리를 위한 운영 도구에 대한 이중화 조치가 미흡했으며 △장애 복구를 위한 인력·자원 부족, 소통 채널 혼선 등을 꼽았다. 카카오 그룹 차원에서 재해 복구를 전담할 컨트롤타워가 부족했다는 점도 짚었다.
©'5개국어 글로벌 경제신문' 아주경제. 무단전재·재배포 금지