판교 데이터센터 화재 관련…결함 개선·훈련 고도화 등
이미지 확대보기과기정통부는 이 같은 내용을 포함한 'SK㈜ C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과'를 6일 발표했다.
이번 발표에 따르면 과기정통부는 각 사별로 시정 요구사항을 마련했다. 먼저 SK㈜ C&C에게는 데이터센터 화재 예방과 탐지를 위해 배터리 모니터링 시스템(BMS) 계측정보 등의 관리 강화 방안과 다양한 화재감지 시스템 구축 방안을 수립하도록 했다.
또 데이터센터 전력공급 생존성 확보를 위해 배터리실 내에 전력선을 재배치해 구조적 안정성을 확보하거나 대안 조치를 강구하도록 했다. 또 화재 등 재난 발생시 직접 진입하지 않고 해당 구역의 전력을 차단할 수 있는 방안을 마련해야 한다. 이와 함께 현실적인 재난대응 시나리오와 훈련계획, 모의훈련 실시 결과 등을 제출해야 한다.
SK㈜ C&C 측은 "배터리모니터링 시스템을 포함해 다양한 화재 감지 및 대응 시스템 보강을 적극 검토 중"이라며 "리튬이온 배터리 화재 대응을 위한 별도 장치와 재난 발생 구역의 전력 개별 차단 방안도 준비 중이다"라고 말했다. 또 "배터리실내에 위치한 전력선을 재배치하는 등 구조적 안전성을 확보했고 대형 화재 상황을 고려한 재난대응 시나리오 및 세부 훈련 계획 등도 수립 중"이라고 전했다.
카카오 역시 재난 대비 훈련계획을 수립하고 모의 훈련을 실시해 보고해야 한다. 장애복구를 위한 서비스별 복구 목표를 설정하고 상시 대응조직을 구성한 다음 장애 시나리오별 복구 방안을 수립해야 한다. 이와 함께 복구 체계를 전 단계에 걸쳐 재점검하고 자동화 기능 요소를 발굴하는 등 개선 방안을 마련해야 한다. 또 서비스 장애 발생 시 이용자에게 신속하게 고지할 수 있는 체계를 마련해야 하고 보상계획을 마련해야 한다.
서비스 피해 규모가 크지 않았던 네이버는 서비스별 복구 목표와 장애 시나리오별 복구 방안을 재점검하고 개선방안을 마련해야 한다. 또 데이터센터 전소 등 상황을 가정해 모의훈련을 실시하고 결과를 보고해야한다.
한편 과기정통부는 시정조치와 함께 판교 데이터센터의 화재와 카카오·네이버의 서비스 장애를 분석해 결과를 발표했다. SK㈜ C&C의 경우 배터리실 화재 발생 직전 BMS가 있었으나 이상징후가 감지되지 않았다.
또 리튬이온 배터리와 UPS 일부가 완전히 분리돼있지 않아 UPS의 작동이 중지됐고 일부 전원공급도 차단됐다. 특히 과기정통부는 SK㈜ C&C가 2016년 리튬이온배터리 설치 이후 현재까지 특화된 방화조치를 한 바가 없다고 설명했다.
이로 인해 화재가 커지면서 살수차를 통한 화재진압이 불가피해진 가운데 누전으로 인한 2차 피해가 우려된 만큼 불가피하게 전원을 차단하면서 입주사인 카카오와 네이버의 서비스 장애가 발생했다.
카카오는 서비스 기능을 5개의 레이어로 구분하고 이중화를 마쳤으나 화재 직후 스탠바이 시스템이 제대로 작동하지 않았다. 스탠바이 서버를 작동하기 위한 권한관리 기능인 '운영 및 관리도구'가 판교 데이터센터 내에서만 이중화돼있을 뿐 타 데이터센터에 이중화되어있지 않아, 판교 데이터센터의 서버 작동 불능 시 서비스 장애 복구가 지연됐다는 게 과기정통부 설명이다.
또 카카오는 카카오톡과 다음 포털 등 주요 서비스가 판교 데이터센터에 집중돼있어 피해 규모가 컸다. 특히 카카오인증 등 핵심 기능이 판교 데이터센터에 집중돼 카카오의 주요 서비스에 대한 전방위 장애로 확대됐다.
이 밖에 카카오는 장애 전 단계에 따른 기본 프로세스를 정의하고 있으나 체계화 및 자동화가 미흡했다고 과기정통부는 밝혔다. 재난대비훈련도 진행 중이긴 했으나 이번 화재사고처럼 1개 데이터센터가 완전히 마비될 경우에 대해서는 대비가 부족했다.
카카오와 달리 네이버는 데이터센터 간 이중화 조치를 해 서비스 중단 영향이 크지 않았으나 다른 데이터센터로 전환하는 과정에서 네이버쇼핑과 뉴스, 파파고 등 일부 서비스의 오류가 있었다.
여용준 글로벌이코노믹 기자 dd0930@g-enews.com
































