Проблема на миллион долларов: сколько стоят аварии в ЦОДах

В «Облаках и ЦОДах» мы, с основном, говорим о технологиях, которые так или иначе развивают рынок, меняют его, выводят на новый уровень. Делают дата-центры быстрее, меньше и мощнее. Примеров подобных чудес сегодня масса – от ARM-чипов и жёстких дисков, наполненных гелием, до жидкостного охлаждения и различных уровней программной определяемости. Конечно, большинство новых технологий оказывается удовольствием достаточно дорогим, так что каждый оператор сам для себя решает – в какую часть дата-центра вкладывать больше денег, а в какую меньше. Но на чём точно не стоит экономить, так это на системах, определяющих надежность ЦОДа.

Собственно, средняя надежность российских ЦОДов увеличивается, а время простоя уменьшается. Об этом красноречиво свидетельствуют сертификаты международных институтов, выдаваемых нашим операторам дата-центров. Однако, время простоя или отказа дата-центра – это величина, которую всегда следует закладывать в расходы, причем как операторам ЦОДов, так и клиентам, арендующим что-либо в коммерческой инфраструктуре.

То, что время простоя – наиболее критичный параметр работы ЦОДа и одна из самых больших статей расходов, подтвердили недавно исследователи Emerson Network Power. Они опросили 584 человека, занимающихся в своих компаниях непосредственным управлением дата-центром, и пришли к неутешительным выводам. Деньги, которые ежедневно теряют операторы ЦОДов на простоях – это совершенно немыслимые суммы. Такие цифры, конечно, отрезвляют. Но лишь для того, чтобы понять каким образом их можно уменьшить.

Формально, исследование проводили не специалисты Emerson, а сотрудники Ponemon Institute. Emerson является партнером, который спонсирует это сложное исследование регулярно. Правда, регулярность тут понятие несколько условное – предыдущее исследование «Cost of Data Center Outages» проводилось в 2010 году. С другой стороны, Ponemon Institute потрудились сравнить показатели и отследили как они изменились за прошедшие три года.

Фактически, исследование поделилось на две части. В первой части было опрошено 450 управляющих ЦОДами на предмет частоты происшествий и ключевых причин проблем в дата-центрах. Вторую часть было решено сегментировать несколько иначе – Ponemon проанализировали 67 дата-центров (не менее 200 квадратов полезной площади в каждом), чтобы понять структуру и величину затрат, возникающих при авариях в ЦОДах.

Судя по всему, по мере развития технологий и укрупнения ЦОДов, увеличение расходов, связанных с происшествиями и остановками в дата-центрах, является закономерным. И это, пожалуй, первая плохая новость на сегодня – средняя стоимость минуты простоя в крупном ЦОде выросла на 41% по сравнению с 2010 годом и составляет теперь $7900. Чтобы ощутить, насколько на самом деле велика эта цифра, достаточно узнать, что средней надёжности ЦОД простаивает порядка 119 минут в год, что генерирует потери в $901500. Вдумайтесь только: около миллиона долларов недополученной прибыли в год! Строго говоря, немного меньше миллиона, поскольку в стоимость простоя входит и восстановление, однако это не сильно облегчает проблему. При этом, частичные остановки ЦОДа, то есть аварии на уровне отдельных серверов или стоек прибавляют еще 56 минут ко времени простоя, что запросто добавляет к имеющимся девяти сотням тысяч еще $350400. Конечно, ЦОД уровня TIER IV простаивает не более 24 минут в год (189 600 долларов в пересчете на недополученную прибыль), но приведённые в исследовании цифры являются усреднённым показателем для 67 дата-центров, уровень сертификации которых, увы, не указывается.

Однако, есть и хорошие новости. Цена времени простоя ЦОДов возросла, но вместе с технологическим усовершенствованием их длительность значительно сократилась. Разумеется, большая часть опрошенных отметила, что у них случались аварии за последние два года, с момента прошлого опроса – 91% респондентов отметили те или иные происшествия в ЦОДах. В 2010 году об авариях в ЦОДах сообщили 95% ИТ-профессионалов, а четыре процента в пересчете на доллары США – это весьма немалая сумма, даже в масштабах американского рынка дата-центров.

В среднем, в корпоративных инфраструктурах и у операторов было не менее двух полных отключений ЦОДа, а также порядка шести частичных (на уровне серверов или стоек) и одиннадцати мелких происшествий. С 2010 эти показатели, опять таки, сократились, что не может не радовать. Три года назад Ponemon Institute отчитывался о 2,5 полных отключениях, 7 частичных и 10 мелких происшествиях в ЦОДах исследуемых компаний.

От неприятных цифр переходим к причинам, которые и спровоцировали подобные показатели. Исследователи потрудились пересчитать ключевые причины в денежном выражении, чтобы акцентировать внимание на наиболее опасных и дорогих источниках проблем. Итак, проблемы с ИТ-оборудованием обходятся в среднем в $959000 (здесь и далее имеется в виду «средний чек», то есть сумма недополученной прибыли и расходов на восстановление), последствия кибер-преступлений оцениваются в $882000, провалы систем бесперебойного питания обходятся в $478000, аварии систем охлаждения стоят $517000 в год, перебои в работе генераторов – в $501000, погодно-климатические условия генерируют проблем на $436000, а человеческий фактор на $380000. У названных происшествий тоже есть свои причины, но о них нетрудно догадаться, просто исходя из самих источников проблем. Гораздо более примечателен тот факт, что 83% респондентов сталкивались с каждой из этих проблем за последние два года. При этом, 52% ИТ-профессионалов считают, что большую часть причин из этого списка можно устранить. Вопрос в том, почему же не устраняют?

Причин может быть масса. Одна из них в том, что я уже упомянул – скорость развития технологий. И эта скорость, зачастую, несопоставима с уровнем подготовки специалистов. Да, человеческий фактор находится на последнем месте в списке причин аварий в ЦОДах, однако неисправность оборудования, кибер-преступность, отказ UPS-систем – все это находится в зоне ответственности ИТ-персонала, занимающегося обслуживанием ЦОДа. Как неизбежное зло стоит воспринимать разве что климатические условия – на них мы объективно не можем повлиять. Но все остальное в руках сотрудников ЦОДов, а это значит, что большую часть проблем действительно можно предотвратить.

Говоря о предотвращении потерь, связанных с авариями ЦОДов, замечу, что Ponemon Institute не остался голословным и предложил комплекс мер, посредством которых можно решить существенную часть проблем. Чтобы минимизировать влияние простоя ЦОДа на объём недополученной прибыли, нужно:

Установить доступность ЦОДа как главный приоритет, стоящий превыше стандартных для индустрии установок на сокращение издержек и увеличение энергоэффективности
Изучать и использовать все лучшие практики отрасли по проектированию ЦОДов и способам резервирования данных
Заложить определенный бюджет и человеческий капитал на восстановление в случае назапланированного простоя
Регулярно осуществлять проверку генераторов и коммутационного оборудования, чтобы быть уверенными в наличии аварийного питания
Регулярно тестировать или мониторить состояние UPS-системы
Внедрить процесс управления инфраструктурой ЦОДа (DCIM)

Вот и получается «список на миллион долларов» – если последовать этим советам, то количество аварий значительно сократится, а значит и бюджет останется в компании.

Компьютерра