Проблема на миллион долларов: сколько стоят аварии в ЦОДах

В «Облаках и ЦОДах» мы, с основном, говорим о технологиях, которые так или иначе развивают рынок, меняют его, выводят на новый уровень. Делают дата-центры быстрее, меньше и мощнее. Примеров подобных чудес сегодня масса – от ARM-чипов и жёстких дисков, наполненных гелием, до жидкостного охлаждения и различных уровней программной определяемости. Конечно, большинство новых технологий оказывается удовольствием достаточно дорогим, так что каждый оператор сам для себя решает – в какую часть дата-центра вкладывать больше денег, а в какую меньше. Но на чём точно не стоит экономить, так это на системах, определяющих надежность ЦОДа.

trouble1

Собственно, средняя надежность российских ЦОДов увеличивается, а время простоя уменьшается. Об этом красноречиво свидетельствуют сертификаты международных институтов, выдаваемых нашим операторам дата-центров. Однако, время простоя или отказа дата-центра – это величина, которую всегда следует закладывать в расходы, причем как операторам ЦОДов, так и клиентам, арендующим что-либо в коммерческой инфраструктуре.

То, что время простоя – наиболее критичный параметр работы ЦОДа и одна из самых больших статей расходов, подтвердили недавно исследователи Emerson Network Power. Они опросили 584 человека, занимающихся в своих компаниях непосредственным управлением дата-центром, и пришли к неутешительным выводам. Деньги, которые ежедневно теряют операторы ЦОДов на простоях – это совершенно немыслимые суммы. Такие цифры, конечно, отрезвляют. Но лишь для того, чтобы понять каким образом их можно уменьшить.

Формально, исследование проводили не специалисты Emerson, а сотрудники Ponemon Institute. Emerson является партнером, который спонсирует это сложное исследование регулярно. Правда, регулярность тут понятие несколько условное – предыдущее исследование «Cost of Data Center Outages» проводилось в 2010 году. С другой стороны, Ponemon Institute потрудились сравнить показатели и отследили как они изменились за прошедшие три года. 

Фактически, исследование поделилось на две части. В первой части было опрошено 450 управляющих ЦОДами на предмет частоты происшествий и ключевых причин проблем в дата-центрах. Вторую часть было решено сегментировать несколько иначе – Ponemon проанализировали 67 дата-центров (не менее 200 квадратов полезной площади в каждом), чтобы понять структуру и величину затрат, возникающих при авариях в ЦОДах.

trouble2

Судя по всему, по мере развития технологий и укрупнения ЦОДов, увеличение расходов, связанных с происшествиями и остановками в дата-центрах, является закономерным. И это, пожалуй, первая плохая новость на сегодня – средняя стоимость минуты простоя в крупном ЦОде выросла на 41% по сравнению с 2010 годом и составляет теперь $7900. Чтобы ощутить, насколько на самом деле велика эта цифра, достаточно узнать, что средней надёжности ЦОД простаивает порядка 119 минут в год, что генерирует потери в $901500. Вдумайтесь только: около миллиона долларов недополученной прибыли в год! Строго говоря, немного меньше миллиона, поскольку в стоимость простоя входит и восстановление, однако это не сильно облегчает проблему. При этом, частичные остановки ЦОДа, то есть аварии на уровне отдельных серверов или стоек прибавляют еще 56 минут ко времени простоя, что запросто добавляет к имеющимся девяти сотням тысяч еще $350400. Конечно, ЦОД уровня TIER IV простаивает не более 24 минут в год (189 600 долларов в пересчете на недополученную прибыль), но приведённые в исследовании цифры являются усреднённым показателем для 67 дата-центров, уровень сертификации которых, увы, не указывается.

Однако, есть и хорошие новости. Цена времени простоя ЦОДов возросла, но вместе с технологическим усовершенствованием их длительность значительно сократилась. Разумеется, большая часть опрошенных отметила, что у них случались аварии за последние два года, с момента прошлого опроса – 91% респондентов отметили те или иные происшествия в ЦОДах. В 2010 году об авариях в ЦОДах сообщили 95% ИТ-профессионалов, а четыре процента в пересчете на доллары США – это весьма немалая сумма, даже в масштабах американского рынка дата-центров.

В среднем, в корпоративных инфраструктурах и у операторов было не менее двух полных отключений ЦОДа, а также порядка шести частичных (на уровне серверов или стоек) и одиннадцати мелких происшествий. С 2010 эти показатели, опять таки, сократились, что не может не радовать. Три года назад Ponemon Institute отчитывался о 2,5 полных отключениях, 7 частичных и 10 мелких происшествиях в ЦОДах исследуемых компаний.

От неприятных цифр переходим к причинам, которые и спровоцировали подобные показатели. Исследователи потрудились пересчитать ключевые причины в денежном выражении, чтобы акцентировать внимание на наиболее опасных и дорогих источниках проблем. Итак, проблемы с ИТ-оборудованием обходятся в среднем в $959000 (здесь и далее имеется в виду «средний чек», то есть сумма недополученной прибыли и расходов на восстановление), последствия кибер-преступлений оцениваются в $882000, провалы систем бесперебойного питания обходятся в $478000, аварии систем охлаждения стоят $517000 в год, перебои в работе генераторов – в $501000, погодно-климатические условия генерируют проблем на $436000, а человеческий фактор на $380000. У названных происшествий тоже есть свои причины, но о них нетрудно догадаться, просто исходя из самих источников проблем. Гораздо более примечателен тот факт, что 83% респондентов сталкивались с каждой из этих проблем за последние два года. При этом, 52% ИТ-профессионалов считают, что большую часть причин из этого списка можно устранить. Вопрос в том, почему же не устраняют?

trouble3

Причин может быть масса. Одна из них в том, что я уже упомянул – скорость развития технологий. И эта скорость, зачастую, несопоставима с уровнем подготовки специалистов. Да, человеческий фактор находится на последнем месте в списке причин аварий в ЦОДах, однако неисправность оборудования, кибер-преступность, отказ UPS-систем – все это находится в зоне ответственности ИТ-персонала, занимающегося обслуживанием ЦОДа. Как неизбежное зло стоит воспринимать разве что климатические условия – на них мы объективно не можем повлиять. Но все остальное в руках сотрудников ЦОДов, а это значит, что большую часть проблем действительно можно предотвратить.

Говоря о предотвращении потерь, связанных с авариями ЦОДов, замечу, что Ponemon Institute не остался голословным и предложил комплекс мер, посредством которых можно решить существенную часть проблем. Чтобы минимизировать влияние простоя ЦОДа на объём недополученной прибыли, нужно:

  • Установить доступность ЦОДа как главный приоритет, стоящий превыше стандартных для индустрии установок на сокращение издержек и увеличение энергоэффективности
  • Изучать и использовать все лучшие практики отрасли по проектированию ЦОДов и способам резервирования данных
  • Заложить определенный бюджет и человеческий капитал на восстановление в случае назапланированного простоя
  • Регулярно осуществлять проверку генераторов и коммутационного оборудования, чтобы быть уверенными в наличии аварийного питания
  • Регулярно тестировать или мониторить состояние UPS-системы
  • Внедрить процесс управления инфраструктурой ЦОДа (DCIM)

Вот и получается «список на миллион долларов» – если последовать этим советам, то количество аварий значительно сократится, а значит и бюджет останется в компании.








Интересные новости
Дети обмениваются порно-фото и выкладывают их в Сеть, а взрослые не понимают Интернет-слэнг
Марк Цукерберг раскритиковал "Социальную сеть"
Американских игроков начали сажать
1го апреля один из сайтов дошутился: на него подают в суд
Масоны онлайн
Блок рекламы


Похожие новости

Axios: Як Google намагається протистояти у сфері ШІ компаніям Microsoft та OpenAIAxios: Як Google намагається протистояти у сфері ШІ компаніям Microsoft та OpenAI
США предложили вознаграждение до 10 млн долларов за информацию о хакерах из РФСША предложили вознаграждение до 10 млн долларов за информацию о хакерах из РФ
Суд в РоSSии оштрафовал Google на 11 миллионов рублей за «фейки» о войне в УкраинеСуд в РоSSии оштрафовал Google на 11 миллионов рублей за «фейки» о войне в Украине
РоSSия тратит на кибератаки десятки миллионов долларов в день – ФедоровРоSSия тратит на кибератаки десятки миллионов долларов в день – Федоров
NFT-маркетплейс OpenSea возместил почти $2 миллиона пользователям из-за ошибки сервисаNFT-маркетплейс OpenSea возместил почти $2 миллиона пользователям из-за ошибки сервиса
За прошлый год мошенники в соцсетях обманули американцев на $770 миллионовЗа прошлый год мошенники в соцсетях обманули американцев на $770 миллионов
За атакой на правительственные сайты стоят хакеры, связанные с разведкой Беларуси, – СНБОЗа атакой на правительственные сайты стоят хакеры, связанные с разведкой Беларуси, – СНБО
СБУ разоблачила украинских хакеров, обокравших 50 иностранных компаний на миллион долларовСБУ разоблачила украинских хакеров, обокравших 50 иностранных компаний на миллион долларов
С Microsoft Exchange случилась «проблема 2022 года», похожая на «проблему 2000»С Microsoft Exchange случилась «проблема 2022 года», похожая на «проблему 2000»
Сколько будет зарабатывать новый гендиректор Twitter
Последние новости

Подгружаем последние новости