Попробуйте представить мир, в котором ЦОДы перестали работать – это хаос, вы не можете вызвать такси через электронное приложение, не можете заплатить картой или снять с нее деньги, пропускная система при входе на работу внезапно отказывает в доступе, и вы даже не можете записаться к врачу.

ЦОДы сегодня – это основа цифровой цивилизации, они хранят и обрабатывают критичные для всего общества данные. Когда даже на 15 мин останавливаются банковские транзакции, сервисы бронирования или онлайн-мессенджеры, информация об этом сразу попадает в топы новостей.

Попробуйте представить мир, в котором ЦОДы перестали работать – это хаос, вы не можете вызвать такси через электронное приложение, не можете заплатить картой или снять с нее деньги, пропускная система при входе на работу внезапно отказывает в доступе, и вы даже не можете записаться к врачу.

Что делают ЦОДы для того, чтобы обеспечить максимальную доступность своей работы? Рассказывает Андрей Захаров, директор по продуктам и инновациям компании Linxdatacenter.

**

«Самый страшный звук в серверной – тишина»

Главная опасность, которая грозит остановкой работы ЦОД, – это перебои в электропитании. Сегодня подавляющее большинство ЦОДов в России подключаются к городским электросетям, то есть за энергопитание отвечает внешний подрядчик. Аварии на подстанциях, генерирующих станциях и ЛЭП – это данность в российских условиях, в среднемотключения в крупных городах происходят один-два раза в год. Поэтому каждый серьезный ЦОД имеет резервную систему электропитания и обладает запасом энергопрочности.

Резервная схема энергопитания, как правило, состоит из двух основных компонентов. Первый -это источники бесперебойного питания (ИБП) с ёмкими аккумуляторами, и позволяющие обеспечить непрерывное или бесшовное переключение на резервную схему (от 1 до 15 минут нагрузки). Все видели домашние и офисные ИБП. В ЦОД применяются похожие, только размером с большой гардеробный шкаф и их много.
Второй компонент - дизель-генераторы с необходимым запасом топлива для работы несколько часов или дней в штатном режиме.

Действует эта схема просто: при сбое на основном источнике подачи энергопитания ЦОД переключается на ИБП, за это время включаются дизель-генераторы, и ЦОД уже переходит на них – и может работать от дизелей сколь угодно долго, главное – обеспечить подвоз солярки и дозаправку. Клиенты ЦОД не чувствуют ничего, работа серверов не прекращается.

Что будет, если питание в ЦОД пропадет даже на мгновение?

15 миллисекунд перебоя питания современного дата-центра достаточно, чтобы бизнес-процессы компаний были нарушены с ощутимыми для конечного пользователя последствиями. 1 миллисекунда (мс) — это единица времени, равная одной тысячной доле секунды. 5 мс - время, необходимое пчеле для осуществления одного взмаха крыла, а вот, чтобы мигнуть, человеку нужно 300—400 мс. При этом каждая минута простоя еще в 2013 обходилась компаниям в среднем в 7900 долларов, по данным компании Emerson.  Сейчас с все большей цифровизацией бизнеса убытки могут составлять сотни тысяч долларов за каждую минуту.

Сбой в питании ведет к перезагрузке серверов, перезапуску операционных систем и прикладного софта и даже полной остановке всех пользовательских систем и сервисов. Перезагрузка оборудования в автоматическом режиме занимает порядка 30-40 минут. А во многих случаях администраторы компаний забывают о том, что в настройках сетевого оборудования необходимо проставлять опцию авто-перезапуска, и восстановление начнется только в ручном режиме, что занимает еще более длительный период – проще говоря, пока админы не очнулись и не кинулись к своим коммутаторам.

Кроме того, серверы используют энергозависимую оперативную память, и на момент сбоя часть данных, находящихся там, может быть потеряна. Подвиснут платежные терминалы, пропадут товары из корзины в интернет-магазине, не завершится бронирование.

Можно ли защититься от этого цифрового армагеддона?

Можно. Для этого надо отказаться от централизованного поставщика электричества. Это мировой тренд: ИТ-мейджоры с огромными ЦОДами, скажем, на 200 мВт (Google, Microsoft, Amazon) расширяют варианты их автономного энергопитания. Подобные шаги делают и провайдеры услуг ЦОД в России.

Если ЦОД превышает уровень потребляемых мощностей в 1 мВт и есть высокие требования к непрерывности ИТ-процессов клиентов, например, в ЦОДе стоит процессинговый центр крупного банка, – то надо думать о своем независимом электричестве.  Для наглядности что такое 1 мегаватт: средняя мощность электрочайника 2000 ватт и при  одновременной работе  500 чайников – пора думать об автономии.

В качестве примера применения независимых источников питания в Россси - ЦОД Linxdatacenter в Санкт-Петербурге полностью обеспечивается электроэнергией за счет газо-поршневой электростанции мощностью 12 мВт. Газ сжигается и запускает генераторы высокой частоты турбинного типа, вырабатывающие электроэнергию.

Даже если подача газа по каким-то причинам будет прекращена, мощностей ИБП хватит на 40 минут бесперебойной работы ЦОДа.  Это можно сравнить с вашим ноутбуком – если его батарея полностью заряжена, то отключение питания от сети не остановит работу и не повредит данные. Дизель-генераторы ЦОДа на имеющимся запасе топлива дадут возможность проработать еще как минимум 72 часа. Параллельно в действие вступит контракт с поставщиком топлива, который обязан привезти оговоренные объемы в ЦОД в течение 4 часов.  Именно эта схема переключения между источниками питания, наряду с целым рядом других мер, обеспечивает непрерывность работы дата-центра.

Этот подход гарантирует от сбоев?

Даже при полной энергонезависимости от внешних источников есть множество факторов, способных «положить» ЦОД полностью или частично. Заказчик неправильно подключил оборудование в стойке? Короткое замыкание, сбой и простой. Не проконтролировали вовремя емкость аккумуляторов ИБП? При аварийной ситуации бесшовного переключения на резервную схему питания не произойдет. Не заправили достаточно топлива в баки Дизель-генераторов? Закончилось в самый неподходящий момент.

Выход? Профилактика. Раз в месяц крупные ЦОДы проводят плановое переключение на резервную схему питания ЦОДа и устраивают учения для сотрудников.

Во время планового переключения специалисты ЦОД проводят полную разрядку ИБП для проверки фактически доступного объема заряда, переводят нагрузку на дизель-генераторы, проверяют серверные стойки по уровню потребления и качеству коммутации, проводят стресс-тесты оборудования и тестируют автоматическую перезагрузку коммуникационного оборудования при отключении.

У технических руководителей ЦОДа все время подают сигналы их смартфоны - это приходят смс-оповещения: «Остаточная емкость батареи 75%», «Дизель ВКЛ./ВЫКЛ.», и т д. Существуют пороговые значения, при достижении которых система начинает рассылать такие алерты.

Любая схема резервирования энергопитания ЦОДа работает только при условии регулярной отработки внештатных ситуаций, постоянного подтверждения квалификации персонала и контрактам с надежными поставщиками услуг, наличия комплектующих и расходных материалов.

Что еще может «положить» ЦОД?

Морозы и жара. Система охлаждения подвержена температурным воздействиям – оптимизируем ее работу заменой жидкости по уровню вязкости. На случай падения системы охлаждения существует резервная система вентиляции. Кстати, отметим, что холодный климат России очень способствует размещению здесь дата-центров – меньше денег надо тратить на охлаждение.

Наводнения и землетрясения. Дата-центр не следует строить близко к морю или в пойме реки. ЦОД Linxdatacenter в Петербурге расположен на возвышенности, 20 м над уровнем моря. Самое сильное наводнение в истории Санкт-Петербурга случилось в 1824 году, когда вода поднялась выше 4 м. Сейчас нам затопление не грозит, так же, как и землетрясения: в Петербурге всего 6 зафиксированных случаев в истории наблюдений, а колебаний более 3 баллов не фиксировалось никогда. Но если ваш ЦОД в сейсмоактивной зоне – разумеется, конструкция здания должна соответствовать.

Война и террористы. Есть ЦОДы, как правило, относящиеся к оборонным ведомствам, которые находятся в бункерах глубоко под землей, в горных массивах. Коммерческим дата-центрам все-таки такой уровень защищенности не требуется, а на случай террористической атаки, например, на грузовике, серверные помещения располагаются глубоко внутри здания, в своего рода «коконе» из бетона. Плюс шлагбаум, забор, отсутствие пространства для разгона – террорист не доедет до серверов, да и охрана не дремлет.

Рейдерские захваты, «маски-шоу». Такие вещи случаются в сегменте корпоративных ЦОДов. В этом плане вынос резервной копии в коммерческий ЦОД имеет смысл. Со своей стороны серьёзный ЦОД проводит проверку клиентов на «токсичность» перед допуском их серверов в стойки.

В последнее время появилась такая экзотическая угроза, как дроны. Они могут приземлиться на крышу ЦОДа и организовывать альтернативную точку раздачи Wi-Fi для перехвата трафика клиентов или гипотетически устроить взрыв. Уже существуют системы защиты от подобного рода воздействия, а также полицейские дроны и даже ястребов дрессируют на охоту за коптерами.

В сложных многоуровневых инженерных системах избежать проблем невозможно в принципе. В случае с ЦОДами планирование возможных сбоев и их отработка закладывается еще на этапе строительства и проектирования инфраструктуры. Относиться к сбою надо не «если он случится», а «когда он случится» и «как он будет отработан». Современные дата-центры представляют собой технически сложные объекты, функционирующие на стыке инженерных, телеком- и ИТ-систем, которые должны создаваться и эксплуатироваться специальными командами и компаниями. В серьезных ЦОДах обязательно есть план готовности к угрозам, и в нем предусмотрены практически все возможные нештатные ситуации.

Читайте также:

GARTNER: 10 СТРАТЕГИЧЕСКИХ ТЕХНОЛОГИЧЕСКИХ ТРЕНДОВ 2018

 

КАКИМ СТАНЕТ ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ БУДУЩЕГО

 

РЕВОЛЮЦИЯ В ОБЛАСТИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА