Главная » Хабрахабр » Innovate Cloud Technology: облако с защитой от катастроф

Innovate Cloud Technology: облако с защитой от катастроф

Рынок облачных сервисов быстро растет как в мире, так и в России. Все больше компаний переносят свои приложения и данные, в том числе и критичные для бизнеса, в облачную среду. Как утверждают маркетологи, это позволяет бизнесу использовать самые современные инновационные облачные решения, сокращая капитальные затраты (переводя CAPEX в OPEX), быстрее выводить на рынок новые продукты и запускать новые услуги. И подобные доводы не оставляют равнодушными потенциальных клиентов. Не случайно темпы роста российского облачного рынка существенно опережают рост рынка традиционной, классической ИТ-инфраструктуры.

Постепенно развеиваются сомнения в надежности и безопасности облаков. Как показало недавнее исследование iKS-Consulting, почти 40% опрошенных российских компаний видят в использовании публичных облаков возможность повышения безопасности своих ИТ-систем. Наиболее популярным инфраструктурным облачным сервисом является аренда виртуальных серверов. На втором месте по популярности – услуга облачного резервного копирования (Backup-as-a-Service). Около трети респондентов используют облачные сервисы для размещения хранилищ и DR-инфраструктуры.

Между тем с увеличением зависимости бизнеса от ИТ требования к надежности ИТ-сервисов, включая облачные сервисы, растут. Причем нередко возникает необходимость обеспечить не только аппаратную надежность, но и катастрофоустойчивость.

Внеплановые простои и потери данных обходятся организациям по всему миру ежегодно более чем в 1,7 млрд. По данным исследований, почти три четверти организаций в мире не полностью уверены в том, что смогут восстановить свои системы и данные. Согласно исследованию Acronis, в России только 2% опрошенных компаний абсолютно уверены в том, что их ИТ-инфраструктура выдержит любые испытания. долларов. Согласно мировой статистике, 93% компаний, лишившихся своего дата-центра всего на 10 дней, разоряются в течение года. Половина российских специалистов ожидают длительных перебоев в её работе в случае стихийного бедствия или аварии.

Для предотвращения таких ситуаций создаются катастрофоустойчивые кластерные системы, практически исключающие простои в случае аварий и сбоев. В любых технически сложных системах аварии неизбежны, однако их можно сделать не критичными для бизнеса.

Нужно возобновить бизнес-процессы, а не просто переключиться на резервный сервер или поднять БД. Еще один важный момент, о котором нельзя забывать при проектировании катастрофоустойчивой ИТ-инфраструктуры – рабочие места пользователей. Даже резервный офис с рабочими местами сотрудников — не оптимальный вариант. Катастрофоустойчивость начинается с офиса клиента. Доступ к такому рабочему месту на виртуальной машине в ЦОД легко организовать с любого компьютера в филиальной сети. Хорошим решением могут стать виртуальные рабочие места (VDI) или иные формы рабочего места в облаке.

Инновации в облаке

Российский оператор связи «МастерТел» и компания Lenovo совместно  подготовили и реализовали проект создания катастрофоустойчивого облака под названием Innovate Cloud Technology. На базе этого облака широкому кругу заказчиков, которые хотели бы разместить в облачной среде критичную ИТ-инфраструктуру, предоставляются высоконадежные сервисы IaaS. Основой облака стал метро-кластер, разнесенный между двумя площадками – дата-центрами DataPro и IXсellerate в Москве.

Для реализации облака, запущенного в октябре 2018 года, была привлечена команда специалистов Lenovo Professional Services. Выбирая партнера для этого проекта, компания «МастерТел» руководствовалась, прежде всего, способностью вендора оперативно предоставить наиболее полное решение за разумные деньги. «МастерТел» выступает в роли облачного провайдера (Cloud Service Provider) и телекоммуникационного оператора, организующего защищенные каналы связи и предоставляющего прямые волоконно-оптические линии, отвечает за эксплуатацию облака и его поддержку.

Что дает использование сервисов Innovate Cloud Technology? Innovate Cloud Technology – частное облако для корпоративных клиентов, предлагающее высоконадежные и масштабируемые в режиме реального времени облачные сервисы IaaS, BaaS, DRaaS, VDS и т.д.

Высокая надежность

В настоящее время большинство облачных проектов, по сути, предоставляют мощности в аренду. Как правило, это создание виртуальных серверов (самая распространенная в России услуга коммерческих ЦОД) и доступ к уже сформированному пулу ресурсов. В случае Innovate Cloud Technology все настройки заказчик может сделать онлайн, ресурсы выделяются и освобождаются динамически и с оплатой по факту, исключительно за использованные ресурсы, как и положено классическому облачному сервису.

Заказчики могут использовать облачную инфраструктуру высокой доступности и хранить высококритичные данные в географически разнесенных ЦОД DataPro и IXсellerate. Но, пожалуй, самая важная черта Innovate Cloud Technology – это высокая надежность. А надежные высокоскоростные каналы связи и доступ к обоим дата-центрам обеспечивает «МастерТел». Эти площадки уже сами по себе гарантируют надежность и высокий уровень физической и информационной безопасности.

Однако данное облако отличает не только высокая надежность, но и катастрофоустойчивость, ведь это географически разнесенный кластер виртуализации на двух площадках уровня Tier III. Innovate Cloud Technology – это облачные ресурсы с гарантированной доступностью 99,99% по SLA.

Дата-центр DataPro

Этот ЦОД Tier III на ул. Авиамоторная в Москве — один из немногих российскиих коммерческих ЦОД, получивших сертификацию Uptime Design и Facility. Все используемые в ЦОД технологии и решения сертифицированы, что означает максимальную отказоустойчивость, гарантированную доступность ресурсов и является страховкой от неожиданных ситуаций.

Центр управления  ЦОД DataPro. Международная сертификация Uptime Design и Facility означает, что он спроектирован и построен в соответствии со всеми действующими стандартами для категории надежности Tier III.
Охрана отвечает за безопасность самого ЦОД и прилегающей территории. Система безопасности включает более 350 сетевых видеокамер. Для бесперебойного и гарантированного электроснабжения применяются источники бесперебойного питания (ИБП), используются дизель-генераторные установки (ДГУ), поддерживающие работу дата-центра при продолжительной аварии в электросети.

Электропитание ЦОД фактически резервируется по схеме 2N. В ЦОД DataPro — два независимых ввода 10 кВ от подстанции Мосэнерго, причем кабели проложены в разных коллекторах, обеспечивают подачу необходимой электрической мощности к объекту.

IXcellerate Moscow One

ЦОД Moscow One компании IXcellerate также обладает сертификатом Uptime Institute уровня Tier III в категории Design. Объект также соответствует уровню надежности Level 3 по категориям «проект», «строительство» и «эксплуатация» согласно методологии IBM Reliability Rating System. IXcellerate Moscow One реализован технически и гарантирован на уровне SLA с показателем доступности — 99,999%. Общая площадь ЦОД IXcellerate Moscow One в Дегунино составляет 15741 кв. м. Проектная мощность объекта достигает 13,7 МВт. Клиенты ЦОД — около сотни международных и российских компаний.  

Прохождение сертификационных испытаний Uptime Institute доказывает, что вычислительный комплекс IXcellerate спроектирован в соответствии с современными мировыми практиками строительства центров обработки данных.

Катастрофоустойчивость

Распределение по двум площадкам требует организации резервируемых каналов связи, репликации данных между хранилищами. Нужен механизм синхронизации данных для обеспечения их актуальности в случае отказа одного из узлов и для поддержки работы тех информационных систем, которым требуется такая синхронизация.

Узлы такого разнесенного кластера размещаются на основной и резервной площадках, образуя единую систему. Нередко в основе устойчивого к катастрофам ЦОД – территориально-распределенная кластерная конфигурация серверов с подключением к общей сети хранения данных (SAN). С помощью кластеризации можно обеспечить автоматическое переключение нагрузки между площадками распределенного ЦОД в случае аварии. Это обеспечивает непрерывную доступность сервисов даже в случае потери одного из ЦОД.

Системы хранения данных на указанных площадках могут полностью дублировать друг друга, а сами площадки связывают резервированными высокоскоростными каналами связи, что позволяет реализовать проекты с самыми высокими требованиями к надежности передачи данных и их доступности, включая синхронную репликацию данных.

Пример конфигурации метрокластера на базе VMware vSphere. в его основе —  дублирование систем хранения на двух территориально разделенных площадках с репликацией данных и возможным балансированием нагрузки на уровне сети ЦОД. При недоступности одного из дата-центров виртуальные машины будут автоматически запущены на второй площадке. Метрокластер — это практически нулевой простой, работа прерывается только на время запуска виртуальных машин, когда VMware High Availability (HA) перезапускает ВМ на удалённой площадке с СХД, которая находится в кластере.

Для пользователей это процесс будет прозрачным. Если задействовать для DR механизмы балансирования нагрузки (Global Server Load Balancing, GSLB), то можно автоматически переключать пользователей на резервную площадку при отказе основной.

В отличие от DR с репликацией данных, в случае метрокластера для зеркалирования используются только одинаковые типы дисков, нужна идентичная конфигурация на обеих площадках.

Оно обеспечивает непрерывную работу критичных приложений и данных в облаке. Облако Innovate Cloud Technology на базе VMware построено именно по такой схеме. Между ними настроено зеркалирование данных на уровне системы хранения. Все элементы кластера виртуализации продублированы на двух площадках, удаленных друг от друга почти на 30 км. Благодаря этому данные и сервисы будут доступны при сбоях на одной из площадок: отключении электропитания, частичном выходе из строя СХД, контроллеров, каналов связи между ЦОД и даже в случае полной неработоспособности одной из площадок.

При недоступности одного из дата-центров выполняется миграция виртуальных машин на резервную площадку. Запуск виртуальной машины на резервной площадке (Recovery Time Objective, RTO) займет порядка 3 минут.

Его основные показатели: доступность сервиса на уровне 99,99%; простой – не более 4,38 минут в месяц, гарантированные параметры производительности процессора (MIPS / 1 vCPU), дисковой системы (IOPS, Гбайт/с), задержки при доступе к СХД. Клиентам предлагается детальное соглашение об уровне обслуживания (Service Level Agreement, SLA). За их соблюдение провайдер несет финансовую ответственность.

Анатомия метрокластера

Облако построено по классической архитектурной модели, предполагающей покупку всего комплекса необходимого аппаратного и программного обеспечения: серверов с организацией физического и логического доступа, СХД, сетевых компонентов, программного обеспечения для виртуализации, решений безопасности.

Решение построено на компонентах производства Lenovo. В двух дата-центрах в Москве организованы выделенные закрытые зоны на четыре стойки с вычислительными и сетевыми узлами. В комплект поставки входит фабрично установленное на серверах ПО VMware ESXi 6. В качестве аппаратных вычислительных систем используются серверы 1U Lenovo ThinkSystem SR530/SR570/SR630 с адаптерами Emulex 16Gb Gen6 FC Dual-port HBA, для хранения данных – массивы Lenovo Storage V3700 V2 XP, а для передачи данных – 32-портовые стоечные коммутаторы 10 Гбит/с Lenovo ThinkSystem NE1032 RackSwitch. Площадки связаны двумя каналами FC 8 Гбит/с и двумя каналами Ethernet по 10 Гбит/с. 5.

Структура территориально распределенного кластера. Разнесенный между двумя площадками метро-кластер обеспечивает катастрофоустойчивость и дает возможность предоставлять надежные сервисы IaaS широкому кругу заказчиков. Площадки связаны резервированными каналами Ethernet (2х10 Гбит/с) и FC (2x8 Гбит/с).

За счет приобретения компонентов инфраструктуры у одного поставщика повышается надежность и отказоустойчивость всего комплекса, исключаются конфликты между элементами, стандартами и протоколами.

Совместными усилиями двух команд были выполнены работы по созданию проекта, подготовке и проработке ТЗ, монтажу оборудования, пусконаладке, стресс-тестированию и запуску метрокластера в эксплуатацию.

Синхронная репликация данных на уровне СХД обеспечивает нулевое значение Recovery Point Objective (RPO). Метрокластер Lenovo предусматривает полное резервирование всех своих элементов: серверов, СХД, контроллеров, FC-адаптеров, оптических коммутаторов.

Если одна из площадок выходит из строя, территориально разнесенный кластер автоматически и без прерывания рабочих процессов переключается на второй центр обработки данных. Высокая доступность всегда достигалась путем обеспечения избыточности — это актуально и в случае подготовки к экстремальным ситуациям, когда весь ЦОД необходимо защитить от перебоев в подаче электроэнергии или от природных катастроф. По сути, метрокластер — это локальный кластер с зеркалированной системой хранения, разнесенный между двумя площадками.

В метрокластере реализуется взаимная синхронная репликация данных между площадками. Территориально распределенные кластеры не имеют критических точек отказа. Автоматизация этого процесса гарантирует непрерывную работу всех приложений. При возникновении проблемы переключение на другую площадку происходит совершенно прозрачно и без вмешательства администратора. Метрокластеры также не требуется останавливать, чтобы обновить их аппаратное или программное обеспечение.

Происходящее в этом случае кратковременное прерывание ввода-вывода данных не скажется на работе приложений, поскольку данные синхронно зеркалируются на вторую площадку. Например, при отказе всего сервера его обязанности в течение нескольких секунд переходят ко второму серверу, расположенному на той же самой площадке. При проблеме в работе коммутатора, кабеля или HBA-адаптера Fibre Channel резервного переключения на второй ЦОД не потребуется, и конечный пользователь не ощутит никакого снижения производительности приложений.

В случае отказа всего сервисного узла происходит кратковременное (несколько секунд) прерывание потоков ввода-вывода: сервисы сначала переносятся на соседние узлы, и необходимость в переключении на территориально удаленный узел возникает, только если работа площадки нарушается полностью.

Таким образом, серверы приложений сохраняют доступ ко всем службам, но с ограниченной производительностью. В этой ситуации территориально разнесенный кластер использует избыточность на уровне ЦОД для преодоления сбоя, и системы, находящиеся на второй площадке, берут на себя поддержку всех сервисов.

Когда площадка, на которой произошел сбой, снова войдет в рабочий режим, потребуется передать на нее только те данные, которые были изменены за время простоя, поэтому после устранения локальных проблем пострадавший ЦОД сможет очень быстро вернуться к нормальной работе.

При отказе одной из СХД система хранения на другой площадке анонсирует пути к дискам оставшимся хостам. В случае потери хостов VMware High Availability (HA) сразу же перезапускает ВМ на удалённой площадке. На них перезапускаются утраченные ВМ, всё происходит автоматически.
Если теряется связь между площадками, то всё продолжает работать на своих местах и, как только связь восстанавливается, начинается процесс синхронизации.

Состав решения

Восемь серверов Lenovo ThinkSystem SR630 с 2 процессорами Intel Xeon Gold 6132 14C 140W 2.6 ГГц, 32 Гб памяти TruDDR4 2666 МГц (RDIMM), 10 отсеками для накопителей 2.5", накопителями M.2 32 Гб SATA SSD и фабрично установленным ПО VMware ESXi 6.5.

Двухпроцессорный сервер в форм-факторе 1U обладает гибкостью и производительностью за счет поддержки жестких дисков и твердотельных накопителей (HDD и SSD) с интерфейсами SAS или SATA (12 SFF или 4 LFF). Благодаря возможности подключения накопителей NVMe обеспечивается высокая скорость чтения и записи. ПО Lenovo XClarity Administrator упрощает процессы управления и обслуживания инфраструктуры. Данное конструктивное решение ориентировано на баланс производительности и цены для поддержки широкого спектра рабочих нагрузок, рассчитано на непрерывную эксплуатацию при температуре 45°C.

Две системы хранения Lenovo Storage V3700 V2 XP с 1.92 Тб 2.5" SAS SSD и 1.2 Тб 2.5" 10K HDD, с программным обеспечением Easy Tier, FlashCopy и Remote Mirroring.

Набор функциональных инструментов СХД позволяет эффективно решать задачи с большими объемами данных и с многопоточным доступом к информационным ресурсам.V3700 V2 XP обеспечивает возможность консолидации нагрузок, поддерживает формирование систем для хранения данных, способных поддерживать многочисленные ресурсоемкие приложения. Система на процессорах Intel отличается высокими показателями производительности и скоростью обмена данными посредством шины SAS, функциональными инструментами, которые ранее были доступны только в устройствах старшего класса. СХД предлагает Web-интерфейс с интегрированными функциями управления, обеспечивает формирование гибких рабочих конфигураций и их быстрое развертывание с помощью средств виртуализации, выполнение резервного копирования приложений посредством FlashCopy. Поддерживается вертикальное масштабирование до 240 накопителей 2,5 дюйма или 120 накопителей в форм-факторе 3,5 дюйма. Для масштабирования можно задействовать девять блоков расширения.

СХД Lenovo V3700 V2 с 20 дисками 2 Тб 2.5" 7.2K HDD

Система предоставляет набор инструментов, обеспечивающих унифицированную виртуализацию, масштабирование и управление. Она представляет собой гибридное решение с возможностями виртуализации. СХД Lenovo Storage V3700 V2 имеет два RAID-контроллера, позволяет использовать любые форматы хранения — как жесткие диски форм-фактора 3.5", так и HDD или SSD форм-фактора 2.5". СХД стандартно поставляется с системным ПО с функциями Virtualization of Internal Storage, Thin Provisioning, One-way Data Migration, FlashCopy (64 копии). Дополнительные функции — FlashCopy (2048 копий), Easy Tier, Remote Mirroring.

Четыре 32-портовых коммутатора Ethernet 10 Гбит/с Lenovo ThinkSystem NE1032 с трансиверами SFP+ SR.

Коммутатор оснащен 24 портами 10GBase-T и 8 портами SFP+ 10 Гбит/с для каскадирования. В нем используется архитектура Lenovo Cloud NOS, поддерживается автоматизация с учетом ВМ. Система NE1032 оптимизирована для центров обработки данных. Ее отличают стабильная производительность уровня L2/L3 и конкурентная маршрутизация по IP-адресам, отказоустойчивый стек с поддержкой BGP, автоматизация с учетом ВМ, автоматическое предоставление ресурсов для ускорения ввода в эксплуатацию и интеграция с ПО Lenovo XClarity.

Четыре коммутатора Fibre Channel Lenovo B6505 FC SAN c 12 портами SFP 16 Гбит/с.

Этм коммутаторы Fibre Channel 5-го поколения для сетей хранения данных предназначены для подключения к хранилищам данных с высокой производительностью и рассчитаны на поддержку критически важных бизнес-приложений. Они поддерживают технологии флэш-массивов и гибридных дисковых массивов при скорости 16 Гбит/с.  

Сервер Lenovo ThinkSystem SR630, отличающийся самой емкой подсистемой хранения данных и самой высокой производительностью среди всех серверов Lenovo высотой 1U, справляется с разнообразными рабочими нагрузками. Он позволяет использовать референсные модели построения облаков.

0 для установки различных адаптеров ввода-вывода. Сервер ThinkSystem SR630 содержит два производительных процессора Intel Xeon, до четырех разъемов PCIe 3. Четыре порта NVMe на материнской плате, предназначены для прямого подключения накопителей NVMe. Технология AnyBay обеспечивает поддержку жестких дисков и твердотельных накопителей с интерфейсами SAS или SATA (12 устройств форм-фактора SFF или 4 устройства форм-фактора LFF).

Lenovo Storage V3700 V2 XP — продолжение линейки IBM Storwize. Версию XP характеризует высокая производительность и гибкость конфигурации.

Развернутый «МастерТел» метро-кластер позволяет за счет поддержки синхронного зеркалирования и кластеризации на базе массивов достичь постоянной готовности и полностью исключить потери данных. Что в итоге? Lenovo не впервые участвует в подобных проектах. ПО обеспечивает прозрачность аварийных переключений, что гарантирует бесперебойную работу критически важных приложений. И серверы х86 выступают в роли платформы виртуализации VMware. Портфель продуктов компании включает в себя серверы, системы хранения данных и сетевые средства.

Конечно, метрокластер — решение непростое и недешевое,  но в тех случаях, когда надо обеспечить бесперебойную работу, когда стоимость простоя или повреждения данных высока, обычно предпочитают не экономить.


Оставить комментарий

Ваш email нигде не будет показан
Обязательные для заполнения поля помечены *

*

x

Ещё Hi-Tech Интересное!

В MIT научились передавать звук с помощью лазера

Группа исследователей из MIT представила новый метод передачи направленного звука при помощи лазера. Под катом, рассказываем, на чем построена эта технология. Фото PxHere / PD Лазер для передачи звука Технология направленного звука, способная формировать аудиопоток, слышимый в небольшой области пространства, ...

Ускоряем неускоряемое или знакомимся с SIMD

Есть класс задач, которые нельзя ускорить за счёт оптимизации алгоритмов, а ускорить надо. В этой практически тупиковой ситуации к нам на помощь приходят разработчики процессоров, которые сделали команды, позволяющие выполнять операции на большим количеством данных за одну операцию. В случае ...