Организация бесперебойной работы отделений: суммированный учет рабочего времени и резервные бригады. Бесперебойная работа системы по резервному копированию

На сегодняшний день обеспечением резервного копирования занимаются сервера, будь то большое или малое предприятие. Поэтому говорить о бесперебойной работе нужно непосредственно сервера. Что требуется для бесперебойной работы сервера

Чтобы сервер работал бесперебойно нужно не только иметь мощную аппаратуру, но и дополнительное оборудование, квалифицированный персонал. Они и должны обеспечивать оптимальные условия для работы сервера.

1. К дополнительному оборудованию можно отнести:

кондиционирование серверных, то есть, систему охлаждения, вентиляции и т.д., которые не допускают перегрева оборудования;

различные датчики, предназначенные для контроля температурного режима в системе;

автоматические генераторы, которые включаются при отключении электропитания;

независимые магистрали, предназначенные для обеспечения оборудования питанием;

сторожевой таймер, который предупреждает о зависании сервера.

2. Квалифицированные специалисты осуществляют резервирование, замену, подключение основных элементов без отключения оборудования. Также бесперебойную работу обеспечивает наличие объемной памяти.

Как обеспечивается кондиционирование серверов

Сервер со вспомогательным оборудованием устанавливают в отдельном помещении, где должна обеспечиваться хорошая циркуляция воздуха. В помещении должны быть установлены кондиционеры, способные поддерживать оптимальную температуру и влажность. Также отдельно устанавливают систему вентиляции и охлаждения на серверные шкафы. Желательно, чтобы они могли определять, какой участок нуждается в большем охлаждении.

Как видно, для обеспечения бесперебойной и надежной работы сервера нужно приложить немало усилий и средств

Восстановление информации

В данном разделе будут детально расписаны процедуры восстановления информации:

Восстановление структуры файловой системы

В случае форматирования логического диска или раздела, структура и атрибуты данных не нарушаются, но изменяется либо инвентаризируется (приводится в начальное состояние) информация о расположении данных на данном накопителе.

При быстром форматировании обновляется малая часть файловой таблицы, часть служебных записей остается, необходимо лишь интерпретировать ее и прочитать данные в нужном порядке.

Полное форматирование может обновить всю файловую таблицу, поэтому восстановление структуры файлов и папок не всегда возможно. Для восстановления данных без информации о структуре можно использовать восстановление файлов по сигнатурам.

Если произошло повреждение файловой системы в результате программного сбоя или неисправности носителя, программы для восстановления данных могут восстановить часть информации, зависящую от объема повреждений.

Восстановление удаленных данных файловой системы

При удалении данных, на самом деле, данные физически остаются на накопителе, однако в файловой системе более не отображаются, а место на носителе, где они располагаются, помечается как свободное и готовое к записи новой информации. В данном случае атрибуты файлов изменяются. В случае записи в данный раздел или логический диск может произойти частичное или полное замещение данных, помеченных, как удаленные.

Подобные файлы можно легко прочитать и восстановить со всеми атрибутами и информацией о расположении, прочитав служебные записи файловой системы. Существуют как программы только для восстановления удаленных данных, так и комплексные решения, где восстановление удаленных данных - лишь одна из функций.

Восстановление по сигнатурам

В случае, когда реконструкция файловой системы невозможна в силу каких-либо причин, некоторые файлы все еще можно восстановить, используя восстановление по сигнатурам. При данном типе восстановления происходит посекторное сканирование накопителя на предмет наличия известных сигнатур файлов

Основной принцип работы алгоритмов сигнатурного поиска такой же, как у самых первых антивирусов. Как антивирус сканирует файл в поисках участков данных, совпадающих с известными фрагментами кода вирусов, так и алгоритмы сигнатурного поиска, использующиеся в программах для восстановления данных, считывают информацию с поверхности диска в надежде встретить знакомые участки данных. Заголовки многих типов файлов содержат характерные последовательности символов. К примеру, файлы в формате JPEG содержат последовательность символов “JFIF”, архивы ZIP начинаются с символов “PK”, а документы PDF начинаются с символов “%PDF-“.

Некоторые файлы (к примеру, текстовые и HTML файлы) не обладают характерными сигнатурами, но могут быть определены по косвенным признакам, т.к. содержат только символы из таблицы ASCII.

По результатам сканирования выдается, чаще всего, список файлов, отсортированных по типу. Информация о расположении файлов не восстанавливается.

Данный тип восстановления хорошо применять для восстановления фотографий с карт памяти, так как данные на карте однотипные и записываются, в общем случае, строго последовательно, без фрагментации.

Смешанное восстановление

Большинство программ позволяют применить одновременно несколько способов восстановления за одно сканирование. В результате выдается максимально возможный результат при использовании данной программы.

Восстановление из резервных копий

Самый надежный, простой и дешевый способ восстановления информации - восстановление информации из ранее сделанных резервных копий. Для создания резервных копий используется специализированное ПО, которое в том числе может выполнять восстановление данных.

Рассмотрим основные типы носителей и их неисправности.

Накопитель на гибком магнитном диске (НГМД)

Основной неисправностью является так называемое «размагничивание».

Встречается чаще всего при прохождении магнитных детекторов в магазинах, метро, аэропортах. Восстановить данные удаётся только с не размагниченных областей накопителя. Так же встречаются неисправности, связанные с физическим повреждением носителя, такими как царапины, сильное загрязнение. Каждый случай необходимо рассматривать индивидуально и только после этого прогнозировать результат восстановления информации.

Программно-аппаратный способ

Как говорилось выше, в этом способе следует уделить большое внимание именно типу накопителя информации. Варианты и способы восстановления начнем с яркого примера носителя информации.

Накопители CD/DVD/BR

Оптические накопители могут иметь разные причины невозможности чтения данных:

Механические

повреждение прозрачного слоя

повреждение отражающего слоя

Химические

разложение прозрачного слоя

разложение регистрируемого слоя (у записываемых дисков)

коррозия отражающего слоя

Нарушение организации данных

вследствие аппаратно-программных ошибок при записи данных

вследствие неправильных данных

Самыми частыми причинами нечитаемости дисков являются повреждение отражающего и прозрачного слоя, а также разложение регистрируемого слоя у записываемых дисков. В случае образования царапин на поверхности диска, возможно применить полирование рабочей поверхности, что приведёт к удалению нежелательных повреждений и улучшит чтение данных, однако при образовании трещин, использовать данный метод опасно, так как при последующем чтении диск может разрушиться в дисководе под действием центробежной силы. Повреждение фольгированного покрытия диска (старение металла, царапины) больше всего осложняет восстановление данных.

К данному типу накопителей можно отнести USB Flash, SSD-диски, карты памяти SD, miniSD, microSD, xD, MS, M2, Compact Flash.

Самые распространенные технические неисправности]

Логические неисправности

Возникают данные неисправности в самых различных случаях. Одна из самых распространенных причин - неправильное извлечение устройства из компьютера.

В случае логических неисправностей восстановить данные возможно с помощью программ для восстановления данных.

Механические повреждения

Диск прекратил корректную работу в результате какого-либо физического воздействия (падения, попадания влаги, изгиба, сжатия и т. д.). Причина неисправности, чаще всего, в поломке платы или разрушении контактов и компонентов.

Восстановить данные можно, если исправить поломку: заменить неисправный компонент или восстановить нарушенный контакт. Также можно считать данные напрямую с чипа памяти, используя специальное оборудование.

Восстановление данных производится как и в предыдущем случае: заменой компонентов либо чтением с чипов памяти напрямую.

Планирование восстановление работоспособности сети при аварийной ситуации

Один из наиболее полных и логичных образцов подобного документа был разработан Национальным институтом стандартов США (NIST) в 2001 году.

План восстановления функционирования системы устанавливает перечень и последовательность процедур, необходимых для восстановления нормального функционирования системы после наступлении чрезвычайных обстоятельств, повлекших отказ в доступности ресурсов системы. В результате выхода из строя отдельных элементов системы, физического разрушения помещений, пожара, наводнения, террористических атак и др.

Основная цель реализации Плана заключается в обеспечении быстрого и полного восстановления устойчивого функционирования информационной системы.

Поставленная цель достигается решением следующих задач:

определение порядка действий, процедур и ресурсов, необходимых для восстановления функционирования системы или обеспечения ее устойчивого функционирования в резервном варианте размещения технических средств и персонала;

определение штатного состава и основных обязанностей персонала оперативного штаба и аварийных групп из числа сотрудников банка по реализации мероприятий Плана восстановления, а также порядка организации эффективного взаимодействия между аварийными группами и управления ими в течение всего времени активности Плана восстановления;

определение порядка взаимодействия и координации действий оперативного штаба по реализации Плана с другими организациями и структурами (пожарные, медперсонал, милиция, спасатели и др.), которые, возможно, будут привлекаться к ликвидации последствий чрезвычайных событий, вызвавших нарушение нормального функционирования системы.

К примеру, специалисты NIST все мероприятия по выполнению Плана распределяют по трем этапам:

этап уведомления/активации Плана. Основные задачи, решаемые на данном этапе, – своевременная идентификация наступления чрезвычайных условий, обнаружение нанесенных системе повреждений, оценка ущерба, прогноз возможности восстановления функционирования системы и принятие решения о необходимости активации Плана восстановления системы;

этап восстановления. Основные задачи – восстановление функционирования системы по временной схеме (с использованием резервных средств и помещений), проведение комплекса работ по полному восстановлению работоспособности системы в объеме обычных условий;

этап воссоздания системы/деактивации Плана. Основные задачи – полное восстановление нормальной работы системы и деактивация Плана восстановления, возврат к нормальному функционированию.

Согласно исследованию компании McKinseyQuarterly, за последний год в США значительно возросло число компьютерных атак на корпоративные IT-системы. В исследовании McKinseyQuarterly сообщается, что число компьютерных атак (действия хакеров, вирусов, червей, недобросовестных работников и др.) возросло на 150% по сравнению с 2000 годом, составив в общей сложности 53000 случаев взлома систем информационной безопасности компаний.

Такой рост произошел в первую очередь из-за отношения к IT-безопасности как к области сугубо технологической. Это означает, что многими организационными и стратегическими решениями в компаниях попросту пренебрегали.

Реализуемость Плана основана на двух предположениях:

нормальное функционирование системы нарушено в результате наступления некоторого чрезвычайного события или цепи подобных событий. В результате система не способна реализовывать свои функции в объеме, требуемом для качественного обслуживания абонентов;

существует подготовленное помещение, которое выполняет функции резервного центра размещения технических средств системы. Персонал системы формирует необходимую информационно-вычислительную среду на основе технических средств резервного центра для восстановления функционирования системы по резервному варианту размещения в период действия Плана восстановления. Кроме того, резервный вариант размещения используется в течение всего времени, необходимого для восстановления функционирования системы по прежнему (либо новому) месту размещения.

13.12.2016, ВТ, 11:30, Мск

Современный мир все больше полагается на автоматизированные системы в самых разных областях человеческой деятельности. Растет число приложений, к непрерывной работе которых выдвигаются повышенные требования. Специалисты НПП «Родник» представляют коробочное решение Stratus everRun Enterprise, которое поможет быстро и просто обеспечить бесперебойную работу программного решения или сервиса.

По мере того как ИТ-системы становятся все более привычными, возрастают ожидания к их надежности - все меньше пользователей готовы мириться с простоями или отказами сервисов, от которых ожидаешь непрерывной работы. Для простых информационных или справочных систем отключение на небольшое время не слишком важно. Но для систем, ориентированных на работу и обслуживание пользователей, или корпоративных сервисов для сотрудников это уже менее терпимо.

Далее по степени критичности идут «служебные» системы, например, системы видеонаблюдения и обеспечения безопасности, системы управления зданиями или контроля и наблюдения за производством. Если подобные подсистемы отключатся из-за отказа управляющего ПО, это может привести к дорогостоящим, опасным и даже угрожающим жизни последствиям. С нефункциональной системой нет никакого способа узнать о возникновении чрезвычайной ситуации или оповестить сотрудников об обязательной эвакуации. Возможны и экономические потери от простоя подобных информационных систем, а иногда и юридические обязательства. В этом случае на надежности и отказоустойчивости лучше не экономить.

И, наконец, основные «производственные» процессы. В зависимости от предметной области (банковские системы, управление технологическими процессами, торговые системы и управление продажами и т.п.), такие решения могут быть разными по сложности и стоимости и обычно являются узкоспециальными. Обеспечение их непрерывной работы - важнейшая задача, и может решаться разными способами, в зависимости от масштаба систем и их взаимосвязанности.

Доступный сервис

С целью классификации компьютерные системы обычно разделяют по времени непрерывной работы, в процентах от общей длительности работы. Зачастую доступность сервиса или системы характеризуется параметром в 99–99,9% времени, и число «99,9» выглядит очень надежно. Но на практике это означает до 90 часов простоя в течение года, или же до полутора часов в неделю. Для восстановления работы такой системы обычно используется ее перезапуск, или восстановление из резервной копии.

Недостатки такого способа очевидны - эта процедура требует времени, что не всегда допустимо. Современные сервисы чаще всего работают на виртуальных машинах (ВМ), которые в случае сбоя требуется перезапустить.

Системы высокой доступности работоспособны 99,95–99,99% времени. Здесь используются кластерные системы и технологии, в которых выполнено то или иное запараллеливание сервисов и систем. «Высокая доступность», тем не менее, может означать до нескольких часов простоя в течение года. В зависимости от решения, дублирующий сервис или система могут находиться в так называемом «холодном» резерве, в этом случае для ее запуска требуется какое-то время. Также следует отметить сложность кластерных технологий и повышенные требования к квалификации ИТ-персонала. Кластеры сложны и отнимают много времени на развертывание, требуют тестирования и непрерывного административного контроля. Программное обеспечение обычно приходится лицензировать для каждого из серверов кластера. В результате в случае роста кластерной системы общая стоимость владения быстро растет.

Основные области применения Stratus everRun:

Системы видеонаблюдения и контроля доступа

Cиловые структуры

Финансы и банковские услуги

Телекоммуникации

Медицина

Государственный сектор

Производство

Транспорт и логистика

Непрерывная доступность (англ. fault tolerance) – до 99,999% времени. Такой уровень надежности системы достигается специализированными программными и аппаратными решениями. В зависимости от предметной области (управление технологическими процессами, банковские системы), такие комплексы могут быть очень разными по сложности и стоимости.
Но, как отмечалось выше, есть и менее требовательные сферы применения, от которых ожидается непрерывная работа. Сюда можно отнести системы управления зданиями, системы внешнего контроля (видеонаблюдения), системы контроля доступа, и тому подобные. Вряд ли пользователи будут счастливы, если пропадет сигнал со всех видеокамер и датчиков, или система вентиляции цеха или здания остановит работу.

Готовое решение

Специализированные ИТ-системы, как правило, сложны, требуют настройки и высокой квалификации персонала. Но если они пользуются успехом, то установка и обслуживание со временем упрощаются. Появляются готовые к развертыванию комплексы, не требующие повышенного внимания.

Для систем непрерывной доступности одним из таких решений является программный пакет everRun Enterprise компании Stratus. Он специально спроектирован так, чтобы обеспечить сохранение данных даже при аппаратных или программных сбоях.

Преимущества решения

При использовании everRun Enterprise приложение «живет» в двух ВМ на двух физических серверах. Если одна ВМ выходит из строя, приложение продолжает работать на другом сервере без перерывов или потери данных. Это достигается за счет постоянного считывания состояния работающей виртуальной машины и сохранения ее параметров. В случае сбоя последнее состояние системы переносится на параллельно работающую ВМ, так что выполнение приложений не прерывается. Серверы системы могут быть географически разнесены для повышения надежности.

Программное обеспечение Stratus everRun предназначено для того, чтобы обеспечить непрерывную работу служебных приложений и целостность собираемых данных. При этом система, разумеется, обладает функционалом и для быстрого аварийного восстановления в случае крупного отказа. Решения Stratus everRun базируются на использовании стандартного оборудования, и защищают любые приложения для MS Windows Server и Linux от отказов и сбоев в работе аппаратной части серверов.

Как отмечает представитель компании-интегратора «Родник» Иван Кириллов , «внедрение everRun Enterprise позволяет избежать построения сложной сетевой инфраструктуры, развертывания и настройки дополнительного управляющего ПО, а также затрат на обучение персонала, которые требуются при эксплуатации традиционных кластерных систем».

Как everRun Enterprise обеспечивает непрерывную работу и сохранение данных приложений, развернутых на виртуальных машинах

Как говорилось ранее хорошая автомойка, в которой все сделано хорошо начиная от места ее расположения и маркетинга, заканчивая оборудованием и четкой работой персонала, представляет собой постоянно работающий конвейер. Для обеспечения бесперебойности работы конвейера требуется осуществление ряда обеспечивающих действий:

− снабжение автомойки средствами автохимии и аксессуарами. Ключевым фактором успешности этого процесса является прогнозирование расходов материалов. Заказы поставщикам должны отправляться не в момент, когда пена закончилась или у мойщиков больше нет тряпок, а своевременно и заранее, чтобы к описанному выше времени новая партия расходных материалов уже была в наличии.

− обеспечение контроля оборудования и своевременный ремонт/замена. Данная деятельность заключается в ежедневных осмотрах и регулярных диагностиках возможных проблем работы оборудования для предотвращения аварийного выхода из строя и, как следствие, простоя автомойки.

− составление графиков смен и распределение мойщиков по сменам.

− контроль выхода работников на работу, присутствия работников на рабочем месте в течение рабочего дня, опрятный вид работников и т.д.

− поиск и обучение новых сотрудников. Спецификой бизнеса автомоек является высокая степень текучести кадров, поэтому, даже имея полностью укомплектованную автомойку, необходимо осуществлять поиск новых кандидатов.

Прочие виды деятельности

Виды деятельности, которые не являются ключевыми для данного бизнеса, но также требуют внимания:

− маркетинг и продвижение (включает в себя разработку дизайна рекламных материалов для каждого из сегментов потребителей, подготовку рекламных материалов, их размещение и распространение)

− ведение бухгалтерии и финансовый учет (включает в себя прием платежей, ведение кассы, выдача заработной платы и расчет с поставщиками, ведение договоров с корпоративными клиентами, составление и сдача бухгалтерской отчетности).

Ключевые партнеры

Для успешной реализации бизнеса автомойки крайне важно установить долгосрочные и партнерские отношения с некоторыми контрагентами:

Арендодатель

В случае если автомойка реализуется на арендуемой земле, критически важным партнером является арендодатель, от которого будет во многом зависеть судьба предприятия. С собственником необходимо устанавливать долгосрочное взаимовыгодное сотрудничество, чтобы минимизировать риски вынужденного переезда автомойки.

Поставщик расходных материалов

Для обеспечения бесперебойной работы автомойки необходимо своевременно осуществлять поставки расходных материалов. Для реализации стабильных поставок необходимо заключить договор с одним или рядом поставщиков.

Предприятия партнеры по продвижению

Для реализации кросс-продвижения необходимо установить контакты с предприятиями из автомобильной сферы, а именно автосервисами, автомагазинами, автозаправками и т.п. для осуществления совместной маркетинговой деятельности.

Компания-производитель комплекса автомойки

В целях надлежащей эксплуатации комплекса оборудования автомойки и осуществления необходимого сервисного обслуживания имеет смысл поддерживать контакты с компанией производителем и другими организациями, оказывающими данные услуги.

Структура издержек

Основные издержки при реализации бизнеса автомойки – это:

Заработная плата

В автомойках принята сдельная форма оплаты труда, то есть мойщики и администратор получают зарплату, напрямую зависящую от количества вымытых автомобилей в виде процента от цены оказываемой услуги. Обычно оплата труда мойщиков составляет до 30% от стоимости услуг.

Аренда места размещения

В случае если комплекс автомойки располагается на территории, не находящейся в собственности, существенной статьей текущих затрат будет являться арендная плата. Размер арендной платы зависит от конкретного места размещения и договоренностей с собственником земли. Отношения с арендодателем регулируются договором, рекомендуется при заключении договора стремиться к максимизации сроков, на которые заключается договор.

Электроэнергия

Существенной статьей затрат является электроэнергия. Среднегодовое потребление одного поста автомойки зависит от его типа и оснащения. К примеру, среднегодовое энергопотребление двухпостовой автомойки составляет 20 кВ/ч с сильными колебаниями в зависимости от сезона (от 10 кВ/ч летом до 40 кВ/ч зимой). При расчете, исходя из данного в примере энергопотребления, постоянные затраты по этой статье составят в среднем 43 200 руб. (24 часа работы, 480 кВ в сутки, 3 руб/кВ).

В начале этого года на северо-востоке США бушевали невиданной силы грозы. Они нарушили электроснабжение местного call-центра службы спасения 911, и в сервисном отделе фирмы Liebert, входящей в состав компании Emerson Network Power, раздался звонок с просьбой о помощи. Батареи ИБП в ЦОДе вышли из строя, и, учитывая специфику работы call-центра, было необходимо срочно обеспечить его функционирование.

Мы быстро отреагировали, и вскоре call-центр вновь нормально работал. Изучив причины случившегося отказа, представители вендора вместе с руководством call-центра вынуждены были признать, что не была внедрена программа сервисного обслуживания (которая обычно включает профилактическое техобслуживание, регулярные проверки и мониторинг). Если бы в ЦОДе действовала такая программа, то отказа батарей можно было бы избежать.

Подобные случаи постоянно напоминают о том, сколь необходима всеобъемлющая программа профилактического техобслуживания. В сегодняшних быстро меняющихся условиях с неуклонно растущей ролью ЦОДов такая программа совершенно необходима для обеспечения бесперебойной работы.

Перемены повсюду

В условиях постоянно развивающихся ИТ одна из главных трудностей, с которой сталкиваются менеджеры ЦОДов, — это не отстать от перемен. Ушли в прошлое те времена, когда достаточно было иметь небольшую распределенную сеть, охватывающую несколько близлежащих узлов. Сегодня ЦОДов стало меньше, но они теперь гораздо крупнее, более централизованны и берут на себя громадные объемы вычислений.

Также ИТ-инфраструктура многих организаций развилась во взаимозависимую, критически важную сеть, охватывающую данные, приложения, хранение, серверы и собственно сетевое оборудование. Отказ питания в любой точке этой сети может нарушить работу всей организации и негативно сказаться на ее бизнесе.

Ввиду этих перемен очень важно, чтобы организации имели надежные планы профилактического техобслуживания в своих ЦОДах, а также знающих специалистов, что называется, под рукой. Переходя на новое оборудование и осуществляя централизацию своих ЦОДов, организации не должны упускать из вида, что столь же важно иметь надежную инфраструктуру питания и охлаждения, чтобы гарантировать постоянную доступность ИТ.

Слишком часто можно наблюдать такую картину: ИТ-директор решает купить новые серверы для организации, но когда они уже готовятся к установке, менеджер ЦОДа обнаруживает, что не было проведено никакой оценки того, насколько имеющаяся инфраструктура питания и охлаждения соответствует новым требованиям. Профессиональная оценка может определить, например, что на одной из критически важных линий не хватает мощности резервного питания для поддержки новых серверов.

Кроме того, тепловой анализ может показать, что одна из стоек охлаждается недостаточно хорошо. Если бы ИТ-директор и менеджер ЦОДа нашли время встретиться до того, как начинать внедрение, и обратились бы к сервисной организации, чтобы точно определить будущие требования к системам питания и охлаждения, то в смету уже были бы заложены дополнительные капиталовложения и оптимизация этих систем, дабы не создать риска возможных отказов.

Главное — гарантировать безотказность

При наличии хорошо согласованной программы сервисного техобслуживания в рамках всей организации риск нарушения питания, будь то стихийное бедствие или плановый апгрейд оборудования, можно свести к минимуму. ИТ-менеджеры рассчитывают сегодня на 100%-ный уровень готовности. Но как его достичь без всеобъемлющей программы профилактического техобслуживания? Как и ваш автомобиль, ЦОДы также должны быть надежны, им необходим регулярный “техосмотр”, чтобы надежность могла быть гарантирована.

Кроме того, бесперебойность работы зависит от знания менеджерами ЦОДов потенциальных опасностей и их способности разработать план вместе со специалистом по техобслуживанию, чтобы свести к минимуму риск отказа критически важных функций. Хорошо подготовленная организация будет иметь минимум нарушений в работе и будет чувствовать себя уверенно, даже если что-то случится.

Сегодня, как никогда, организации зависят от своей ИТ-инфраструктуры, от ее надежной работы, и не стоит экономить на том, чтобы построить тесные, доверительные отношения с поставщиком сервисных услуг. Опытный специалист поможет разработать и внедрить сильный план обеспечения бесперебойности бизнеса, который гарантирует не только оперативную готовность вашей ИТ-инфраструктуры, но будет охватывать весь жизненный цикл ЦОДа. Но программа, созданная сегодня, может перестать соответствовать требованиям через несколько лет, поэтому необходимо постоянно ее корректировать и развивать. Без такой всеобъемлющей, постоянно развивающейся программы организации подвергают себя риску потерять доходы и вызвать неудовлетворенность заказчиков.

Кроме того, организация может понести незапланированные расходы на ремонт и замену оборудования. Конечно, всё это трудно вписать в ограниченный ИТ-бюджет, но без необходимого техобслуживания затраты могут оказаться еще выше и будут к тому же неожиданными для организации.

Ваши требования к поставщику техобслуживания

Выбирая поставщика услуг техобслуживания, ищите тех, кто инвестирует в лучший инструментарий и знающий персонал. Один из верных способов свести к минимуму риск отказов питания — это внедрить всеобъемлющую программу планово-предупредительного техобслуживания с участием обученных вендором специалистов. Вы можете смело полагаться на поставщиков техобслуживания, если они:

могут гарантировать быстрый отклик по вашему вызову;
имеют опыт работы с установленным у вас оборудованием (чтобы восстановить его работоспособность с первого раза);
гарантируют наличие запчастей;
постоянно обучают своих инженеров, повышая их квалификацию, и снабжают их всеми новейшими приборами и средствами, необходимыми для работы;
имеют репутацию надежного и соблюдающего нормативные требования партнера;
способны дать вам целостную картину состояния вашего ЦОДа благодаря широте своего предложения.

Сегодня многие ведущие поставщики услуг технического обслуживания имеют новейшее тестовое оборудование и прекрасно обученных специалистов, так что проблемы часто можно разрешить, даже не посылая специалиста к заказчику. Имея хорошо спланированную стратегию, менеджеры ЦОДов могут смело рассчитывать на специалистов техобслуживания, которые решат их проблемы без простоев и снижения уровня готовности всех систем.

Заключение

Мы живем в эпоху перемен, в том числе внутри ЦОДов. Перемены неизбежны. ИТ меняются ежечасно, стремясь к совершенству, и это следует принять как данность. Всеобъемлющая программа профилактического техобслуживания, которая включает превентивные меры, регулярные проверки и мониторинг оборудования, просто необходима.

Отказ в call-центре, о котором мы рассказали в начале, был быстро ликвидирован, и его работа почти не пострадала. Но дело могло бы обернуться гораздо хуже, чья-то жизнь могла бы подвергнуться опасности. Сегодня этот call-центр службы спасения уже не берет на себя такого риска. Они внедрили всеобъемлющую программу профилактического техобслуживания, которая гарантирует бесперебойную работу их систем. Такой же выбор следует сделать всем менеджерам ЦОДов в наше время, полное перемен.

Для любой компании крайне важна бесперебойная работа ее IT-инфраструктуры, особенно серверов и установленного на них программного обеспечения. Прекращение доступа к Интернет, электронной почте, базам данных и другим приложениям неминуемо приведет к серьезным сбоям в бизнес-процессах компании.

Для обеспечения стабильной работы приложений серверное оборудование должно отвечать высоким требованиям по надежности. Одним из основных методов повышения надежности сервера является резервирование его подсистем путем дублирования компонентов: процессора, оперативной памяти, сетевых подключений, дисковых и твердотельных накопителей, устройств охлаждения, блоков питания. Отказ дублированного компонента не приводит к отказу сервера в целом, но может снизить его производительность. Устранение неисправности обычно выполняется без остановки работы сервера путем "горячей" замены отказавшего компонента.

Однако полное резервирование в рамках традиционной серверной архитектуры невозможно. Такие компоненты сервера как системная плата и контроллер дисков обычно не дублируются. Поэтому их выход из строя будет означать отказ сервера в целом и, как следствие, аварийную остановку всех приложений. Какова вероятность такой ситуации?

Надежность сервера определяется параметром MTBF — средним временем наработки на отказ. MTBF сервера можно вычислить теоретически — на основании известных значений MTBF серверных компонентов. С помощью данного метода мы рассчитали MTBF типового сервера и получили значение, равное 10 годам (детали расчета). Для такого сервера вероятность выхода из строя в течение одного года будет равна 10%.

Согласно статистике нашего сервисного центра серверы Team имеют среднее время наработки на отказ 25 лет, коэффициент готовности 99,99% и вероятность выхода из строя в течение одного года около 4%. При этом в отличие от "теоретического" расчета наша статистика учитывает любые отказы, в том числе и отказы дублированных компонентов, которые не приводят к отказу сервера в целом.

Очевидно, что столь высокие показатели надежности вполне достаточны для обеспечения устойчивой работы серверных приложений и соответствуют потребностям большинства компаний малого и среднего бизнеса.

Однако для некоторых компаний внеплановая остановка бизнес-приложений (пусть даже очень маловероятная) неприемлема. Например, одним из клиентов нашей компании является предприятие непрерывного цикла с численностью работников 150 человек. Производственный процесс на предприятии управляется при помощи специализированного серверного приложения. Остановка этой программы означает остановку производства. Восстановление работоспособности приложения после аппаратного или программного сбоя может занять несколько часов и на протяжении этого времени производство будет простаивать. Поэтому требуется обеспечить гарантированную непрерывность работы этого приложения как необходимое условие непрерывности всего бизнес-процесса.

Переход на виртуальную платформу VMware позволяет решить эту задачу.

Предлагаемое решение основано на использовании кластера двух (или более) серверов с общей системой хранения. В таком кластере все компоненты (в том числе компоненты системы хранения) продублированы. Восстановление работы приложений в случае отказа одного из серверов обеспечивается средствами виртуализации.

В штатном режиме на каждом сервере работает свой набор приложений, каждое приложение — в отдельной виртуальной машине. Все приложения изолированы друг от друга и не влияют на работу других приложений. Виртуальные машины и данные, с которыми они работают, хранятся на общем дисковом массиве, доступ к которому имеют оба сервера. Распределение виртуальных машин по серверам изначально задается администратором. Им же для каждой виртуальной машины выделяется часть аппаратных ресурсов сервера, при этом коэффициент загрузки каждого сервера может достигать 70-80%.

Непрерывность работы приложений обеспечивается средствами виртуальной платформы, которые осуществляют постоянный мониторинг виртуальных машин. В случае остановки виртуальной машины из-за отказа сервера она автоматически перезапустится на другом сервере. После устранения причины отказа и включения сервера виртуальные машины автоматически вернутся на "свой" сервер без прерывания работы.

Данное решение позволяет выполнять плановые работы по техническому обслуживанию серверов без остановки приложений. Перед выключением сервера его приложения "переезжают" на другой сервер, а после завершения работ возвращаются обратно.

Важным достоинством данного решения является его универсальность, поскольку оно подходит для любых приложений и не накладывает практически никаких ограничений на тип гостевых операционных систем виртуальных машин. Этим оно выгодно отличается от службы кластеров Microsoft Windows Server. Другими преимуществами решения являются более эффективное использование аппаратных ресурсов серверов, а также простота внедрения и администрирования.

Состав решения

Решение по обеспечению непрерывной работы серверных приложений на виртуальной платформе VMware включает следующие компоненты:

Два (или более) сервера Team . Все серверы Team совместимы с платформой VMware.
Дисковый RAID-массив с полным резервированием подсистем.
VMware Essentials Plus Kit в качестве платформы виртуализации.
Лицензии на операционные системы в соответствии с количеством виртуальных машин.
Необходимые пользователю серверные приложения.

В рамках внедрения данного решения наша компания готова выполнить следующие работы:

Подбор конфигурации серверов с требуемым уровнем производительности.
Подбор системы хранения.
Поставку серверов, системы хранения и другого необходимого оборудования.
Поставку программного обеспечения.
Монтаж и подключение оборудования.
Установку и настройку платформы виртуализации.
Установку и настройку виртуальных машин, операционных систем и приложений.
Тестирование системы и ввод в эксплуатацию.
Сопровождение в рамках гарантийного обслуживания и, по желанию, по договору аутсорсинга.

В составе решения мы бесплатно предоставим восемь часов работы сертифицированного специалиста VMware и Microsoft для консультаций, обучения и работ по внедрению решения.