J3qx

information archive

План восстановление портала при физическом уничтожении серверов связанных с работой портала

Posted by j3qx на Октябрь 1, 2013

План восстановление портала при физическом уничтожении серверов связанных с работой портала

Роли

  • Администратор SharePoint (SA-Sp) – администратор уровня приложений, управляет конфигурированием фермы SharePoint и семействами сайтов
  • Администратор виртуализации (SA-Vi) – управляет гипервизорами и системами хранения
  • Системный администратор (SA) – отвечает за базовую подготовку серверов, управление AD, DNS, TMG и т.п.
  • Администратор БД (SA-DB) – отвечает за настройку SQL Server, резервное копирование и восстановления БД
  • Сетевой администратор (SA-NOC) – отвечает за конфигурирование сетевого оборудования
  • Инженер ИБ (SA-SE) – отвечает шифрование и защиту серверов
  • Координатор работ (Co) – отвечает за скорейшее восстановление сервисов, расстановку приоритетов и решение вопросов по координации

Расположения серверов

  • Сервер Sharepoint – n010000 (ip — 1.1.1.1)
  • Сервер БД Sharepoint – n010000 (ip – 2.2.2.2)
  • WEB-Сервер Itilium – (ip – 3.3.3.3)
  • Сервер БД itilium – n010000 (ip – 4.4.4.4)
  • Сервер СУБД itilium – n010000 (ip – 5.5.5.5)
  • Сервер публикации приложения в интернет n010000 (ip – 6.6.6.6)
  • Хост виртуализации с серверами n01000000, n010000 (ip – 7.7.7.7)
  • Хост виртуализации с n0100000 (ip – 8.8.8.8)

Расположение файлов

  • \\EXAMPLE-Files\Backups_OPO$ — место хранение резервной копии sql дампа баз Sharepoint и Itilium. Список необходимых баз, указан ниже. Самая главная база – это база с данными WSS_content
  • Место хранение Acronis TIB образов серверов n01000000, n01000000, n01000000 — \\n00000000\a$\backup\
  • Место хранение оперативного бекапа семейства сайтов \\N00000000\sharepoint
  • Место хранение частичного бекапа семейства сайтов http://EXAMPLE-portal — \\N00000000\С$\backup\Sharepoint
  • Место бекапа конфигов TMG \\N00000000\c$\backup\TMG или \\n00000000\a$\backup\TMG\

Описание баз данных

  • met_data_db
  • Profile DB
  • SearchCrawlDB1
  • SharePoint_AdminContent_85
  • SharePoint_AdminContent_b77
  • SharePoint_Config_wssportal
  • Social DB
  • State Service Database
  • StateServiceDB
  • Sync DB
  • wss_content
  • WSS_Content_usr_profiles
  • WSS_Search_2_N01000000
  • WSS_UsageApplication
  • Приложение_службы_поиска_1_CrawlStoreDB_d8cf7f
  • Приложение_службы_поиска_1_DB_284cd4

Инструкция по восстановлению данных из БД, ниже в этом документе

Учетные записи задействованные в работе портала

  • s_wss_service
  • s_wssadmin
  • s_searchindex

Сценарии

  1. Уничтожен хост БД
  2. Уничтожен виртуальный сервер Sharepoint
  3. Уничтожен хост виртуализации сервера Sharepoint и TMG
  4. Сервер регистрации обращений вышел из строя

Риски

  • Уничтожения всей серверной комнаты, в том числе данные резервных копий хранящихся на других серверах
  • Не работоспособность резервных копий, в следствие логических повреждений резервной копии или аппаратных проблем
  • Уничтожения оборудования как в серверной комнате так и в помещениях компании, в том числе оборудование хранящее резервные копии
  • Отсутствие оборудование с минимально допустимой конфигурацией для восстановления серверов
  • Отсутствие сетевого инженера, который корректно скорректирует настройки сетевого оборудования

Сценарий 1. Уничтожение сервера БД

Описание: в случае аппаратного отказа, происходит деградация дискового массива с потерей всех данных на нем. В результате сервер полностью не работоспособен.

Действия

  1. Системный администратор:
    1. Уведомляется служба технической поддержки о неработоспособности портала и базы данных, с ориентировочным сроком восстановления 4 часа
    2. начинает процедуру подготовки нового сервера БД
    3. Параллельно отключается сервер n01000000
    4. На любом рядовом члене домена, с установленным IIS делается страница заглушка с текстом «Корпоративный портал временно не работает, ориентировочное время восстановления hh: mm dd/mm/yy»
    5. Параллельно с этим: на dns сервере меняется cname EXAMPLE-portal, чтобы он указывал на сервер заглушку
    6. На TMG правило публикации портала временно отключается, создается новое которое указывает на сайт с заглушкой
  2. Администратор БД
    1. Устанавливает и настраивает SQL с тем же самым именем и IP
    2. Производит восстановление баз данных из резервной копии
    3. Проверяет корректность прав на уровне сервера и уровне БД, для учетных записей задействованных в работе портала
  3. Сетевой администратор
    1. Разблокирует работу сетевых портов, которые заблокировали сетевой доступ при срабатывании защиты
  4. Администратор виртуализации
    1. Включает сервер n01000000
  5. Администратор SharePoint
    1. Логиниться на n01000000, проверяет ошибки в логах
    2. Проверяет старт сервисов SharePoint
    3. Проверяет что SharePoint увидел базу данных
    4. Логиниться в административный интерфейс, проверяет состояние сервисов и серверов
    5. Проверяет доступность работы портала по внутреннему имени http://example
  6. Системный администратор
    1. На DNS меняет CNAME на старый адрес, указывающий на портал
    2. На TMG удаляет временное правило перенаправляющее на сервер заглушку
    3. Включает правило публикации портала в интернет
    4. Проверяет доступность портала из внешних сетей (например с контроллеров домена RODC)
  7. Аварийное восстановление завершено. Дальше подготовка сервера к эксплуатации
    1. SA — После рабочего дня производиться установка всех необходимых обновлений
    2. SA-DB – до настройка и тюнинг сервера
    3. SA-SE – проведение мероприятий по установку систем защиты и аудиту настроек безопасности

Сценарий 2. Уничтожен виртуальный сервер SharePoint

Описание: во время регламентных работ, системный администратор виртуальной среды. Случайно удалил сервер n01000000, на котором находился корпоративный портал

  1. Системный администратор:
    1. Уведомляется служба технической поддержки о неработоспособности портала 6 часов
    2. На любом рядовом члене домена, с установленным IIS делается страница заглушка с текстом «Корпоративный портал временно не работает, ориентировочное время восстановления hh: mm dd/mm/yy»
    3. Параллельно с этим: на dns сервере меняется cname EXAMPLE-portal, чтобы он указывал на сервер заглушку
    4. На TMG правило публикации портала временно отключается, создается новое которое указывает на сайт с заглушкой
  2. Администратор виртуализации
    1. Создает новую виртуальную машину для восстановления, с характеристиками – 100gb HDD Thin Provision (тонкий диск) , Ram – 8Gb.
  3. Системный администратор:
    1. Восстанавливает на вновь созданную виртуальную машину данные из образа tib
  4. Администратор БД
    1. Делает резервные копии БД SharePoint актуальные на данный момент
  5. Администратор SharePoint
    1. Проверяет сервер восстановился корректно
    2. В случае устаревшей копии SharePoint, которая не может работать с новой съёмной БД, устанавливаются последние обновления для SharePoint. Обновления запрашиваются путем перехода в соответствующую статью и нажатием кнопки запросить update http://technet.microsoft.com/en-us/sharepoint/ff800847
    3. Логиниться в административный интерфейс, проверяет состояние сервисов и серверов
    4. Проверяет доступность работы портала по внутреннему имени http://pent33
  6. Системный администратор
    1. На DNS меняет CNAME на старый адрес, указывающий на портал
    2. На TMG удаляет временное правило перенаправляющее на сервер заглушку
    3. Включает правило публикации портала в интернет
    4. Проверяет доступность портала из внешних сетей (например с контроллеров домена RODC)
  7. Аварийное восстановление завершено

Сценарий 3. Сервер SharePoint и TMG вышли из строя

Описание: во время затопление серверной комнаты, сервер вышел из строя

  1. Системный администратор:
    1. Уведомляется служба технической поддержки о неработоспособности портала, TMG, Exchange 24 часа
    2. На любом рядовом члене домена, с установленным IIS делается страница заглушка с текстом «Корпоративный портал временно не работает, ориентировочное время восстановления hh: mm dd/mm/yy»
    3. Параллельно с этим: на dns сервере меняется cname EXAMPLE-portal, чтобы он указывал на сервер заглушку
    4. На TMG правило публикации портала временно отключается, создается новое которое указывает на сайт с заглушкой
  2. Администратор виртуализации
    1. Создает новую виртуальную машину для восстановления SharePoint, с характеристиками – 100gb HDD Thin Provision (тонкий диск) , Ram – 8Gb
    2. Создает новую виртуальную машину для восстановления, TMG с характеристиками – 100gb HDD Thin Provision (тонкий диск) , Ram – 2Gb, 2 NIC
  3. Системный администратор:
    1. Восстанавливает на вновь созданную виртуальную машину данные из образа tib SharePoint
    2. Восстанавливает на вновь созданную виртуальную машину данные из образа tib TMG
  4. Администратор БД
    1. Делает резервные копии БД SharePoint актуальные на данный момент
  5. Администратор SharePoint
    1. Проверяет сервер восстановился корректно
    2. В случае устаревшей копии SharePoint, которая не может работать с новой съёмной БД, устанавливаются последние обновления для SharePoint. Обновления запрашиваются путем перехода в соответствующую статью и нажатием кнопки запросить update http://technet.microsoft.com/en-us/sharepoint/ff800847
    3. Логиниться в административный интерфейс, проверяет состояние сервисов и серверов
    4. Проверяет доступность работы портала по внутреннему имени http://pent33
  6. Администратор виртуализации
    1. Создает дополнительный vSwitch-2, который привязывает ко второму сетевому интерфейсу физического сервера
    2. vSwitch-2 привязать ко второму интерфейсу TMG
  7. Сетевой администратор
    1. Разблокирует заблокированные порты и отключает мак стик на интерфейсы сервера виртуализации
    2. Для второго интерфейса, к которому привязан vSwitch назначается VLAN 300
  8. Системный администратор
    1. Настраивает сетевые интерфейсы, согласно данным из CMDB (ipconfig приведен в конце документа)
    2. Проверяет доступность внешней пикс 10.0.1.2
    3. Восстанавливает самую актуальную версию конфигурации TMG
  9. Системный администратор
    1. На DNS меняет CNAME на старый адрес, указывающий на портал
    2. На TMG удаляет временное правило перенаправляющее на сервер заглушку
    3. Включает правило публикации портала в интернет
    4. Проверяет доступность портала из внешних сетей (например с контроллеров домена RODC)
  10. Аварийное восстановление завершено
    1. SA – проверяет корректность работы внешних сертификатов

Сценарий 4. Сервер регистрации обращений вышел из строя

Описание: из-за не корректного обновления системы, сервер вышел из строя

  1. Системный администратор:
    1. Уведомляется служба технической поддержки о неработоспособности системы регистрации обращения с ориентировочным сроком восстановления 8 часов
  2. Администратор SharePoint
    1. Создает страницу заглушку
    2. Меняет ссылку в разделе заявку на страницу заглушки
  3. Администратор виртуализации
    1. Подготавливает новый хост для восстановления
    2. Создает новую виртуальную машину для восстановления itilium, с характеристиками – 100gb HDD Thin Provision (тонкий диск) , Ram – 2Gb.
  4. Системный администратор
    1. Восстанавливает из tib образа сервер n01000000
  5. Администратор БД
    1. Делает резервные копии БД itilium актуальные на данный момент
  6. Системный администратор
    1. Проверяет сервер восстановился корректно
    2. Проверяет корректность работы IIS
    3. Проверяет корректность работы системы регистрации обращений
  7. Администратор SharePoint
    1. Отключает страницу заглушку
    2. Восстанавливает ссылку в разделе заявки
    3. Проверяет корректность работы
  8. Аварийное восстановление завершено
    1. SA-SE – проведение мероприятий по установку систем защиты и аудиту настроек безопасности
    2. SA — Проверяет доступность портала из внешних сетей (например с контроллеров домена RODC)

Справочная информация

Ipconfig TMG

Windows IP Configuration

Host Name . . . . . . . . . . . . : n01000000

Primary Dns Suffix . . . . . . . : example.org

Node Type . . . . . . . . . . . . : Hybrid

IP Routing Enabled. . . . . . . . : Yes

WINS Proxy Enabled. . . . . . . . : No

DNS Suffix Search List. . . . . . : example.org

Ethernet adapter External:

Connection-specific DNS Suffix . :

Description . . . . . . . . . . . : Intel(R) PRO/1000 MT Network Connection #2

Physical Address. . . . . . . . . :

DHCP Enabled. . . . . . . . . . . : No

Autoconfiguration Enabled . . . . : Yes

Ethernet adapter Internal:

Connection-specific DNS Suffix . :

Description . . . . . . . . . . . : Intel(R) PRO/1000 MT Network Connection

Реклама

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

 
%d такие блоггеры, как: