J3qx

information archive

Инструкция для инженеров Системного отдела по порядку действий для восстановления Интернета в ЦО

Posted by j3qx на Сентябрь 15, 2013

Инструкция для инженеров Системного отдела по порядку действий для восстановления Интернета в ЦО

Источники информации.

Определение проблемы.

Порядок действий.

Порядок уведомления.

Источники информации:

  1. Инженеры Системного отдела ЦО.
  2. Инженеры технической поддержки ЦО.
  3. Сотрудники ДИТ ЦО.
  4. Пользователи ЦО.
  5. Директор ИТ ЦО или лицо, его замещающее.

Информация поступает в устной форме. В обязательном порядке фиксируется время поступления информации.

Определение проблемы.

  • Определение проблемы. Необходимо ответить на вопросы (в скобках приведены вероятные точки, где происходит сбой):
    • Кто первый определил наличие проблемы? Необходимо зафиксировать время.
    • В чем выражается проблема? Максимально подробно.
    • Доступен ли Интернет с серверов, которые выведены в DMZ? (провайдер, медиаконвертер, пикс, маршрутизатор).
    • Доступен ли маршрутизатор доступа в Интернет? (внутренний коммутатор, LAN, маршрутизатор).
    • Доступен ли шлюз провайдера с маршрутизатора доступа в Интернет?(провайдер, медиаконвертер, внешний коммутатор).
    • Доступен ли внешний коммутатор внешних связей? (оптика из Б413 в А0, внешний коммутатор, внутренний коммутатор).
    • Доступны ли в LAN компьютеры пользователей из Б414? (внешний коммутатор, внутренний коммутатор).
    • Оборудование провайдера не показывает аварии? (провайдер, медиаконвертер).
    • Есть ли трафик на порту провайдера внешнего коммутатора внешних связей? (провайдер, медиаконвертер)
    • Если трафик на внешнем интерфейсе прокси-сервера? (провайдер, медиаконвертер, внешний коммутатор, внутренний коммутатор, LAN).
  • Локализация проблемы. Проблема может быть в одной из указанных точек (по порядку прохождения трафика):
    • Провайдер.
    • Оборудование провайдера в ЦО (медиаконвертер).
    • Внешний коммутатор внешних связей (B4-WanSW).
    • ВОЛС между Б413 и А0.
    • Внутренний коммутатор внешних связей (A0-WanSW).
    • Маршрутизатор доступа в Интернет (A0-Cisco2651).
    • Брандмауэер (A5-2-Pix).
    • Прокси-сервер (PXS).

Сразу после локализации проблемы делается уведомление.

Порядок действий:

  1. Несколько основополагающих правил:
    1. Все конфиги LAN и WAN ежедневно сохраняются на СУС.
    2. Первоочередная задача – восстановление 50% работоспособности в кратчайшие сроки (электронная почта наружу и подключение LL-филиалов). Оставшиеся 50% (доступ в интернет ЦО и подключения VPN-филиалов) – вторая очередь. По мере возможности – проведение расследования с описанием произошедшего, таймингом и выводами.
    3. Сетевое оборудование достаточно чувствительно к качеству электропитания (поэтому оно почти везде подключено через бесперебойники).
    4. Редко, но бывает, что сетевое оборудование «повисает» — отключение/включение электропитания поможет.
    5. Очень редко, но имеется один случай выхода из строя eth-порта оборудования (причины не выяснены).
    6. Нельзя исключать возможность злонамеренной коррекции конфигов сетевого оборудования. В этом случае поможет сравнение с эталоном (за эталон можно взять конфиг прошлого дня).
    7. Обязательно к прочтению и хотя бы предварительному анализу логии сбойного оборудования.
  2. В случае если диагностируется авария на оборудовании провайдера, либо нет прохождения трафика от серверов в DMZ, то проблема, скорее всего на стороне провайдера. В таком случае, необходимо незамедлительно связаться с абонентской службой провайдера. Обязательно к выполнению:
    1. Создать устную заявку оператору.
    2. Сообщить описание проблемы оператору.
    3. Узнать имя и/или номер оператора.
    4. Узнать номер заявки.
    5. Узнать у оператора, нет ли каких-либо внутренних сообщений провайдера о возможных авариях.
    6. Узнать, не было ли сегодня похожих аварий.
    7. Узнать приблизительное время решения проблемы.
    8. Зафиксировать время.
  3. В случае, если диагностируется авария на внешнем коммутаторе внешних связей, то, возможна, потребуется замена оборудования. Оборудование можно взять с одного из этажных стеков. Необходимо взять самый свободный коммутатор. Возможно, придется отключить пользователей, которые были к нему подключены — волевым решением. В освободившийся коммутатор записывается (с ноутбука) конфиг (каждый день сохраняется на СУС). Затем коммутатор относится в Б413 и устанавливается на место старого, при этом необходимо очень аккуратно перенести все подключения (внимательность и аккуратность!).
  4. В случае диагностировании проблемы на ВОЛС, то необходим канал связи между Б413 и А0. Допустимы как ВОЛС, так и eth cat5.
  5. В случае, если диагностируется авария на внутреннем коммутаторе внешних связей, то, возможно, потребуется замена оборудования. Оборудование можно взять с одного из этажных стеков. Необходимо взять самый свободный коммутатор. Возможно, придется отключить пользователей, которые были к нему подключены — волевым решением. В освободившийся коммутатор записывается (с ноутбука) конфиг (каждый день сохраняется на СУС). Затем коммутатор относится в А0 и устанавливается на место старого, при этом необходимо очень аккуратно перенести все подключения (внимательность и аккуратность!).
  6. В случае, если диагностируется авария на маршрутизаторе доступа в Интернет, то, возможно, потребуется замена оборудования. Под замену можно взять маршрутизатор Cisco2621XM (который был выведен из эксплуатации во время аварийных перегрузок WAN и был заменен на Cisco3825). Возможно, понадобится записать в него IOS от Cisco2651XM (рекомендуется попробовать поднять маршрутизатор на уже имеющемся IOS — так быстрее, но, на всякий случай, все используемые IOSы находится на СУС и на дисках с дистрибутивами). Эта операция проводится с ноутбука. Затем нужно записать в него конфиг от Cisco2651XM. Операция так же проводится с ноутбука. Возможно, при записи будут ошибки несовместимости программно-аппаратной части. Ошибки необходимо тщательно задокументировать и произвести их первичный анализ. Затем маршрутизатор переносится в Б413 и монтируется вместо заменяемого. Аккуратно (внимательность и аккуратность!) переносятся все подключения (не обязательно переносить FR — это не первоочередная задача. Достаточно восстановить FR в разумный срок).
  7. В случае диагностирования проблемы на брандмауэре (Cisco Pix) необходимо вывести его из маршрута прохождения трафика. Необходимо на маршрутизаторах внести изменения маршрутизации. Возможно, понадобится коммутатор (где его взять — см 2).
  8. В случае диагностировании проблемы на прокси-сервере, производится анализ прохождения трафика. Так же производится поиск последних правил, которые создавались на прокси-сервере. В крайнем случае, производится восстановление из последнего образа (предварительно создается образ текущей конфигурации — для возможного восстановления в особенно запутанных случаях).
  9. В случае диагностировании аппаратных проблем с сетевым оборудованием, необходимо провести детальную диагностику:
    1. Сбрасывается конфиг.
    2. Заново заливается IOS.
    3. Восстанавливается конфиг.
    4. На стенде эмулируется рабочий режим оборудования.
      1. В случае нормальной работы оборудования, оно оставляется на стенде на два-три дня под постоянной нагрузкой (нагрузка должна быть максимальной). При этом включается максимально возможный уровень логгирования.
      2. Затем оборудование вводится обратно в эксплуатацию.
    5. Необходимо написать служебную записку, в которой доступным языком изложить произошедшее, возможные причины, использованные ресурсы для восстановления работоспособности, рекомендации к последующим действиям (диагностика в специализированном центре, ремонт, закупка нового).
  10. В случае восстановления работоспособности необходимо разослать соответствующее уведомление.
  11. В случае если работоспособность не может быть восстановлена в течение 2-ух часов, необходимо разослать соответствующее уведомление.

Порядок уведомления:

  • Уведомление рассылается по электронной почте.
  • Адрес получателя: alert@example.com
  • В теме письма необходимо написать «!!! INET !!!».
  • В теле письма по порядку:
    • Дата в формате ДД/ММ/ГГГГ, время отключения или подключения в формате ЧЧ:ММ.
    • В этой же строке «Действие: отключен канал Интернет в ЦО» или «Действие: включен канал Интернет ЦО».
    • На следующей строке: «Причина: «:
      • «Сбой в работе провайдера».
      • «Сбой в работе оборудования WAN».
      • «Сбой в работе оборудования LAN».
    • На следующей строке: «Прогноз: «. Пишется прогноз времени в часах для восстановления работоспособности.
    • В свойствах письма включается посылка подтверждений о получении и прочтении письма
  • Письмо отсылается
Реклама

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

 
%d такие блоггеры, как: