Читайте также:
|
|
Главная проблема заключалась в том, что в IT‑отделе практически никого не было, кроме одного человека из начальства, который не поехал на празднование по семейным обстоятельствам, и одного специалиста, имевшего отношение к веб‑витрине, который не поехал за город по болезни. Впрочем, спокойно поболеть ему не удалось – после обвала сигналов с витрины ему пришлось удаленным доступом заходить на серверы и пытаться в спешном порядке что‑то делать, отключать какие‑то сервисы, чтобы остановить этот снежный ком. Остальные специалисты в волнении бегали по лесу и пытались давать рекомендации по мобильной связи.
Для OZON.ru это была, конечно, не самая приятная история – с 2002 года не было такого, чтобы все желающие не могли сделать заказы в течение нескольких часов. Ближе к вечеру основной поток удалось разгрести, и заказы стали оформляться с обычной скоростью.
Понятно, что здесь сработало сочетание целого ряда различных случайных совпадений, но выводы из подобной нештатной ситуации надо было срочно делать – и они были сделаны следующим образом.
Первое. IT‑отдел не может уезжать в полном составе – всегда должны оставаться какие‑то люди, которые могут принимать решения в сложной ситуации.
Второе. Для подобных ситуаций должен существовать некий Disaster Recovery Plan (план восстановления в случае катастрофы), в котором прописаны действия сотрудников в случае тех или иных проблем: кто и где дежурит, что делать в первую очередь и так далее. Такой план в отделе существовал, но он был существенно расширен и дополнен по итогам данного происшествия.
Третье. После этого случая была введена система отслеживания и анализа так называемых «инцидентов менеджеров». Сначала сформулировали критерии того, что считать инцидентом: например, более двадцати секунд простоя сайта – это уже проблема и повод для разбирательства. По результатам разбирательства выясняется причина инцидента и создается рекомендация по поводу того, что нужно сделать, чтобы инцидент не повторился. Причем инцидент не обязательно должен относиться к сайту. Инцидент – это перерыв любого критически важного бизнес‑сервиса: финансовой системы, бэк‑офиса, канала связи и так далее.
Четвертое. Были значительно ускорены работы по изменению архитектуры веб‑витрины. Главными целями изменений было повышение производительности и надежности. Новая архитектура была успешно внедрена в полном объеме к сентябрю 2007 года.
По существующей практике сейчас в OZON.ru фиксируется примерно один инцидент среднего уровня сложности в месяц‑полтора.
Дата добавления: 2015-10-29; просмотров: 97 | Нарушение авторских прав
<== предыдущая страница | | | следующая страница ==> |
Год. Скриншот главной страницы сайта www.ozon.ru | | | Огляд сучасних програм аналогів для перегляду графічних зображень |