Дизастер. То есть катастрофа

Дизастер. То есть катастрофа

В середине лета, на 6 июля 2007 года, был запланирован корпоративный праздник. Формально день рождения компании отмечался в апреле, но руководство решило вывезти сотрудников на природу, поэтому празднование перенесли на июль.

На мероприятие собрали сотрудников всех подразделений и филиалов OZON.ru – более трехсот человек. Приехали люди из Твери, Санкт-Петербурга и Москвы, даже IT-отдел практически в полном составе приехал на загородный корпоратив.

Однако буквально за сутки до мероприятия Россия выиграла конкурс на право проведения зимней Олимпиады 2014 года в Сочи. Маркетологи OZON.ru не могли пропустить это событие, поэтому решили на три дня дать скидку в 20 процентов на все товары OZON.ru. По этому поводу в ночь на 6 июля была сделана тотальная рассылка под лозунгом «Россия выиграла!», которая ушла на 1 миллион 700 тысяч адресов клиентов магазина.[14] Маркетологи свое дело сделали и довольные уехали на празднование дня рождения OZON.ru.

Между тем, так как была середина лета, веб-витрина OZON.ru готовилась к модернизации. В IT-отделе где-то что-то «разобрали», где-то что-то ремонтировали – в общем, полуразобранная карета графа Калиостро никак не ожидала, что в нее разом сядет все население окрестных деревень и помчится в сторону канадской границы. С обычным летним потоком клиентов витрина вполне справлялась, но она не знала, что Россия выиграет конкурс на проведение Олимпиады и что маркетологи решат отметить это событие небольшой рассылкой на 1 миллион 700 тысяч человек.

Утром 6 июля клиенты магазина, получив рассылку, ощутили двукратный эмоциональный подъем: во-первых, Россия выиграла, во-вторых, скидки в двадцать процентов. Невозможно было не поздравить Россию, проигнорировав такие скидки, – и народ ломанулся делать заказы.

У веб-витрины, разумеется, есть система внутреннего оповещения, которая отправляет соответствующим специалистам предупреждения (алерты) в том случае, когда превышаются определенные параметры. Где-то в десять утра 6 июля система начала рассылать сообщения о том, что на сайте резко возросло количество одновременно присутствующих посетителей – сначала тысяча человек, затем две тысячи… Также система начала сигнализировать о том, что возрастают задержки в скорости оформления заказов, а это уже страшно, потому что главная задача любой веб-витрины – дать возможность получить информацию и сделать заказ, причем без задержек, ведь клиенту может надоесть ждать, и тогда заказ он не сделает.

Здесь, конечно, сработало сразу несколько факторов: на веб-витрине велись профилактические работы по случаю лета и значительного снижения покупательской активности, рассылка была произведена совершенно неожиданно (решение было принято буквально в пару часов), скидки были крайне соблазнительные – аж двадцать процентов. В результате народ толпой пошел на веб-витрину не просто смотреть, что же там такое, а делать заказы, причем в больших количествах.

Команда интернет-магазина находилась в лесу, когда 1 700 000 клиентов OZON.ru получили рекламную рассылку

Главная проблема заключалась в том, что в IT-отделе практически никого не было, кроме одного человека из начальства, который не поехал на празднование по семейным обстоятельствам, и одного специалиста, имевшего отношение к веб-витрине, который не поехал за город по болезни. Впрочем, спокойно поболеть ему не удалось – после обвала сигналов с витрины ему пришлось удаленным доступом заходить на серверы и пытаться в спешном порядке что-то делать, отключать какие-то сервисы, чтобы остановить этот снежный ком. Остальные специалисты в волнении бегали по лесу и пытались давать рекомендации по мобильной связи.

Для OZON.ru это была, конечно, не самая приятная история – с 2002 года не было такого, чтобы все желающие не могли сделать заказы в течение нескольких часов. Ближе к вечеру основной поток удалось разгрести, и заказы стали оформляться с обычной скоростью.

Понятно, что здесь сработало сочетание целого ряда различных случайных совпадений, но выводы из подобной нештатной ситуации надо было срочно делать – и они были сделаны следующим образом.

Первое. IT-отдел не может уезжать в полном составе – всегда должны оставаться какие-то люди, которые могут принимать решения в сложной ситуации.

Второе. Для подобных ситуаций должен существовать некий Disaster Recovery Plan (план восстановления в случае катастрофы), в котором прописаны действия сотрудников в случае тех или иных проблем: кто и где дежурит, что делать в первую очередь и так далее. Такой план в отделе существовал, но он был существенно расширен и дополнен по итогам данного происшествия.

Третье. После этого случая была введена система отслеживания и анализа так называемых «инцидентов менеджеров». Сначала сформулировали критерии того, что считать инцидентом: например, более двадцати секунд простоя сайта – это уже проблема и повод для разбирательства. По результатам разбирательства выясняется причина инцидента и создается рекомендация по поводу того, что нужно сделать, чтобы инцидент не повторился. Причем инцидент не обязательно должен относиться к сайту. Инцидент – это перерыв любого критически важного бизнес-сервиса: финансовой системы, бэк-офиса, канала связи и так далее.

Четвертое. Были значительно ускорены работы по изменению архитектуры веб-витрины. Главными целями изменений было повышение производительности и надежности. Новая архитектура была успешно внедрена в полном объеме к сентябрю 2007 года.

По существующей практике сейчас в OZON.ru фиксируется примерно один инцидент среднего уровня сложности в месяц-полтора.

Данный текст является ознакомительным фрагментом.