3 сентября 2009

Причины сбоев в сети: Почему висим?

Категория: Наука и технологии

alt За последние сутки произошло отключение сразу нескольких крупных интернет-проектов. Когда жители средней полосы России засыпали, с полуночи по московскому времени перестал работать почтовый сервис Gmail. Когда страна проснулась и пришла на работу, — отключились все сервисы Rambler: поиск, почта, карты, развлекательные и информационные проекты... А вместе с ними и новостное онлайн-издание Lenta.Ru (входит в холдинг Rambler Media и располагает свои сервера вместе с другими проектами компании). В разных концах света с интервалом в 12 часов «посыпались» популярные проекты — международные и российские. Эксперты не советуют искать прямой связи между этими двумя сбоями — просто совпало. Google пострадал из-за «рутинного обновления машрутизаторов», а Rambler из-за «резервной системы электропитания». Но, как выяснил DAILYONLINE.RU, главная причина обоих сбоев — человеческий фактор.

Обрушили свои

2 сентября, в ночь со вторника на среду, Google Gmail не работал примерно полтора часа. Как объясняют в Google, сервис «упал» из-за перегрузки мощностей. Примечательно, что сбой был спровоцирован инженерами компании, которые производили ряд работ для улучшения доступа к серверам.

Сами сотрудники Google рассказали все подробности в официальном блоге Gmail.
«Утром мы отключили несколько серверов для рутинного обновления. Но проблема не в них — такое мы делаем регулярно, и веб-интерфейс Gmail отлично переадресовывает трафик на другие серверы. Но мы немного недооценили нагрузку, созданную некоторыми недавними изменениями (причем часть из них была направлена как раз на улучшение доступа к мощностям) на серверы-маршрутизаторы, обрабатывающие запросы и пересылающие их на конкретный Gmail-сервер.

Где-то за полчаса до «падения» несколько из таких серверов оказались перегруженными и, как результат, адресовали всей системе сигнал «остановите трафик, мы не успеваем!». Система перенаправила весь трафик на несколько оставшихся маршрутизаторов, в считанные минуты вырубив и их».

В результате пользователи не смогли выйти на Gmail через веб-интерфейс, но доступ к почте через клиентские программы (например, через Outlook) не пострадал — в Google объясняют это тем, что в работе участвовали упомянутые маршрутизаторы.

Дизель не завелся

Компания Google официально объяснилась по поводу почтовой аварии, а технические специалисты компании Rambler еще искали причины своей.

2 сентября, около 11 утра по московскому времени, перестал открываться портал Rambler. В пресс-службе компании объяснили DAILYONLINE.RU, что в дата-центре Rambler, который располагается в Москве на улице Восточной, были проблемы с электропитанием. В результате отключились сервера, на которых размещены все проекты Rambler, в том числе и родственная Lenta.Ru.

В компании уверяют, что пострадали только сервисы Rambler. К обеду некоторые проекты уже заработали, но о причинах случившегося в компании пока не говорят.

Генеральный директор компании IBS DataFort Денис Калинин, возглавлявший «Рамблер Интернет Холдинг» до 2007 года, рассказал DAILYONLINE.RU, что аварии в таких современных дата-центрах как Rambler, в 99 случаев из 100 происходят по вине человеческого фактора.

«В дата-центре Rambler установлена резервная система, дизельная электростанция. Я не понимаю, почему она не сработала. Не исключено, что были нарушения в эксплуатации дизеля».

Денис Калинин предполагает, что Rambler сможет восстановить работу своих проектов к вечеру среды, поскольку в компании умеют это делать достаточно быстро.

Эксперты, опрошенные DAILYONLINE.RU, назвали несколько возможных причин того, почему не запустилась резервная электросистема. Это может быть не столько халатность, когда кто-то забыл обновить дизельное топливо, но и желание сэкономить — содержание такой дизельной системы требует постоянного финансирования. Не исключено, что в сбое виноват кто-то вне компании. Один из экспертов мрачно сказал, что причин случившегося в Rambler может быть также много, как и на Саяно-Шушинской ГЭС.

Часы и минуты простоя

Основные принципы работы компаний в случае нештатной ситуации объяснил DAILYONLINE.RU заместитель генерального директора Stack Group, директор центра обеспечения услуг Максим Амзараков.

«В данном случае наличие или отсутствие резервной дизельной электростанции не играет решающей роли. Конечно хорошо, если она есть, но гораздо важнее другое — насколько проработан комплекс организационных и технических мер, позволяющих обеспечить доступ к сервисам компании на период нештатной ситуации. Эту задачу можно решить, например, распределением резервных комплектов оборудования по разным площадкам (лучше территориально удалённым друг от друга) — так поступает, в частности, Google. Насколько мне известно, и у Rambler, и у Яндекса, который владеет шестью дата-центрами, и у других интернет-проектов такая возможность есть», — говорит Амзаров.

О бизнес-рисках временного выхода из строя системы электроснабжения, Амзаров предлагает судить по двум моментам: «Во-первых, при качественном проектировании и обслуживании дата-центра это наименее распространённый вариант некорректной работы инженерного обеспечения дата-центров. Гораздо больше случаев отказа в доступе к сервисам дата-центров связано с нештатными ситуациями в работе систем холодоснабжения, либо с нарушением сетевого доступа. Во-вторых, большое значение имеет то, с каким уровнем резервирования организованы инженерные системы (в том числе системы энергоснабжения) и имеется ли возможность проводить регламентные и ремонтные работы без риска отключения дата-центра».

По словам Амзарова существуют и другие варианты реализации сценариев оперативного восстановления бизнеса. Но на выбор сценария во многом зависит и то, как каждая компания по-разному подходит к оценке прямого и косвенного ущерба бизнесу от простоя информационной системы: «Одни вполне допускают отсутствие доступа к серверам в течение четырех и более часов на протяжении года, другие исчисляют этот интервал секундами и минутами», — объясняет эксперт.

Автор Ася Мелкумова
http://dailyonline.ru/m/7577/


Вернуться назад »
  • Просмотров: 1998



Комментарии