В новой серии «Антологии технологий» рассказываем про отказоустойчивость — основное свойство системы такси, которое позволяет приложению работать 24/7.
Как сделать так, чтобы сервис справлялся с любыми нагрузками даже в праздники? Для этого есть множество решений. Например, тестовые отключения дата-центров и искусственные нагрузки позволяют рассчитать необходимое количество «железа», дашборды и роботы мониторят здоровье системы в реальном времени, а координаторы и разработчики симулируют поломки в тестовой копии приложения, чтобы быть готовыми к реальным инцидентам.
Смотрите новую серию, чтобы узнать о стабильной работе приложения подробнее.
00:00 — О чем серия
01:23 — Что такое отказоустойчивость
01:53 — Как избежать точек отказа в архитектуре
03:46 — Проверка кода
04:33 — Тестовое окружение, через которое проходят новые фичи
05:07 — Плавная выкатка и проверки на команде Яндекс Такси
05:38 — Как рассчитать серверные мощности и почему нельзя залить все железом
07:25 — Зачем искусственно увеличивать количество заказов
08:35 — Что может случиться с дата-центрами и зачем нужны плановые отключения
09:44 — Почему разработчики иногда специально крушат систему
10:39 — Как выглядит процесс симуляции инцидента
11:35 — Кошмар разработчика
12:31 — Дашборды с графиками, которые помогают обнаружить проблему
13:15 — Процесс починки и первые действия автоматики
14:14 — Что такое режим деградации и когда он включается
15:26 — Кто помогает избежать хаоса
16:57 — Где разработчиков может застать поломка. Лайфхаки координаторов
17:37 — Правила починки, помогающие сохранять самурайское спокойствие
18:43 — Почему система восстанавливается не сразу
19:49 — Зачем обрабатывать запросы задом-наперед
21:04 — Как вернуть водителей на линию
21:42 — Разбор и анализ инцидента
22:32 — Как разработчики встречают Новый год
23:55 — Резюме
Ещё видео!