Подготовка к интервью DevOps/Sre 2026
Git Сценарии (Git Scenarios)
- Разработчик случайно запушил плохой коммит в основную ветку (
main), и продакшн уже сломан. Как бы вы быстро стабилизировали продакшн? Вы бы использовалиrevert,resetили создали hotfix-ветку? Объясните своё решение. - Кто-то случайно закоммитил ключи API и секреты в публичный репозиторий на GitHub. Какие шаги вы предпримете немедленно, чтобы снизить риски и очистить историю репозитория?
- Два пул-реквеста готовы к релизу, но оба изменяют одни и те же файлы, и теперь возникли конфликты. Как бы вы разрешили конфликт, не внеся при этом новых багов?
- Вы откатили плохой коммит (сделали
revert), но сам откат вызвал новые проблемы. Как вы будете расследовать, что именно сломалось? - В вашей команде есть окружения
dev,stagingиproduction. Как бы вы спроектировали Git-стратегию ветвления, чтобы избежать хаоса во время релизов?
CI/CD Сценарии (CI/CD Scenarios)
- Ваш пайплайн CI (непрерывной интеграции) иногда падает, но при повторном запуске проходит успешно. Это начинает разрушать доверие к пайплайну. Как бы вы отладили эту нестабильность?
- Сборка в CI проходит успешно, но развертывание на продакшн терпит неудачу из-за различий в окружениях. Как бы вы это предотвратили?
- Вам нужно внедрить утверждение вручную (manual approval) перед развертыванием на продакшн, но не задерживать команду тестирования. Как бы вы спроектировали этот процесс?
- Один из этапов вашего пайплайна развертывания иногда зависает, не выдавая ошибок. Как бы вы отладили это, ничего не перезапуская вручную?
- Разработчики жалуются, что пайплайн занимает 25 минут, что замедляет обратную связь. Как бы вы оптимизировали его?
Docker и Сценарии с Контейнерами (Docker & Container Scenarios)
- Контейнер на продакшне падает через несколько минут после запуска, но локально у разработчика всё работает. Как бы вы это отладили?
- Разработчик обновил зависимости, и образ, который собирался локально, теперь не запускается в стейджинге. В чём может быть причина несоответствия?
- Ваше приложение в контейнере работает медленно. Какие метрики вы бы проверили, и как бы вы определили, проблема в приложении или в хосте?
- Образ Docker’а содержит уязвимости, но команда разработки говорит, что им нужно срочно сделать развертывание. Как бы вы сбалансировали безопасность и срочность?
- Вы используете Docker Compose для локальной разработки, но на продакшне используете Kubernetes. Какие подводные камни могут возникнуть?
Kubernetes и Сценарии с Оркестрацией (Kubernetes & Orchestration Scenarios)
- Поды (Pods) в Kubernetes перезапускаются в цикле (CrashLoopBackOff). Какие шаги вы предпримете для диагностики?
- Вы развернули новую версию, и часть трафика начала уходить на старую версию (во время развертывания). Как бы вы это расследовали?
- После масштабирования развертывания (deployment) несколько подов находятся в состоянии
Pending. Что, скорее всего, не так, и как бы вы это исправили? - Сервис не виден другим подам в том же кластере. Как бы вы это отладили?
- Ingress (входной контроллер) не маршрутизирует трафик к сервису. Где бы вы искали проблему в первую очередь?
- У вас произошёл сбой ноды в кластере, и поды не перепланируются (не переезжают). Почему это могло произойти?
- Ваше приложение в Kubernetes потребляет слишком много памяти. Какие действия вы предпримете для стабилизации?
Terraform и Сценарии с Инфраструктурой как Кодом (Terraform & IaC Scenarios)
- Вы запустили
terraform apply, и он висит уже 20 минут. Как бы вы это отладили, не сломав состояние? - Кто-то вручную изменил ресурс в облачной консоли. Как бы вы обнаружили это расхождение (дрейф) и исправили его?
- Один из разработчиков случайно удалил файл состояния (state file). Как бы вы восстановили инфраструктуру?
- Ваш план Terraform показывает, что он хочет уничтожить критическую базу данных, но вы не меняли её конфигурацию. Что происходит, и как бы вы это предотвратили?
- Вы работаете в команде из 10 человек, использующих одну и ту же конфигурацию Terraform. Как бы вы организовали работу с состояниями, чтобы избежать блокировок и ошибок?
- Ваш план показывает много изменений в ресурсах, которые, как вы знаете, не должны меняться. Как бы вы это отладили?
Сценарии с Облаками и Сетями (Cloud & Networking Scenarios)
- Приложение развёрнуто, но пользователи не могут подключиться. Где вы будете искать проблему: балансировщик, DNS (система доменных имён), группа безопасности?
- База данных работает медленно. Как бы вы определили, проблема на стороне БД, сети или приложения?
- Вы развернули приложение, но оно не может подключиться к API через интернет. Какие компоненты сети вы бы проверили?
- Трафик внезапно вырос, и ваша инфраструктура начала платить большие счета. Как бы вы автоматически защитились от этого в будущем?
- Вам нужно развернуть приложение в нескольких регионах. Как вы будете управлять сетевым взаимодействием и задержками?
Мониторинг, Наблюдаемость и Безопасность (Monitoring, Observability & Security Scenarios)
- Пользователи жалуются, что сайт тормозит, но все метрики (CPU, RAM) выглядят нормально. Куда вы будете смотреть дальше?
- После развертывания частота ошибок 500 (на стороне сервера) выросла, но вы не видите явных ошибок в логах приложения. Как бы вы это расследовали?
- Вы получаете предупреждение о том, что диск на сервере заполнен на 90%. Какие шаги предпримете, чтобы быстро освободить место и понять причину?
- Дисковое пространство снова заполняется каждые несколько дней, несмотря на то, что вы чистили логи ранее. Как бы вы решили эту проблему навсегда?
- Вы подозреваете, что в кластере запущен несанкционированный контейнер. Как бы вы это проверили и предотвратили повторение?
- Команда безопасности просит предоставить отчёт о том, кто имел доступ к продакшну за последние 90 дней. Где бы вы искали эту информацию?
- Внедрение инструментов мониторинга снизило производительность приложения. Как бы вы изменили подход к сбору метрик?
- Как бы вы обнаружили утечку памяти (memory leak) в приложении до того, как она уронит сервер?
Сценарии Инцидентов и Коммуникации (Incident & Communication Scenarios)
- Продакшн полностью лежит. Как вы будете коммуницировать с командами и принимать решения в первые 5 минут?
- Менеджер просит назвать точное время починки инцидента, но вы только начали расследование. Как вы ответите?
- Вы нашли причину проблемы, но исправление займёт 30 минут, а простой (даунтайм) будет всё это время. Ваши действия?
- Новая версия софта сломала совместимость со старым API. Как вы проведёте разбор инцидента (post-mortem), не обвиняя людей?
- Разработчик говорит, что «всё должно работать», но на проде всё сломано. Как вы выстроите диалог?
Поведенческие Сценарии и Сценарии Принятия Решений (Behavioral & Decision-Making Scenarios)
- Вам нужно внедрить новую практиму, которая сэкономит время, но команда сопротивляется. Как вы поступите?
- Дедлайн горит, стабильность страдает. Вы выберете скорость или качество? Объясните.
- Джуниор-разработчик случайно удалил важную базу данных на проде. Как вы отреагируете и что сделаете в первую очередь?
- Команда хочет переписать всю инфраструктуру на новых инструментах, потому что «старые надоели». Как вы оцените это решение?
DevSecOps (Безопасность на всех этапах)
- В CI/CD‑пайплайне вы обнаружили, что используемый базовый образ Docker содержит критическую уязвимость. Релиз должен состояться сегодня. Как вы поступите?
- Разработчик просит добавить секреты (пароли, токены) в код для удобства тестирования. Как вы объясните, почему это плохая практика, и предложите безопасную альтернативу?
- Ваш кластер Kubernetes сканируют на уязвимости и находят, что некоторые поды работают с привилегиями root. Как исправить ситуацию и предотвратить её в будущем?
- Внедряется политика, запрещающая публичные S3‑бакеты. Одна команда настаивает на публичном доступе для своего проекта. Как найти компромисс, не жертвуя безопасностью?
- При развёртывании нового сервиса выясняется, что он требует открыть нестандартный порт наружу. Как оценить риски и какие шаги предпринять для безопасного открытия порта?
FinOps и управление затратами (Cloud Cost Optimization)
- Ежемесячный счёт за облако вырос на 30% без видимых причин. Как вы будете расследовать, откуда взялись лишние расходы?
- Разработчики создают много тестовых окружений вручную и забывают их удалять. Как автоматизировать контроль затрат и чистку неиспользуемых ресурсов?
- Вы используете spot‑инстансы для экономии, но некоторые критичные задачи не должны прерываться. Как спроектировать архитектуру для устойчивости при работе с прерываемыми инстансами?
- Финансовый отдел просит предсказать расходы на следующий квартал. Какие данные и подходы вы используете для прогнозирования?
- Вы замечаете, что некоторые инстансы имеют низкую загрузку CPU, но работают 24/7. Как оптимизировать использование ресурсов без ущерба для производительности?
GitOps и продвинутые стратегии доставки
- После применения манифеста через ArgoCD приложение не обновляется, хотя синхронизация показывает успех. Как диагностировать причину?
- Команда хочет откатить неудачный релиз, но ArgoCD автоматически синхронизируется с Git, возвращая обратно. Как правильно организовать откат в GitOps?
- Вы используете несколько кластеров (dev, staging, prod) с одной Git‑репой. Как организовать управление конфигурациями для разных окружений без дублирования кода?
- При push в репозиторий пайплайн запускает обновление, но изменения не доходят до продакшна из‑за ошибки в CI. Как обеспечить согласованность между репо и кластером?
- Разработчик случайно запушил неверный тег образа в ветку production, и ArgoCD начал разворачивать неправильную версию. Как быстро отреагировать и предотвратить такие инциденты в будущем?
Service Mesh и управление трафиком
- Внедрили Istio, и после этого приложение стало работать медленнее. Какие шаги предпринять для выявления узкого места?
- Один из микросервисов начал отвечать ошибками 503, а логи приложения чисты. Как Service Mesh может помочь найти причину?
- Нужно ограничить доступ между сервисами по принципу наименьших привилегий. Как настроить политики авторизации в Service Mesh?
- Вы хотите постепенно перевести трафик с версии v1 на v2 сервиса. Как с помощью Service Mesh реализовать canary‑деплой?
- При использовании mTLS в Service Mesh срок действия сертификатов истёк, и сервисы перестали общаться. Как автоматизировать обновление сертификатов?
Наблюдаемость 2.0: трейсинг и профилирование
- Пользователи жалуются на высокую задержку при выполнении конкретной операции, но метрики общей нагрузки в норме. Как распределённый трейсинг поможет локализовать проблему?
- Вы видите, что один из сервисов потребляет аномально много CPU. Какие инструменты непрерывного профилирования помогут понять, какая функция виновата?
- Как спроектировать систему сбора трейсов, чтобы минимизировать влияние на производительность приложения?
- В дашбордах вы видите противоречивые данные: метрики говорят, что всё хорошо, а трейсы показывают много ошибок. В чём может быть причина?
- Как вы будете использовать данные трейсинга для оптимизации взаимодействия между сервисами (например, уменьшения количества вызовов)?
Disaster Recovery и бизнес‑непрерывность
- Один регион облака полностью вышел из строя. Как быстро переключить трафик на другой регион? Какие компоненты должны быть настроены заранее?
- При тестировании Disaster Recovery выяснилось, что восстановление базы данных занимает 12 часов, хотя RTO (целевое время восстановления) — 4 часа. Как улучшить?
- Критическое приложение использует локальные диски (ephemeral storage). Как обеспечить сохранность данных при сбое ноды?
- Как провести учения по аварийному восстановлению, не нарушая работу продакшна?
- В процессе восстановления вы обнаружили, что некоторые DNS‑записи до сих пор указывают на старый IP. Как автоматизировать обновление DNS при переключении?
Serverless и бессерверные архитектуры
- Ваша Lambda‑функция начала выполняться дольше, и часть запросов падает по таймауту. Как найти узкое место без доступа к серверу?
- При резком скачке трафика Lambda масштабируется, но база данных не выдерживает. Как защитить БД от перегрузки?
- Вы перешли на serverless, и счета выросли из‑за большого количества вызовов dev‑среды. Как ограничить использование в не‑prod окружениях?
- Как отлаживать и тестировать serverless‑приложения локально, чтобы избежать проблем при деплое?
- В Lambda используется много библиотек, и размер пакета превышает лимит. Как оптимизировать размер функции?
Управление конфигурациями и автоматизация серверов
- Вы запустили плейбук Ansible на сотне серверов, и он упал на середине из‑за ошибки в одной задаче. Как возобновить выполнение с места сбоя?
- Разработчик изменил конфигурационный файл вручную на сервере, и при следующем запуске Ansible изменения перезаписались. Как балансировать между автоматизацией и ручными правками?
- Нужно развернуть новое приложение на разнородных серверах (разные ОС, версии). Как спроектировать роли/рецепты для максимальной переиспользуемости?
- Как обеспечить безопасное хранение секретов в системах управления конфигурациями (Ansible Vault, encrypted data bags и т.д.)?
- При массовом обновлении конфигурации вы хотите сначала протестировать на небольшой группе серверов. Как реализовать canary‑развёртывание конфигураций?
Качество инфраструктурного кода и тестирование (IaC Testing)
- Вы написали модуль Terraform, но хотите убедиться, что он создаёт ресурсы правильно и не нарушает политики безопасности. Какие виды тестов вы включите?
- При запуске
terraform planвы видите, что будет удалён важный ресурс, хотя код не меняли. Как автоматически проверять подобные риски? - Как интегрировать линтеры и статические анализаторы (tflint, checkov) в CI/CD, чтобы они не блокировали пайплайн, но информировали команду?
- Ваш код Terraform использует модули из реестра. Как гарантировать, что обновление модуля не сломает инфраструктуру?
- Как тестировать политики (например, запрет публичных IP) до того, как ресурсы будут созданы?
Базы данных в DevOps‑практике
- Вы обновили схему базы данных (миграция), и после деплоя приложение стало отвечать с ошибками. Как быстро откатить изменения данных, не нарушая целостность?
- Запросы к базе резко замедлились, хотя нагрузка на приложение не выросла. Метрики CPU/IO в норме. Какие шаги предпримете для диагностики?
- Разработчик случайно выполнил
DELETEбезWHEREна продакшн‑базе. Как восстановить данные, если резервная копия была сделана 6 часов назад? - При развёртывании нового релиза вы обнаружили, что автоматическая миграция базы данных запустилась дважды и привела к дублированию данных. Как предотвратить такие ситуации в будущем?
- Ваше приложение использует репликацию master‑slave. При отказе master‑ноды вы вручную продвигаете slave, но приложение продолжает писать в старый master после его восстановления. Как автоматизировать переключение и избежать рассинхронизации?
- В вашем стеке одновременно используются PostgreSQL, Redis и Kafka. Опишите, как вы организуете мониторинг и алертинг для всей этой связки, чтобы быстро обнаружить проблему (например, падение продьюсера в Kafka, которое приводит к устареванию кэша в Redis и, как следствие, к тяжелым запросам в PostgreSQL).
PostgreSQL
- Вы выполнили миграцию схемы, которая добавила новый столбец с
NOT NULLбез значения по умолчанию. После деплоя приложение стало падать с ошибками. Как исправить ситуацию без остановки сервиса? - Репликация PostgreSQL (physical streaming) внезапно остановилась. Какие шаги предпринять для диагностики и восстановления синхронизации, не теряя данные?
- Запросы к определённой таблице стали выполняться очень медленно после роста объёма данных. Как с помощью
EXPLAINи анализа индексов найти проблему и предложить оптимизацию? - Вам нужно настроить резервное копирование PostgreSQL с поддержкой point‑in‑time recovery (PITR). Опишите процесс: какие инструменты используете, как часто делаете полные бэкапы и как храните WAL‑архивы.
MySQL
- При пиковой нагрузке вы замечаете, что многие запросы к MySQL встают в состояние
Waiting for table metadata lock. Как определить, какой запрос блокирует остальные, и как предотвратить такие ситуации? - Вы настроили репликацию master‑slave (асинхронную). В один момент слейв начинает отставать на несколько часов. Какие метрики проверить, и как можно ускорить репликацию?
- Разработчик случайно выполнил
DROP TABLEна тестовой базе, но через минуту понял ошибку. Есть только ежедневный снепшот. Как восстановить удалённую таблицу с минимальными потерями данных? - В MySQL 8 появилась поддержка ролей и более строгих политик безопасности. Как вы настроите привилегии для приложения, чтобы оно имело доступ только к нужным таблицам и не могло случайно удалить данные?
ClickHouse
- Вы загружаете большие объёмы данных в ClickHouse, и скорость вставки резко падает после нескольких часов работы. Какие параметры таблицы (партиционирование, TTL, индексы) вы проверите в первую очередь?
- Запросы к распределённой таблице (Distributed) выполняются медленно, хотя каждая шарда по отдельности отвечает быстро. Где искать узкое место: сеть, настройки Distributed, ключ шардирования?
- Одна из реплик ClickHouse вышла из строя. Как восстановить её без остановки записи на кластер и без потери данных?
- Вы хотите организовать ротацию старых данных в ClickHouse (например, удалять данные старше 30 дней). Какие механизмы ClickHouse для этого существуют, и как настроить автоматическую очистку с минимальным влиянием на производительность?
Redis
- После сбоя питания Redis потерял часть данных, хотя была включена опция
appendonly yes. Как проверить целостность AOF‑файла и настроить гарантии сохранности (durability) без сильного падения производительности? - Вы используете Redis как кэш с TTL. Некоторые ключи не удаляются после истечения срока, и память заполняется. Как настроить политику вытеснения (eviction policy) и мониторинг заполнения памяти?
- При пиковой нагрузке Redis начинает отвечать с задержками, и вы видите в логах множество
MISCONFошибок. Что они означают и как быстро стабилизировать работу? - Настроили Redis Sentinel для автоматического переключения при отказе мастера. Во время тестирования отказоустойчивости обнаружили, что некоторые клиенты продолжают писать в старый мастер после его восстановления. Как обеспечить корректное переключение на стороне приложения?
RabbitMQ
- Очередь RabbitMQ переполнилась, и сообщения начали сбрасываться. Какие механизмы защиты (max length, TTL, dead letter exchange) вы настроите, чтобы избежать потери данных и сохранить производительность?
- Приложение жалуется, что сообщения доставляются с большой задержкой. Как с помощью плагина управления и мониторинга (очереди, каналы, подтверждения) определить узкое место?
- Вы обновили версию RabbitMQ, и после перезапуска кластер не смог собраться — ноды не видят друг друга. Какие шаги предпринять для восстановления кластера без потери сообщений?
- Разработчик хочет гарантировать, что сообщение будет обработано ровно один раз (exactly‑once). Объясните, почему в RabbitMQ это сложно достичь, и предложите архитектуру, приближенную к этому требованию.
Kafka
- Потребитель (consumer) в группе перестал получать сообщения, хотя оффсеты не двигаются. Как с помощью
kafka-consumer-groupsи проверки лага определить, живой ли потребитель и почему он застрял? - При записи в Kafka продюсер получает ошибку
NotLeaderForPartition. Что это значит, и как клиент должен обрабатывать такую ситуацию? - Вам нужно перенести данные из одной кластера Kafka в другой без остановки потоковой обработки. Какие инструменты (MirrorMaker, Kafka Connect) вы используете, и как обеспечите консистентность?
- Лаг потребителя (consumer lag) постоянно растёт, но процессорные мощности не утилизированы полностью. Как вы будете исследовать причину: проблемы с сетью, медленная обработка, неоптимальное количество партиций?
Культура DevOps и взаимодействие команд
- Команда разработки не хочет брать на себя ответственность за эксплуатацию, предпочитая передавать задачи Ops. Как вы будете внедрять культуру “You build it, you run it”?
- Метрики DORA (частота деплоев, время восстановления) показывают ухудшение. Как провести ретроспективу и найти причины?
- Менеджеры просят гарантировать 100% uptime, но это невозможно. Как выстроить диалог о реалистичных SLI/SLO?
- Разработчики часто обращаются с просьбами предоставить доступ к продакшну для отладки. Как организовать процесс безопасного и аудитируемого доступа?
- Ваша команда внедрила новый инструмент (например, Kubernetes), но adoption идёт медленно. Как стимулировать обучение и переход?