Подготовка к интервью DevOps/Sre 2026

Git Сценарии (Git Scenarios)

  1. Разработчик случайно запушил плохой коммит в основную ветку (main), и продакшн уже сломан. Как бы вы быстро стабилизировали продакшн? Вы бы использовали revert, reset или создали hotfix-ветку? Объясните своё решение.
  2. Кто-то случайно закоммитил ключи API и секреты в публичный репозиторий на GitHub. Какие шаги вы предпримете немедленно, чтобы снизить риски и очистить историю репозитория?
  3. Два пул-реквеста готовы к релизу, но оба изменяют одни и те же файлы, и теперь возникли конфликты. Как бы вы разрешили конфликт, не внеся при этом новых багов?
  4. Вы откатили плохой коммит (сделали revert), но сам откат вызвал новые проблемы. Как вы будете расследовать, что именно сломалось?
  5. В вашей команде есть окружения dev, staging и production. Как бы вы спроектировали Git-стратегию ветвления, чтобы избежать хаоса во время релизов?

CI/CD Сценарии (CI/CD Scenarios)

  1. Ваш пайплайн CI (непрерывной интеграции) иногда падает, но при повторном запуске проходит успешно. Это начинает разрушать доверие к пайплайну. Как бы вы отладили эту нестабильность?
  2. Сборка в CI проходит успешно, но развертывание на продакшн терпит неудачу из-за различий в окружениях. Как бы вы это предотвратили?
  3. Вам нужно внедрить утверждение вручную (manual approval) перед развертыванием на продакшн, но не задерживать команду тестирования. Как бы вы спроектировали этот процесс?
  4. Один из этапов вашего пайплайна развертывания иногда зависает, не выдавая ошибок. Как бы вы отладили это, ничего не перезапуская вручную?
  5. Разработчики жалуются, что пайплайн занимает 25 минут, что замедляет обратную связь. Как бы вы оптимизировали его?

Docker и Сценарии с Контейнерами (Docker & Container Scenarios)

  1. Контейнер на продакшне падает через несколько минут после запуска, но локально у разработчика всё работает. Как бы вы это отладили?
  2. Разработчик обновил зависимости, и образ, который собирался локально, теперь не запускается в стейджинге. В чём может быть причина несоответствия?
  3. Ваше приложение в контейнере работает медленно. Какие метрики вы бы проверили, и как бы вы определили, проблема в приложении или в хосте?
  4. Образ Docker’а содержит уязвимости, но команда разработки говорит, что им нужно срочно сделать развертывание. Как бы вы сбалансировали безопасность и срочность?
  5. Вы используете Docker Compose для локальной разработки, но на продакшне используете Kubernetes. Какие подводные камни могут возникнуть?

Kubernetes и Сценарии с Оркестрацией (Kubernetes & Orchestration Scenarios)

  1. Поды (Pods) в Kubernetes перезапускаются в цикле (CrashLoopBackOff). Какие шаги вы предпримете для диагностики?
  2. Вы развернули новую версию, и часть трафика начала уходить на старую версию (во время развертывания). Как бы вы это расследовали?
  3. После масштабирования развертывания (deployment) несколько подов находятся в состоянии Pending. Что, скорее всего, не так, и как бы вы это исправили?
  4. Сервис не виден другим подам в том же кластере. Как бы вы это отладили?
  5. Ingress (входной контроллер) не маршрутизирует трафик к сервису. Где бы вы искали проблему в первую очередь?
  6. У вас произошёл сбой ноды в кластере, и поды не перепланируются (не переезжают). Почему это могло произойти?
  7. Ваше приложение в Kubernetes потребляет слишком много памяти. Какие действия вы предпримете для стабилизации?

Terraform и Сценарии с Инфраструктурой как Кодом (Terraform & IaC Scenarios)

  1. Вы запустили terraform apply, и он висит уже 20 минут. Как бы вы это отладили, не сломав состояние?
  2. Кто-то вручную изменил ресурс в облачной консоли. Как бы вы обнаружили это расхождение (дрейф) и исправили его?
  3. Один из разработчиков случайно удалил файл состояния (state file). Как бы вы восстановили инфраструктуру?
  4. Ваш план Terraform показывает, что он хочет уничтожить критическую базу данных, но вы не меняли её конфигурацию. Что происходит, и как бы вы это предотвратили?
  5. Вы работаете в команде из 10 человек, использующих одну и ту же конфигурацию Terraform. Как бы вы организовали работу с состояниями, чтобы избежать блокировок и ошибок?
  6. Ваш план показывает много изменений в ресурсах, которые, как вы знаете, не должны меняться. Как бы вы это отладили?

Сценарии с Облаками и Сетями (Cloud & Networking Scenarios)

  1. Приложение развёрнуто, но пользователи не могут подключиться. Где вы будете искать проблему: балансировщик, DNS (система доменных имён), группа безопасности?
  2. База данных работает медленно. Как бы вы определили, проблема на стороне БД, сети или приложения?
  3. Вы развернули приложение, но оно не может подключиться к API через интернет. Какие компоненты сети вы бы проверили?
  4. Трафик внезапно вырос, и ваша инфраструктура начала платить большие счета. Как бы вы автоматически защитились от этого в будущем?
  5. Вам нужно развернуть приложение в нескольких регионах. Как вы будете управлять сетевым взаимодействием и задержками?

Мониторинг, Наблюдаемость и Безопасность (Monitoring, Observability & Security Scenarios)

  1. Пользователи жалуются, что сайт тормозит, но все метрики (CPU, RAM) выглядят нормально. Куда вы будете смотреть дальше?
  2. После развертывания частота ошибок 500 (на стороне сервера) выросла, но вы не видите явных ошибок в логах приложения. Как бы вы это расследовали?
  3. Вы получаете предупреждение о том, что диск на сервере заполнен на 90%. Какие шаги предпримете, чтобы быстро освободить место и понять причину?
  4. Дисковое пространство снова заполняется каждые несколько дней, несмотря на то, что вы чистили логи ранее. Как бы вы решили эту проблему навсегда?
  5. Вы подозреваете, что в кластере запущен несанкционированный контейнер. Как бы вы это проверили и предотвратили повторение?
  6. Команда безопасности просит предоставить отчёт о том, кто имел доступ к продакшну за последние 90 дней. Где бы вы искали эту информацию?
  7. Внедрение инструментов мониторинга снизило производительность приложения. Как бы вы изменили подход к сбору метрик?
  8. Как бы вы обнаружили утечку памяти (memory leak) в приложении до того, как она уронит сервер?

Сценарии Инцидентов и Коммуникации (Incident & Communication Scenarios)

  1. Продакшн полностью лежит. Как вы будете коммуницировать с командами и принимать решения в первые 5 минут?
  2. Менеджер просит назвать точное время починки инцидента, но вы только начали расследование. Как вы ответите?
  3. Вы нашли причину проблемы, но исправление займёт 30 минут, а простой (даунтайм) будет всё это время. Ваши действия?
  4. Новая версия софта сломала совместимость со старым API. Как вы проведёте разбор инцидента (post-mortem), не обвиняя людей?
  5. Разработчик говорит, что «всё должно работать», но на проде всё сломано. Как вы выстроите диалог?

Поведенческие Сценарии и Сценарии Принятия Решений (Behavioral & Decision-Making Scenarios)

  1. Вам нужно внедрить новую практиму, которая сэкономит время, но команда сопротивляется. Как вы поступите?
  2. Дедлайн горит, стабильность страдает. Вы выберете скорость или качество? Объясните.
  3. Джуниор-разработчик случайно удалил важную базу данных на проде. Как вы отреагируете и что сделаете в первую очередь?
  4. Команда хочет переписать всю инфраструктуру на новых инструментах, потому что «старые надоели». Как вы оцените это решение?

DevSecOps (Безопасность на всех этапах)

  1. В CI/CD‑пайплайне вы обнаружили, что используемый базовый образ Docker содержит критическую уязвимость. Релиз должен состояться сегодня. Как вы поступите?
  2. Разработчик просит добавить секреты (пароли, токены) в код для удобства тестирования. Как вы объясните, почему это плохая практика, и предложите безопасную альтернативу?
  3. Ваш кластер Kubernetes сканируют на уязвимости и находят, что некоторые поды работают с привилегиями root. Как исправить ситуацию и предотвратить её в будущем?
  4. Внедряется политика, запрещающая публичные S3‑бакеты. Одна команда настаивает на публичном доступе для своего проекта. Как найти компромисс, не жертвуя безопасностью?
  5. При развёртывании нового сервиса выясняется, что он требует открыть нестандартный порт наружу. Как оценить риски и какие шаги предпринять для безопасного открытия порта?

FinOps и управление затратами (Cloud Cost Optimization)

  1. Ежемесячный счёт за облако вырос на 30% без видимых причин. Как вы будете расследовать, откуда взялись лишние расходы?
  2. Разработчики создают много тестовых окружений вручную и забывают их удалять. Как автоматизировать контроль затрат и чистку неиспользуемых ресурсов?
  3. Вы используете spot‑инстансы для экономии, но некоторые критичные задачи не должны прерываться. Как спроектировать архитектуру для устойчивости при работе с прерываемыми инстансами?
  4. Финансовый отдел просит предсказать расходы на следующий квартал. Какие данные и подходы вы используете для прогнозирования?
  5. Вы замечаете, что некоторые инстансы имеют низкую загрузку CPU, но работают 24/7. Как оптимизировать использование ресурсов без ущерба для производительности?

GitOps и продвинутые стратегии доставки

  1. После применения манифеста через ArgoCD приложение не обновляется, хотя синхронизация показывает успех. Как диагностировать причину?
  2. Команда хочет откатить неудачный релиз, но ArgoCD автоматически синхронизируется с Git, возвращая обратно. Как правильно организовать откат в GitOps?
  3. Вы используете несколько кластеров (dev, staging, prod) с одной Git‑репой. Как организовать управление конфигурациями для разных окружений без дублирования кода?
  4. При push в репозиторий пайплайн запускает обновление, но изменения не доходят до продакшна из‑за ошибки в CI. Как обеспечить согласованность между репо и кластером?
  5. Разработчик случайно запушил неверный тег образа в ветку production, и ArgoCD начал разворачивать неправильную версию. Как быстро отреагировать и предотвратить такие инциденты в будущем?

Service Mesh и управление трафиком

  1. Внедрили Istio, и после этого приложение стало работать медленнее. Какие шаги предпринять для выявления узкого места?
  2. Один из микросервисов начал отвечать ошибками 503, а логи приложения чисты. Как Service Mesh может помочь найти причину?
  3. Нужно ограничить доступ между сервисами по принципу наименьших привилегий. Как настроить политики авторизации в Service Mesh?
  4. Вы хотите постепенно перевести трафик с версии v1 на v2 сервиса. Как с помощью Service Mesh реализовать canary‑деплой?
  5. При использовании mTLS в Service Mesh срок действия сертификатов истёк, и сервисы перестали общаться. Как автоматизировать обновление сертификатов?

Наблюдаемость 2.0: трейсинг и профилирование

  1. Пользователи жалуются на высокую задержку при выполнении конкретной операции, но метрики общей нагрузки в норме. Как распределённый трейсинг поможет локализовать проблему?
  2. Вы видите, что один из сервисов потребляет аномально много CPU. Какие инструменты непрерывного профилирования помогут понять, какая функция виновата?
  3. Как спроектировать систему сбора трейсов, чтобы минимизировать влияние на производительность приложения?
  4. В дашбордах вы видите противоречивые данные: метрики говорят, что всё хорошо, а трейсы показывают много ошибок. В чём может быть причина?
  5. Как вы будете использовать данные трейсинга для оптимизации взаимодействия между сервисами (например, уменьшения количества вызовов)?

Disaster Recovery и бизнес‑непрерывность

  1. Один регион облака полностью вышел из строя. Как быстро переключить трафик на другой регион? Какие компоненты должны быть настроены заранее?
  2. При тестировании Disaster Recovery выяснилось, что восстановление базы данных занимает 12 часов, хотя RTO (целевое время восстановления) — 4 часа. Как улучшить?
  3. Критическое приложение использует локальные диски (ephemeral storage). Как обеспечить сохранность данных при сбое ноды?
  4. Как провести учения по аварийному восстановлению, не нарушая работу продакшна?
  5. В процессе восстановления вы обнаружили, что некоторые DNS‑записи до сих пор указывают на старый IP. Как автоматизировать обновление DNS при переключении?

Serverless и бессерверные архитектуры

  1. Ваша Lambda‑функция начала выполняться дольше, и часть запросов падает по таймауту. Как найти узкое место без доступа к серверу?
  2. При резком скачке трафика Lambda масштабируется, но база данных не выдерживает. Как защитить БД от перегрузки?
  3. Вы перешли на serverless, и счета выросли из‑за большого количества вызовов dev‑среды. Как ограничить использование в не‑prod окружениях?
  4. Как отлаживать и тестировать serverless‑приложения локально, чтобы избежать проблем при деплое?
  5. В Lambda используется много библиотек, и размер пакета превышает лимит. Как оптимизировать размер функции?

Управление конфигурациями и автоматизация серверов

  1. Вы запустили плейбук Ansible на сотне серверов, и он упал на середине из‑за ошибки в одной задаче. Как возобновить выполнение с места сбоя?
  2. Разработчик изменил конфигурационный файл вручную на сервере, и при следующем запуске Ansible изменения перезаписались. Как балансировать между автоматизацией и ручными правками?
  3. Нужно развернуть новое приложение на разнородных серверах (разные ОС, версии). Как спроектировать роли/рецепты для максимальной переиспользуемости?
  4. Как обеспечить безопасное хранение секретов в системах управления конфигурациями (Ansible Vault, encrypted data bags и т.д.)?
  5. При массовом обновлении конфигурации вы хотите сначала протестировать на небольшой группе серверов. Как реализовать canary‑развёртывание конфигураций?

Качество инфраструктурного кода и тестирование (IaC Testing)

  1. Вы написали модуль Terraform, но хотите убедиться, что он создаёт ресурсы правильно и не нарушает политики безопасности. Какие виды тестов вы включите?
  2. При запуске terraform plan вы видите, что будет удалён важный ресурс, хотя код не меняли. Как автоматически проверять подобные риски?
  3. Как интегрировать линтеры и статические анализаторы (tflint, checkov) в CI/CD, чтобы они не блокировали пайплайн, но информировали команду?
  4. Ваш код Terraform использует модули из реестра. Как гарантировать, что обновление модуля не сломает инфраструктуру?
  5. Как тестировать политики (например, запрет публичных IP) до того, как ресурсы будут созданы?

Базы данных в DevOps‑практике

  1. Вы обновили схему базы данных (миграция), и после деплоя приложение стало отвечать с ошибками. Как быстро откатить изменения данных, не нарушая целостность?
  2. Запросы к базе резко замедлились, хотя нагрузка на приложение не выросла. Метрики CPU/IO в норме. Какие шаги предпримете для диагностики?
  3. Разработчик случайно выполнил DELETE без WHERE на продакшн‑базе. Как восстановить данные, если резервная копия была сделана 6 часов назад?
  4. При развёртывании нового релиза вы обнаружили, что автоматическая миграция базы данных запустилась дважды и привела к дублированию данных. Как предотвратить такие ситуации в будущем?
  5. Ваше приложение использует репликацию master‑slave. При отказе master‑ноды вы вручную продвигаете slave, но приложение продолжает писать в старый master после его восстановления. Как автоматизировать переключение и избежать рассинхронизации?
  6. В вашем стеке одновременно используются PostgreSQL, Redis и Kafka. Опишите, как вы организуете мониторинг и алертинг для всей этой связки, чтобы быстро обнаружить проблему (например, падение продьюсера в Kafka, которое приводит к устареванию кэша в Redis и, как следствие, к тяжелым запросам в PostgreSQL).

PostgreSQL

  1. Вы выполнили миграцию схемы, которая добавила новый столбец с NOT NULL без значения по умолчанию. После деплоя приложение стало падать с ошибками. Как исправить ситуацию без остановки сервиса?
  2. Репликация PostgreSQL (physical streaming) внезапно остановилась. Какие шаги предпринять для диагностики и восстановления синхронизации, не теряя данные?
  3. Запросы к определённой таблице стали выполняться очень медленно после роста объёма данных. Как с помощью EXPLAIN и анализа индексов найти проблему и предложить оптимизацию?
  4. Вам нужно настроить резервное копирование PostgreSQL с поддержкой point‑in‑time recovery (PITR). Опишите процесс: какие инструменты используете, как часто делаете полные бэкапы и как храните WAL‑архивы.

MySQL

  1. При пиковой нагрузке вы замечаете, что многие запросы к MySQL встают в состояние Waiting for table metadata lock. Как определить, какой запрос блокирует остальные, и как предотвратить такие ситуации?
  2. Вы настроили репликацию master‑slave (асинхронную). В один момент слейв начинает отставать на несколько часов. Какие метрики проверить, и как можно ускорить репликацию?
  3. Разработчик случайно выполнил DROP TABLE на тестовой базе, но через минуту понял ошибку. Есть только ежедневный снепшот. Как восстановить удалённую таблицу с минимальными потерями данных?
  4. В MySQL 8 появилась поддержка ролей и более строгих политик безопасности. Как вы настроите привилегии для приложения, чтобы оно имело доступ только к нужным таблицам и не могло случайно удалить данные?

ClickHouse

  1. Вы загружаете большие объёмы данных в ClickHouse, и скорость вставки резко падает после нескольких часов работы. Какие параметры таблицы (партиционирование, TTL, индексы) вы проверите в первую очередь?
  2. Запросы к распределённой таблице (Distributed) выполняются медленно, хотя каждая шарда по отдельности отвечает быстро. Где искать узкое место: сеть, настройки Distributed, ключ шардирования?
  3. Одна из реплик ClickHouse вышла из строя. Как восстановить её без остановки записи на кластер и без потери данных?
  4. Вы хотите организовать ротацию старых данных в ClickHouse (например, удалять данные старше 30 дней). Какие механизмы ClickHouse для этого существуют, и как настроить автоматическую очистку с минимальным влиянием на производительность?

Redis

  1. После сбоя питания Redis потерял часть данных, хотя была включена опция appendonly yes. Как проверить целостность AOF‑файла и настроить гарантии сохранности (durability) без сильного падения производительности?
  2. Вы используете Redis как кэш с TTL. Некоторые ключи не удаляются после истечения срока, и память заполняется. Как настроить политику вытеснения (eviction policy) и мониторинг заполнения памяти?
  3. При пиковой нагрузке Redis начинает отвечать с задержками, и вы видите в логах множество MISCONF ошибок. Что они означают и как быстро стабилизировать работу?
  4. Настроили Redis Sentinel для автоматического переключения при отказе мастера. Во время тестирования отказоустойчивости обнаружили, что некоторые клиенты продолжают писать в старый мастер после его восстановления. Как обеспечить корректное переключение на стороне приложения?

RabbitMQ

  1. Очередь RabbitMQ переполнилась, и сообщения начали сбрасываться. Какие механизмы защиты (max length, TTL, dead letter exchange) вы настроите, чтобы избежать потери данных и сохранить производительность?
  2. Приложение жалуется, что сообщения доставляются с большой задержкой. Как с помощью плагина управления и мониторинга (очереди, каналы, подтверждения) определить узкое место?
  3. Вы обновили версию RabbitMQ, и после перезапуска кластер не смог собраться — ноды не видят друг друга. Какие шаги предпринять для восстановления кластера без потери сообщений?
  4. Разработчик хочет гарантировать, что сообщение будет обработано ровно один раз (exactly‑once). Объясните, почему в RabbitMQ это сложно достичь, и предложите архитектуру, приближенную к этому требованию.

Kafka

  1. Потребитель (consumer) в группе перестал получать сообщения, хотя оффсеты не двигаются. Как с помощью kafka-consumer-groups и проверки лага определить, живой ли потребитель и почему он застрял?
  2. При записи в Kafka продюсер получает ошибку NotLeaderForPartition. Что это значит, и как клиент должен обрабатывать такую ситуацию?
  3. Вам нужно перенести данные из одной кластера Kafka в другой без остановки потоковой обработки. Какие инструменты (MirrorMaker, Kafka Connect) вы используете, и как обеспечите консистентность?
  4. Лаг потребителя (consumer lag) постоянно растёт, но процессорные мощности не утилизированы полностью. Как вы будете исследовать причину: проблемы с сетью, медленная обработка, неоптимальное количество партиций?

Культура DevOps и взаимодействие команд

  1. Команда разработки не хочет брать на себя ответственность за эксплуатацию, предпочитая передавать задачи Ops. Как вы будете внедрять культуру “You build it, you run it”?
  2. Метрики DORA (частота деплоев, время восстановления) показывают ухудшение. Как провести ретроспективу и найти причины?
  3. Менеджеры просят гарантировать 100% uptime, но это невозможно. Как выстроить диалог о реалистичных SLI/SLO?
  4. Разработчики часто обращаются с просьбами предоставить доступ к продакшну для отладки. Как организовать процесс безопасного и аудитируемого доступа?
  5. Ваша команда внедрила новый инструмент (например, Kubernetes), но adoption идёт медленно. Как стимулировать обучение и переход?