Распространённые ошибки настройки
Частые ошибки настройки Incident Garden и как их избежать.
Ниже — паттерны настройки, которые регулярно встречаются на старте. Каждый описывает, что именно не работает в текущей конфигурации, и какой вариант ставится вместо него.
Замаппить все приоритеты мониторинга на on-call
Попытка замаппить вообще все приоритеты вашей системы мониторинга на приоритеты on-call системы. Плохой пример маппинга severity для Zabbix:
Мониторинг и on-call — разные системы.
Как надо
Если в мониторинге ещё можно держать вообще все «для сведения», то отправлять в on-call нужно только то, что должно разбудить вас ночью или заставить бежать за рабочее место днём.
Лучше переделать вот так:
Или вообще оставить warning пустым — "warning": []. Посмотреть алерты с severity warning вы можете в системе мониторинга в течение рабочего дня.
Один канал нотификаций в личных настройках
Оставлять только один канал нотификаций в личных настройках.
Как надо
Лучше дублировать каналы доставки. Например, первым приоритетом ставить звонки на телефон, а вторым — отправку на почту. Звонки имеют жёсткие ограничения на бесплатном плане и их цель в данном случае — лишь продемонстрировать функционал системы.
Фильтрация алертов через политики интеграций
Переносить фильтрацию алертов на политики интеграций. Это добавляет лишнюю сложность и лишает конфигурацию прозрачности.
Как надо
Лучше сделать несколько маршрутов в системе мониторинга (например, Alertmanager или Zabbix) в несколько интеграций Incident Garden, чем накручивать сложную логику на одной единственной интеграции. Например, если у вас есть постоянная политика drop на какие-либо приходящие алерты — лучше эти алерты вообще не отправлять в Incident Garden из системы мониторинга.
Отключение алертов через политики на время работ
На время технических работ (или на период устранения проблем) отключать алерты, используя политики интеграций.
Как надо
Для этого существует Silence. Создавать его можно как на уровне Integration, так и на уровне Team. Silence имеет срок действия и выключается автоматически — работает аналогично Silence в Alertmanager.