Анализ состояния в платформе Штурвал

Для осуществления непрерывного анализа состояния работы компонентов и приложений в составе платформы поставляются:

модуль локального сбора логов;
модуль централизованного хранения логов;
модуль графического отображения логов;
модуль локального сбора метрик;
внешний модуль графического отображения метрик.

Мониторинг

Для сбора метрик в составе платформы поставляется Prometheus. Он входит в состав рекомендуемых системных сервисов при инсталляции клиентского кластера. Prometheus по умолчанию собирает метрики системных компонентов и перенаправляет их в кластер Victoria Metrics, размещенный в кластере управления.

Собранные метрики доступны для просмотра в предварительно настроенных дашбордах Grafana .

Описание доступных дашбордов Grafana

Overview

Global CPU Usage, CPU Usage
Global RAM Usage, RAM Usage
Количество узлов
Количество неймспейсов
Количество запущенных подов
Количество ресурсов Kubernetes

Resources

Cluster CPU Utilization
CPU Utilization by namespace
CPU Utilization by node
CPU Throttled seconds by namespace
CPU Core Throttled by node
Cluster Memory Utilization
Memory Utilization by namespace
Memory Utilization by node

Kubernetes

Kubernetes Pods QoS classes
Kubernetes Pods Status Reason
OOM Events by namespace
Container Restarts by namespace

Network

Global Network Utilization by device
Network Saturation - Packets dropped
Network Received by namespace
Total Network Received (with all virtual devices) by node
Network Received (without loopback) by node
Network Received (loopback only) by node

Есть возможность дополнительной настройки конфигурации установленных сервисов, перенаправления метрик из Prometheus, а также замены сервисов на корпоративные.

Алертинг

На основе полученных метрик в кластере Victoria Metrics формируются алерты. Отчет об алертах доступен в интерфейсе клиентского кластера.

Для настройки правил оповещения и агрегации в составе платформы поставляется VM Alert Manager .

Дополнительно есть возможность настройки отправки алертов по различным каналам:

Логирование

Для сбора логов в клиентских кластерах и кластере управления поставляется Fluentbit . Ведется запись логов:

аутентификации;
backend;
аудита;
всех системных компонентов;
приложений пользовательской нагрузки.

Собранные логи маршрутизируются в кластер управления в модуль централизованного хранения логов - OpenSearch. Есть возможность настроить перенаправление логов до или после доставки в OpenSearch .

В случае потери доступности кластера управления буфер хранения логов по умолчанию = 100 МБ для каждого узла.

Переход в OpenSearch доступен из дашборда клиентского кластера и кластера управления. Переход осуществляется по SSO с сохранением прав доступа пользователей.

По умолчанию в OpenSearch будут созданы индексы для кластера и Kube-Audit логов, а также настроена политика ротации логов .

Анализ состояния в платформе Штурвал

Мониторинг #

Описание доступных дашбордов Grafana #

Алертинг #

Логирование #

Мониторинг

Описание доступных дашбордов Grafana

Алертинг

Логирование