Восстановить потерянный кластер

Наличие регулярно создаваемых резервных копий может помочь оперативно восстановить работу системы:

  • в случае потери кластера управления;
  • в случае потери клиентского кластера (все Master-узлы NotReady);
  • в случае удаления клиентского кластера;
  • в случае потери критических данных клиентского кластера.

Рекомендуем настроить планировщик резервных копий как минимум для:

  1. неймспейсов клиентских кластеров в кластере управления. Резервная копия должна включать все неймспейсные ресурсы неймспейсов клиентских кластеров;
Скриншот

backupnamespace1

2. инфраструктурных провайдеров в кластере управления;
Скриншот

providerbackup1

3. ClusterRoles в кластере управления;
Скриншот

clusterrolesbackup1

  1. клиентских кластеров с полным набором данных, необходимых для обеспечения жизнедеятельности развернутых приложений.
Скриншот

clusterbackup1

Обратите внимание! В настройках резервного копирования клиентских кластеров с полным набором данных требуется отключить использование резервной копии файловой системы тома пода для всех томов (defaultVolumesToFsBackup).

Скриншот

clusterbackup3

Эти ресурсы могут быть полезны для восстановления контроля над клиентскими кластерами в случае отказа кластера управления, а также для восстановления клиентских кластеров.

Восстановление доступа к клиентским кластерам при потере кластера управления

В случае, если все Master-узлы кластера управления не отвечают и есть резервные копии неймспейсов клиентских кластеров в S3-хранилище, инфраструктурных провайдеров и ClusterRoles в кластере управления, необходимо:

  1. Инсталлировать платформу Штурвал в соответствии с инструкцией, где
    • 1.1 в качестве IP-адреса API-сервера должен быть использован IP-адрес не отвечающего кластера управления;
    • 1.2 количество и характеристики узлов должны соответствовать параметрам не отвечающего кластера управления;
    • 1.3 установить модуль резервного копирования и восстановления.
  2. Настроить доступ к S3 хранилищу с помощью интерфейса резервного копирования и восстановления в кластере управления.
Скриншот

storages2 addedstorage1

3. Восстановить резервную копию, содержащую данные неймспейсов клиентских кластеров, инфраструктурных провайдеров и ClusterRoles.
Скриншот

restore1 restoreadded2

Доступ к управлению клиентскими кластерами должен быть восстановлен

Восстановление при потере клиентского кластера

В случае, если IP-адреса всех мастеров клиентского кластера недоступны, но сохранены данные конфигурации клиентского кластера в кластере управления и есть резервная копия клиентского кластера, рекомендуется:

  1. Создать новый клиентский кластер с характеристиками сломанного кластера, теми же IP-адресами API-сервера и Ingress.
Скриншот

newcluster

  1. Установить модуль резервного копирования и восстановления (Velero) в режиме auto;
Скриншот

velero1

  1. Подключить S3 хранилище, в котором находится резервная копия сломанного кластера.
Скриншот

storageincluster1 storageclusteradded1 storageclusteradd1

  1. Восстановить резервную копию клиентского кластера.
Скриншот

restorecluster1 restoreclusteradd2 restoreclusteradded2

Восстановление при удалении клиентского кластера

В случае, если IP-адреса всех мастеров клиентского кластера недоступны, данные конфигурации клиентского кластера утеряны, но есть резервная копия клиентского кластера, рекомендуется:

  1. Поднять временный клиентский кластер.
Скриншот

intercluster

  1. Подключить S3 хранилище, в котором находится резервная копия неймспейсов клиентских кластеров, инфраструктурных провайдеров и ClusterRoles из кластера управления.
Скриншот

storageintercluster1 storageinterclusteradd1 storageinterclusteradded1

  1. Восстановить резервную копию клиентского кластера.
Скриншот

restoreclusterinter restoreclusteraddinter restoreclusteraddedinter

  1. Записать конфигурацию клиентского кластера:
  • адрес API сервера кластера и сведения о конфигурации безопасности доступны в Configmap kubeadm-config неймспейса kube-system;
Скриншот

kubeadmconfig1

  • адрес Ingress доступен в ssc Модуля управления внешними подключениями (shturval-ingress-controller).
Скриншот

ingresscontroller1 ingresscontroller2

После чего тестовый кластер можно удалить.

Скриншот

del1 deletedcluster1

  1. Дальнейшие шаги соответствуют инструкции Восстановление при потере клиентского кластера.
×