Close

Zarządzanie incydentami dla dynamicznych zespołów

Plany odzyskiwania awaryjnego dla specjalistów z zespołów operacyjnych IT i DevOps

Ponieważ usługi IT przestają być postrzegane jako źródło kosztów funkcjonowania zaplecza firmy, a zamiast tego generują podstawową wartość dla firmy, w większym niż dotąd stopniu rośnie znaczenie skutecznych praktyk IT w zakresie odzyskiwania awaryjnego.

Niezależnie od tego, czy chodzi o przestój aplikacji, utratę danych czy nawet pożar w firmie, reagowanie w sytuacji awaryjnej rzadko bywa proste.

Dla małych firm awaria może mieć katastrofalne następstwa. Według FEMA około 40–60 procent małych firm nigdy nie wznawia działalności po wystąpieniu awarii.

Czym jest plan odzyskiwania awaryjnego?

Plan odzyskiwania awaryjnego to udokumentowany zestaw praktyk i procedur ustanowionych w celu ochrony organizacji i jej zasobów IT w przypadku poważnej awarii. Zazwyczaj obejmuje scenariusze, wykazy procedur, kopie zapasowe oraz instrukcje umożliwiające przywrócenie funkcjonalności usług biznesowych i IT. Jest to szczególnie istotne w przypadku zdarzeń, takich jak awaria systemu, przestój, naruszenie zabezpieczeń lub utrata danych.

Według IBM:

„Przed 1970 rokiem większość organizacji musiała martwić się jedynie o wykonywanie kopii swoich papierowych rejestrów. Planowanie odzyskiwania awaryjnego zyskało na znaczeniu w latach 70. XX wieku, gdy firmy zaczęły w większym stopniu polegać na operacjach komputerowych. W tamtym czasie większość systemów stanowiły komputery mainframe nastawione na przetwarzanie wsadowe. W oczekiwaniu na przywrócenie działania lokalizacji podstawowej można było załadować dane z taśm z kopią zapasową na innym komputerze mainframe znajdującym się poza lokalizacją”.

Planowanie odzyskiwania awaryjnego a planowanie zapewnienia ciągłości działalności biznesowej

Planowanie odzyskiwania awaryjnego jest elementem planowania zapewnienia ciągłości działalności biznesowej. Planowanie odzyskiwania awaryjnego koncentruje się na jak najszybszym przywróceniu działania dotkniętych usług, natomiast planowanie zapewnienia ciągłości działalności biznesowej skupia się na umożliwieniu firmie prowadzenia nieprzerwanej działalności w przypadku awarii.

Dział IT odgrywa kluczową rolę w obydwu praktykach, zarówno odzyskiwaniu awaryjnym, jak i zapewnianiu ciągłości działalności biznesowej.

Łatwo pomylić odzyskiwanie awaryjne i zapewnianie ciągłości działalności biznesowej lub traktować je zamiennie. Planowanie odzyskiwania awaryjnego ma na celu przywrócenie usługi po incydencie. Odzyskiwanie awaryjne jest jednym z elementów składających się na ogólny plan zapewniania ciągłości działalności biznesowej. Plan zapewniania ciągłości działalności biznesowej jest opracowywany z myślą o umożliwieniu organizacji działania przed incydentem, w jego trakcie i po jego zakończeniu. Jeśli odzyskiwanie awaryjne opiszemy pytaniem „jak zakończyć ten incydent?”, to zapewnianie ciągłości działalności biznesowej najlepiej wyrazi pytanie „jak kontynuować działalność jako firma nawet podczas incydentu?”.

Planowanie odzyskiwania awaryjnego a zarządzanie incydentami

W przypadku zespołów DevOps i zespołów ds. eksploatacji IT zarządzanie incydentami jest procesem stosowanym do reagowania na nieplanowane zdarzenie lub przerwę w świadczeniu usługi oraz przywrócenia jej do stanu funkcjonalnego.

Pojęcia zarządzania incydentami i odzyskiwania awaryjnego są często używane zamiennie w zależności od zespołu i organizacji. Zarządzanie incydentami również koncentruje się na rozwiązywaniu incydentów w czasie rzeczywistym i przywracaniu działania usług podczas incydentu.

Zgodnie z definicją przyjętą w Atlassian incydent to zdarzenie powodujące zakłócenie działania lub obniżenie jakości usługi, wymagające natychmiastowej reakcji.

Można również sięgnąć do książki Google na temat inżynierii niezawodności lokalizacji, gdzie przeczytamy:

„Skuteczne zarządzanie incydentami jest kluczem do ograniczenia zakłóceń spowodowanych incydentem i jak najszybszego przywrócenia normalnej działalności biznesowej. Jeśli nie opracowano z wyprzedzeniem sposobu reagowania na potencjalne incydenty, w rzeczywistych sytuacjach oparte na zasadach zarządzanie incydentami traci sens”.

Firma Google zaleca również włączenie zarządzania incydentami do procesu testowania odzyskiwania awaryjnego w organizacji. Najlepiej, jeśli proces reagowania na incydenty przewiduje rejestrowanie czynności i komunikacji osób reagujących, co pozwala utworzyć bogatą oś czasu incydentu, którą następnie można wykorzystać w charakterze zasobu na potrzeby powiązanych incydentów lub awarii w przyszłości. Jest to pomocne dla organizacji przeprowadzających testy odzyskiwania awaryjnego, ponieważ zespoły zyskują pełny kontekst działań.

Czym jest docelowy czas odzyskiwania?

Docelowy czas odzyskiwania to dopuszczalny okres odzyskiwania, po którym funkcja biznesowa powinna wznowić normalną pracę po awarii. Jest on ściśle powiązany ze średnim czasem przywracania omówionym w temacie dotyczącym wskaźników DevOps.

Planowanie odzyskiwania awaryjnego w świecie DevOps

W jaki sposób plany odzyskiwania awaryjnego pozostają nadal aktualne w świecie ciągłego dostarczania, automatycznego testowania i wielu wdrożeń dziennie?

Innymi słowy, jaką rolę odgrywają plany odzyskiwania awaryjnego w organizacjach praktykujących DevOps?

Na szczęście te dwie praktyki mogą ze sobą współistnieć i być wzajemnie korzystne. Narzędzia i procesy używane do wypychania kodu ze środowiska programistycznego do testowego, a następnie produkcyjnego, można wykorzystać także do odzyskiwania awaryjnego. Przykładowo kopie zapasowe środowisk produkcyjnych używane do testowania wdrożeń mogą posłużyć również do przeprowadzenia symulacji awarii. Z kolei śledzone commity kodu z pipeline'u CI/CD mogą być użytecznym narzędziem do ujawniania ostatnio wprowadzonych zmian w scenariuszu odzyskiwania awaryjnego.

Nie jest tajemnicą, że DevOps coraz częściej nadaje tempo wszystkim decyzjom IT podejmowanym w firmie. Nie musi to jednak oznaczać, że ciężka praca włożona w opracowanie planu i przygotowanie zasobów do odzyskiwania zostanie zmarnowana lub że plan odzyskiwania awaryjnego będzie zbierał kurz na półce.

Dowiedz się więcej o rozwiązaniu firmy Atlassian do zarządzania incydentami, Jira Service Management, i przekonaj się, jak zapewnia ono zespołom programistycznym i operacyjnym elastyczność niezbędną do współpracy — tak przy rozwiązywaniu incydentów, jak i w trakcie odzyskiwania awaryjnego.