Close

Oprogramowanie ITSM dla zespołów pracujących z dużą prędkością

Na czym polega zarządzanie ciągłością usług IT?

Zarządzanie ciągłością usług IT (ITSCM) jest kluczowym komponentem świadczenia usług według ITIL. Koncentruje się na planowaniu zapobiegania incydentom, ich przewidywaniu i zarządzaniu nimi w celu utrzymania dostępności i wydajności usług na najwyższym możliwym poziomie przed katastrofalnym incydentem, w jego trakcie i po jego zakończeniu.

Celem ITSCM jest skrócenie przestojów oraz ograniczenie kosztów i wpływu incydentów na działalność biznesową poprzez wprowadzenie skutecznych, ustandaryzowanych procesów na wypadek nieuniknionego wystąpienia takich incydentów.

W przypadku braku planu wiele czynników może spowolnić lub całkowicie zatrzymać proces odzyskiwania po incydencie. Przecież Twój ekspert pełniący dyżur domowy może podejmować reakcję o 3 nad ranem jeszcze nie całkiem rozbudzony. Może nie być na bieżąco z kodem po przepracowaniu kilku tygodniu lub miesięcy nad innym tematem. Może wpaść w panikę na myśl o skali katastrofalnego incydentu. Albo może być najnowszym członkiem zespołu odpowiedzialnego za odzyskiwanie awaryjne, który nie ma jeszcze dużego doświadczenia w rozwiązywaniu problemów.

Opracowanie dobrze udokumentowanego, przejrzystego planu zarządzania ciągłością usług pomoże zminimalizować wszelkie opóźnienia spowodowane krzywymi uczenia się, brakiem styczności z kodem, paniką związaną z incydentem czy nocną porą alertu.

ITSCM i ITIL 4

Według ITIL 4 zarządzanie ciągłością usług jest procesem wspierającym zarządzanie ciągłością działalności biznesowej (BCM). Celem tego procesu jest zagwarantowanie, że po poważnych zakłóceniach w funkcjonowaniu usług zostaną one przywrócone do działania w uzgodnionych terminach biznesowych.

ITSCM a zarządzanie incydentami

ITIL 4 wprowadza rozróżnienie między zarządzaniem incydentami, które odnosi się do incydentów o różnych poziomach wpływu, a ITSCM, w którym chodzi o planowanie na wypadek katastrof na dużą skalę.

Jakie zdarzenie można zatem potraktować jako katastrofę? Odpowiedź może być różna, w zależności od firmy, ale Business Continuity Institute definiuje ją jako: „Nagłe, nieplanowane zdarzenie, które powoduje ogromne szkody lub poważne straty dla organizacji. W wyniku katastrofy organizacja nie jest w stanie pełnić kluczowych funkcji biznesowych przez z góry określony minimalny okres”.

Skala tego, co nazywamy katastrofą, z góry określony minimalny czas oraz kluczowe funkcje biznesowe to trzy elementy, które każda firma musi samodzielnie zdefiniować i udokumentować.

ITSCM i zarządzanie ciągłością działalności biznesowej (BCM)

Zarządzanie ciągłością działalności biznesowej jest procesem zarządzanym poza działem IT, uwzględniającym identyfikację zagrożeń dla działalności biznesowej oraz prace mające na celu ograniczenie tych zagrożeń. Niektóre zagrożenia, takie jak katastrofalne incydenty, mogą być związane z IT, a inne mogą leżeć poza kontrolą tego działu, na przykład katastrofy naturalne czy pożary obiektów.

BCM obejmuje ITSCM, a także inne procesy ograniczania ryzyka, dlatego dobrym rozwiązaniem jest ścisła współpraca zespołów IT z zespołem BCM w celu opracowania takich dokumentów, jak:

  • Plan zapewnienia ciągłości działalności biznesowej (BCP), który obejmuje plany zapobiegania katastrofalnym incydentom IT i odzyskiwania po ich wystąpieniu.
  • Analiza wpływu na działalność biznesową (BIA), która służy do identyfikacji wpływu katastrofy IT na firmę.

Cele ITSCM

Z biznesowego punktu widzenia celem ITSCM jest ograniczenie przestojów, kosztów i wpływu katastrofalnych incydentów na firmę. Na bardziej taktycznym poziomie cele obejmują:

  • ścisłą współpracę z zespołem BCM w celu ochrony ogólnej ciągłości działalności biznesowej;
  • tworzenie planów zapewniania ciągłości usług IT i odzyskiwania po katastrofalnych awariach, a także zarządzanie tymi planami;
  • współpracę z dostawcami w celu zminimalizowania wpływu wszelkich przestojów w ich produktach i usługach w zakresie, w którym odnoszą się one do działalności biznesowej;
  • analizowanie ryzyka i skutków oraz korygowanie planów w miarę upływu czasu.

Proces ITSCM

W Atlassian nasz własny plan zapewniania ciągłości opiera się na założeniu, że proces planowania na wypadek katastrof jest ciągły, prowadzony przez kierownictwo i dokładnie testowany. Dokładamy wszelkich starań, żeby nie grać klientom na nerwach. Nasz proces obejmuje planowanie, komunikację, wyraźny podział obowiązków, testowanie oraz ciągłe doskonalenie.

Planowanie

Proces planowania rozpoczyna się od zadania pytań ogólnych, a w oparciu o uzyskane odpowiedzi opracowuje się plan. Na początku powinno się zadać następujące pytania:

  • Jak wygląda nasza reakcja na incydent?
  • Jakich wartości będziemy przestrzegać?
  • Jakie rodzaje katastrof musimy uwzględnić w planie? Jakie są ryzyka i zagrożenia związane z naszą działalnością?
  • Jakie systemy musimy obsługiwać? Które z nich są krytyczne?
  • Jak zareagujemy w przypadku każdej katastrofy?
  • Gdzie znajdują się informacje potrzebne do obsługi i przywracania krytycznych systemów?
  • Jak możemy scentralizować te informacje i uprościć procesy przywracania?
  • Czy dokumentacja informacyjna i procesowa jest przystosowana do opracowywania jej w ramach współpracy i jest sprawdzana przez zespoły, które mają nią zarządzać?

Gdy już uzyskasz odpowiedzi na te pytania, kolejnym krokiem będzie wykorzystanie ich do zdefiniowania:

  • Zasad odzyskiwania awaryjnego
  • Zakresu obowiązków związanych z IT
  • Zakresu wpływu poszczególnych zagrożeń na działalność biznesową
  • Planów i procesów dla każdego scenariusza zagrożenia
  • Wymagań dotyczących personelu i dokumentacji

Kluczem do udanej fazy planowania ITSCM jest udokumentowanie i zapisanie powstałego planu w formie szablonu, tak aby był przejrzysty i powtarzalny. Zasoby, takie jak porady strategiczne dotyczące reagowania na incydenty lub inne wykazy procedur, mogą stanowić pojedyncze źródło rzetelnych informacji dla osób reagujących w krytycznej sytuacji.

W duchu ITSCM rozwiązanie z dostępem do wbudowanej bazy wiedzy— takie jak Jira Service Management wspierane przez Confluence — pozwala na ciągłe dokumentowanie, które umożliwia wprowadzanie korekt, optymalizację i współpracę. W ten sposób osoby reagujące mają dostęp do wcześniejszej dokumentacji rozwiązań i aktualnych zasobów.

Precyzyjnie określone obowiązki

Kto jest odpowiedzialny w razie awarii? Kto odpowiada za utrzymanie i aktualizację planów, procesów i dokumentacji? W procesie ITSCM powinny być zawsze jasno określone role i obowiązki nie tylko w zakresie samych awarii, ale także ciągłego monitorowania i doskonalenia. Korzystając z Jira Service Management, reagujący mogą otagować podmiot lub osobę w zgłoszeniach, aby zapewnić właściwe przekazanie obowiązków i ułatwić współpracę między działami.

W ramach podejścia przyjętego w Atlassian regularnie przeprowadzamy spotkania dotyczące odzyskiwania awaryjnego z udziałem naszych inżynierów ds. niezawodności lokalizacji oraz naszego zespołu ds. ryzyka i zgodności z przepisami. Uczestnicy omawiają luki w planach odzyskiwania awaryjnego i wskazują obszary wymagające dodatkowych planów, ulepszeń, ocen lub zmian.

Komunikacja

Otwartość jest podstawową wartością w Atlassian i uważamy, że im lepiej organizacja będzie poinformowana o planach ITSCM, tym skuteczniejsze będą te plany.

Oferowanie elastycznych kanałów komunikacji w całym procesie reagowania na incydenty pozwala zespołom pozostać w kontakcie za pomocą preferowanej metody. Jira Service Management integruje wiele kanałów komunikacji, takich jak widżet statusu przeznaczony do osadzania, dedykowana strona statusu, poczta e-mail, narzędzia czatu, media społecznościowe i SMS-y, pozwalając zminimalizować przestoje.

Komunikacja nie tylko umożliwia informowanie interesariuszy i pomaga kierownictwu najwyższego szczebla zapobiec panice podczas katastrofalnego incydentu, ale także daje zespołowi możliwość skorzystania w razie potrzeby z pomocy innych zespołów i złagodzenia ryzyka tarć spowodowanych zamieszaniem organizacyjnym.

Testowanie

Skąd będziesz wiedzieć, czy Twoje plany działają, jeśli ich nie przetestujesz? Jest to fundamentalne pytanie ITSCM i przyczyna, dla której testy i ćwiczenia z zarządzania incydentami mają krytyczne znaczenie dla powodzenia praktyki.

Przeprowadzenie testów może pomóc w zidentyfikowaniu słabych punktów procesu, nieprzewidzianych problemów i obszarów, w których zespoły mogą wymagać ponownego przeszkolenia lub lepszej dokumentacji.

Ocena i doskonalenie

ITSCM nie jest procesem jednorazowym. Wymaga przemyślanego planowania z góry i ciągłego szkolenia, oceniania i doskonalenia. W tym celu przeprowadzamy regularne spotkania dotyczące odzyskiwania awaryjnego. Testujemy tworzenie kopii zapasowych systemu i przeprowadzamy ćwiczenia symulujące awarie centrów danych lub regionów AWS. Dlatego też każdy wartościowy plan ITSCM jest stale monitorowany i nieustannie modyfikowany.

Większość firm przedstawia proces ITSCM jako serię kroków, ale my stawiamy na model, który bardziej przypomina okrąg. Planowanie powinno prowadzić do zdefiniowania ról i obowiązków. Następnie zespół powinien przekazać informacje całej organizacji, przeprowadzać liczne testy, oceniać, monitorować i doskonalić — a w ramach tych udoskonaleń stale aktualizować plan, poprawiać definicje ról i podtrzymywać komunikację.

Także w tym przypadku przydaje się wbudowana, oparta na współpracy baza wiedzy. Artykuły z bazy wiedzy są cennym źródłem informacji, jeśli chodzi o ocenę i dokumentację. Raporty z analiz post-mortem incydentów mają kluczowe znaczenie w przypadku dokonywania zmian i napraw po incydencie, ale mogą też służyć długofalowo jako punkt odniesienia, gdy problem powtórzy się w przyszłości. Jira Service Management z bazą wiedzy obsługiwaną przez Confluence oferuje zaawansowaną platformę do realizacji rozwiązań w zakresie oceny i doskonalenia.

Role i obowiązki w ITSCM

W celu skutecznego planowania i wdrażania praktyk ITSCM w całej organizacji wiele firm wyznacza menedżera ds. ciągłości usług i zespół ds. przywracania ciągłości usług.

Menedżer ds. ciągłości usług (SCM)

Jak sama nazwa wskazuje, menedżer ds. ciągłości usług jest odpowiedzialny za nadzorowanie ciągłości usług. Ta osoba zazwyczaj odpowiada za cały proces od A do Z, kierując opracowywaniem planu, zarządzając stałym monitorowaniem i ocenianiem oraz nadzorując realizację planów w razie katastrofy.

Zazwyczaj jest to doświadczony starszy specjalista ds. wsparcia technicznego, jednak tę funkcję może pełnić również członek kadry zarządzającej, który na co dzień nie zajmuje się zagadnieniami technicznymi.

Zespół ds. przywracania ciągłości usług

Ten zespół kierowany przez menedżera ds. ciągłości usług odpowiada za przeprowadzanie testów i ćwiczeń dotyczących incydentów oraz ciągłe doskonalenie ITSCM. Do zespołu należą zazwyczaj członkowie personelu technicznego, specjaliści ds. QA lub testerzy, a także przedstawiciele różnych działów organizacji, których obowiązkiem jest utrzymywanie otwartych kanałów komunikacyjnych między menedżerem SCM a swoimi zespołami.

Dlaczego ITSCM ma znaczenie?

Organizacje z precyzyjnymi planami odzyskiwania awaryjnego w razie katastrof mogą szybciej i pełniej przywrócić sprawne działanie.

W ITSCM nie chodzi o planowanie codziennych awarii. Chodzi o planowanie najgorszych scenariuszy i zadbanie o to, aby w razie ich wystąpienia zakłócenia dla klientów i pracowników były minimalne.

Poniżej przedstawiamy trzy wyraźne korzyści z wdrożenia dobrej praktyki ITSCM:

  • Jeśli dojdzie do katastrofy, dobry plan ITSCM pozwoli szybko przywrócić działanie niezbędnych usług.
  • Organizacja jest zawsze przygotowana na poważną katastrofę i może szybko oraz w odpowiedni sposób zareagować.
  • Każdy w firmie wie, co będzie się działo w przypadku katastrofy i jak długiego przestoju można się spodziewać.

Dowiedz się, jak proces ITSCM poprawia jakość obsługi klienta i minimalizuje przestoje w organizacji za pomocą Jira Service Management.