Close

Dbanie o ciągłość usług

Jak organizacje mogą tworzyć kulturę DevOps, która wspiera ciągłą dostępność usług

Krishna Sai

Kierownik ds. inżynierii, IT Solutions


Charakter zawsze dostępnych usług wymaga ciągłej reakcji ze strony zespołów Agile i DevOps. Zespoły te nie mogą ograniczać się do reagowania na pojedynczy incydent, lecz powinny dostosować strukturę zespołu, wartości i narzędzia w taki sposób, aby doskonałość operacyjna stała się podstawową kompetencją.

Współcześnie użytkownicy oczekują, że nowoczesne usługi będą zawsze dostępne. Przestoje mają negatywne konsekwencje, powodując szkody dla reputacji i wartości końcowej, a średnie koszty przestojów wynoszą 9000 USD za minutę.

Jednak w świecie chmury incydenty są tak samo powszechne jak błędy w kodzie.Do incydentów, które powodują przestoje, należą awarie sprzętu i sieci, niepoprawna konfiguracja, wyczerpanie zasobów, niespójności danych i błędy oprogramowania.

Zawsze dostępne usługi wymagają, aby zespoły nie reagowały na pojedynczy incydent i dostosowywały strukturę zespołu, wartości i narzędzia, aby zapewnić, że doskonałość operacyjna stanie się podstawową kompetencją. Oznacza to stosowanie praktyki „tworzysz, odpowiadasz za to” (YBIYRI), polegającej na tym, że odpowiedzialność za tworzenie, testowanie, wdrażanie i obsługę usługi spoczywa na zespole programistycznym. Koncepcja ta wciela w życie teorię DevOpsi wzmacnia cykl ciągłego wdrażania, informacji zwrotnych oraz konserwacji i reagowania na incydenty, którego zespoły potrzebują, aby dbać o stałą dostępność usług.

Wyzwania związane z zawsze dostępnymi usługami

Od momentu pojawienia się 14 lat temu YBIYRI nadal stanowi wyzwanie dla współczesnych zespołów programistycznych w kontekście spełnienia obietnicy dotyczącej skrócenia czasu rozwiązania i skalowania najlepszych praktyk operacyjnych. Niestety, wiele zespołów nadal cyzeluje swoje umiejętności, harmonogramy i procesy z myślą o reagowaniu na incydenty zamiast skupić się na długofalowym sukcesie.

Zespoły często przechodzą na kulturę YBIYRI bez odpowiedniego przygotowania, a pierwszy poważny incydent często okazuje sygnałem alarmowym. Jednak reakcja często odbywa się zgodnie z przekonaniem: „nie możemy dopuścić, by incydenty się powtórzyły”. W tym celu wprowadza się bramki bezpieczeństwa, punkty kontrolne i inne nadmiarowe procedury. Ponadto częścią rytuałów zespołu są tablice zmian i cotygodniowe recenzje wydania. Każda zmiana jest dokładnie sprawdzana, aby zapobiec przestojom. Chociaż często powoduje to zmniejszenie liczby incydentów, może też spowolnić prędkość procesu programowania i zahamować tok tworzenia produktu. A to może oznaczać utratę przewagi nad konkurencją, gdyż bardziej elastyczni konkurenci mogą poruszać się znacznie szybciej.


logo organizacji
materiały pokrewne

Zacznij korzystać za darmo

Ikona pucharu
poznaj rozwiązanie

Uproszczone zarządzanie incydentami i reagowanie

Najlepsze praktyki w zakresie zawsze dostępnych usług

Gotowość operacyjna

Jedną z kluczowych zmian dla zespołów YBIYRI jest uwzględnienie gotowości operacyjnej w ramach cykli planowania i realizacji sprintów. Gotowość operacyjna może obejmować:

  • Podczas programowania: tworzenie odpowiednich, wysokiej jakości alertów w kodzie, które minimalizują średni czas wykrycia (MTTD) i średni czas wyizolowania (MTTI)
  • Tworzenie monitorów — w tym w stosownych przypadkach monitorów syntetycznych — w celu zadbania o to, aby powiązane usługi działały poprawnie
  • Przeznaczenie czasu na stworzenie wymaganych pulpitów nawigacyjnych i przeszkolenie wszystkich członków zespołu w zakresie korzystania z nich
  • Zadbanie o to, aby członkowie zespołu pełniący dyżury domowe nie mieli innych zadań podczas sprintu
  • Zaplanowanie „gier wojennych” dla usługi w celu zadbania o to, aby wycofania działały poprawnie
  • Zaplanowanie przepustowość w sprintach, aby zakończyć czynności z poprzednich przeglądów incydentów
  • Zadbanie o rozwiązanie problemów z bezpieczeństwem (uaktualnienia/łatki/zmiany poświadczeń) i problemów operacyjnych w ramach cykli sprintu

Wszystkie te kwestie wymagają od właścicieli produktów zrozumienia celów poziomu usług (SLO) i odpowiedniej ich priorytetyzacji, wraz z zobowiązaniami biznesowymi związanymi z tworzeniem funkcji i funkcjonalnością.

Wykorzystanie wartości incydentów

Wykorzystanie wartości incydentów dla dobra zespołu może pozwolić stworzyć solidne podstawy do wdrożenia YBIYRI w zespole. Wartości incydentów pomagają zespołowi w reagowaniu na incydenty. Wartości te zapewniają solidne podstawy dla zrównoważonej kultury wokół prac programistycznych i obsługi zawsze dostępnych usług. Wartości incydentów mają następujące cele:

  • Zapewnienie wskazówek ułatwiających podejmowanie autonomicznych decyzji przez osoby i zespoły podczas zdarzeń i analiz
  • Tworzenie spójnej kultury zespołowej, która obejmuje sposób identyfikowania incydentów, zarządzania nimi i wyciągania z nich wniosków
  • Ustalenie z zespołami, jakie nastawienie powinny prezentować na każdym etapie identyfikacji zdarzeń, ich usuwania i refleksji nad nimi

Porady strategiczne dotyczące wartości incydentów stanowią doskonały przewodnik pomagający zidentyfikować wartości zespołu podczas reagowania na incydenty i stworzyć plan pozwalający konsekwentnie realizować te wartości. Może on być pomocny, jeśli dany zespół zmaga się z problemami dotyczącymi skoncentrowania na klientach, spójności zespołu, wspólnego rozumienia, poziomów usług lub mandatów serwisowych w programie Health Monitor.

W Atlassian stosujemy następujące wartości incydentów na poziomie zespołu:

Wartość Atlassian

Etap i wartość incydentu

Przesłanki

Grafika przedstawiająca serca na wadze

Tworzona z sercem i harmonią

Wykrywanie
Atlassian wie wcześniej niż nasi klienci

Zrównoważone usługi obejmują skuteczne monitorowanie i powiadamianie w celu wykrywania zdarzeń, zanim zrobią to klienci. Optymalne monitorowanie pozwala ostrzegać o problemach, zanim przekształcą się w zdarzenia.

Grafika przedstawiająca Atlassian Jersey

Działajcie zespołowo

Reagowanie
Eskalacja, eskalacja, eskalacja

Nie mamy nic przeciwko pobudce z powodu zdarzenia, jeśli okaże się, że nie było to potrzebne. Jednak pojawią się pretensje, jeśli nie zostaniemy obudzeni z powodu zdarzenia w momencie, w którym było to konieczne. Być może nie zawsze będziemy umieli odpowiedzieć na wszystkie pytania, więc „nie wahaj się, tylko eskaluj”.

Grafika przedstawiająca wartości Atlassian

Nie gramy klientom na nerwach

Przywracanie
Wpadki się zdarzają, trzeba po nich szybko posprzątać

Nasi klienci nie dbają o to, dlaczego usługa nie działa. Chcą, aby jak najszybciej zaczęła poprawnie funkcjonować. Nigdy nie wahaj się szybko rozwiązywać zdarzenia. Dzięki temu będziemy mogli zminimalizować jego skutki wobec naszych klientów.

Logo Bez nonsensów

Otwarta firma, bez nonsensów

Wyciąganie wniosków
Zawsze bez dociekania winy

Incydenty są nieodłącznym elementem zawsze dostępnych usług. Ulepszamy usługi, czyniąc zespoły odpowiedzialnymi, a nie obarczając je winą.

Grafika symbolizująca poprawę

Be the change you seek

Doskonalenie
Nie dopuszczaj do ponownego wystąpienia tego samego zdarzenia

Zidentyfikuj główną przyczynę, abyśmy mogli zapobiec ponownemu wystąpieniu incydentu. Zadeklaruj wprowadzenie konkretnych zmian w ustalonym terminie.


Narzędzia dla firmy zapewniające zawsze dostępne usługi

Oprócz skutecznych praktyk i kultury firmy zapewniające zawsze dostępne usługi potrzebują także odpowiednich narzędzi. Zespoły z dojrzałymi praktykami DevOps wykorzystują narzędzia ułatwiające planowanie projektów Agile i sprinty, CI/CD, automatyzację oraz zaawansowane funkcje monitorowania i alarmowania.

Nowoczesne narzędzie do zarządzania incydentami, takie jak Opsgenie, pozwala na otrzymywanie ważnych alertów dostarczanych do preferowanych kanałów powiadomień przy możliwie najmniejszych opóźnieniach. Daje ono także możliwość grupowania alertów w celu ich filtrowania, zwłaszcza gdy kilka alertów zostanie wygenerowanych z powodu pojedynczego błędu lub awarii. Narzędzie do zarządzania alertami musi bezproblemowo integrować się z narzędziami Twojego zespołu (np. zarządzanie dziennikami, raportowanie awarii), tak aby naturalnie wpasowało się rytm prac programistycznych i operacyjnych zespołu.

Każdy zespół jest inny, jeśli chodzi o przepływy pracy, zasady i interesariuszy. Narzędzie do zarządzania alertami musi oferować możliwość dostosowywania harmonogramów dyżurów domowych i reguł przekierowywania do obsługi alertów w oparciu o ich źródło i zawartość. Często alerty mogą wymagać eskalacji do incydentu. Narzędzie powinno zarządzać incydentem bez zakłóceń, automatycznie tworząc menedżera incydentów. Pozwala to zarządzać incydentem jak w pokoju narad, ze wszystkimi przydatnymi informacjami oraz integracją z narzędziami komunikacji i współpracy. Wreszcie, narzędzie musi umożliwiać zaawansowane raportowanie i analizy, aby uzyskać wgląd w obszary sukcesu i zidentyfikować możliwości poprawy. Powinno ujawniać źródła alertów, skuteczność zespołu pod względem reagowania oraz to, jak rozproszone są obciążenia dyżurów domowych.


Wnioski…

Współczesny konsument już nie tylko oczekuje, ale wręcz potrzebuje zawsze dostępnych usług. Wiele firm przyjmuje kulturę YBIYRI, aby rozwinąć zwinność niezbędną do zaspokojenia tych wymagań. Problemem jest to, że wiele firm nie dysponuje odpowiednimi narzędziami i niezbędnymi strukturami/praktykami zespołowymi, aby dotrzymać kroku potrzebnym zmianom.

Jeśli planujesz przejść na kulturę YBIYRI DevOps w swoim zespole, proponujemy kilka kroków, które możesz wykonać:

  • Przygotuj swój zespół do przejęcia kontroli nad wszystkimi fazami prac programistycznych i operacyjnych aplikacji lub usługi
  • Ustal z właścicielami produktów priorytety dotyczące SLO w planowaniu sprintu
  • Wykorzystaj zestaw wartości incydentów, które będą kierowały zachowaniem Twojego zespołu w reakcji na incydent
  • Wzmocnij swój zespół dzięki nowoczesnemu narzędziu do zarządzania alertami i incydentami, takim jak Opsgenie, które jest niezawodne, szybkie i elastyczne

Pobierz nasz bezpłatny podręcznik dotyczący zarządzania incydentami i zacznij korzystać z Opsgenie za darmo.

Krishna Sai
Krishna Sai

Krishna Sai jest kierownikiem ds. inżynierii w dziale rozwiązań IT Atlassian. Ma ponad 20 lat doświadczenia w kierowaniu działami inżynierii/technologii w kilku start-upach i firmach, w tym Atlassian, Groupon i Polycom. Mieszka w Bengaluru w Indiach i jest pasjonatem budowania produktów, które wpływają na sposób współpracy zespołów.


Udostępnij ten artykuł
Następny temat

Zalecane lektury

Dodaj te zasoby do zakładek, aby dowiedzieć się więcej na temat rodzajów zespołów DevOps lub otrzymywać aktualności na temat metodyki DevOps w Atlassian.

Ilustracja DevOps

Społeczność DevOps

Ilustracja DevOps

Warsztaty symulacyjne

Ilustracja przedstawiająca mapę

Zacznij korzystać za darmo

Zapisz się do newslettera DevOps

Thank you for signing up