Jak YBIYRI zapewnia ciągłą dostępność usług

Jak organizacje mogą tworzyć kulturę DevOps, która wspiera ciągłą dostępność usług

Wypróbuj Compass bezpłatnie

Ulepsz środowisko programistyczne, skataloguj wszystkie usługi i popraw kondycję oprogramowania.

Charakter zawsze dostępnych usług wymaga ciągłej reakcji ze strony zespołów Agile i DevOps. Zespoły te nie mogą ograniczać się do reagowania na pojedynczy incydent, lecz powinny dostosować strukturę zespołu, wartości i narzędzia w taki sposób, aby doskonałość operacyjna stała się podstawową kompetencją.

Wyzwania związane z zawsze dostępnymi usługami

Od momentu pojawienia się 14 lat temu YBIYRI nadal stanowi wyzwanie dla współczesnych zespołów programistycznych w kontekście spełnienia obietnicy dotyczącej skrócenia czasu rozwiązania i skalowania najlepszych praktyk operacyjnych. Niestety, wiele zespołów nadal cyzeluje swoje umiejętności, harmonogramy i procesy z myślą o reagowaniu na incydenty zamiast skupić się na długofalowym sukcesie.

Zespoły często przechodzą na kulturę YBIYRI bez odpowiedniego przygotowania, a pierwszy poważny incydent często okazuje sygnałem alarmowym. Jednak reakcja często odbywa się zgodnie z przekonaniem: „nie możemy dopuścić, by incydenty się powtórzyły”. W tym celu wprowadza się bramki bezpieczeństwa, punkty kontrolne i inne nadmiarowe procedury. Ponadto częścią rytuałów zespołu są tablice zmian i cotygodniowe recenzje wydania. Każda zmiana jest dokładnie sprawdzana, aby zapobiec przestojom. Chociaż często powoduje to zmniejszenie liczby incydentów, może też spowolnić prędkość procesu programowania i zahamować tok tworzenia produktu. A to może oznaczać utratę przewagi nad konkurencją, gdyż bardziej elastyczni konkurenci mogą poruszać się znacznie szybciej.

Najlepsze praktyki w zakresie zawsze dostępnych usług

Gotowość operacyjna

Jedną z kluczowych zmian dla zespołów YBIYRI jest uwzględnienie gotowości operacyjnej w ramach cykli planowania i realizacji sprintów. Gotowość operacyjna może obejmować:

Podczas programowania: tworzenie odpowiednich, wysokiej jakości alertów w kodzie, które minimalizują średni czas wykrycia (MTTD) i średni czas wyizolowania (MTTI)
Tworzenie monitorów — w tym w stosownych przypadkach monitorów syntetycznych — w celu zadbania o to, aby powiązane usługi działały poprawnie
Przeznaczenie czasu na stworzenie wymaganych pulpitów nawigacyjnych i przeszkolenie wszystkich członków zespołu w zakresie korzystania z nich
Zadbanie o to, aby członkowie zespołu pełniący dyżury domowe nie mieli innych zadań podczas sprintu
Zaplanowanie „gier wojennych” dla usługi w celu zadbania o to, aby wycofania działały poprawnie
Zaplanowanie przepustowość w sprintach, aby zakończyć czynności z poprzednich przeglądów incydentów
Zadbanie o rozwiązanie problemów z bezpieczeństwem (uaktualnienia/łatki/zmiany poświadczeń) i problemów operacyjnych w ramach cykli sprintu

Wszystkie te kwestie wymagają od właścicieli produktów zrozumienia celów poziomu usług (SLO) i odpowiedniej ich priorytetyzacji, wraz z zobowiązaniami biznesowymi związanymi z tworzeniem funkcji i funkcjonalnością.

Wykorzystanie wartości incydentów

Wykorzystanie wartości incydentów dla dobra zespołu może pozwolić stworzyć solidne podstawy do wdrożenia YBIYRI w zespole. Wartości incydentów pomagają zespołowi w reagowaniu na incydenty. Wartości te zapewniają solidne podstawy dla zrównoważonej kultury wokół prac programistycznych i obsługi zawsze dostępnych usług. Wartości incydentów mają następujące cele:

Zapewnienie wskazówek ułatwiających podejmowanie autonomicznych decyzji przez osoby i zespoły podczas zdarzeń i analiz
Tworzenie spójnej kultury zespołowej, która obejmuje sposób identyfikowania incydentów, zarządzania nimi i wyciągania z nich wniosków
Ustalenie z zespołami, jakie nastawienie powinny prezentować na każdym etapie identyfikacji zdarzeń, ich usuwania i refleksji nad nimi

Porady strategiczne dotyczące wartości incydentów stanowią doskonały przewodnik pomagający zidentyfikować wartości zespołu podczas reagowania na incydenty i stworzyć plan pozwalający konsekwentnie realizować te wartości. Może on być pomocny, jeśli dany zespół zmaga się z problemami dotyczącymi skoncentrowania na klientach, spójności zespołu, wspólnego rozumienia, poziomów usług lub mandatów serwisowych w programie Health Monitor.

W Atlassian stosujemy następujące wartości incydentów na poziomie zespołu:

Wartość Atlassian	Etap i wartość incydentu	Przesłanki
Tworzona z sercem i harmonią	Wykrywanie Atlassian wie wcześniej niż nasi klienci	Zrównoważone usługi obejmują skuteczne monitorowanie i powiadamianie w celu wykrywania zdarzeń, zanim zrobią to klienci. Optymalne monitorowanie pozwala ostrzegać o problemach, zanim przekształcą się w zdarzenia.
Działajcie zespołowo	Reagowanie Eskalacja, eskalacja, eskalacja	Nie mamy nic przeciwko pobudce z powodu zdarzenia, jeśli okaże się, że nie było to potrzebne. Jednak pojawią się pretensje, jeśli nie zostaniemy obudzeni z powodu zdarzenia w momencie, w którym było to konieczne. Być może nie zawsze będziemy umieli odpowiedzieć na wszystkie pytania, więc „nie wahaj się, tylko eskaluj”.
Nie gramy klientom na nerwach	Rozwiązywanie Wpadki się zdarzają, trzeba po nich szybko posprzątać	Nasi klienci nie dbają o to, dlaczego usługa nie działa. Chcą, aby jak najszybciej zaczęła poprawnie funkcjonować. Nigdy nie wahaj się szybko rozwiązywać zdarzenia. Dzięki temu będziemy mogli zminimalizować jego skutki wobec naszych klientów.
Otwarta firma, bez nonsensów	Uczenie się Zawsze bez dociekania winy	Incydenty są nieodłącznym elementem zawsze dostępnych usług. Ulepszamy usługi, czyniąc zespoły odpowiedzialnymi, a nie obarczając je winą.
Dokonaj zmiany, której poszukujesz	Ulepszanie Nie dopuszczaj do ponownego wystąpienia tego samego zdarzenia	Zidentyfikuj główną przyczynę, abyśmy mogli zapobiec ponownemu wystąpieniu incydentu. Zadeklaruj wprowadzenie konkretnych zmian w ustalonym terminie.

Narzędzia dla firmy zapewniające zawsze dostępne usługi

Oprócz skutecznych praktyk i kultury firmy zapewniające zawsze dostępne usługi potrzebują także odpowiednich narzędzi. Zespoły z dojrzałymi praktykami DevOps wykorzystują narzędzia ułatwiające planowanie projektów Agile i sprinty, CI/CD, automatyzację oraz zaawansowane funkcje monitorowania i alarmowania.

Nowoczesne narzędzie do zarządzania incydentami, takie jak Opsgenie, pozwala na otrzymywanie ważnych alertów dostarczanych do preferowanych kanałów powiadomień przy możliwie najmniejszych opóźnieniach. Daje ono także możliwość grupowania alertów w celu ich filtrowania, zwłaszcza gdy kilka alertów zostanie wygenerowanych z powodu pojedynczego błędu lub awarii. Narzędzie do zarządzania alertami musi bezproblemowo integrować się z narzędziami Twojego zespołu (np. zarządzanie dziennikami, raportowanie awarii), tak aby naturalnie wpasowało się rytm prac programistycznych i operacyjnych zespołu.

Każdy zespół jest inny, jeśli chodzi o przepływy pracy, zasady i interesariuszy. Narzędzie do zarządzania alertami musi oferować możliwość dostosowywania harmonogramów dyżurów domowych i reguł przekierowywania do obsługi alertów w oparciu o ich źródło i zawartość. Często alerty mogą wymagać eskalacji do incydentu. Narzędzie powinno zarządzać incydentem bez zakłóceń, automatycznie tworząc menedżera incydentów. Pozwala to zarządzać incydentem jak w pokoju narad, ze wszystkimi przydatnymi informacjami oraz integracją z narzędziami komunikacji i współpracy. Wreszcie, narzędzie musi umożliwiać zaawansowane raportowanie i analizy, aby uzyskać wgląd w obszary sukcesu i zidentyfikować możliwości poprawy. Powinno ujawniać źródła alertów, skuteczność zespołu pod względem reagowania oraz to, jak rozproszone są obciążenia dyżurów domowych.

Podsumowując…

Współczesny konsument już nie tylko oczekuje, ale wręcz potrzebuje zawsze dostępnych usług. Wiele firm przyjmuje kulturę YBIYRI, aby rozwinąć zwinność niezbędną do zaspokojenia tych wymagań. Problemem jest to, że wiele firm nie dysponuje odpowiednimi narzędziami i niezbędnymi strukturami/praktykami zespołowymi, aby dotrzymać kroku potrzebnym zmianom.

Jeśli planujesz przejść na kulturę YBIYRI DevOps w swoim zespole, proponujemy kilka kroków, które możesz wykonać:

Przygotuj swój zespół do przejęcia kontroli nad wszystkimi fazami prac programistycznych i operacyjnych aplikacji lub usługi
Ustal z właścicielami produktów priorytety dotyczące SLO w planowaniu sprintu
Wykorzystaj zestaw wartości incydentów, które będą kierowały zachowaniem Twojego zespołu w reakcji na incydent
Wzmocnij swój zespół dzięki nowoczesnemu narzędziu do zarządzania alertami i incydentami, takim jak Opsgenie, które jest niezawodne, szybkie i elastyczne

Pobierz nasz bezpłatny podręcznik dotyczący zarządzania incydentami i zacznij korzystać z Opsgenie za darmo.

Polecane dla Ciebie

Polecane aplikacje

Kolekcje Atlassian

Według przypadku użycia

Według zespołu

Według rozmiaru

Według branży

Wsparcie

Zasoby

Jira

Confluence

Jira Service Management

Według przypadku użycia

Według zespołu

Według rozmiaru

Według branży

Jira

Confluence

Jira Service Management

Według przypadku użycia

Według zespołu

Według rozmiaru

Według branży

Jak YBIYRI zapewnia ciągłą dostępność usług

Wyzwania związane z zawsze dostępnymi usługami

Najlepsze praktyki w zakresie zawsze dostępnych usług

Gotowość operacyjna

Wykorzystanie wartości incydentów

Narzędzia dla firmy zapewniające zawsze dostępne usługi

Podsumowując…

Polecane dla Ciebie

Społeczność DevOps

Ścieżka szkoleniowa DevOps

Zacznij korzystać bezpłatnie