Close

Dbanie o ciągłość usług

Jak organizacje mogą tworzyć kulturę DevOps, która wspiera ciągłą dostępność usług

Headshot of Krishna Sai
Krishna Sai

Kierownik ds. inżynierii, IT Solutions


Charakter zawsze dostępnych usług wymaga ciągłej reakcji ze strony zespołów Agile i DevOps. Zespoły te nie mogą ograniczać się do reagowania na pojedynczy incydent, lecz powinny dostosować strukturę zespołu, wartości i narzędzia w taki sposób, aby doskonałość operacyjna stała się podstawową kompetencją.

Wyzwania związane z zawsze dostępnymi usługami


Od momentu pojawienia się 14 lat temu YBIYRI nadal stanowi wyzwanie dla współczesnych zespołów programistycznych w kontekście spełnienia obietnicy dotyczącej skrócenia czasu rozwiązania i skalowania najlepszych praktyk operacyjnych. Niestety, wiele zespołów nadal cyzeluje swoje umiejętności, harmonogramy i procesy z myślą o reagowaniu na incydenty zamiast skupić się na długofalowym sukcesie.

Zespoły często przechodzą na kulturę YBIYRI bez odpowiedniego przygotowania, a pierwszy poważny incydent często okazuje sygnałem alarmowym. Jednak reakcja często odbywa się zgodnie z przekonaniem: „nie możemy dopuścić, by incydenty się powtórzyły”. W tym celu wprowadza się bramki bezpieczeństwa, punkty kontrolne i inne nadmiarowe procedury. Ponadto częścią rytuałów zespołu są tablice zmian i cotygodniowe recenzje wydania. Każda zmiana jest dokładnie sprawdzana, aby zapobiec przestojom. Chociaż często powoduje to zmniejszenie liczby incydentów, może też spowolnić prędkość procesu programowania i zahamować tok tworzenia produktu. A to może oznaczać utratę przewagi nad konkurencją, gdyż bardziej elastyczni konkurenci mogą poruszać się znacznie szybciej.

Team best practices for always-on services


logo organizacji
materiały pokrewne

Zacznij korzystać za darmo

Ikona pucharu
poznaj rozwiązanie

Uproszczone zarządzanie incydentami i reagowanie

Gotowość operacyjna

Jedną z kluczowych zmian dla zespołów YBIYRI jest uwzględnienie gotowości operacyjnej w ramach cykli planowania i realizacji sprintów. Gotowość operacyjna może obejmować:

  • Podczas programowania: tworzenie odpowiednich, wysokiej jakości alertów w kodzie, które minimalizują średni czas wykrycia (MTTD) i średni czas wyizolowania (MTTI)
  • Tworzenie monitorów — w tym w stosownych przypadkach monitorów syntetycznych — w celu zadbania o to, aby powiązane usługi działały poprawnie
  • Przeznaczenie czasu na stworzenie wymaganych pulpitów nawigacyjnych i przeszkolenie wszystkich członków zespołu w zakresie korzystania z nich
  • Zadbanie o to, aby członkowie zespołu pełniący dyżury domowe nie mieli innych zadań podczas sprintu
  • Zaplanowanie „gier wojennych” dla usługi w celu zadbania o to, aby wycofania działały poprawnie
  • Zaplanowanie przepustowość w sprintach, aby zakończyć czynności z poprzednich przeglądów incydentów
  • Zadbanie o rozwiązanie problemów z bezpieczeństwem (uaktualnienia/łatki/zmiany poświadczeń) i problemów operacyjnych w ramach cykli sprintu

Wszystkie te kwestie wymagają od właścicieli produktów zrozumienia celów poziomu usług (SLO) i odpowiedniej ich priorytetyzacji, wraz z zobowiązaniami biznesowymi związanymi z tworzeniem funkcji i funkcjonalnością.

Wykorzystanie wartości incydentów

Wykorzystanie wartości incydentów dla dobra zespołu może pozwolić stworzyć solidne podstawy do wdrożenia YBIYRI w zespole. Wartości incydentów pomagają zespołowi w reagowaniu na incydenty. Wartości te zapewniają solidne podstawy dla zrównoważonej kultury wokół prac programistycznych i obsługi zawsze dostępnych usług. Wartości incydentów mają następujące cele:

  • Zapewnienie wskazówek ułatwiających podejmowanie autonomicznych decyzji przez osoby i zespoły podczas zdarzeń i analiz
  • Tworzenie spójnej kultury zespołowej, która obejmuje sposób identyfikowania incydentów, zarządzania nimi i wyciągania z nich wniosków
  • Ustalenie z zespołami, jakie nastawienie powinny prezentować na każdym etapie identyfikacji zdarzeń, ich usuwania i refleksji nad nimi

Porady strategiczne dotyczące wartości incydentów stanowią doskonały przewodnik pomagający zidentyfikować wartości zespołu podczas reagowania na incydenty i stworzyć plan pozwalający konsekwentnie realizować te wartości. Może on być pomocny, jeśli dany zespół zmaga się z problemami dotyczącymi skoncentrowania na klientach, spójności zespołu, wspólnego rozumienia, poziomów usług lub mandatów serwisowych w programie Health Monitor.

W Atlassian stosujemy następujące wartości incydentów na poziomie zespołu:

Wartość Atlassian

Etap i wartość incydentu

Przesłanki

Grafika przedstawiająca serca na wadze

Tworzona z sercem i harmonią

Wykrywanie
Atlassian wie wcześniej niż nasi klienci

Zrównoważone usługi obejmują skuteczne monitorowanie i powiadamianie w celu wykrywania zdarzeń, zanim zrobią to klienci. Optymalne monitorowanie pozwala ostrzegać o problemach, zanim przekształcą się w zdarzenia.

Grafika przedstawiająca Atlassian Jersey

Działajcie zespołowo

Reagowanie
Eskalacja, eskalacja, eskalacja

Nie mamy nic przeciwko pobudce z powodu zdarzenia, jeśli okaże się, że nie było to potrzebne. Jednak pojawią się pretensje, jeśli nie zostaniemy obudzeni z powodu zdarzenia w momencie, w którym było to konieczne. Być może nie zawsze będziemy umieli odpowiedzieć na wszystkie pytania, więc „nie wahaj się, tylko eskaluj”.

Grafika przedstawiająca wartości Atlassian

Nie gramy klientom na nerwach

Przywracanie
Wpadki się zdarzają, trzeba po nich szybko posprzątać

Nasi klienci nie dbają o to, dlaczego usługa nie działa. Chcą, aby jak najszybciej zaczęła poprawnie funkcjonować. Nigdy nie wahaj się szybko rozwiązywać zdarzenia. Dzięki temu będziemy mogli zminimalizować jego skutki wobec naszych klientów.

Logo Bez nonsensów

Otwarta firma, bez nonsensów

Wyciąganie wniosków
Zawsze bez dociekania winy

Incydenty są nieodłącznym elementem zawsze dostępnych usług. Ulepszamy usługi, czyniąc zespoły odpowiedzialnymi, a nie obarczając je winą.

Grafika symbolizująca poprawę

Be the change you seek

Doskonalenie
Nie dopuszczaj do ponownego wystąpienia tego samego zdarzenia

Zidentyfikuj główną przyczynę, abyśmy mogli zapobiec ponownemu wystąpieniu incydentu. Zadeklaruj wprowadzenie konkretnych zmian w ustalonym terminie.

Tools for an always-on enterprise


In addition to strong practices and culture, companies running always-on services need the right tools. Teams with mature DevOps practices use tools to facilitate agile project planning and sprintsCI/CDautomation, and advanced monitoring and alerting capabilities. 

A modern incident management tool like Opsgenie ensures you receive important alerts delivered to your preferred notification channel(s) with the lowest latencies. It also includes the ability to group alerts to filter numerous alerts, especially when several alerts are generated from a single error or failure. An alert management tool must seamlessly integrate with your team’s tools (e.g., log management, crash reporting) so that it naturally fits into your team’s development and operational rhythm.

Each team is different in terms of workflows, policies, and stakeholders. The alert management tool must be able to customize on-call schedules and routing rules to handle alerts based on their source and payload. Often the alerts may warrant an escalation to an incident. The tool should manage an incident without distractions by automatically creating an incident manager. This allows you to manage the incident like a war room with all the information handy, with integrations to communication and collaboration tools. Finally, the tool must provide advanced reporting and analytics to gain insight into areas of success and identify opportunities for improvement. It should reveal the sources of alerts, the team’s performance in responding, and how on-call workloads are distributed.

In conclusion...


The modern consumer's desire for always-on services has become less of a want and more of a need. Many companies adopt a YBIYRI culture to develop the agility required to satisfy these demands. The challenge is that many companies aren’t equipped with the appropriate tools and necessary team structures/practices to sustain this velocity.

If you are planning to shift to a YBIYRI DevOps culture for your team, here are some steps to take: 

  • Prepare your team to own all phases of development and operation of the application or service
  • Ensure alignment with product owners so that SLOs are prioritized in sprint planning
  • Embrace a set of incident values that guide the behavior of your team in response to an incident
  • Empower your team with a modern alert and incident management tool like Opsgenie, which is reliable, fast, and flexible

Download our free incident management handbook and get started with Opsgenie for free

Krishna Sai
Krishna Sai

Krishna Sai jest kierownikiem ds. inżynierii w dziale rozwiązań IT Atlassian. Ma ponad 20 lat doświadczenia w kierowaniu działami inżynierii/technologii w kilku start-upach i firmach, w tym Atlassian, Groupon i Polycom. Mieszka w Bengaluru w Indiach i jest pasjonatem budowania produktów, które wpływają na sposób współpracy zespołów.


Udostępnij ten artykuł
Następny temat

Zalecane lektury

Dodaj te zasoby do zakładek, aby dowiedzieć się więcej na temat rodzajów zespołów DevOps lub otrzymywać aktualności na temat metodyki DevOps w Atlassian.

Ilustracja DevOps

Społeczność DevOps

Ilustracja DevOps

Warsztaty symulacyjne

Ilustracja przedstawiająca mapę

Zacznij korzystać za darmo

Zapisz się do newslettera DevOps

Thank you for signing up