W 2024 roku branża centrów danych zanotowała wyraźne zmiany w charakterze awarii – wynika z najnowszego raportu Uptime Intelligence, jednostki badawczej działającej w ramach Uptime Institute. Chociaż incydenty są coraz rzadsze i mniej dotkliwe, ich koszty rosną, stawiając operatorów przed nowymi wyzwaniami.
Mniej awarii, ale coraz droższych
Według Uptime Intelligence, 53% operatorów odnotowało przynajmniej jedną awarię w latach 2021–2024. To mniejszy odsetek niż w poprzednich trzyletnich okresach, co sugeruje poprawę w zarządzaniu ryzykiem i wzrost niezawodności infrastruktury IT. Co więcej, aż 76% z 768 przebadanych operatorów zadeklarowało, iż ich problemy miały charakter „minimalny” lub „nieznaczny”. Jedynie 3% doświadczyło poważnych awarii.
Jednak gdy dojdzie już do znaczącego incydentu, jego koszt bywa bardzo wysoki. Wśród operatorów, którzy ujawnili szczegóły finansowe, 54% oszacowało straty z ostatniej poważnej awarii na ponad 100 tys. dolarów, a 20% musiało zmierzyć się z wydatkami przekraczającymi 1 mln dolarów. To wzrost o 4 pkt procentowe rok do roku. Na ten trend wpływ mają m.in. coraz większa krytyczność usług cyfrowych, inflacja, rosnące koszty pracy i sprzętu, kary za niedotrzymanie umów SLA oraz dłuższy czas przywracania pełnej funkcjonalności.
Najczęstsze przyczyny i rola człowieka
Niezmiennie najpoważniejsze awarie wynikają z problemów z zasilaniem – wskazało na nie 54% spośród 97 ankietowanych operatorów. Chłodzenie odpowiadało za 13% najpoważniejszych incydentów, a sieć za 12% Gdy jednak wziąć pod uwagę wszystkie awarie, niezależnie od ich skali, aż 53% odpowiedzi dotyczyło problemów IT i sieciowych, wynikających m.in. z rosnącej złożoności systemów oraz błędów w zarządzaniu zmianą i błędnych konfiguracji.

Coraz większym wyzwaniem jest również czynnik ludzki. 58% spośród 397 operatorów wskazało, iż najczęstszą przyczyną błędów ludzkich jest nieprzestrzeganie procedur przez pracowników centrów danych. To aż o 10 pkt procentowych więcej niż rok wcześniej i – zdaniem autorów raportu – odzwierciedla młodość branży i konieczność zatrudniania mniej doświadczonej kadry w odpowiedzi na gwałtowny wzrost rynku.
Trendy technologiczne i nowe wyzwania
Raport Uptime Intelligence podkreśla rosnącą popularność narzędzi opartych na oprogramowaniu i rozproszonych rozwiązaniach zwiększających odporność centrów danych. Ich wprowadzenie wspiera redundancję infrastruktury, ale jednocześnie utrudnia identyfikację źródeł awarii – szczególnie w środowiskach złożonych i dynamicznie się rozwijających.
Andy Lawrence, dyrektor wykonawczy Uptime Intelligence, komentuje:
„Ogólnie rzecz biorąc, liczba awarii spada. Operatorzy centrów danych mierzą się jednak z rosnącą liczbą zewnętrznych zagrożeń, takich jak ograniczenia sieci energetycznych, ekstremalne zjawiska pogodowe, awarie dostawców sieci i problemy z oprogramowaniem stron trzecich. Mimo bardziej zmiennego otoczenia ryzyka, obserwujemy jednak postęp w zakresie niezawodności.”