Dzisiejsze przedpołudnie to globalna awaria infrastruktury Cloudflare utrudniła dostęp do tysięcy serwisów internetowych na całym świecie. Problemy zgłaszali użytkownicy m.in. X (dawny Twitter), ChatGPT, Spotify, serwisów e-commerce i platform gamingowych. Po kilku godzinach firma poinformowała, że usługi zostały przywrócone, a przyczyną był błąd w automatycznie generowanym pliku konfiguracyjnym, który doprowadził do awarii oprogramowania obsługującego ruch sieciowy.
Cloudflare to jeden z kluczowych „niewidocznych” graczy internetu - według szacunków z dzisiejszych doniesień jego usługi wykorzystuje ponad 7,5 miliona stron i aplikacji. To przez jego infrastrukturę przechodzi ruch do wielu serwisów, także biznesowych systemów krytycznych: bramek płatniczych, platform SaaS, narzędzi do wideokonferencji, systemów helpdesk, a coraz częściej również rozwiązań contact center w modelu chmurowym. Dzisiejszy incydent oznaczał dla wielu firm podwyższone poziomy błędów 500, brak możliwości zalogowania się do paneli czy chwilową niedostępność stron i usług sieciowych.
Choć w oficjalnych komunikatach dostawców nie pojawiły się jeszcze konkretne nazwy platform contact center, eksperci zwracają uwagę, że część rozwiązań typu contact center-as-a-service, portali samoobsługowych i formularzy kontaktowych mogła być okresowo niedostępna, jeśli korzystały z Cloudflare jako dostawcy DNS, CDN lub zapory aplikacyjnej (WAF). W praktyce oznacza to, że klient mógł nie uruchomić czatu na stronie, nie wysłać zgłoszenia przez formularz ani dostać się do bazy wiedzy - zanim jeszcze sięgnął po telefon do call center.
- Awarie, których byliśmy świadkami w ostatnich miesiącach, po raz kolejny potwierdziły naszą zależność od sieci i usług cyfrowych. Firmy często zmuszone są w znacznym stopniu polegać i opierać swój biznes na rozwiązaniach takich gigantów technologicznych, jak Cloudflare czy Microsoft, ponieważ na rynku brakuje alternatyw – komentuje Kamil Sadkowski, ekspert cyberbezpieczeństwa ESET. Podkreśla, że jednym z najsłabszych, a zarazem kluczowych elementów jest system DNS, który tłumaczy przyjazne nazwy domen na adresy IP rozumiane przez komputery. Gdy zawodzi ten poziom infrastruktury, skutkiem mogą być globalne, „kaskadowe” awarie całych ekosystemów usług.
W przypadku dzisiejszej awarii Cloudflare przekonuje, że nie był to cyberatak, lecz błąd wewnętrznej konfiguracji - zbyt duży automatycznie generowany plik doprowadził do awarii oprogramowania odpowiadającego za obsługę ruchu dla części usług. Problem rozpoczął się około 6:30 czasu wschodniego USA (ok. 12:30 w Polsce), a największe nasilenie nastąpiło mniej więcej dwie godziny później. Użytkownicy z różnych regionów zgłaszali falowe „zaniki” i powroty usług aż do momentu wdrożenia poprawki.
Dla call i contact center tego typu incydenty to nie tylko kłopot wizerunkowy, ale realne uderzenie w ciągłość biznesu. Coraz więcej zespołów obsługi klienta pracuje wyłącznie w przeglądarce, korzystając z chmurowych platform, których interfejsy i API często są chronione właśnie przez Cloudflare lub podobnych pośredników. Jeśli przestaje działać wymiana ruchu z taką platformą, agenci mogą nie zalogować się do aplikacji, a kolejki rozmów i kontaktów przenoszą się na te kanały, które jeszcze są dostępne – zwykle na telefon i e-mail. To szybko przekłada się na spadek poziomu obsługi, wzrost czasu oczekiwania, ryzyko niewyrobienia się w SLA i konieczność ręcznego „gaszenia pożarów” przez menedżerów.
Szczególnie wrażliwe są kanały cyfrowe: czat na stronie, chatboty, formularze kontaktowe, portale klienta czy systemy ticketowe. Jeśli są zestawione przez domeny obsługiwane przez Cloudflare, to nawet krótka niedostępność może spowodować nagły skok ruchu do tradycyjnego call center - bez wcześniejszej możliwości „przechwycenia” części spraw w trybie samoobsługowym. W efekcie pojedyncza awaria infrastruktury sieciowej gdzieś na świecie potrafi w kilkanaście minut przełożyć się na chaos na sali operacyjnej w Polsce.
Sadkowski zwraca uwagę, że paradoks polega na tym, iż najwięksi dostawcy chmury i usług sieciowych jednocześnie oferują najwyższy poziom zabezpieczeń i odporności, a jednak – jak pokazuje dzisiejszy dzień - także oni nie są wolni od błędów. To wzmacnia dyskusję o tym, czy firmy powinny projektować krytyczne systemy obsługi klienta w oparciu o jednego dostawcę, czy raczej budować strategie wielochmurowe i redundancję kluczowych komponentów, takich jak DNS, CDN czy narzędzia bezpieczeństwa.
Dla menedżerów contact center dzisiejsza awaria Cloudflare to kolejny sygnał ostrzegawczy. Po pierwsze, warto zweryfikować, które elementy ekosystemu obsługi klienta – od strony www, przez chatboty, po panele agentów - zależą od pojedynczych zewnętrznych dostawców infrastruktury. Po drugie, potrzebne są scenariusze awaryjne: alternatywne domeny, komunikaty dla klientów, procedury przełączania ruchu na inne kanały oraz szkolenia dla agentów, jak pracować w trybie ograniczonej dostępności systemów. Bo nawet jeśli dzisiejsza awaria trwała tylko kilka godzin, jej skutki dla reputacji i doświadczeń klientów mogą być odczuwalne znacznie dłużej.



