- TECHNOFOBIA
- Posts
- Crowdstrike, co poszło nie tak? | TECHNOFOBIA | Newsletter Artura Kurasinskiego
Crowdstrike, co poszło nie tak? | TECHNOFOBIA | Newsletter Artura Kurasinskiego
Jak pozornie rutynowa aktualizacja doprowadziła do jednej z najwiekszych katastrof w historii IT
19 lipca 2024 roku pozornie rutynowa aktualizacja oprogramowania wywołała globalny chaos. O godzinie 5:00 rano zespół Crowdstrike, jednej z wiodących firm w dziedzinie cyberbezpieczeństwa, rozpoczął standardową aktualizację produktu Falcon Sensor.
Narzędzie zaprojektowane do ochrony komputerów przed różnymi cyberzagrożeniami, wkrótce stało się źródłem technologicznej burzy.
Początkowo wszystko wyglądało normalnie. Komputery na całym świecie zaczęły pobierać aktualizację, jednak w ciągu kilku minut pojawiły się pierwsze sygnały problemów. Urządzenia z systemem Windows, na których zainstalowano nową aktualizację, nagle zaczęły się zawieszać, wyświetlając klasyczny „blue screen". Co gorsza, nie był to pojedynczy przypadek – problem występował dosłownie wszędzie.
Gdy skala problemu stała się oczywista, zespół Crowdstrike natychmiast wstrzymał wdrażanie aktualizacji i już o 5:27 rano wydał poprawkę. Było jednak za późno. Cyfrowe domino zaczęło się przewracać, uruchamiając jedną z najpoważniejszych katastrof informatycznych w historii.
Pierwsze skutki były odczuwalne w Azji i Australii, gdzie dzień pracy dobiegał końca. Pracownicy kawiarni i sklepów detalicznych zgłaszali, że ich systemy sprzedaży przestały działać. Systemy zarządzania zapasami uległy awarii, uniemożliwiając firmom przetwarzanie zamówień i obsługę klientów. W biurach pracownicy bezradnie obserwowali, jak ich komputery cyklicznie przechodzą przez nieudane restarty, zanim przeszły w tryb odzyskiwania.
Problem rozszerzył się poza komputery osobiste na serwery i infrastrukturę Windows, powodując kaskadę awarii w różnych branżach. W miarę jak firmy zmagały się z nagłą utratą systemów cyfrowych, stało się jasne, że problem nie był odosobniony. Świat był świadkiem technologicznego krachu na niespotykaną dotąd skalę, wywołanego przez jedną błędną aktualizację oprogramowania.
Nie chodziło tylko o pracowników biurowych, którzy przyszli do pracy i stwierdzili, że ich sprzęt nie działa. Sytuacja była znacznie poważniejsza.
O 7:00 rano usługi 911 w Arizonie i na Alasce przestały działać, pozostawiając obywateli bez kluczowej linii komunikacyjnej, ratującej życie każdego dnia. Sytuacja najbardziej dotknęła szpitale. Penn Medicine w Pensylwanii i Northwell Health w Nowym Jorku odnotowały awarie swoich systemów, co zmusiło je do odroczenia niepilnych zabiegów, a nawet niektórych operacji. W miarę jak rosły zaległości pacjentów, kłopoty infrastruktury opieki zdrowotnej stały się boleśnie widoczne.
Kolejną ofiarą był sektor transportu. O 8:00 rano Federalna Administracja Lotnictwa wykryła problemy z systemami nawigacji lotów. W bezprecedensowym posunięciu uziemiono loty głównych linii lotniczych, co skutkowało ponad 5000 odwołanymi i 35 000 opóźnionymi lotami. Ponad milion pasażerów utknęło w martwym punkcie, podczas gdy loty towarowe firm takich jak UPS i FedEx zostały wstrzymane, powodując znaczne opóźnienia w dostawach.
W klasycznych mediach oraz na platformach społecznościowych rozeszła się informacja, że za awarię odpowiada Microsoft. Wówczas niewiele osób zdawało sobie sprawę z prawdziwych przyczyn problemów.
Kryzys narastał, więc CEO Crowdstrike, George Kurtz wydał oświadczenie o godzinie 10:45, w którym przyznał, że przyczyną była usterka w aktualizacji oprogramowania dla komputerów z systemem Windows. Jednak zwykłe cofnięcie zmian nie wchodziło w rachubę. Każdy dotknięty komputer wymagał ręcznej interwencji – czy to osobistej, czy zdalnej – w celu usunięcia wadliwego pliku z każdego urządzenia. Przy ponad 8 milionach dotkniętych urządzeń, skala zadania była ogromna.
Efekt domina trwał dalej. Między 10 a 11 rano transport publiczny w północno-wschodnich Stanach Zjednoczonych stanął. Do południa banki na całym świecie zgłoszały awarie swoich portali internetowych. Nawet rząd federalny USA uznał większość swoich komputerów za bezużyteczne, co skłoniło go do bezpośredniej współpracy z Crowdstrike, aby zażegnać kryzys.
Support działał w pocie czoła, natomiast ta sytuacja uwidoczniła, jak bardzo jesteśmy uzależnieni od technologii. Świat patrzył i czekał, licząc na szybkie rozwiązanie technologicznego krachu.
W miarę upływu dnia zaczęły pojawiać się oznaki ożywienia. Do godziny 14:00 niektóre loty zostały wznowione, a garstce firm udało się przywrócić swoje systemy do życia.
Agencje federalne nadal zmagały się z problemami, a szpitale zgłaszały ciągłe przerwy w dostawie prądu.
Powaga sytuacji dotarła nawet do prezydenta Bidena. Dyrektor generalny Crowdstrike wydał kolejne oświadczenie, w którym szczerze przeprosił i przedstawił, jak ogromny wpływ awaria miała wpływ na działanie świata. Firma zmobilizowała wszystkie swoje zasoby, aby wesprzeć poszkodowanych klientów oraz opublikowała obszerny raport szczegółowo opisujący zdarzenie i zawierający wskazówki dotyczące naprawy systemu.
KOSZTOWNY BŁĄD
Podczas gdy część świata odzyskała funkcjonalność w ciągu jednego dnia, ślad po incydencie pozostawał. Konieczność ręcznych poprawek na każdym dotkniętym urządzeniu oznaczała, że nawet jeśli problemy wystąpiły na mniej niż 1% wszystkich komputerów z systemem Windows, często dotyczyły one krytycznych systemów obsługujących kluczowe usługi.
Skutki finansowe były oszałamiające. Szacuje się, że same firmy z listy Fortune 500 poniosły straty w wysokości 5,4 miliarda dolarów.
Główna przyczyna tego katastrofalnego zdarzenia leżała w samej naturze czujnika Falcon firmy Crowdstrike. To nie było zwykłe oprogramowanie, lecz rozbudowany system działający na poziomie jądra komputera – podstawowej warstwy odpowiedzialnej za zarządzanie systemem operacyjnym i interakcjami sprzętowymi. Tak głęboka integracja pozwala Falcon Sensor na zapewnienie bezpieczeństwa poprzez monitorowanie na najniższym możliwym poziomie.
Natomiast takie rozwiązanie wiąże się z ryzykiem. Problem w oprogramowaniu na poziomie użytkownika zwykle powoduje awarię pojedynczego programu, tymczasem błąd na poziomie jądra może sparaliżować cały system. W tym przypadku niewielka część nowych informacji, które miały pomóc w identyfikacji złośliwego oprogramowania, miała daleko idące konsekwencje.
To broń obosieczna dla zaawansowanych środków cyberbezpieczeństwa. Chociaż zapewniają solidną ochronę, ich głęboka integracja z krytycznymi systemami może zwiększyć ryzyko związane nawet z drobnymi błędami.
Jakże cienka linia dzieli bezpieczeństwo od stabilności w naszym cyfrowym świecie.
Wadliwe informacje wprowadziły błąd logiczny, który, choć nie spowodował bezpośrednio awarii systemu Windows, doprowadził do problemów ze stabilnością. System Windows, wykrywając te anomalie, zainicjował ochronne wyłączenie, aby zapobiec potencjalnym szkodom – niesławny „blue screen" był, jak na ironię, zabezpieczeniem.
Poleganie przez Crowdstrike na automatycznych kontrolach lub „walidatorach treści", przy wdrażaniu aktualizacji okazało się w tym przypadku niewystarczające. Choć firma z powodzeniem wdrożyła tysiące podobnych aktualizacji wcześniej, brak dodatkowych testów, w szczególności dynamicznych testów na rzeczywistych komputerach z Windowsem, doprowadził do upadku całego systemu.
Sedno kontrowersji nie tkwi jednak w rozwoju wadliwego kodu – co jest niemal nieuniknione w złożonych systemach – ale w metodzie wdrażania. Nowoczesna infrastruktura technologiczna zazwyczaj stosuje proces etapowy, w którym aktualizacje są wdrażane stopniowo, aby zmniejszyć ryzyko powszechnych problemów. Co zaskakujące, Crowdstrike ominął te zabezpieczenia, dystrybuując aktualizację bezpośrednio do wszystkich systemów jednocześnie. Decyzja ta, prawdopodobnie podjęta ze względu na charakter ich produktu na poziomie jądra i nadmierne zaufanie do zautomatyzowanych kontroli, zwiększyła zasięg popełnionego błędu.
Kryzys ten to ostrzeżenie dla branży technologicznej, podobnie jak pandemia COVID-19 ujawniła słabe punkty w globalnych łańcuchach dostaw. Chociaż natychmiastowy wpływ był poważny, długoterminowym skutkiem może być silniejszy, bardziej odporny globalny ekosystem IT, ponieważ firmy i organizacje ponownie audytują i wzmacniają swoje systemy przed podobnymi incydentami.
Dla Crowdstrike był to ogromny cios zarówno reputacyjny, jak i finansowy. Za kryzys otrzymali niechlubną nagrodę Pwnie Awards 2024 za „Najbardziej Epicką Porażkę".
W dniu awarii akcje firmy spadły o około 14%. Co więcej, Crowdstrike może stanąć w obliczu potencjalnych roszczeń odszkodowawczych i zbiorowych pozwów.
Zostali zmuszeni do zmobilizowania wszystkich swoich zasobów, aby wesprzeć poszkodowanych klientów, co wiązało się z dodatkowymi wydatkami. Konieczne było także wdrożenie nowych procesów i zabezpieczeń, aby zapobiec podobnym incydentom w przyszłości, co generuje kolejne wydatki.
Choć szacunkowo maksymalnie 5% klientów może odejść od firmy, to pozyskiwanie nowych, przy takiej utracie zaufania, będzie znacznie trudniejsze.
Jedno jest pewne – zapisali się na kartach technologicznej historii, choć nie tak, jak planowali.
Maciej Marek
AULA POLSKA - FUZJE I PRZEJĘCIA
9-go września na start nowego sezonu Auli będzie można wziąć udział w naprawdę niesamowitym spotkaniu:
Michal Branski - VP Strategy Grupa Wirtualna Polska
Jakub Dwernicki - CEO & Founder cyberFolks.pl
Olgierd Porębski - Legal Advisor z Kancelaria Porębski
A Piotr Nowosielski (CEO JustJoinIT) zadba o odpowiedni poziom wszystkich rozmów.
Dla czytelników Technofobii mam rabat 15% na bilety – wystarczy podać kod TECHNOFOBIA.
🤔 CZY MOŻNA KUPOWAĆ OCZAMI A PŁACIĆ SPOJRZENIEM?
Jak wygląda rynek płatności biometrycznych? Jaki stosunek do płacenia i autoryzacji tego typu metodami mają Polki i Polacy? Czy płacenie wzrokiem jest przyszłością e-commerce?
O tym między innymi rozmawiam z Marta Zycinska (Mastercard Polska) oraz Daniel Jarząb (CEO PayEye) w kontekście płatności biometrycznych w Polsce i na świecie:
↳ O współpracy PayEye z Mastercard i Empik Group (w ramach pierwszego w Europie pilotażu w ramach programu Mastercard Biometric Checkout),
↳ O bezpieczeństwie płatności biometrycznych
↳ O wyzwaniach z nimi związanych (czy Polacy są gotowi na biometryczne płatności?)
Zapraszam do posłuchania mojego podcastu!
📰NEWSY WARTE TWOJEJ UWAGI
Fortnite znów dostępny na iOS, ale tylko w Unii Europejskiej. Epic uruchomił swój sklep z grami na iOS (wyłącznie na terenie UE) i Androidzie. Na razie są na nim tylko trzy tytuły. Fortnite zniknął z App Store cztery lata temu, co zapoczątkowało batalię prawną.
Dwa statki kosmiczne stworzone przez Rocket Lab są niemal gotowe do misji na Marsa. Ich zadaniem będzie badanie interakcji między wiatrami słonecznymi a atmosferą Marsa. Misja ma wystartować nie wcześniej niż w październiku, wykorzystując pierwszy lot rakiety New Glenn firmy Blue Origin. Dotychczas dotarcie na Marsa było bardzo kosztowne - system Rocket Lab jest 2x tańszy niż wszystkie inne projekty.
Narzędzie, którego Google używa do generowania odpowiedzi AI, jest tym samym, które indeksuje strony dla wyników wyszukiwania. Witryny blokujące bota AI Google mogą nie pojawiać się w wyszukiwarce. Właściciele stron stają przed wyborem: albo udostępnisz treści do wykorzystania przez modele AI, albo zniknasz z wyszukiwarki Google, Twojego głównego źródła ruchu.
Modele GPT-4o i GPT-4o mini mogą teraz być dostrajane i dostosowywane przez deweloperów do użytku firmowego. Programiści mogą wykorzystywać własne zbiory danych, aby wzbogacić bazę wiedzy modelu o informacje zastrzeżone oraz kontrolować sposób, w jaki model odpowiada na konkretne pytania. Dostosowanie GPT-4o kosztuje 25 dolarów za każdy milion wykorzystywanych tokenów, w przypadku GPT-4o mini jest to 3 dolary.
Jak Ci się podoba dzisiejsze wydanie? |