Tegnap a CrowdStrike tavaly nyári üzemzavara óta nem látott globális szolgáltatáskiesés rázta meg az internetet, mely az Amazon Web Services (AWS) egyik adatközpontjából kigyűrűzve, hullámokat vetve végigsöpört az egész világon. Bár a szolgáltatást relatíve rövid időn belül sikerült helyreállítani, az eset ismét rávilágít arra, hogy a nagy felhőszolgáltatók infrastruktúrája mennyire nélkülözhetetlen részévé vált manapság a mindennapi életnek.
A Downdetector és a bejelentések alapján többek közt a Snapchat, a Fortnite, a ChatGPT, a Perplexity, Alexa asszisztens, a Zoom, a Canva, a Signal, a Duolingo, a Slack és a PlayStation Network esetében is problémák merülnek fel a (magyar idő szerint) hétfő délelőtti órákban, melyet főleg az Egyesült Államok keleti régiójában tapasztalhatnak a felhasználók, de az incidens világszerte más régiókban is kihat a szolgáltatások megbízhatóságára. A felhasználók globálisan jelentenek bejelentkezési hibákról, az érintett alkalmazások összeomlásáról vagy elérhetetlenségéről.
Elvárásháború, generalista forradalom, senioruralomVáltozik a toborzás, az interjúzás és az elvárások is. Az IT munkaerőpiac nagyon keresi az új egyensúlyi állapotát.
Mint utólag kiderült, az üzemzavar ezúttal (is) az AWS észak-virginiai klaszterében, az US-EAST-1 -ben keletkezett, ahol öt éven belül ez volt a harmadik, hasonló léptékű műszaki meghibásodás. A lokáció DNS-kezelésével kapcsolatos hiba miatt az alkalmazások nem érték el a felhőalapú erőforrásokat, így nem fértek hozzá a működésükhöz szükséges számítási kapacitáshoz, vagy éppen a kritikus adatokat tartalmazó adattáblákhoz (pl. felhasználói adatbázis).
Az AWS szerint a globális kiesésekhez hozzájárult egy hálózatfelügyeleti rendszer meghibásodása is – az Elastic Compute Cloud (EC2) nevű rendszer biztosítja a forgalomelosztást az Amazon különböző adatközpont-régiói között. Mivel az US-EAST-1 régiót használja alapértelmezetten a legtöbb AWS-szolgáltatás, ezért az EC2 hibás működése különösen súlyos következményekkel járt.
A tegnapi eset kapcsán szakértők ismételten kiemelik, hogy a világ IT-infrastruktúrájának működése mennyire rá van utalva nagyjából féltucatnyi globális felhőszolgáltatóra, illetve egy banális üzemzavar milyen turbulenciákat tud okozni világszerte tíz- vagy akár százmilliók által használt szolgáltatások elérésében.
A tegnapihoz hasonló esetek elkerülése ugyanakkor nem csak a felhőszolgáltatók, hanem a szoftverfejlesztők, platformtulajdonosok felelőssége is, akiknek több figyelmet kell fordítaniuk a rendszereik hibatűrésére – nyilatkozta a Reutersnek Ken Birman, a Cornell Egyetem számítástudományi intézetének professzora.
A kutató szerint az AWS a fejlesztők rendelkezésére bocsát több olyan eszközt is, mely segít megelőzni a hasonló leállásokat, emellett végszükség esetén más felhőszolgáltatók is átvehetik egy-egy leállás idején a rendszerek üzemeltetését, jóllehet egy ilyen redundancia fenntartása költséges megoldás, melyet a kiadások optimalizálására törekvő cégek előszeretettel húznak ki a listájukról.
- Hirdetés -