Začiatkom tohto týždňa sa svet vrátil do čias, keď nebolo bežné hrať videohry, prehliadať sociálne siete alebo posielať peniaze prostredníctvom internetového bankovníctva.
Za masívnym výpadkom internetových služieb stála kaskáda problémov v jednej spoločnosti – Amazon, ktorej majiteľom je tretí najbohatší muž sveta, Jeff Bezos.
Okrem jeho e-shopu výpadok ovplyvnil aj aplikáciu Duolingo, videohry Fortnite a Roblox, sociálne siete Snapchat a Reddit a viac ako dvetisíc ďalších spoločností.
Podľa správ bol globálny problém spôsobený „menšou chybou“ v jednom dátovom centre.
Malá chyba, veľký problém
„Dnešná infraštruktúra je mimoriadne komplexná a plná vzájomných závislostí. Stačí malá chyba, ktorá ovplyvní kľúčovú časť systému, od ktorého závisia ostatné služby, a dôsledky sa rýchlo rozšíria po celom svete,“ vysvetľuje etický hacker Martin Haller zo spoločnosti Patron-IT.
Príčinou nedávneho výpadku bola porucha cloudovej infraštruktúry Amazon Web Services (AWS), ktorá postihla hlavne severnú Virgíniu.
Ide o jednu z najväčších a najvyužívanejších oblastí tejto cloudovej infraštruktúry, na ktorej je založená významná časť globálneho internetu.
Unsplash
Foto: Unsplash
„Amazon následne potvrdil, že incident ovplyvnil jeho internú sieť, po niekoľkých hodinách odstránil príčinu a postupne obnovil služby,“ hovorí Monika Kutějová, česká špecialistka na kybernetickú bezpečnosť v Kancelárii prezidenta republiky Českej republiky.
Akcie narástli
Vďaka tejto reakcii mal problém zatiaľ len malý vplyv na jednu z najväčších e-commerce spoločností.
A hoci sa odhaduje, že pre výpadok stratila každú hodinu milióny dolárov, jej akcie namiesto paniky vzrástli o 1,3 percenta. V utorok získali ďalšie dve percentá, skôr než klesli späť na hodnotu z predchádzajúceho dňa.
Podľa odborníkov je z uverejnených informácií zrejmé, že celý výpadok bol spôsobený kombináciou chýb v niekoľkých systémoch platformy cloudových služieb Amazonu. To malo za následok nedostupnosť alebo výrazné spomalenie celého radu ďalších služieb.
Amazon Web Services ponúka stovky služieb v oblasti výpočtových zdrojov, ukladania dát, databáz, umelej inteligencie, analýzy, doručovania obsahu a správy sietí.
Unsplash
Foto: Unsplash
„Spoločnosti, vývojári a vládne organizácie používajú AWS, pretože im umožňuje nasadiť kompletnú infraštruktúru „na požiadanie“ bez potreby vlastniť servery alebo dátové centrá. Kľúčovým princípom je škálovateľnosť a platba len za skutočne využitú kapacitu, čo ju robí atraktívnou pre milióny podnikov po celom svete,“ dodáva Kutějová.
Celý systém potom funguje prostredníctvom regiónov pozostávajúcich z nezávislých dátových centier. „Región US-EAST-1 v severnej Virgínii je najväčší a najstarší, čo z neho robí kľúčové centrum globálneho internetu a hlavný vstupný bod pre rad globálnych aplikácií,“ opisuje problém Kutějová.
Amazon, Facebook, Microsoft
Nie je to prvýkrát v posledných rokoch, čo jediný bod zlyhania spôsobil, že služby prestali fungovať všade. Minulé leto došlo k globálnemu výpadku niektorých počítačových systémov Microsoft Windows v dôsledku chybnej aktualizácie od spoločnosti CrowdStrike.
Výpadky ovplyvňujú aj jednotlivé služby, ako napríklad Facebook v roku 2019.
„Bol nedostupný celých štrnásť hodín a škody dosiahli 90 miliónov dolárov,“ hovorí napríklad niekdajší člen slovenského rebríčka Forbes 30 pod 30 Juraj Masár, generálny riaditeľ a spoluzakladateľ spoločnosti Better Stack.
Foto: Flickr/Daniel Oberhaus v licencii CC BY 2.0
Šéf Amazonu Jeff Bezos
Foto: SITA/AP
Haller a Kutějová dodávajú, že Amazon nie je jediný poskytovateľ týchto služieb – podobné služby poskytujú aj Microsoft Azure, Google Cloud, Alibaba Cloud a Oracle Cloud.
Internet závisí aj od spoločností Cloudflare a Akamai Technologies. Tie poskytujú doručovanie obsahu, ochranu pred útokmi a výpadkami a v mnohých prípadoch aj základnú infraštruktúru.
„Závislosť digitálnej infraštruktúry od týchto niekoľkých veľkých hráčov je dnes mimoriadna. Veľká časť najpoužívanejších webových aplikácií, e-shopov, streamovacích služieb a mobilných aplikácií beží na cloudoch, ako sú AWS, Azure alebo GCP. Porucha jedného z týchto poskytovateľov môže preto veľmi rýchlo ovplyvniť viacero odvetví, ako ukázal tento incident,“ vysvetľuje odborník Haller.
Problémové letiská aj postele
Ako veľmi je technológia od nich závislá, dokázal aj prípad spoločnosti EightSleep, ktorá ponúka „inteligentné postele“. Ich „inteligencia“ je však priamo prepojená s AWS, takže keď došlo k výpadku, postele sa nedali presúvať ani vypnúť.
To nahnevalo mnohých používateľov produktu, ktorého používanie stojí vyše 160 eur mesačne. Podobnú reakciu vyvolala skutočnosť, že sa nedali ukončiť firemné hovory v aplikácii Slack.
Dokonca, niektoré letecké spoločnosti stratili informácie o rezerváciách a miestach pasažierov.
Unsplash
Amazon je dnes kľúčový hráč internetu
Foto: Unsplash
Dnes je už väčšina problémov vyriešená, ale aj po relatívnom ukončení výpadku pretrváva v spoločnostiach nepríjemný pocit, že to nemusí byť ojedinelá udalosť.
„Bohužiaľ, otázka, či sa podobná situácia môže zopakovať, má pomerne realistickú odpoveď. Áno,“ odpovedá Kutějová dôrazne.
Podľa nej AWS prevádzkuje mimoriadne komplexnú a globálnu infraštruktúru s tisíckami prepojených komponentov. Tie sú zo svojej podstaty náchylné na technické chyby, softvérové poruchy alebo ľudské chyby.
Aj v takomto kľúčovom regióne dochádza čas od času k výpadkom. Hoci Amazon zavádza opatrenia na zvýšenie odolnosti, podľa odborníčky nemožno pri takej rozsiahlej infraštruktúre nikdy zaručiť absolútnu spoľahlivosť.
Výpadky môžu nastať v dôsledku kombinácie sieťových problémov, chýb aktualizácie alebo nedostatočnej kapacity jednotlivých komponentov.
„Celkovo však vzhľadom na zložitosť moderných systémov funguje internet prekvapivo spoľahlivo,“ poznamenáva Haller a dodáva, že výpadky sa môžu vyskytnúť aj u bezpečnostných spoločností, výrobcov operačných systémov, poskytovateľov sieťových technológií alebo dokonca pri poškodení podmorských káblov.
Ako sa pripraviť na výpadok?
Spoločnosti nemusia čakať a modliť sa, ale môžu sa na takéto udalosti pripraviť už teraz. Jedným z riešení je prevádzkovať kľúčové časti infraštruktúry paralelne v niekoľkých regiónoch AWS alebo v kombinácii s inými poskytovateľmi.
„Výpadok regiónu AWS, ako najväčšieho poskytovateľa cloudových služieb, vždy pripomína vývojárom, že za cloudom je stále len fyzická serverovňa. Spoločnosti teraz prehodnocujú svoj prístup k využívaniu viacerých cloudových regiónov alebo hybridných cloudových riešení. Tento výpadok tiež ukazuje, že drahší cloud nemusí automaticky znamenať spoľahlivejší cloud,“ dodáva Juraj Masár.
Foto: Ondřej Pýcha
Juraj Masár
Foto: Ondřej Pýcha
Spoločnosti tiež potrebujú vedieť, ako sa ich systém bude správať v prípade výpadku poskytovateľa, a mali by mať pripravený scenár presmerovania prevádzky na záložnú infraštruktúru.
„Zmluvné a poistné nástroje poskytujú ďalšiu úroveň ochrany. Spoločnosti by mali byť oboznámené s podmienkami zmluvy o úrovni služieb, ktorú ponúka AWS a iní poskytovatelia, ako sú garantovaná dostupnosť a kompenzácia v prípade nedodržania podmienok,“ hovorí Kutějová.
V praxi však tieto kompenzácie pokrývajú len zlomok skutočných strát, ktoré môže výpadok spôsobiť.
Čo ďalej?
Je preto možné poistiť sa proti prerušeniu prevádzky. To môže pokryť finančný účinok dlhších výpadkov alebo straty príjmov, ale zvyčajne nerieši poškodenie reputácie alebo regulačné škody.
Pomáha aj simulácia výpadkov, zálohovanie údajov do inej oblasti a vhodne navrhnutá izolácia služieb. Okrem technologickej pripravenosti by spoločnosti nemali zabúdať na dobrú komunikáciu.
„Transparentná komunikácia so zákazníkmi a partnermi v prípade výpadku môže výrazne znížiť poškodenie reputácie. Spoločnosti by tiež mali kvantifikovať, aké by boli ich finančné straty počas určitého obdobia nedostupnosti, a podľa toho investovať do zálohovania a poistného krytia,“ poznamenáva špecialistka na kyberbezpečnosť.
Unsplash
Foto: Unsplash
Celkovo podľa Kutějovej neexistuje absolútna ochrana pred výpadkom veľkého poskytovateľa. Cieľom nie je úplne eliminovať výpadky, ale minimalizovať ich dôsledky a urýchliť obnovenie prevádzky.
Mnohé opatrenia však výrazne zvyšujú náklady a technickú zložitosť, a tým paradoxne aj riziko ľudských chýb.
„Po zvážení všetkých faktorov preto mnohé spoločnosti dospeli k záveru, že najrozumnejšou a najlacnejšou možnosťou je jednoducho akceptovať príležitostné krátkodobé výpadky,“ upozorňuje etický hacker Haller.
Článok vyšiel na Forbes.cz, jeho autorom je Filip Vokoun.
Našli ste chybu? Napíšte na editori@forbes.sk