Guasto ai sistemi informatici di BA: tutti i voli cancellati


aky76

Partecipante Attivo
Utente Registrato
30 Luglio 2009
237
111
91
Torino
Come da notizia su LASTAMPA, British ha problemi ai sistemi informatici.

In pratica i voli sono quasi tutti a terra. Basta guardare FR24.

Ciao
 
Re: Problemi per BA

All flights grounded before 6pm. IT system outage.

Sent from my A0001 using Tapatalk
 
Re: Problemi per BA

Gli interventi di 13900 si sono confermati più che fondati
 
Re: Problemi per BA

Addirittura sembrerebbe un attacco informatico ad opera di hacker ...
 
Re: Problemi per BA

Londra, 27 mag. (askanews) - Tutti i voli della British Airways dagli aeroporti londinesi sono stati cancellati a causa del problema - secondo fonti di stampa si tratta di un attacco hacker - che ha mandato in tilt il sistema informatico della compagnia. Lo ha riferito una fonte aeroportuale.Già poco dopo le ore 11 i viaggiatori con prenotazioni su British Airways si sono ritrovati con enormi disagi e ritardi dei voli e hanno cominciato a inondare l'account Twitter del vettore con proteste.Il blocco informatico è il sesto in un anno dopo quelli di giugno, luglio e settembre del 2016. Tramite un portavoce, la compagnia si è "scusata con i clienti per i ritardi causati da un crollo informatico questa mattina". "Stiamo lavorando per risolvere il problema il più presto possibile", ha aggiunto la stessa fonte. Ma per il Daily Mail è in corso un cyberattacco in grande stile ai danni del vettore britannico. (con fonte afp)
 
Re: Problemi per BA

Gli interventi di 13900 si sono confermati più che fondati

È una di quelle volte in cui vorresti aver torto. E invece, zacchete, eccoci qui.

Vi do la mia esperienza del crash, dato che oggi ho avuto la malaugurata idea di volare per andare al matrimonio di un amico a Milano. Vi risparmio la suspense, non ce l'ho fatta. Sono tornato a casa a Londra.

Malaugurata idea perché, oltre che essere il sabato di bank holiday, è l'inizio di half term. Ieri attraverso T5 sono partiti 65,000 passeggeri, oggi ne aspettavano altrettanti se non di più. E io volo standby.

Vado al T5 con l'idea di salire a bordo del volo delle 7.35 per Linate, oppure di quello delle 7.50 per Malpensa. Entrambi partono senza di me, non riesco a salire. Passo su quello delle 9.20 per Linate, e mi lasciano andare airside. Arrivo al gate - fin qui sta andando tutto bene - mi presento al team e mi siedo in un angolo, sicuro di dover prendere un jumpseat. In quel momento mi chiama un senior manager da Glasgow, uno dei business owners del progetto che seguo (è IT ma totalmente non correlato a FLY/Altéa, sia dal punto di vista dello scopo, dell'architettura e anche della locazione fisica dei server) che mi fa "A Glasgow non funziona nulla. Telefoni, internet, intranet, il sistema. Sai qualcosa?".

In quell'esatto istante il gate team fa un annuncio, devono fare boarding col sistema di back-up (JFE in modo manuale). Iniziano, finiscono e rimaniamo in due, io e un passeggero commerciale. A lui danno un posto, io - malgrado ci sia un posto libero, ma bloccato - rimango indietro. Ci provano in tre, ci prova Flight Management, ci prova il dispatcher. Alla fine lasciano perdere, mi offloadano e io finisco sul volo delle 12.00.

Poco a poco capiamo cosa sta succedendo, e dalla BBC ci danno le news dell'outage. Io provo ad usare tutti i sistemi cui ho accesso, niente. La cosa sbalorditiva, che ci dà da pensare, è che sistemi abbastanza svincolati tra loro sono tutti down. Che FLY/Amadeus vada in pappa, ci può stare; ma che vadano in frantumi anche i sistemi che gestiscono l'allocazione degli aerei, load control, crew scheduling, movements, baggage e engineering non l'avevo mai visto. Si fanno le 12, le 13, le 14. Non andiamo da nessuna parte.

Va dato un plauso ai colleghi - sia quelli di terra, che gli equipaggi. Il capitano (anzi due, ad un certo punto erano in due a dirsi "ma lo fai tu il 562 o lo faccio io?") erano fuori, al gate, a parlare con la gente, e tutti si davano da fare. Ma non c'erano news! Niente. Ad un certo punto si inizia a sentire la voce che tutti i voli prima delle 18.00 locali saranno cancellati, lo dice la BBC. La gente si affolla intorno agli addetti, a chiunque abbia un'uniforme, ma nessuno sa nulla, perché i mezzi per avere informazioni non funzionano! Alla fine la voce viene confermata via radio, e poi vengono fatti annunci nel terminal. Chi vuole andarsene può 'land himself' al gate 12. Tutto, comunque, abbastanza tranquillo, una cosa da ammirare di questo popolo é come non si facciano sceneggiate. Stiff upper lip, non è un modo di dire.

Qui la faccenda si fa veramente incasinata. Ho delle foto, ma su internet le potete vedere anche voi. Gate 12 è stretto, tra tutti proprio il gate che non avrei usato. Va bene che "siamo inglesi" e quindi si forma una coda abbastanza ordinata, ma ci metto comunque un'ora ad uscire e gli ultimi venti/trenta minuti sono stati da incubo, tra bambini da pescare tra la folla e anziani che si sentivano male. Da notare come il "crowd control" l'abbiano fatto, al Gate 12, tre gate agents, un pilota e 4 uomini di HAL. C'erano tre poliziotti armati, e con megafoni, che non hanno fatto una mazza.

Ora sono di nuovo a casa, e Alex Cruz ha postato un video su Yammer (incredibilmente quello funziona), che credo sarà anche postato esternamente. Nel video, girato alle 16.45 di oggi, Cruz dice, e cito, "We believe that everything is around power supply to certain components", con buona pace della teoria dell'hacking che ci avrebbe fatto più comodo.

Ero in coda con un signore, prima, anche lui dipendente. Ci siamo guardati e ci siamo detti "This is what outsourcing looks like". Spero ardentemente che qualche testa rotoli in IAG.
 
Grazie della testimonianza, lucida ed assolutamente interessante.

Piena solidarietà da parte mia e in bocca al lupo per la lunga fase di recupero dell'operatività .

Yammer....
 
La cosa che mi stupisce di più è quella che sembra una totale mancanza di un sistema ridondato.

È crashato completamente il 'Single point of failure'?


PS: domanda da curiosone, con un casino del genere, gli aerei a LHR dove li mettono?
 
Grazie della testimonianza, lucida ed assolutamente interessante.

Piena solidarietà da parte mia e in bocca al lupo per la lunga fase di recupero dell'operatività .

Yammer....

Yammer è l'unico 'coso' che funziona oggi! Come mai Cruz sia andato su Yammer e non sulla BBC lo sa solo lui. Grazie per gli auguri... Speriamo serva di lezione a qualcuno.

La cosa che mi stupisce di più è quella che sembra una totale mancanza di un sistema ridondato.

È crashato completamente il 'Single point of failure'?

A quanto ne sapevo io, la server farm - pre-passaggio di tutto networks a BT, perché ovviamente hanno sbaraccato tutto lo scorso anno - aveva doppia, se non tripla, alimentazione indipendente. Il rumour è che non abbia funzionato, un po' come a Delta l'anno scorso... ad imparare...

PS: domanda da curiosone, con un casino del genere, gli aerei a LHR dove li mettono?

A dire il vero al momento non è così male per gli aerei, tanti sono downroute. Se cerchi su internet dovresti trovare foto dei parcheggi a natale, tutto viene messo a Westbase. É interessante a vedersi.
 
[OT]

View attachment 9439

"Quando vuoi ammirare la flotta di Sua Maestà e metti il filtro "BA", ma inizi a dubitare di aver scritto "AZ" invece."

Meme che capirebbero in pochi... :very_drunk:

[/OT]
 
Grazie per le informazioni, 13900!

Povero Yammer, sempre preso in giro ma tutti, ma alla fine è l'unica cosa rimasta in piedi :D

Notevole che tutti i sistemi siano collassati. Quando non hai nemmeno email, VPN e telefoni vuol dire che non puoi fare più nulla.
 
Grazie per le informazioni, 13900!

Povero Yammer, sempre preso in giro ma tutti, ma alla fine è l'unica cosa rimasta in piedi :D

Notevole che tutti i sistemi siano collassati. Quando non hai nemmeno email, VPN e telefoni vuol dire che non puoi fare più nulla.

Già. Il rumour che ho ricevuto da fonti 'in the know' è che ci sia stata un'interruzione dell'alimentazione in una delle due server farm, quella di Boadicea House. Allo stesso tempo quella di Cranebank, che doveva partire e subentrare, non è entrata in funzione. La connessione è stata ripristinata presto (ora, non so quanto sia vero o quanto sia il supplier che si para il culo), ma il danno è stato tale da mandar tutto a gambe all'aria per l'intero giorno.

Ça va sans dire, niente del genere è successa nei 5+ anni di memoria che ho prima dell'outsourcing a BT/TCS. Da quando è iniziato ci sono state sei interruzioni di servizio. Se includo la mezza giornata senza ba.com (e senza vendere), e se includo solo i costi di EU261 di quest'oggi, direi che ci siamo abbondantemente bruciati tutti i soldi che IAG diceva che avrebbe risparmiando attraverso la demolizione di IT.
 
Yammer è una specie di social network aziendale.
Ha una interfaccia simile a facebook: è organizzato in gruppi, in ognuno di questi i dipendenti possono inviare messaggi, commentare, mettere "like" e così via.
L'obiettivo di questi strumenti, esistono infatti vari prodotti come Socialcast o TamTamy, è quello di diffondere notizie all'interno dell'azienda e tra vari team.


Indipendentemente dai soldi andati persi scegliendo di portare l'IT in outsourcing, quello che è successo oggi, secondo me, sarà un bel problema per la reputazione di BA.
Puoi scrivere centinaia di articoli su BOB o sulla amuse bouche, ma quando you fuc**d up il weekend o le vacanze di non so quanti viaggiatori, specialmente famiglie, hai un potenziale danno d'immagine non indifferente. Su flyertalk leggo che il personale di bordo e di terra che ha cercato di fare il possibile per salvare un po' la faccia, se il danno sarà contenuto è grazie anche a loro.
 
La donna delle pulizie che strappa la spina del PC, un classico...
Si ma se su quel PC ci gira un sistema che controlla tutto il tuo business ti preoccupi che le alimentazioni siano due, che arrivano da power lines differenti, possibilmente da due fornitori diversi, poi che ci sia un sistema di battery back up sufficiente a sopportare il carico finche' i generatori diesel entrano in funzione, e ti assicuri con test periodici che abbiano il pieno e vadano in moto. Se poi tutto cio' falisse ti assicuri di avere un altro PC a casa di mamma che sincronizzi in maniera cintinua e pronto ad entrare in funzione. Al di la' della quasi metafora mi pare un fallimento totale dell'architettura. Non mi stupirei fossero in outsourcing con qualche azienda indiana.
 
Si ma se su quel PC ci gira un sistema che controlla tutto il tuo business ti preoccupi che le alimentazioni siano due, che arrivano da power lines differenti, possibilmente da due fornitori diversi, poi che ci sia un sistema di battery back up sufficiente a sopportare il carico finche' i generatori diesel entrano in funzione, e ti assicuri con test periodici che abbiano il pieno e vadano in moto. Se poi tutto cio' falisse ti assicuri di avere un altro PC a casa di mamma che sincronizzi in maniera cintinua e pronto ad entrare in funzione. Al di la' della quasi metafora mi pare un fallimento totale dell'architettura. Non mi stupirei fossero in outsourcing con qualche azienda indiana.

Come dicevo all'inizio del thread, le server farm sono due, ridondanti, più un backup di emergenza a Waterside. Sono in posti differenti, collegate a due reti differenti della rete elettrica e hanno i loro generatori. Inoltre, lo ripeto, non parliamo di un sistema. Non ho presente l'intera architettura di BA, che è molto complessa e "legacy", ma c'erano almeno sette od otto sistemi, tutti cruciali in quanto regolanti vari pezzi delle operazioni, che sono andati giù in similtanea.

Il network/infrastruttura era in mano a British Airways IT networks fino a poco fa, quando è stato dato in outsourcing a British Telecom (BT). I server sono, invece, gestiti da Tata, anch'essi dopo l'outsourcing.

Le info che ho dicono che un outage/surge nella rete elettrica ha mandato la farm #1 offline. La farm#2 non è entrata online per un po'. Quando l'ha fatto la frittata era ormai fatta e TCS ha dovuto far ripartire tutti i sistemi, uno ad uno. Di chi sia la colpa, come sia successo e perché non si sa ancora.

Ma io sono convinto che siano stati fatti enormi errori nell'outsourcing IT, errori che erano sotto gli occhi di tutti quanti avessero lavorato in, o con, IT (come nel mio caso). A certi leaving do's facevamo la lotteria per azzeccare il mese quando questo sarebbe successo.

@enrico: svariate decine di migliaia, non posso dire di più. Ieri era uno dei 5 giorni più intensi dell'anno, tra bank holiday e ferie scolastiche.