137 54 6MB
Italian Pages 276 [284] Year 2010
Sicurezza del Trasporto Aereo
P. Carlo Cacciabue
Sicurezza del Trasporto Aereo
P. Carlo Cacciabue Dipartimento di Ingegneria Aerospaziale Campus Bovisa Sud Politecnico Milano Milano
ISBN 978-88-470-1453-4 DOI 10.1007/978-88-470-1454-1
ISBN 978-88-470-1454-1 (eBook)
© Springer-Verlag Italia 2010 Quest’opera è protetta dalla legge sul diritto d’autore e la sua riproduzione è ammessa solo ed esclusivamente nei limiti stabiliti dalla stessa. Le fotocopie per uso personale possono essere effettuate nei limiti del 15% di ciascun volume dietro pagamento alla SIAE del compenso previsto dall’art. 68. Le riproduzioni per uso non personale e/o oltre il limite del 15% potranno avvenire solo a seguito di specifica autorizzazione rilasciata da AIDRO, Corso di Porta Romana n. 108, Milano 20122, e-mail [email protected] e sito web www.aidro.org. Tutti i diritti, in particolare quelli relativi alla traduzione, alla ristampa, all’utilizzo di illustrazioni e tabelle, alla citazione orale, alla trasmissione radiofonica o televisiva, alla registrazione su microfilm o in database, o alla riproduzione in qualsiasi altra forma (stampata o elettronica) rimangono riservati anche nel caso di utilizzo parziale. La violazione delle norme comporta le sanzioni previste dalla legge. L’utilizzo in questa publicazione di denominazioni generiche, nomi commerciali, marchi registrati, ecc. anche se non specificatamente identificati, non implica che tali denominazioni o marchi non siano protetti dalle relative leggi e regolamenti.
Layout copertina: Francesca Tonon Impaginazione: PTP-Berlin, Protago TEX-Production GmbH, Germany (www.ptp-berlin.eu) Stampa: Signum Srl, Bollate (MI) Stampato in Italia Springer-Verlag Italia S.r.l., Via Decembrio 28, I-20137 Milano Springer-Verlag fa parte di Springer Science+Business Media (www.springer.com)
Indice
1
2
Analisi sistemica di sicurezza: concetti e metodi . . . . . . . . . . . . . . . . 1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 I concetti di sistema e sicurezza . . . . . . . . . . . . . . . . . . . . . . . 1.1.2 Il concetto di rischio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Cenni di metodi statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 La teoria della probabilit` a ............................ 1.2.2 Grandezze tipiche in analisi statistica . . . . . . . . . . . . . . . . . . 1.2.3 Alberi di probabilit` a e distribuzioni discrete e continue . . . 1.2.4 Cenni di algebra booleana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Rassegna di metodi per la quantificazione del rischio . . . . . . . . . . . . 1.3.1 Fasi e metodologie principali quantificare il rischio . . . . . . . 1.3.2 Analisi preliminare dei pericoli . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Analisi del rischio del sistema . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.4 Implementazione delle misure di sicurezza . . . . . . . . . . . . . . 1.4 Alberi di Evento e Alberi di Guasto . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 Alberi di Evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.2 Alberi di Guasto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Sicurezza Funzionale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1 Definizione e concetto di integrit` a dei sistemi di sicurezza – SIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.2 SIL e affidabilit` a .................................... 1.5.3 Calcolo del valore del SIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6 Metodologia globale per la valutazione prospettica del rischio . . . .
1 1 1 10 15 16 18 22 28 30 30 32 33 35 36 36 38 43
Fattori umani nell’analisi di sicurezza . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 I Fattori Umani nella tecnologia moderna . . . . . . . . . . . . . . . . . . . . . 2.3 Definizioni ed elementi caratteristici di Sistemi Uomo-Macchina . . 2.3.1 Il Sistema Uomo-Macchina . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Elementi socio-tecnici di un Sistema Uomo-Macchina . . . . 2.4 Modelli e simulazioni di comportamento umano . . . . . . . . . . . . . . . .
63 63 64 66 67 69 72
44 45 46 57
VI
Indice
2.4.1 Il modello RMC-PIPE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2.4.2 Il modello SRK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 2.4.3 Modello di “Macchina cognitiva fallibile” . . . . . . . . . . . . . . . 78 2.4.4 Il modello “Contextual Control Model” . . . . . . . . . . . . . . . . 79 2.4.5 Il modello SHELL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2.5 Implementazioni dei modelli in simulazioni numeriche . . . . . . . . . . . 84 2.6 Teorie e modelli di errore umano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 2.6.1 Tipologie di errore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 2.6.2 Modalit` a di errore umano . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 2.6.3 Tassonomie e modelli di errore . . . . . . . . . . . . . . . . . . . . . . . . 89 2.7 Rassegna di metodi e metodologie classici di affidabilit` a umana . . . 91 2.7.1 La metodologia SHARP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 2.7.2 Il metodo OAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 2.7.3 Il metodo APJ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 2.7.4 Il metodo PC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 2.7.5 Il metodo TESEO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 2.7.6 Il metodo SLIM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 2.7.7 metodo HCR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 2.7.8 Il metodo THERP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 2.8 Limiti e critiche dei metodi classici di affidabilit`a umana . . . . . . . . 105 2.8.1 Aspetti cognitivi e socio-tecnici . . . . . . . . . . . . . . . . . . . . . . . 105 2.8.2 Aspetti dinamici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 2.8.3 Limiti di applicazione dei metodi di prima generazione . . . 107 2.9 Metodi di affidabilit` a umana di seconda generazione . . . . . . . . . . . . 108 2.9.1 Il metodo ATHEANA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 2.9.2 Il metodo CREAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 2.9.3 Il metodo DYLAM-HERA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 2.10 Technique for Human Error Rate Prediction – THERP . . . . . . . . . . 111 2.10.1 Schema generale tecnica THERP . . . . . . . . . . . . . . . . . . . . . . 111 2.10.2 THERP in dettaglio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 3
Metodi per analisi retrospettive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 3.1 Introduzione all’analisi retrospettiva di occorrenze e incidenti . . . . 119 3.2 Linee guida all’applicazione di metodi per analisi retrospettive . . . 121 3.2.1 Metodologia di analisi retrospettiva: i concetti di occorrenza, evento e dinamica sequenziale . . . . . . . . . . . . . . 121 3.2.2 Procedura di implementazione di studio di incidente . . . . 127 3.3 Modelli, tassonomie e metodi per l’analisi di occorrenze . . . . . . . . . 129 3.4 Definizione logica analitica dell’Occorrenza . . . . . . . . . . . . . . . . . . . . 144 3.4.1 Individuazione degli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 3.4.2 Event Time Line . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 3.4.3 Eventi positivi ed eventi negativi . . . . . . . . . . . . . . . . . . . . . 147 3.5 Metodi per la classificazione e ricerca delle cause primarie . . . . . . . 147 3.5.1 Il modello organizzativo di Reason . . . . . . . . . . . . . . . . . . . . 147
Indice
3.5.2 3.5.3 3.5.4
4
VII
Classificazione di informazioni secondo il metodo ADREP 2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 Metodo specifico ai fattori umani: CREAM . . . . . . . . . . . . 152 Metodo ISAAC “Integrated Systemic Approach for Accident Causation” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Il Safety Management System e metodologia integrata per l’analisi di sicurezza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 4.1 Safety Management System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 4.1.1 Componenti principali di un SMS . . . . . . . . . . . . . . . . . . . . . 164 4.1.2 Approcci operativi principali di un SMS . . . . . . . . . . . . . . . 167 4.2 Analisi di sicurezza retrospettiva in ottica SMS . . . . . . . . . . . . . . . . 169 4.2.1 La raccolta dati e classificazione di Occorrenze . . . . . . . . . 171 4.2.2 Metodi per l’analisi dei dati . . . . . . . . . . . . . . . . . . . . . . . . . . 172 4.2.3 Valutazione del rischio di Evento ed Occorrenza . . . . . . . . 177 4.2.4 Approccio pratico per valutare il rischio di Evento . . . . . . 183 4.3 Metodologia per analisi di sicurezza integrate di sistemi . . . . . . . . . 186 4.3.1 La metodologia HERMES . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Appendice 1 Applicazione del metodo THERP ad un caso reale: la procedura di avvicinamento all’aeroporto MI-Malpensa . . . . . 191 A1.1 Il caso studio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 A1.1.1 La procedura ideale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 A1.1.2 Condizioni di ATI ed assenza di raffica . . . . . . . . . . . . . . . . 192 A1.2 Individuazione delle condizioni di successo della procedura . . . . . . 198 A1.3 Costruzione degli HRA-ET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 A1.4 Determinazione delle HEP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 A1.4.1 Estensione degli ipersostentatori alle posizioni 1, 5 e 10 . . 209 A1.4.2 Calibrazione dell’altimetro sulla QNH . . . . . . . . . . . . . . . . . 211 A1.4.3 Attivazione della procedura di livellamento del volo . . . . . 213 A1.4.4 Lettura dell’approach check list . . . . . . . . . . . . . . . . . . . . . . . 214 A1.5 Probabilit` a di successo e fallimento della procedura . . . . . . . . . . . . 216 A1.6 Valutazione possibilit`a di recupero degli errori . . . . . . . . . . . . . . . . . 216 Appendice 2 Studio retrospettivo e classificazione di incidente: l’incidente di Zurigo – volo AZ 404, 14 Novembre, 1990 . . . . . . . . 221 A2.1 Il caso studio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 A2.2 Resoconto dell’accaduto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 A2.3 Le conclusioni dell’inchiesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 A2.3.1 Le evidenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 A2.3.2 Le cause . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 A2.4 Ricostruzione delle ultime fasi del volo . . . . . . . . . . . . . . . . . . . . . . . . 226 A2.4.1 La procedura di avvicinamento . . . . . . . . . . . . . . . . . . . . . . . 227 A2.5 Definizione logica analitica dell’incidente . . . . . . . . . . . . . . . . . . . . . . 231 A2.5.1 Individuazione degli Eventi e Event Time Line (ETL) . . . 231
VIII
Indice
A2.6 Analisi A2.6.1 A2.6.2 A2.6.3 A2.7 Analisi A2.7.1 A2.7.2 A2.7.3 A2.8 Analisi
dati e definizione cause a mezzo della tecnica ADREP . . . 232 Occurence Severity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 Occurrence Category . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 Classificazione degli Eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 dati e definizione cause a mezzo della tecnica CREAM . . . 238 Individuazione delle sequenze critiche . . . . . . . . . . . . . . . . . 238 Diagrammi di flusso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 Commento dei risultati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248 dati e definizione cause a mezzo della tecnica ISAAC . . . . 249
Abbreviazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 Glossario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 Indice Analitico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 Indice Analitico Autori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
Prefazione
Questo testo contiene l’insieme delle lezioni relative al corso accademico per ingegneri aerospaziali orientato allo sviluppo di una competenza teorica e applicativa nella “Sicurezza del Trasporto Aereo”. Particolare attenzione `e dedicata all’analisi dei rischi associati alle operazioni, attivit`a e gestione di situazioni normali e di emergenza. I sistemi considerati coprono tutto il dominio del trasporto aereo, comprendente il volo e trasporto passeggeri, la gestione degli aeroporti e delle operazioni di terra, il controllo del traffico aereo e la manutenzione. Il volume `e stato sviluppato per rispondere alla necessit` a di raggruppare in un unico testo quattro aspetti importanti e sinergici per la formazione di un ingegnere di sicurezza. Tali aspetti sono: 1) le nozioni di statistica, necessarie per la valutazione quantitativa del rischio; 2) gli approcci di analisi di sicurezza sistemica, indispensabili per lo studio e progettazione di impianti basati su valutazioni probabilistiche di sicurezza; 3) la considerazione dei fattori umani, sia sotto il profilo modellistico che probabilistico e sistemico, fondamentali per l’inclusione del contributo dell’ “errore umano” alla valutazione quantitativa del rischio globale del sistema uomo-macchina; ed infine 4) la metodologia integrativa di tutte tali teorie e tecniche in una visone pi` u ampia di Sistema di Gestione della Sicurezza (“Safety Management System”), che risponde alle attuali esigenze e richieste normative delle Autorit` a di sicurezza internazionali e nazionali. Per mantenere uno sviluppo logico di apprendimento progressivo degli aspetti teorici e per la loro inquadratura in un processo metodologico di analisi di sicurezza sistemica, sono stati previsti quattro capitoli principali e due appendici. Il primo capitolo affronta le problematiche relative agli elementi fondamentali di statistica e descrive le tecniche pi` u comunemente utilizzate per effettuare analisi probabilistica prospettica di rischio. Il secondo capitolo `e interamente dedicato ai modelli di comportamento umano, orientati all’identificazione delle cause e modalit`a degli errori umani, nonch´e alla descrizione delle tecniche principali per la valutazione probabilistica del contributo dell’errore umano all’analisi del rischio. Il terzo capitolo affronta il problema dell’analisi di rischio per la valutazione retrospettiva dei pericoli e delle conseguenze che si sono realmente verificate in un’organizzazione. Infine, nel quarto capitolo, si inquadra l’analisi di rischio in una prospettiva
X
Prefazione
di Sistema di Gestione della Sicurezza con l’obbiettivo di mostrare il contributo dell’analisi di sicurezza in un quadro metodologico pi` u ampio ed integrato di tutti i sistemi del trasporto aereo. Infine, le due appendici sono dedicate a due esempi applicativi pratici, relativi a sistemi ed eventi reali, delle tecniche e metodologie descritte nei capitoli precedenti: il primo caso riguarda la valutazione del rischio associato ad una precisa operazione del volo in relazione ad un sistema aeroportuale e ad un velivolo reali; il secondo caso `e basato sullo studio di dettaglio delle cause di un incidente reale, applicando diverse tecniche di analisi dei fattori umani. Pi` u in dettaglio, il Capitolo 1, intitolato “Analisi sistemica di sicurezza: concetti e metodi”, rappresenta l’elemento portante del teso, in quanto contiene la rassegna dei metodi statistici ed i concetti fondamentali della teoria della probabilit` a che rappresenta la tecnica di base per l’analisi quantitativa di rischio. Sono poi passati in rassegna i metodi pi` u comuni per la valutazione e quantificazione prospettica del rischio associato alla gestione di sistemi complessi, dai “classici” Alberi di Guasto ed Alberi di Evento alla pi` u recente teoria di analisi funzionale dei sistemi. Il Capitolo 2, intitolato “Fattori umani nell’analisi di sicurezza”, presenta le teorie, modelli di comportamento e metodi per l’implementazione dei fattori umani in analisi di sicurezza. In particolare, viene discussa in dettaglio una delle tecniche classiche pi` u comunemente utilizzate per l’inclusione dei fattori umani in analisi di rischio, con esempi applicativi semplici. Nel Capitolo 3, intitolato “Metodi per analisi retrospettive”, sono discussi i componenti fondamentali per effettuare lo studio di occorrenze ed eventi realmente accaduti. L’obbiettivo `e quello di mostrare come metodi e teorie di analisi del rischio vengano applicati per la valutazione di situazioni reali, e pertanto come questi possano essere applicati per la raccolta di informazioni, l’implementazione in banche dati, e soprattutto per l’analisi e lo sviluppo di raccomandazioni relative ad occorrenze, inconvenienti gravi ed incidenti. Infine, nel Capitolo 4, intitolato “Il Safety Management System e metodologia integrata per l’analisi di sicurezza”, viene affrontata la problematica della gestione della sicurezza sotto un profilo globale, che copre tutti gli aspetti di studio ed analisi dei pericoli associati al trasporto aereo ed alla loro gestione. Ci`o chiude il ciclo di presentazione del processo metodologico di applicazione del concetto di rischio per analisi di sicurezza integrate retrospettive e prospettiche, iniziato fin dal capitolo uno, e che rappresenta il filo conduttore del discorso sulla sicurezza nel trasporto aereo di questo volume. L’Appendice 1 contiene il caso studio di affidabilit` a umana relativo all’esame della procedura di avvicinamento all’aeroporto di Mi-Malpensa per un velivolo Boeing 747-200, attraverso la tecnica denominata THERP. L’Appendice 2 prende in esame l’incidente di collisione con il terreno del volo AZ404 avvenuta il 14 Novembre 1990 nei pressi di Zurigo, a cui vengono applicati tre metodi per la classificazione delle cause relative agli errori umani noti come ADREP, CREAM e ISAAC. Essendo questo libro dedicato agli studenti di Ingegneria Aerospaziale, `e stato scritto con intento didattico ed in un’ottica di lettura completa e progressiva. Pertanto, si consigliata di leggere i capitoli in sequenza, passando alle appendici qualora si voglia acquisire familiarit` a con l’applicazione pratica dei metodi teorici. Per altro, un lettore pi` u esperto e conoscitore dei metodi di analisi probabilistica
Prefazione
XI
potrebbe concentrarsi sui capitoli 3 e 4 di applicazione metodologica ed utilizzare le appendici come banco di prova e valutazione di applicazioni pratiche. Infine, `e doveroso ricordare il contributo ricevuto nel corso degli anni da parte di molti colleghi, amici e collaboratori con i quali ho avuto il piacere di interagire. Il pericolo di dimenticarne qualcuno nei ringraziamenti consiglia sempre di non tentare un elenco di tutte le persone che hanno in diverso modo contribuito allo sviluppo del testo. Personalmente credo di ricordarle tutte, e chi, tra i lettori di questo libro si ritrovasse come contributore intellettuale o coadiutore di una parte specifica di esso, sappia che `e stato ricordato nel momento della scrittura e gode della mia pi` u profonda gratitudine. Tuttavia, mentre nei ringraziamenti che seguono sono menzionati coloro con i quali ho fattivamente collaborato alla stesura specifica, penso che sia giusto ricordare qui alcune persone che hanno lavorato con me in passato pi` u o meno recente, con risultati eccellenti, tali da essere ripresi in larga misura nel presente testo, data la qualit` a e validit` a del loro contenuto. Mi riferisco in particolare all’Ing. M. Pedrali, purtroppo non pi` u con noi, e all’Ing. S. Mancini, le cui due tesi di laurea magistrale sono alla base delle due applicazioni pratiche contenute nelle appendici, e all’Ing. E. De Grandis, con cui abbiamo iniziato il percorso di modellistica del gruppo ed abbiamo formulato le ipotesi di lavoro metodologico di analisi retrospettiva della sicurezza in termini di rischio. Ringraziamenti Ringrazio profondamente Giuseppe Borgna, Stanislao Lancia e Fabio Toti per il supporto ricevuto e per le molte discussioni proficue avute in seno al Comitato Italiano Sicurezza Volo (IFSC), soprattutto in merito agli aspetti applicativi e pratici dei metodi di analisi del rischio. Inoltre, vengono ringraziati gli allievi del Corso “Sicurezza del Volo”, anno accademico 2008-09, ed in particolare Viviana Franzetti ed Elisa Parini, per aver effettuato la rilettura e correzione della prima versione del testo. P. Carlo Cacciabue
1 Analisi sistemica di sicurezza: concetti e metodi
Il presente capitolo rappresenta l’elemento portante del libro in quanto contiene la rassegna e la relativa revisione dei metodi e delle tecniche utilizzate per effettuare analisi di sicurezza sotto il profilo probabilistico. Nella prima parte sono discussi i principi fondamentali di analisi di sicurezza deterministica e probabilistica, focalizzandosi sullo studio del rischio come strumento di valutazione di sicurezza. Le definizioni e le forme analitiche per l’analisi del rischio, quali il concetto di pericolo, la Matrice di Rischio e le barriere di sicurezza sono discussi in dettaglio. Vengono quindi rivisti i metodi statistici ed i concetti fondamentali della teoria della probabilit` a che rappresenta la tecnica di base per l’analisi quantitativa di rischio. Sono poi passati in rassegna le metodologie ed i metodi pi` u comuni per la quantificazione del rischio, focalizzandosi in particolare sulle tecniche degli Alberi di Evento ed Alberi di Guasto e su metodi pi` u recenti basati sul concetto di Sicurezza Funzionale. Infine, una serie di esempi applicativi semplici, relativi al dominio del trasporto aerero, vengono utilizzati per dimostrare l’applicabit` a dei vari metodi.
1.1 Introduzione 1.1.1 I concetti di sistema e sicurezza Definizioni e modi di analisi Il concetto di sistema `e propedeutico al contenuto di questo testo nella sua globalit` a. Per sistema si intende: L’insieme composto, a qualsiasi livello di complessit` a, da personale, procedure, materiali, strumenti, componenti, strutture e processi di controllo. Gli elementi di un sistema interagiscono sinergicamente nell’ambiente operativo Cacciabue P. Carlo: Sicurezza del Trasporto Aereo. c Springer-Verlag Italia 2010, Milano
2
1 Analisi sistemica di sicurezza: concetti e metodi
o gestionale per l’implementazione di compiti definiti o per il raggiungimento di prodotti specifici, ovvero per supportare ed implementare i requisiti di una missione. (DOD, 1982) Il concetto di sicurezza sistemica pu`o essere riassunto nel seguente asserto: La sicurezza dei sistemi `e l’insieme delle misure messe in atto per garantire e proteggere gli esseri umani, che lavorano negli impianti e a contatto con essi, l’ambiente ed i sistemi tecnici stessi. La sicurezza comporta tre fasi correlate di interventi: 1. la prevenzione di pericoli; 2 il controllo delle situazioni quando certi pericoli si manifestano comunque; 3. il contenimento delle conseguenze, quando n´e prevenzione n´e controllo sono stati efficaci. Esistono sostanzialmente due diverse tipologie di analisi di sicurezza dei sistemi: • analisi di sicurezza deterministica; • analisi di sicurezza probabilistica. L’analisi di sicurezza deterministica `e associata ai metodi classici, basati su: a) modelli fisico-matematici del sistema in esame, b) definizioni dei parametri e coefficienti che governano le equazioni risolventi, e c) metodi numerici per la simulazione del sistema in condizioni transitorie (Fig. 1.1). In questo modo `e possibile analizzare la risposta del sistema, date condizioni iniziali ed al contorno, legate al massimo incidente credibile (“Design Basis Accident”, DBA). I criteri ingegneristici che vengono usati nel definire tali condizioni iniziali ed al contorno sono basati sull’esperienza e l’abilit` a dell’analista. Il concetto di rischio, che, come si vedr` a nella sezione seguente, esprime una misura del prodotto della gravit` a delle conseguenze e della probabilit`a di occorrenza, permette di differenziare tra analisi deterministica e analisi probabilistica di sicurezza dei sistemi.
Figura 1.1. Analisi di sicurezza deterministica
1.1 Introduzione
3
Figura 1.2. Analisi di sicurezza probabilistica - analisi sistemica di sicurezza
L’analisi di sicurezza probabilistica ha come obbiettivo l’identificazione delle frequenze o probabilit` a di occorrenza delle conseguenze derivanti da uno spettro di possibili eventi iniziatori, dai transitori dipendenti da tali eventi iniziatori e dai possibili guasti e malfunzionamenti, che rendono indisponibili componenti e sotto-sistemi in gioco, o che si verificano nel corso dell’evento incidentale stesso (Fig. 1.2). Il calcolo delle conseguenze e dell’evoluzione logica e fisica del sistema in esame richiede l’uso di modelli di simulazione identici o simili a quelli utilizzati per l’analisi deterministica di sicurezza. Il calcolo delle frequenze (φ) o probabilit` a di occorrenza delle conseguenze richiede l’applicazione di modelli statistici per combinare le probabilit`a di malfunzionamento dei sistemi e per la propagazione delle incertezze associate alle probabilit` a stesse. In questo modo, grazie alla combinazione di metodi deterministici e probabilistici, oltre alle incertezze legate alle probabilit` a di guasto o malfunzionamento di componenti, si possono anche considerare le incertezze legate ai dati e parametri dei modelli fisici che permettono la simulazione del sistema in esame. In questo senso si pu`o affermare che l’analisi probabilistica di sicurezza rappresenta un’estensione dell’analisi deterministica, che permette di tenere in considerazione le incertezze. Inoltre, dato che questa metodologia considera, di fatto, l’effetto combinato dell’evoluzione fisica e del comportamento logico dei sistemi, essa viene comunemente riferita come analisi sistemica di sicurezza. Si noti come nel presente testo i concetti di metodo e metodologia verranno utilizzati in accordo alle seguenti definizioni: • Per metodo (o tecnica o approccio) si intende un insieme di modelli e teorie atte a trattare un problema specifico e ben definito.
4
1 Analisi sistemica di sicurezza: concetti e metodi
• Per metodologia si intende un insieme strutturato di metodi e modelli, tali da permettere una visione d’insieme articolata e globale del problema che si intende affrontare. Barriere di sicurezza Lo studio delle conseguenze di una catena incidentale implica la valutazione delle misure di sicurezza adottate per proteggere, gli esseri umani coinvolti, l’ambiente ed il sistema tecnico, e per limitare i danni in caso di incidente. Per tale studio `e indispensabile analizzare le barriere che sono messe in atto a tale obbiettivo. In generale, la seguente definizione di barriere viene considerata: Per barriera, difesa o salvaguardia si intende una misura sviluppata ed adottata da un’organizzazione con l’intento di creare percezione, comprensione, protezione, contenimento ed identificazione di possibili vie di recupero e/o di fuga di fronte a pericoli o situazioni incidentali. Le barriere possono essere strutturate in diversi modi; nel presente testo si far` a riferimento ad una classificazione generale basata sulle loro funzioni, in relazione alla sicurezza, e, pi` u in dettaglio, sulle loro modalit` a di implementazione. Anzitutto le barriere si possono essere suddivise in barriere consequenziali (“consequence barriers”) e barriere causali (“cause barriers”), che sono cos`ı definite: • Si definisce barriera consequenziale una funzione o azione protettiva che contribuisce a limitare i danni e proteggere dalle conseguenze derivanti da una configurazione pericolosa globale che si manifesta come risultato di un incidente. • Si definisce barriera causale una specifica funzione, azione, o sistema che contribuisce a ridurre la possibilit` a di sviluppo di uno specifico pericolo (configurazione pericolosa) che si manifesta in una catena incidentale. Pertanto vengono considerate in questo modo la misura reattiva o protettiva e di contenimento delle barriere (barriere consequenziali) e la capacita preventiva nei confronti di potenziali pericoli (barriere causali ). Per quanto attiene alle loro modalit` a di funzionamento, sia le barriere consequenziali che le barriere causali, possono essere strutturate in quattro tipologie diverse: Fisiche, Funzionali, Simboliche e Immateriali. Queste vengono cos`ı definite: 1. Barriere Fisiche Sono limitazioni fisiche. Esempi: porte, binari, cinture di sicurezza, filtri ecc. 2. Barriere Funzionali Sono barriere che richiedono l’assegnazione di una certa funzione o di una impostazione pre-assegnata od il raggiungimento di certi valori da parte di variabili specifiche affinch´e alcune funzioni vengano attivate o diventino effettive. Esempi: Il sistema protettivo “Ground Proximity Warning System” (GPWS), “riconoscimento segnale”, passwords, codici di accesso, ecc.
1.1 Introduzione
5
3. Barriere Simboliche Sono misure protettive associate con una certa logica, regola o convenzione che indicano la presenza di pericoli o condizioni rilevanti per la sicurezza. Richiedono la conoscenza delle regole, norme e procedure. Esempi: sequenze di codici, istruzioni, procedure, segnali, cartoni lavoro, ecc. 4. Barriere Immateriali Sono barriere di “alto livello in senso cognitivo”. Esse richiedono un’interpretazione esplicita, in quanto sono note solo in maniera generale. Sono il risultato di culture, filosofie, politiche (ma non di procedure o pratiche applicative) e sono difficili da adattare a contesti nuovi. Esempi: leggi, regole generali, standards, ecc. Altri approcci correlati alla sicurezza dei sistemi Lo studio della sicurezza di un sistema si integra e si correla con altri approcci orientati al benessere ed alla protezione degli esseri umani, dell’ambiente e dei sistemi tecnici pur essendone ben distinto. In particolare, sono da prendere in considerazione le problematiche della “Security” e della “Gestione delle emergenze”, le quali sono cos`ı definite: • La “Security” `e l’insieme delle misure messe in atto per garantire e proteggere gli esseri umani, l’ambiente ed i sistemi tecnici da azioni malevole intenzionali indirizzate alla distruzione ed al danno degli stessi. • La “Gestione delle emergenze” `e l’insieme delle misure messe in atto per limitare i danni e supportare gli esseri umani, l’ambiente e l’organizzazione stessa, coinvolti a vario titolo in situazioni incidentali serie ed eventi catastrofici. I metodi associati alla “Security” e “Gestione delle emergenze” non verranno tratti nel prosieguo di questo testo, in quanto non strettamente pertinenti alla sicurezza deterministica o probabilistica. Tuttavia, `e evidente che, in un’ottica di sicurezza “globale” di un sistema di trasporto aereo, questi tre approcci e le loro interfacce devono essere oggetto di attenta analisi da parte delle persone preposte alla loro implementazione e gestione. Tipologie di analisi di sicurezza La sicurezza di un sistema pu`o essere concepita come l’insieme delle misure proattive che tendono a mantenere e migliorare lo standard di performance ed il benessere di un’organizzazione. Misure proattive possono essere sviluppate partendo dalle capacit` a di analisi e dalla creativit`a degli analisti e dei progettisti di impianto. Questi devono, in accordo con la definizione di sicurezza e con il loro compito professionale: • “immaginare” scenari critici per la sicurezza, cio`e condizioni iniziali ed al contorno, nonch´e configurazioni particolari del sistema che possono svilupparsi od originare conseguenze negative per il sistema in esame;
6
1 Analisi sistemica di sicurezza: concetti e metodi
• sviluppare misure appropriate per prevenire la loro occorrenza, ovvero recuperare la normalit` a, quando una situazione di anormalit` a si verificasse comunque, ovvero ancora proteggere esseri umani, ambiente e impianti, quando n´e prevenzione n´e recupero avessero successo. Queste analisi sono sviluppate in ottica predittiva e richiedono l’implementazione di modelli e simulazioni capaci di descrivere il comportamento di sistemi in condizioni di anormalit` a. Tale tipologia di analisi `e definita come analisi di sicurezza prospettica (Cacciabue, 2004): L’analisi prospettica di sicurezza consiste in una valutazione capace di predire ed anticipare preventivamente le conseguenze di interazioni sistemiche, dati taluni eventi iniziatori e condizioni al contorno. Per poter effettuare simulazioni appropriate per tali scenari sono necessari dati e correlazioni adeguate a descrivere il sistema in maniera consistente. Tali dati devono essere specifici al sistema in corso di valutazione e devono essere appropriati per i modelli e simulazioni adottati. Per ottenere i dati necessari sono indispensabili: analisi della letteratura in materia di componentistica, lo studio dei compiti e delle procedure operative, la valutazione degli effettivi contesti lavorativi e sociali in cui si svolgono i compiti degli operatori del sistema (per esempio attraverso indagini etnografiche), nonch´e lo studio degli eventi di non-conformit` a avvenuti nel sistema in periodi operativi precedenti l’analisi in corso. Questa tipologia di analisi `e definita come analisi di sicurezza retrospettiva: L’analisi retrospettiva consiste nella valutazione di eventi che coinvolgono “incidenti”, “inconvenienti gravi”, o “quasi-incidenti”, ovvero circostanze di “non-conformit` a” operative, con l’obbiettivo di trovare le ragioni fondamentali e le cause (“root causes”) che li hanno promossi. Per poter effettuare tali tipi di analisi e valutazioni `e indispensabile avere come riferimento un modello del sistema. Inoltre, affinch´e i dati ottenuti da analisi retrospettive possano esser utilizzati a fini predittivi/prospettici `e necessario che i modelli utilizzati per entrambe le tipologie di analisi siano “simili”, cio`e tali da sfruttare e richiedere le stesse famiglie di dati. Pertanto, le procedure per lo sviluppo di analisi prospettiche e retrospettive presentano alcuni elementi comuni, ma contengono anche importanti differenze (Fig. 1.3). Le differenze consistono principalmente negli obbiettivi fondamentali dei due approcci e in alcuni metodi specifici. In studi prospettici, l’analista deve cercare di prevedere e valutare quali possano essere le conseguenze di certi eventi iniziatori e condizioni al contorno critiche per la sicurezza, “speculando” in modo creativo sulla propria esperienza ed abilit` a di analista. In valutazioni retrospettive, `e fondamentale comprendere la lezione ed estrarre le informazioni essenziali dagli eventi del passato, attraverso metodi consolidati di analisi delle cause e avendo
1.1 Introduzione
7
Figura 1.3. Analisi Prospettiche ed Analisi Retrospettive (adattata e tradotta da Cacciabue, 2004)
cura di conoscere la realt` a operativa di un impianto. Ci` o si ottiene attraverso lo studio delle procedure e dei compiti degli operatori, delle specifiche funzionalit` a dei vari sistemi e sottosistemi ed infine osservando sul campo il comportamento e le pratiche operative in atto nella gestione reale dell’impianto. Gli aspetti comuni ai due approcci si trovano nelle teorie e nei modelli di funzionamento degli impianti e delle interazioni uomo-macchina, e nei relativi dati e parametri. Ad esempio, la stessa teoria di interazione uomo-macchina deve essere considerata sia per studi prospettici che retrospettivi, affinch´e dati e parametri rilevati da studi di incidenti e osservazioni sul “campo” possano essere coerentemente applicati per analisi predittive. In questo modo, dati e parametri derivati dall’analisi di eventi realmente accaduti e dalla valutazione dell’ambiente di lavoro possono essere coerentemente utilizzati per l’analisi prospettica. Questi elementi comuni devono essere ben individuati, in quanto essi rappresentano i collegamenti e le correlazioni tra i due approcci. In altre parole, non esiste una differenza sostanziale tra analisi prospettiche e retrospettive, che, di fatto, rappresentano due diversi aspetti dello stesso dominio e che devono interagire profondamente in modo da rendere efficaci ed operative le misure sviluppate ed introdotte per garantire i giusti livelli di sicurezza. Per rendere
8
1 Analisi sistemica di sicurezza: concetti e metodi
coerenti tra di loro le analisi prospettiche e retrospettive, `e essenziale che siano utilizzati, per entrambi i tipi di analisi, teorie e modelli identici, o almeno coerenti tra di loro. In questo modo, dati e parametri derivati da studi retrospettivi possono essere applicati in valutazioni prospettiche senza dover ricorrere a deduzioni e giudizi di esperti, che introducono ulteriori ed inutili incertezze sulla valutazione delle conseguenze. Aree di applicazione dell’analisi di sicurezza L’applicazione dei concetti ed analisi di sicurezza comincia prima della realizzazione e dell’installazione di un sistema, vale a dire durante la fase di progettazione preliminare e costruzione di un impianto. L’eventuale verificarsi di incidenti e possibili comportamenti umani inappropriati devono essere considerati, dando origine alla progettazione delle difese, ostacoli e misure di salvaguardia (Fig. 1.4). Le stesse condizioni devono essere considerate per lo sviluppo della formazione ed addestramento del personale sia a livello iniziale (prima installazione del sistema) sia di riqualificazione professionale (durante il ciclo di vita del sistema). Ci` o dovrebbe rafforzare la performance e promuovere un’adeguata reazione in caso di comparsa di condizioni di contesto che possono favorire e generare comportamenti inappropriati e possibili incidenti ed infortuni. Inoltre, durante la vita operativa di un sistema, diventa essenziale imparare la lezione che pu` o essere tratta dal verificarsi di incidenti minori, infortuni, eventi di pericolo e quasi-incidenti. Ci`o implica la raccolta di rapporti e dati relativi a tali eventi. Questi dati permettono di sviluppare indagini e valutazioni sullo stato di sicurezza di un sistema, e consentono di verificare se sussistono ancora le condizioni
Figura 1.4. Valutazioni di sicurezza durante la vita di un Sistema Uomo-Macchina (adattata e tradotta da Cacciabue, 2004)
1.1 Introduzione
9
per una sicura ed efficace operativit`a, ovvero se sono necessari miglioramenti e modifiche tali da ristabilire adeguati ed accettabili livelli di sicurezza e di operativit` a, ivi inclusa la necessit`a di effettuare nuovi addestramenti. In caso di incidente o a seguito di cambiamenti strutturali importanti, quali ad esempio l’ampliamento dell’impianto o la sua ristrutturazione con variazione di funzionalit` a e prodotti, diventa assolutamente indispensabile riconsiderare e ripetere tutto lo studio di sicurezza al fine di garantire la conservazione dei giusti livelli di sicurezza. Infine, indipendentemente dai processi e cambiamenti, durante la vita di un impianto `e necessario effettuare, in maniera ricorrente, delle adeguate valutazioni, o audit, di sicurezza. Queste hanno l’obbiettivo di verificare che i livelli di sicurezza certificati ad inizio vita dell’impianto siano mantenuti ed eventualmente adattati alle norme di sicurezza vigenti al momento dell’audit. In altre parole, durante le diverse fasi di sviluppo di un sistema tecnologico, devono essere applicati opportuni approcci per sviluppare e garantire la sicurezza in relazione a quattro aree principali, vale a dire: Progettazione, Formazione, Valutazione della sicurezza, e Analisi di Incidenti (Tab. 1.1). L’esame delle misure da implementare in queste quattro aree di applicazione richiede l’utilizzo di metodi specifici al fine di assicurare la conservazione di adeguati livelli di sicurezza durante tutta la vita di un impianto o sistema. Tabella 1.1. Aree di applicazione e tipologie di valutazioni di analisi di sicurezza Area di Applicazione
Tipo di Valutazione
Progettazione
• • •
Progetto di sistemi di controllo, emergenza e protezione Progetto di interfacce uomo-macchina Sviluppo di procedure operative e di emergenza
Addestramento
• •
Formazione in aula Formazione in simulatori
Analisi di Sicurezza
• • •
Massimo incidente credibile (DBA) Analisi quantitativa dei rischi (QRA) Audit di sicurezza ricorrenti
Investigazione su Incidenti
•
Eziologia di incidenti e valutazione delle cause fondamentali e contributi umani e sistemici
10
1 Analisi sistemica di sicurezza: concetti e metodi
1.1.2 Il concetto di rischio Definizioni di pericolo e rischio L’analisi sistemica di sicurezza `e una disciplina ingegneristica che richiede conoscenze tali da permettere l’applicazione di criteri, principi e metodi ingegneristici e scientifici per l’identificazione ed il contenimento dei pericoli e dei relativi rischi associati con il progetto e la gestione di impianti (Roland e Moriarty, 1990; ICAO, 2006). Per definizione il pericolo `e: Una condizione del sistema che pu` o causare ferite o morte, rottura o distruzione di materiale, ovvero danno all’ambiente. Il pericolo `e strutturato in riferimento alle conseguenze, in relazione a 4 o 5 categorie, o livelli di severit` a (“Severity Level” SL) (Tab. 1.2). Prendendo come riferimento Roland e Moriarty (1990), le categorie sono quattro e vengono identificate dalla meno severa alla pi` u severa, cio`e: I, Trascurabile; II, Marginale; III, Critico; IV, Catastrofico. Seguendo invece il manuale ICAO (2006), le categorie sono cinque, e, sempre andando dalla meno severa alla pi` u severa, sono cos`ı definite: I, Trascurabile; II, Minore; III, Maggiore; IV, Pericoloso; V, Catastrofico. Il pericolo `e anche caratterizzato in funzione della frequenza degli eventi, dando origine a cinque livelli. Anche in questo caso le definizioni associate a tali livelli (frequenze) cambiano in relazione a diversi testi di riferimento (Tab. 1.3). Pi` u precisamente, prendendo come riferimento Roland e Moriarty (1990), si hanno i seguenti livelli: A, Probabile; B, Frequente; C, Occasionale; D, Remoto; E, Improbabile. Prendendo invece come riferimento il manuale ICAO (2006), si hanno i seguenti livelli: A, Frequente; B, Ragionevolmente Probabile; C, Remoto; D, Estremamente Remoto; E, Estremamente Improbabile. Da un punto di vista puramente quantitativo, i 5 livelli sono anche associati con le probabilit` a di occorrenza degli eventi, che variano da 10−1 a meno di 10−9 . Si noti come sia in Tab. 1.2 che in Tab. 1.3 sono state inserite delle descrizioni qualitative e stime quantitative delle conseguenze e delle frequenze che permettono una valutazione pratica dei danni generati da incidenti e delle frequenze di occorrenze e, di conseguenza, una loro collocazione precisa negli intervalli di categorie di conseguenze e livelli di frequenza definiti. In particolare, le identificazioni delle severit`a riportate in Tab. 1.2 cont. sono state ricavate da diversi testi e documenti di carattere generale sulla sicurezza nel trasporto aereo e sono riportate nelle norme EASA Certification Specification/FAA CS/FAR 25.1309, Eurocontrol ESARR 4 e nell’FAA System Management Program Document.
1.1 Introduzione Tabella 1.2. Categorie di pericolo e severit` a (adattato da referenze diverse)
11
12
1 Analisi sistemica di sicurezza: concetti e metodi continua . . .
1.1 Introduzione
13
Tabella 1.3. Livelli/frequenze di pericolo (adattato da Roland e Moriarty, 1990 e ICAO, 2006)
14
1 Analisi sistemica di sicurezza: concetti e metodi
Combinando i livelli di pericolo con le frequenze degli eventi, `e possibile ottenere una tabella di Indici di Rischio e sviluppare alcuni criteri di accettabilit` a. Queste considerazioni permettono una prima definizione del concetto di rischio: Il rischio si rappresenta mediante il prodotto della severit` a delle conseguenze (C) di uno specifico incidente e la probabilit` a/frequenza (φ) della sua occorrenza: R = C ∗ φ. La Matrice di Rischio Volendo strutturare il rischio in 4 criteri di accettabilit` a quali, Inaccettabile, Indesiderabile, Accettabile solo dopo revisione del progetto, Accettabile senza revisione del progetto, la seguente matrice potrebbe essere sviluppata (Tab. 1.4). Questa prende il nome Matrice di Rischio (MdR) e gioca un ruolo fondamentale nelle applicazioni pratiche dell’analisi di sicurezza sistemica probabilistica. La Matrice di Rischio mostra delle regioni di accettabilit` a, delimitate da una curva che rappresenta il limite di tollerabilit`a (Ft = Rischio tollerabile/Severit`a). Essa indica la frequenza tollerabile associata ad un dato pericolo, la quale, pertanto, deve diminuire con l’aumento del livello di severit`a, in conformit` a con la definizione di rischio di cui sopra. Questa curva pu` o essere approssimata da una Tabella 1.4. Indici di Rischio – Matrice di Rischio
Indici di Rischio
Categorie di pericolo (Roland e Moriarty, 1990)
(HRI)
I Trascurabile
AFrequente BProbabile COccasionale DRemoto EImprobabile
Indici di Rischio
II Marginale
III Critico
IV Catastrofico
1A
2A
3A
4A
1B
2B
3B
4B
1C
2C
3C
4C
1D
2D
3D
4D
1E
2E
3E
4E
HRI
2A, 3A, 4A, 3B, 4B, 4C
I - Inaccettabile
2B, 2C, 3C, 3D, 4D
II - Indesiderabile
1A, 1B, 2D, 2E, 3E, 4E
III - Accettabile dopo revisione progetto
1C, 1D, 1E
IV - Accettabile senza revisione del progetto
1.2 Cenni di metodi statistici
15
Tabella 1.5. La Matrice di Rischio comunemente utilizzata in campo aeronautico
curva a gradino del limite di tollerabilit` a, che rileva il rateo di pericolo accettabile (“Tolerable Hazard Rate”, THR). Prendendo come riferimento il documento ICAO Safety Management Manual, Doc 9859 (2006), la Matrice di Rischio (Tab. 1.5) si basa su 5 livelli di severit` a e frequenza e, quindi, viene leggermente modificata rispetto alla precedente configurazione. Inoltre, questa formulazione della Matrice di Rischio presenta solo 3 criteri di accettabilit`a, anzich´e i quattro previsti in precedenza, che sono cos`ı definiti: Inaccettabile (zona “rossa” della MdR, grigio molto scuro in Tab. 1.5), Richiedente la revisione del progetto (zona “gialla” della MdR, grigio chiaro in Tab. 1.5), Accettabile (zona “verde” della MdR, grigio medio in Tab. 1.5). ` importante ribadire che la Matrice di Rischio rappresenta uno strumento E indispensabile e largamente utilizzato per la valutazione dell’efficacia delle misure e barriere di sicurezza, sia in studi prospettici sia in analisi retrospettive di situazioni incidentali. Le modalit` a specifiche di utilizzo della Matrice di Rischio in tali studi verranno pi` u volte richiamate e discusse nel prosieguo di questo testo e costituiscono parte essenziale ed integrante del bagaglio di conoscenza dell’analista di sicurezza.
1.2 Cenni di metodi statistici Questa sezione presenta gli strumenti matematici di base, necessari per comprendere ed applicare le tecniche di affidabilit`a che saranno descritte nelle sezioni successive per sviluppare l’analisi del rischio. La teoria di affidabilit` a riguarda l’evenienza o meno di eventi definiti. La teoria della probabilit` a permette di quantificare possibilit` a di eventi, quali il guasto di componenti, l’errore umano e l’errore nel “software”.
16
1 Analisi sistemica di sicurezza: concetti e metodi
1.2.1 La teoria della probabilit` a Definizioni La probabilit` a di un evento `e una “misura scientifica” della sua possibilit` a di accadimento, in ogni tentativo o esperimento sviluppati in condizioni note. La probabilit` a si esprime mediante un numero compreso fra 0 ed 1: un evento con zero probabilit` a `e un evento impossibile, mentre un evento con probabilit` a uno `e un evento certo. La probabilit` a di un evento pu` o essere determinata per via empirica/sperimentale o teorica. Per via sperimentale, si consideri un esperimento, con possibile spazio di risultati denotato da {E1 , E2 , E3, . . . , En }, che sia ripetuto N volte e si indichi con Ni il numero di volte in cui si ottiene il risultato Ei . Il rapporto Ni /N rappresenta la frequenza di occorrenza del risultato Ei in esattamente N ripetizioni dell’esperimento. Il limite per N che tende all’infinito `e la probabilit` a associata con l’evento Ei , cio`e: P (Ei ) = lim (Ni /N ). N→∞
(1.1)
Se l’esperimento `e ripetuto molte volte, la frequenza relativa di Ei `e uguale alla probabilit` a di Ei . Pertanto: 0 ≤ P (Ei ) ≤ 1,
i = 1, 2, 3, . . .n,
dove P (Ei ) = 1, Ei indica un evento certo, mentre P (Ei ) = 0, Ei rappresenta un evento impossibile. La numerosit`a del campionamento, da cui `e valutata la probabilit` a, influenza l’affidabilit` a del risultato. Per cui, probabilit` a ottenute da piccoli campionamenti non daranno una buona misura della probabilit` a dell’intera popolazione dello spazio dei risultati; mentre pi` u `e grande il campionamento, migliore sar` a la stima della probabilit` a. L’approccio teorico alla valutazione della probabilit`a si ottiene considerando il numero di possibili forme in cui teoreticamente un evento pu`o svilupparsi. Pertanto, per un evento A: P (A) =
numero di forme assunte da A . numero totale di possibili risultati
(1.2)
Questa formula pu` o essere utilizzata solo se tutti i possibili risultati dell’esperimento hanno uguale possibilit` a. Si consideri ora l’esempio della moneta e si valuti la probabilit` a di ottenere testa in maniera empirica ed in maniera teorica. Si noter` a come in maniera teorica si ottiene immediatamente il valore P(testa)= 0,5, mentre in maniera empirica sono necessari un grande numero di esperimenti per ottenere il risultato tendenziale di 0,5. Da cui si pu` o dimostrare l’asserto relativo alla necessit`a di un grande numero di esperimenti per avere una buona confidenza nella stima della probabilit` a ottenuta in maniera empirica o sperimentale.
1.2 Cenni di metodi statistici
17
Tipi di eventi ed operazioni di base Le probabilit` a di eventi complessi possono, in molti casi, essere ottenute combinando le probabilit` a di eventi pi` u semplici. Gli eventi sono definiti mutuamente esclusivi quando non possono avvenire contemporaneamente. Per esempio nel lancio di un dado i sei diversi risultati (eventi) 1-6 sono mutuamente esclusivi. Per analogia, sono definiti non-mutuamente esclusivi gli eventi che possono avvenire contemporaneamente. Per esempio, nel lancio di un dado sono non-mutuamente esclusivi l’evento “risultato multiplo di 3” e l’evento “risultato multiplo di 2”. Per la legge di addizione delle probabilit` a, per due eventi che siano mutuamente esclusivi si ha che: P (A o B) = P (A) + P (B)
⇒ P (E1 o E2 o E3 o . . . En ) =
n
P (Ei ). (1.3)
i=1
Inoltre, se E1 , E2 , E3, . . . , En , sono anche esaustivi, cio`e comprendono tutte le possibilit` a di risultato delle prove sperimentali, allora: P (E1 o E2 o E3 o . . . En ) =
n
P (Ei ) = 1.
(1.4)
i=1
Quando due eventi sono non-mutuamente esclusivi, la regola dell’addizione deve tenere conto (mediate sottrazione) della probabilit` a della concomitanza degli eventi comuni, per non determinare una probabilit` a risultante pi` u grande del vero. Dunque se C e D sono eventi non-mutuamente esclusivi: P (C o D) = P (C) + P (D) − P (C e D),
(1.5)
ovvero: P (E1 o E2 o E3 o . . . En ) = +
n−2 n−1
n
i=1 j=i+1 k=j+1
n i=1
P (Ei ) −
n−1
n
i=1 j=i+1
P (Ei e Ej )
P (Ei e Ej e Ek ) + . . . + (−1)n+1 P (E1 e E2 e E3 e . . . e En ).
(1.6) Quando la probabilit` a di eventi individuali `e piccola questa espressione pu`o essere approssimata al primo termine dell’equazione, cio`e: P (E1 o E2 o E3 o . . . En ) ∼ =
n
P (Ei ).
(1.7)
i=1
Questa espressione rappresenta l’approssimazione per eventi rari, ed `e sempre una sovrastima della probabilit` a reale. Pertanto in caso di eventi incidentali si tratta di una valutazione conservativa della probabilit` a. Due eventi si dicono indipendenti quando il verificarsi di uno non influisce sulla probabilit` a di accadimento dell’altro. Per esempio si pensi a due lanci consecutivi di
18
1 Analisi sistemica di sicurezza: concetti e metodi
dadi, in cui il risultato del primo lancio non influisce sul risultato del secondo. Per analogia, due eventi si dicono dipendenti quando il verificarsi di uno influisce sulla probabilit` a di accadimento dell’altro. Per esempio si pensi a due scelte consecutive di una carta da un mazzo. La seconda scelta `e influenzata dalla prima se la carta selezionata nella prima selezione, non viene riposta nel mazzo prima del secondo esperimento. Per la legge di moltiplicazione delle probabilit` a, per due eventi che siano indipendenti si ha che: P (A e B) = P (A) · P (B), ovvero: P (E1 e E2 e E3 . . . e En ) =
n
P (Ei ).
(1.8)
i=1
Tuttavia, in analisi di affidabilit` a molti eventi sono dipendenti. In particolare, il malfunzionamento di un componente pu` o influenzare il comportamento di un altro componente ed alterare le sue probabilit`a di guasto. In questi casi il malfunzionamento del secondo componente `e condizionale al comportamento del primo componente. In particolare, se P (A/B) denota la probabilit` a che l’evento A accada, dato che l’evento B sia avvenuto, si ha che: P (A e B) = P (A) · P (B/A) = P (B) · P (A/B).
(1.9)
Questa equazione `e una espressione del teorema di Bayes, che deriva dalla definizione di probabilit` a condizionata. Infatti, partendo dalla definizione, cio`e: P (A/B) =
P (A e B) P (B)
e
P (B/A) =
P (B e A) , P (A)
(1.10)
si pu` o ottenere: P (A e B) = P (B) · P (A/B) = P (A) · P (B/A); dividendo ogni termine per P (B), posto questo diverso da zero, si trova il teorema di Bayes, rappresentato nel modo che segue: P (A/B) =
P(A e B) P (A) · P (B/A) = . P (B) P (B)
(1.11)
Da queste equazioni si nota che se A e B sono eventi indipendenti si ha: P (A/B) = P (A) e P (B/A) = P (B).
(1.12)
1.2.2 Grandezze tipiche in analisi statistica Prima di presentare in linea generale le principali distribuzioni di probabilit` a associate a variabili aleatorie, verranno ricordati alcuni concetti fondamentali e le
1.2 Cenni di metodi statistici
19
definizioni di alcune grandezze tipiche che caratterizzano l’analisi statistica, cio`e: la funzione di distribuzione cumulativa, come indicatore tipico di probabilit` a associata ad una certa variabile; media, mediana, e moda, come indicatori di posizione all’interno di una distribuzione di valori; e varianza e deviazione standard, come indici di dispersione, vale a dire misure di variabilit` a di una popolazione o di una variabile rispetto a valori di riferimento. In particolare, media e deviazione standard permettono di dare una stima immediata, sia quantitativa che qualitativa, della dispersione dei dati associati alle distribuzioni e quindi del grado di incertezza ad essi associato.
Funzione di distribuzione cumulativa Una funzione di distribuzione cumulativa, F(t), `e definita come la probabilit` a che una variabile stocastica, T, assuma un valore inferiore od uguale ad un certo valore specifico t. Pi` u specificatamente in affidabilit`a F (t) `e la funzione di guasto, cio`e la probabilit` a che ha un componente o sistema di guastarsi al di l` a di un certo tempo t: F (t) = P (T ≤ t)
0 ≤ F (t) ≤ 1.
(1.13)
Dato che F (t) `e una distribuzione cumulativa, non pu` o mai diminuire al crescere di t e pertanto F (t) `e una funzione monotona crescente. La relativa funzione densit` a di probabilit` a `e pertanto, per definizione: f(t) =
d F (t) dt
(1.14)
e t
t2 P (t1 ≤ T ≤ t2 ) =
f(u)du
F (t) = −∞
f(u)du.
(1.15)
t1
Inoltre, dato che F (t) `e monotona crescente, ⇒ f(t) ≥ 0, e quindi: +∞ f(u)du=1. −∞
Media In statistica la media `e un indicatore di posizione normalmente associato al valore pi` u atteso di una distribuzione. Si hanno diversi tipi di medie, quali la media aritmetica, la media geometrica, la media armonica, la media di potenza, che a loro volta possono essere semplici o ponderate.
20
1 Analisi sistemica di sicurezza: concetti e metodi
La media aritmetica semplice `e data da: 1 xi . n i=1 n
x ¯=μ=
(1.16)
Una generalizzazione del concetto di media per distribuzioni continue prevede l’uso di integrali. Supponiamo di avere una funzione integrabile. Allora si pu` o definire la media (μ o Md) come: 1 μ= b−a
b f(x)dx.
(1.17)
a
Mediana In statistica descrittiva, data una distribuzione f(x) di un carattere quantitativo oppure qualitativo ordinabile (ovvero le cui modalit` a possano essere ordinate in base a qualche criterio), si definisce la mediana come il valore/modalit` a assunto dalle unit` a statistiche che si trovano nel mezzo della distribuzione. Se si procede al riordinamento delle unit` a in base ai valori crescenti del carattere da esse detenuto, in sostanza la Mediana bipartisce la distribuzione in due sottodistribuzioni: la prima a sinistra della Mediana (costituita dalla met` a delle unit` a la cui modalit`a `e minore o uguale alla Mediana) e la seconda a destra della Mediana (costituita dalla met` a delle unit`a la cui modalit` a `e maggiore o uguale alla Mediana). Tecnicamente, la mediana `e il valore/modalit` a per il quale la frequenza cumulata vale 0,5, cio`e il secondo quartile, ossia il 50◦ percentile. Usualmente si indica la Mediana con Me. M e f(x)dx = 0,5. (1.18) −∞
In caso di distruzioni numeriche, la mediana `e il valore centrale della successione disposta in ordine crescente. Ad esempio, dati i valori 5, 9, 15, 22, 28, la M e = 15 (terzo numero di una successione di cinque numeri). Inoltre, i valori che eventualmente si ripetono vanno ignorati e se la successione `e costituita da un numero dispari di termini la mediana `e l’unico valore centrale, mentre, se la successione `e costituita da un numero pari di termini, la mediana `e la media aritmetica dei due termini centrali. La mediana `e un indice che pu` o essere espressivo del fenomeno quando i dati statistici rilevati sono caratterizzati da scarsa variabilit`a. Moda In statistica, la moda o norma di una distribuzione `e la modalit` a (o la classe di modalit` a) caratterizzata dalla massima frequenza. In altre parole, `e il valore che compare pi` u frequentemente.
1.2 Cenni di metodi statistici
21
Figura 1.5. Rappresentazione grafica di moda, mediana e media per distribuzioni continue
Una distribuzione `e unimodale se ammette un solo valore modale, `e bimodale se ne ammette due (ossia: se esistono due valori che compaiono entrambi con la frequenza massima nella data distribuzione), trimodale se ne ha tre, ecc. Per la determinazione della classe modale `e opportuno ricorrere all’istogramma, individuando l’intervallo di altezza massima (ovvero il punto di massimo della curva). La classe con la maggiore densit` a media (che corrisponde all’altezza dell’istogramma) `e quella modale. Nel caso di una distribuzione numerica, la moda `e il valore che si presenta pi` u frequentemente. Cos`ı ad esempio, per un insieme di valori 5, 8, 8, 12, 13, 15, 15, 15, 18, moda (Mo) vale 15, cio`e il termine pi` u frequente. La moda `e significativa quando si vuole conoscere la grandezza prevalente di una distribuzione statistica. In Fig. 1.5 `e mostrata una rappresentazione grafica di moda (Mo), mediana (Me) e media (Md) per distribuzioni continue.
Varianza La varianza `e un indice di dispersione che serve per descrivere sinteticamente una distribuzione statistica quantitativa, e, in modo particolare, misura la media dei quadrati degli scostamenti dei dati rilevati rispetto al valor medio (media) della distribuzione. La varianza viene solitamente indicata con σ 2 . L’espressione per la varianza, nell’ambito della statistica descrittiva, `e: σx2 =
1 2 (xi − μ) , n i=1 n
(1.19)
22
1 Analisi sistemica di sicurezza: concetti e metodi
dove μ rappresenta la media aritmetica dei valori xi : 1 μ= xi . n n
(1.20)
i=1
Deviazione standard La deviazione standard o scarto quadratico medio `e un indice di dispersione derivato direttamente dalla varianza, e misura la dispersione dei dati intorno al valore atteso. La deviazione standard `e semplicemente la radice quadrata della varianza ed ha la stessa unit`a di misura dei valori osservati; mentre la varianza ha come unit` a di misura il quadrato dell’unit` a di misura dei valori di riferimento. Pertanto, la deviazione standard `e calcolata come: n (x − μ)2 i 1 σx = . (1.21) n 1.2.3 Alberi di probabilit` a e distribuzioni discrete e continue Alberi di probabilit` a Un metodo efficace per valutare la distribuzione delle probabilit` a di eventi `e l’albero di probabilit` a, che permette una rappresentazione grafica delle probabilit` ae degli eventi ad esse associati. Si prenda ad esempio il caso di un campionamento casuale di componenti, selezionati in un insieme di 25, di cui `e noto il numero di elementi sani (20) e difettosi (5) (Fig. 1.6). I componenti non vengono riposti nell’insieme dopo ogni selezione. Ci`o comporta che le probabilit`a di selezionare componenti sani o difettosi siano condizionate dalle selezioni precedenti. Se si vuole trovare la probabilit` a di avere un componente sano, P (Wi ), ed uno difettoso, P (Di ), nei primi due campionamenti (i = 1, 2), `e possibile sviluppare il seguente calcolo ed albero di probabilit` a associato: P (D1 W2 o W1 D2 ) = P (D1 W2 ) + P (W1 D2 ), dove Di e Wi sono eventi mutuamente esclusivi. P (D1 W2 ) = P (D1 ) · P (W2 /D1 ) =
20 1 5 × = , 25 24 6
20 1 5 1 × = · · · ⇒ · · · P (D1 W2 o W1 D2 ) = . 25 24 6 3 Verranno ora esaminate un numero di distribuzioni discrete e continue, che rappresentano un certo numero di possibili dispersioni dei valori di probabilit` a di componenti, che vengono pi` u comunemente prese in considerazione per analisi affidabilistiche. P (W1 D2 ) = P (W1 ) · P (D2 /W1 ) =
1.2 Cenni di metodi statistici
23
Figura 1.6. Albero di probabilit` a
Distribuzione binomiale La distribuzione binomiale rappresenta processi stocastici i cui risultati sono ripetitivi, indipendenti e a due sole alternative per selezione (processi dicotomici), la cui probabilit` a di occorrenza rimane costante (“processi bernoulliani”). Identificando le due alternative come “successo” e “insuccesso”, le cui probabilit` a siano rispettivamente p e q, dove (p + q = 1), la probabilit` a di successo, p(r), dopo un numero n di selezioni `e data dalla seguente espressione: n
P (r) = pr (1 − p)n−r , r = 0, 1, 2, . . . , n (1.22) r dove:
n
r
= n Cr =
n! . (n − r)!r!
La distribuzione binomiale `e caratterizzata da due parametri, cio`e il numero di campionamenti n e la probabilit` a di “successo” p. La “binomiale” ha una media μ = np e una varianza σ 2 = (npq). Ad esempio si consideri un sistema di trasporto con probabilit`a di incidente del 10% per viaggio e si considerino successivamente 2 e 10 viaggi. Si calcolino le probabilit` a di avere diversi eventi di incidente nei due casi esaminati, e si costruisca, per il primo caso, l’albero di probabilit` a. Si troveranno i seguenti risultati: Caso 1: Probabilit` a su due viaggi
Caso 2: Probabilit` a su 10 viaggi
P(0 incid.) = 0.81 P(1 incid.) = 0.18 P(2 incid.) = 0.01
P(0 P(1 P(2 P(3 P(4 P(5 P(5 P(6 P(7
incid.) = 0.3487 incid.) = 0.3874 incid.) = 0.1937 incid.) = 0.0574 incid.) = 0.0112 incid.) = 0.0015 incid.) = 0.0015 incid.) = 0.0001 incid) ≈ P(8 incid) ≈ . . . P(10 incid) ≈ 0
24
1 Analisi sistemica di sicurezza: concetti e metodi
Distribuzione di Poisson La distribuzione di Poisson si applica, come la distribuzione binomiale, a processi dicotomici, stazionari ed indipendenti, per i quali non si considera (perch´e non-misurabile od illogico) l’evento di non-occorrenza. Pi` u precisamente, una distribuzione poissoniana permette di predire le probabilit` a di un evento su un certo periodo di tempo dato il valore medio. Poisson (1781–1840) deriv` o la distribuzione di probabilit` a di tali tipi di distribuzioni discrete come limite della distribuzione binomiale per n tendente all’ ∞. Per esempio, una funzione poissoniana tipica `e rappresentata dal numero di arrivi che si registrano per ora ad un reparto di pronto soccorso di un ospedale. La distribuzione di Poisson `e rappresentata come segue (Fig. 1.7):
P (r) =
e−μ μr r!
con r = 0, 1, 2, 3, . . .
(1.23)
dove: r = numero di eventi nel tempo di esposizione; μ = λt; λ = valore medio di eventi per unit` a di tempo; t = tempo di esposizione. La distribuzione di Poisson `e caratterizzata da un solo parametro, λ. Le distribuzioni binomiale e di Poisson sono distribuzioni discrete in quanto si riferiscono ad eventi discreti, cio`e valutano il numero di successi, per esempio, risultanti da un numero discreto di campionamenti. In analisi di affidabilit` a e sicurezza `e molto interessante anche la stima dei tempi di rottura o di riparazione di componenti. Il tempo `e una variabile continua e pertanto le stime di tali tempi sono rappresentate da distribuzioni continue di probabilit` a.
Figura 1.7. La Distribuzione di Poisson
1.2 Cenni di metodi statistici
25
Distribuzione esponenziale La distribuzione esponenziale `e molto simile alla distribuzione di Poisson, ma a differenza di quest’ultima, che `e di natura discreta, la distribuzione esponenziale `e continua e rappresenta il tempo stimato per l’occorrenza di un guasto per il componente in esame. Un altro modo di esprimere questa importante caratteristica della distribuzione esponenziale `e che misura la probabilit` a di avere almeno un evento di guasto nel periodo di tempo di osservazione. La distribuzione esponenziale ha un largo uso in affidabilit` a, si applica per valori costanti del rateo di guasto. Se si considera la funzione distribuzione di affidabilit` a, R(t), che rappresenta la probabilit` a che un componente/sistema operi correttamente nell’intervallo di tempo 0 − t, la distribuzione esponenziale si rappresenta come segue (Fig. 1.8): R(t) = e−λt
(1.24)
dove: λ `e il rateo di evento costante; t `e il tempo di osservazione. In termini di funzione di guasto, che `e la funzione complementare della funzione di affidabilit` a, la distribuzione esponenziale permette la seguente rappresentazione: F (t) = 1 − R(t) = 1 − e−λt , e la relativa funzione densit` a di probabilit` a `e data da: f(t) =
d F (t) = λ · e−λt . dt
Figura 1.8. La distribuzione esponenziale
(1.25)
26
1 Analisi sistemica di sicurezza: concetti e metodi
Il valore medio della distribuzione esponenziale, in accordo con la definizione di densit` a di probabilit` a e valore medio per funzioni continue, ed integrando per parti `e dato da: ∞ ∞ 1 E(t) = t · f(t)dt = λ · t · e−λt dt = . (1.26) λ 0
0
Pertanto, il tempo medio di guasto `e il reciproco del rateo di guasto.
Distribuzione normale La distribuzione normale `e anche una delle pi` u diffuse forme di rappresentazione di distribuzioni di probabilit` a continue. La distribuzione normale, a volte detta anche distribuzione di Gauss, `e caratterizzata dal fatto che la sua funzione di densit` a di probabilit` a `e simmetrica rispetto al valore medio. Inoltre, il 68.26 % dei possibili valori `e situato all’interno di una deviazione standard, σ, mentre si arriva ad un totale di 99.74 % per i valori all’interno di 3 σ. La distribuzione normale, N (μ,σ), `e identificata da due parametri, la media (μ) e la deviazione standard (σ) ed ha una funzione densit` a di probabilit` a rappresentata da (Fig. 1.9):
1 2 f(t) = √ exp (t − μ) 2σ 2 σ 2π
− ∞ ≤ t ≤ +∞.
(1.27)
La simmetria della distribuzione normale fa s`ı che molte quantit` a statistiche come la media, la mediana e la moda abbiano tutte lo stesso valore e che la distribuzione cumulativa di probabilit` a per t = μ sia 0.5. L’integrazione diretta della funzione f presenta notevoli difficolt`a che vengono superate mediante l’uso di tabelle di riferimento che si basano sui valori della distribuzione N (0, 1), che richiedono una traslazione della funzione rispetto alla variabile t di z = (t − μ)/σ. D’altro canto `e proprio l’integrazione della funzione f che `e di interesse in quanto rappresenta la probabilit` a assunta dalla variabile
Figura 1.9. La distribuzione normale e relativa funzione di distribuzione cumulativa
1.2 Cenni di metodi statistici
27
Figura 1.10. La distribuzione log-normale
aleatoria in un certo intervallo, F (a ≤ X ≥ b): b P (a ≤ X ≥ b) =
f(x)dx.
(1.28)
a
Distribuzione log-normale La distribuzione log-normale rappresenta la trasformata logaritmica della distribuzione normale relativamente alla variabile t, e assume le seguenti espressioni (Fig. 1.10): 1 √ exp −1/2 [(ln x − μ1 )/2σ1 ]2 f(t) = (1.29) xσ 2π dove: x = variabile aleatoria; μ1 = media del logaritmo della variabile x; σ1 = deviazione standard del logaritmo di x. La media, E(x), e la varianza, V (x), della distribuzione log-normale assumono le seguenti espressioni: E(x) = exp(μ1 + 1/2σ12 ) (1.30) 2
V (x) = exp(2μ1 + σ12 ) (eσ1 − 1).
(1.31)
Distribuzione di Weibull La distribuzione di Weibull `e una distribuzione basata su tre parametri e, pertanto estremamente versatile. Non esiste infatti una forma caratteristica, ma diverse forme possono essere ottenute cambiando i suoi parametri. Questo la ren-
28
1 Analisi sistemica di sicurezza: concetti e metodi
Figura 1.11. La distribuzione di Weibull
de particolarmente interessante per descrivere componenti con ratei di guasto variabili. La funzione densit`a di probabilit` a, f(x), e cumulativa, F (x), assumono le seguenti espressioni (Fig. 1.11): β−1 β β x−γ x−γ f(x) = (1.32) exp − α α α β x−γ F (x) = 1 − exp − α
(1.33)
dove α `e un coefficiente di scala, β `e un coefficiente di forma sempre maggiore di 0, e γ `e un coefficiente di posizionamento. In particolare, per β = 1 la funzione di densit` a di probabilit` a `e l’esponenziale, mentre per α e γ costanti e β tendente a 4 si ha la distribuzione normale. 1.2.4 Cenni di algebra booleana Prima di iniziare l’esame delle tecniche affidabilistiche per studi di sicurezza `e indispensabile richiamare alcuni concetti fondamentali dell’algebra booleana, che permetteranno di capire la logica dei sistemi ad “albero di guasto” ed “albero di evento” che sono alla base di tali tecniche. Un supporto fondamentale alla comprensione dei principi dell’algebra booleana sono i “diagrammi di Venn”, che sono una forma di rappresentazione graficageometrica degli insiemi di eventi e delle loro probabilit` a. Ad esempio, considerando gli incidenti che riguardano un modo di trasporto su un certo periodo di tempo, possiamo pensare al sottoinsieme A come il sottoinsieme degli incidenti con perdita di vite umane, al sottoinsieme B come il sottoinsieme di eventi incidentali con perdita del sistema, e al sottoinsieme C come il sottoinsieme di eventi incidentali senza perdite di vite umane e del sistema ma con guasto sui sistemi di controllo (Fig. 1.12). Il diagramma di Venn di tale
1.2 Cenni di metodi statistici
29
Figura 1.12. Diagramma di Venn
situazione rappresenta un rettangolo che descrive l’insieme di riferimento di tutti gli elementi in considerazione relativamente agli incidenti, mentre i sottoinsiemi A, B e C sono rappresentati con dei cerchi. ` evidente che per la loro natura, gli insiemi A e B hanno uno spazio o caratteriE stiche comuni, mentre l’insieme C non ha elementi comuni con A e B. La Fig. 1.12 mostra come il diagramma di Venn rappresenti in maniera grafica ed intuitiva le relazioni logiche esistenti tra i tre insiemi. ` importante definire anche il concetto di complemento di un insieme, che `e E l’insieme degli elementi che non possiedono le caratteristiche fondamentali di un certo insieme. Il complemento di un insieme prende la notazione dell’insieme stesso ma con il soprassegno. Ad esempio il complemento dell’insieme A si rappresenta ¯ con A. Sono possibili una serie di operazioni fondamentali sugli insiemi che sono l’unione e l’intersezione. L’unione di insiemi `e l’insieme che contiene tutti gli elementi di tali sistemi e si rappresenta con il simbolo ∪; mentre l’intersezione di insiemi `e un insieme che contiene solo gli elementi comuni a tali sistemi e si rappresenta con il simbolo ∩. Quando le aree dei relativi insiemi rappresentano le probabilit` a associate ad ognuno di essi, e l’area dell’insieme universale degli eventi `e posta uguale ad 1, allora i diagrammi di Venn permettono la rappresentazione grafica delle probabilit` a di occorrenza dei vari eventi. Nel caso di eventi indipendenti e mutuamente esclusivi, e facendo riferimento agli insiemi rappresentati in Fig. 1.12, si ha quindi: P (A ∪ C) = P (A) + P (C) P (A ∩ C) = ∅ dove ∅ = insieme nullo. Nel caso di eventi indipendenti e non-mutuamente esclusivi, si ha: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) P (A ∩ B) = P (A) × P (B).
30
1 Analisi sistemica di sicurezza: concetti e metodi
Nel caso di eventi dipendenti, diventa molto importante l’espressione della probabilit` a dipendente: P (A ∩ B) P (A/B) = . P (B) Questa espressione, che nel caso di indipendenza porta alla ovvia conclusione P (A/B) = P (A), `e largamente utilizzata in analisi affidabilistiche e porta alla definizione del teorema di Bayes, gi` a visto in precedenza. Le seguenti regole e propriet`a si applicano all’algebra booleana: A∪B = B∪A
A∩B = B∩A
Propriet` a commutativa
(A ∪ B) ∪ C = A ∪ (B ∪ C) (A ∩ B) ∩ C = A ∩ (B ∩ C) Propriet` a associativa A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)
Propriet` a distributiva
A ∪ ∅ = A, A ∪ 1 = 1, A ∩ ∅ = ∅, A ∩ 1 = A
Identit` a
A ∪ A = A,
A∩A= A
Idempotenza
A ∪ (A ∩ B) = A, A ∩ (A ∪ B) = A ¯ =A A ∪ A¯ = 1, A ∩ A¯ = ∅, (A)
Assorbimento Complementarit` a
(A ∪ B) = A ∩ B(A ∩ B) = A ∪ B
Legge di De Morgan
1.3 Rassegna di metodi per la quantificazione del rischio 1.3.1 Fasi e metodologie principali quantificare il rischio Per la quantificazione del rischio associato ad un sistema o alla sua gestione, si devono sviluppare un certo numero di analisi ingegneristiche, che devono concorrere allo studio ed al consolidamento del ciclo di vita del sistema stesso. Per raggiungere questo obbiettivo, l’analisi del rischio di un sistema deve interagire con le diverse fasi di sviluppo del sistema stesso, che consistono in: 1) definizione dei requisiti del sistema; 2) progetto del sistema e dell’impianto di controllo; 3) implementazione del progetto; 4) operazione del sistema stesso; ed infine 5) eventuale smantellamento. La valutazione quantitativa del rischio, rappresentata in pratica dalla valutazione delle probabilit`a, e relative incertezze, associate a certe conseguenze, si ottiene attraverso le seguenti fasi di analisi: Fase 1. Fase 2. Fase 3.
Analisi preliminare dei pericoli (“Preliminary Hazard Analysis” – PHA); Analisi di rischio del sistema (“System Hazard Analysis” – SHA); Implementazione delle misure di sicurezza (“Quality Assurance and Training” – QAT).
1.3 Rassegna di metodi per la quantificazione del rischio
31
I metodi utilizzati in ciascuna di queste fasi verranno brevemente descritti nel prosieguo di questa sezione, per passare poi ad uno studio pi` u approfondito delle tecniche pi` u rilevanti e di uso comune. Tuttavia, prima di far ci` o, `e importante inquadrare la generalit` a del processo metodologico che deve essere messo in atto per effettuare una valutazione prospettica globale del rischio associato ad un certo sistema ed alle sue operazioni. Quantitative Risk Assessment L’insieme dei metodi e tecniche applicate nelle tre fasi suddette porta alla definizione quantitativa globale del rischio di impianto e si identifica con la metodologia nota come “Quantitative Risk Assessment” (QRA) o “Probabilistic Safety Assessment” (PSA). Tali valutazioni quantitative sono necessarie in molti paesi industrialmente sviluppati, per ottenere l’autorizzazione alla costruzione ed all’operazione degli impianti stessi. I QRA/PSA si affiancano cos`ı agli studi di sicurezza classici, deterministici, basati sui massimi incidenti credibili e sui relativi calcoli derivati da simulazione sofisticate degli impianti e dei sistemi di sicurezza. In altre parole, i QRA/PSA hanno come obbiettivo il calcolo dei rischi, e delle relative incertezze, associati ad uno spettro di possibili eventi iniziatori ed inoltre la valutazione delle conseguenze dalle possibili evoluzioni degli incidenti che si sviluppano da tali eventi iniziatori. I QRA/PSA si applicano normalmente a tutto un impianto con i relativi sistemi e procedure. Sono pertanto studi assai complessi ed articolati, come si vedr` a pi` u in dettaglio qui di seguito. Analisi funzionale di sicurezza La complessit`a intrinseca dei metodi QRA/PSA ha favorito lo sviluppo di una metodologia pi` u semplice, che si focalizza sulle varie funzioni di sicurezza progettate ed implementate a livello di sistema, e non pi` u di impianto. Tale metodologia prende il nome di Analisi Funzionale di Sicurezza (“Functional Safety”, FS). La FS tende a definire un grado di affidabilit` a del sistema di sicurezza o di alcune sue funzioni importanti e permette una valutazione pi` u rapida, semplice e “locale” del grado di affidabilit` a di vari sistemi di sicurezza o di alcune funzioni importanti. Tuttavia, la FS non libera l’analista di sicurezza dalla valutazione globale del rischio di impianto, che rimane un caposaldo dell’analisi di sicurezza probabilistica. Pertanto, resta necessario, in una fase successiva del processo di valutazione della sicurezza globale, estendere lo studio delle singole funzioni a tutto l’impianto. Pi` u in dettaglio, il grado di affidabilit` a definito attraverso la FS ad uno specifico sistema di sicurezza deve essere compatibile con i livelli di rischio associati alla funzione di sicurezza svolta da tale sistema: per livelli di rischio crescenti, l’affidabilit` a del sistema di sicurezza dovr`a crescere di conseguenza. In altre parole, pi` u `e rilevante la conseguenza negativa di un pericolo per cui si implementa una certa
32
1 Analisi sistemica di sicurezza: concetti e metodi
funzione di sicurezza protettiva, pi` u alta dovr` a essere l’affidabilit`a del sistema di sicurezza che implementa tale funzione. Nella definizione del grado di affidabilit` a rientra la capacit`a del sistema di individuare eventuali guasti mediante test (parziali o completi) e diagnostiche: entrambi questi strumenti permettono, infatti, di rilevare in anticipo eventuali anomalie, evitando che queste ultime possano condurre ad un mancato intervento del sistema di sicurezza e quindi ad una situazione pericolosa. L’analisi funzionale di sicurezza si basa sia su metodi qualitativi che quantitativi e trova larga applicazione in diversi domini tecnologici dove `e presente un alto grado di automazione. Tali metodi verranno descritti in dettaglio in un’apposita sezione del presente capitolo. 1.3.2 Analisi preliminare dei pericoli L’analisi preliminare dei pericoli (PHA) consiste nello sforzo iniziale di identificazione delle aree critiche di un sistema, nella definizione del rischio ad esse associato e nella formulazione preliminare dei criteri di progetto dei sistemi di protezione e sicurezza. Questa fase iniziale, ancorch´e cruciale per tutto il restante processo dell’analisi del rischio, richiede l’applicazione dei principi fondamentali e basilari della scienza ingegneristica, che sono rappresentati dall’immaginazione, l’esperienza e la conoscenza dell’ingegnere relativamente al sistema in studio, alle sue caratteristiche di comportamento ed all’ambiente in cui tale sistema `e chiamato ad operare. Non esistono, pertanto, modelli logici o metodi formali che permettono l’identificazione di tutti i rischi connessi ad un sistema. L’analisi preliminare dei pericoli `e dunque un passo essenzialmente qualitativo nell’insieme del processo di analisi sistemica del rischio. L’analisi preliminare dei pericoli comincia con la suddivisione del sistema in un numero di parti e sotto-sistemi in cui l’impianto pu` o essere scomposto in modo da rendere lo studio pi` u conveniente e diretto. Quindi si passa alla preparazione di una tabella di riferimento che contiene gli elementi e le informazioni necessarie per i passi successivi di valutazione del rischio e analisi delle conseguenze. La natura qualitativa dell’analisi preliminare dei pericoli fa s`ı che questa possa essere esplicitata in tabelle leggermente diverse, anche se la sostanza `e identica, nelle varie proposte che si possono trovare in diversi libri di testo (Roland e Moriarty, 1990; Henley e Kumamoto, 1981; Andrews e Moss, 1993). Un esempio di tabella di analisi preliminare dei pericoli `e presentato in Tab. 1.6, dove sono riportati i seguenti elementi: 1) nome del sottosistema; 2) modalit`a di operazione; 3) cause di possibili guasti; 4) possibili modi di guasto; 5) stima della verosimiglianza di avvenimento (frequenze); 6) effetti sul personale e sugli impianti; 7) definizione degli indici di rischio; 8) misure preventive del rischio relative al sottosistema; 9) misure preventive a livello di normativa e regolamentazione.
1.3 Rassegna di metodi per la quantificazione del rischio
33
Tabella 1.6. Tabella dell’analisi preliminare del rischio (Roland e Moriarty, 1990)
1.3.3 Analisi del rischio del sistema La seconda fase della valutazione del rischio riguarda la quantificazione del rischio del sistema (“System Hazard Analysis”, SHA), sia in termini di probabilit` a associate ai pericoli, che di conseguenze derivanti da essi. Pertanto, rappresenta la parte pi` u consistente e complessa del procedimento globale di QRA. Per effettuare tale analisi vengono applicati un certo numero di metodi e tecniche in combinazione o alternativa a seconda degli obbiettivi specifici dell’analisi. Le due tecniche pi` u note ed utilizzate, nella maggior parte dei casi in combinazione, sono gli Alberi di Evento (“Event Tree Analysis” – ETA) e gli Alberi di Guasto (“Fault Tree Analysis” – FTA). Questi metodi sono, alle volte, affiancati ulteriormente da metodi quali l’analisi degli effetti dei modi di guasto e della criticit` a (“Failure Mode Effect and Criticality Analysis” – FMECA), che contribuisce alla migliore definizione della quantificazione del rischio e delle conseguenze. Dunque, mentre l’analisi preliminare del rischio ha portato alla definizione di eventi “rischiosi”, come ad esempio “insufficiente spinta durante il decollo”, e delle funzioni critiche del sistema, come i sistemi di protezione ed emergenza, l’analisi del rischio del sistema inizia con la definizione delle sequenze incidentali. Queste comportano lo studio delle possibili evoluzioni (sequenze incidentali) derivanti dall’evento iniziale “insufficiente spinta durante il decollo”, che portano a conseguenze indesiderate. Questo passo `e sviluppato dal metodo “Alberi di Evento”, che descrive l’evoluzione di possibili sequenze incidentali derivanti dai successivi successi o insuccessi dei sotto-sistemi che sono via via chiamati ad operare e che determinano diverse possibili evoluzioni derivanti dall’evento iniziatore. In altre parole, la tecnica degli Alberi di Evento `e un processo induttivo che comincia con un evento iniziatore e procede “in avanti” nel tempo analizzando gli effetti delle alternative binarie (successo od insuccesso) dei sotto-sistemi che sono stati progettati per intervenire durante l’evoluzione dell’incidente. Gli Alberi di Evento si
34
1 Analisi sistemica di sicurezza: concetti e metodi Tabella 1.7. Failure Mode, Effect and Criticality Analysis
Componente Modi di guasto
Cause di guasto
Effetti
Probabilit`a Severit`a
Azioni
Valvola
a. Fail mode 1 b. Fail mode 2 c. Fail mode 3
• • • •
Sovrappressione 1. Φ ridotta Manutenzione 2. No Φ 3. Φ invertita Operazioni ......
a. 0.004 b. 0.005 c. 0.01
Non critica
• Procedure • Manutenzione
Pompa
a. Fail mode 1 b. Fail mode 2 c. Fail mode 3
• • • •
Assenza di Φ Manutenzione Operazioni Δp
1. No Φ 2. 1/2 Φ 3. Φ invertita
a. 0.003 b. 0.006 c. 0.01
Critica
• Procedure • Allarmi
sviluppano ponendosi la domanda “che succede se si verifica il mancato, o il buon, funzionamento di un certo sotto-sistema?”. In combinazione con gli Alberi di Evento, vengono sviluppati gli “Alberi di Guasto”, che servono per analizzare le cause dei malfunzionamenti ipotizzati durante gli Alberi di Evento (detti eventi TOP). Gli Alberi di Guasto si sviluppano per mezzo di una logica a ritroso, all’indietro, che parte dall’evento TOP e costruisce le possibili combinazione di guasti o malfunzionamenti di altri sistemi o sotto-sistemi collegati al sistema in esame, andando sempre pi` u nel dettaglio, fino all’identificazione dei guasti primari che combinati tra loro portano all’evento TOP. La tecnica degli Alberi di Guasto `e un processo deduttivo, in quanto arriva alla definizione degli eventi base ponendosi sempre la domanda “come si `e verificato il guasto in esame” in sequenza. La considerazione delle probabilit`a associate agli eventi base e le loro combinazioni attraverso gli Alberi di Guasto ed Alberi di Evento portano alla definizione delle probabilit` a associate agli eventi risultanti. Nel prosieguo del presente testo, si vedranno pi` u in dettaglio queste due tecniche ed anche le modalit`a di calcolo delle probabilit` a e propagazione delle incertezze. La tecnica FMEA (Failure Mode and Effect Analysis) `e una tecnica induttiva che dettaglia sistematicamente, sulla base di ogni singolo componente del sistema, tutti i possibili modi di guasto ed identifica gli effetti risultanti sul sistema stesso. La tecnica FMEA `e utilizzata in supporto alle procedure ETA/FTA ed `e fondamentale per la definizione delle conseguenze. La tecnica FMECA `e dunque un’estensione della tecnica FMEA per la definizione dei componenti pi` u importanti (critici) per l’affidabilit` a del sistema (Tab. 1.7). L’analisi delle conseguenze (CA) `e il diretto risultato dell’applicazione di tecniche ETA/FTA, accoppiate a calcoli quantitativi deterministici delle sequenze definite indipendentemente dalle probabilit` a ad esse associate. La valutazione formale delle conseguenze richiede la stima di perdite di vite umane, di conseguenze ambientali e di perdita del sistema. Ci` o `e normalmente fatto mediante programmi di simulazione al calcolatore. Esistono molti metodi formali per lo studio delle conseguenze. Due di questi sono il metodo di studio dell’operabilit` a e rischio (“Hazard and operability study”) e i diagrammi di cause-conseguenze (“Cause-consequence analysis”). Entrambi que-
1.3 Rassegna di metodi per la quantificazione del rischio
35
Tabella 1.8. Confronto di metodi standard
sti metodi fanno riferimento agli Alberi di Evento ed Alberi di Guasto e pure alla tecnica FMEA, includendo calcoli di carattere deterministico. In Tab. 1.8 si riporta un quadro riassuntivo sintetico delle caratteristiche, vantaggi e svantaggi di ciascuno dei metodi brevemente descritti in questa sezione. 1.3.4 Implementazione delle misure di sicurezza In un processo di sviluppo di un QRA, questa fase contiene principalmente le attivit` a che seguono la valutazione quantitativa dei rischi e la loro accettabilit`a ed ha come scopo il raggiungimento e l’implementazione pratica delle misure di sicurezza ritenute necessarie dalle analisi svolte nelle fasi precedenti. Questo consiste nella certificazione della qualit`a dei materiali ed sistemi messi in atto a livello tecnico e nella realizzazione ed attivazione di tutti i processi addestrativi necessari nei confronti del personale affinch´e le procedure operative e di emergenza vengano attuate in accordo alle aspettative di progetto. Questa ultima fase di sviluppo di analisi di sicurezza esula dallo scopo specifico di questo testo, che `e quello di fornire gli strumenti per l’analisi del rischio, e
36
1 Analisi sistemica di sicurezza: concetti e metodi
coinvolge in primo luogo le competenze specifiche dei sistemi di qualit`a. Pertanto non verr` a discussa nel prosieguo e si rimanda il lettore interessato a tale fase alla letteratura specifica dei processi e sistemi di qualit` a.
1.4 Alberi di Evento e Alberi di Guasto Le due tecniche pi` u note e comunemente utilizzate per l’analisi quantitativa del rischio del sistema (Fase – SHA) sono gli Alberi di Evento (“Event Trees”, ET) e gli Alberi di Guasto (“Fault Trees”, FT), che vengono accoppiati in applicazioni sistematiche in molte analisi affidabilistiche di sicurezza, soprattutto nel dominio nucleare e chimico. Vedremo ora come gli Alberi di Evento e di Guasto possono essere utilizzati a tali scopi. 1.4.1 Alberi di Evento Il risultato della prima fase dello studio del rischio ha portato alla definizione di una serie di “eventi iniziatori” ritenuti critici per la sicurezza del sistema ed all’identificazione dei sistemi o sotto-sistemi di sicurezza chiamati ad operare nel corso dello sviluppo dell’incidente. Nell’applicare la tecnica degli Alberi di Evento (ET), che essendo un metodo induttivo si sviluppano in avanti nel tempo, si parte assumendo che i sistemi di sicurezza siano disponibili o guasti ovvero che al momento dell’entrata in funzione rispondano completamente alle aspettative o non funzionino del tutto. Partendo dunque dall’evento iniziatore, vengono considerati i vari sistemi di sicurezza che devono intervenire nel corso del transitorio incidentale. Si sviluppano tutte le diramazioni dell’albero in considerazione del fatto che ogni sistema possa o meno essere disponibile ad attivarsi al comando. Si crea in questo modo una struttura ad albero con tutte diramazioni binarie, che risultano in un numero di possibili sequenze incidentali di 2n , dove n `e il numero di sistemi di sicurezza considerati (Fig. 1.13). In pratica, le diramazioni degli Alberi di Evento vengono opportunamente ridotte in base a semplici operazioni di logica e ragionamento fisico e anche in funzione a considerazioni probabilistiche. Ad esempio, con riferimento alla Fig. 1.13, qualora il malfunzionamento del sistema B portasse alla non-operabilit` a del sistema C, l’ultima diramazione non avrebbe senso e le due probabilit`a P7 e P8 sarebbero riunite come pure l’albero. Inoltre, per il calcolo delle probabilit` a associate alle diverse conseguenze, prescindendo dalle distribuzioni delle incertezze, bisogna considerare l’indipendenza o meno dei vari sistemi di sicurezza.
1.4 Alberi di Evento e Alberi di Guasto
37
Figura 1.13. Albero di Evento
Pertanto, ricordando le regole fondamentali della combinazione delle probabilit` a e facendo le seguenti assunzioni: 1. le probabilit` a di malfunzionamento dei sistemi di sicurezza siano molto piccole, per cui si pu` o ritenere che (1 − PA ) ≈ (1 − PB1 ) ≈ (1 − PB2 ) ≈ (1 − PC1 ) ≈ . . . ≈ 1; 2. gli eventi di guasto dei vari sistemi di sicurezza siano indipendenti, si ha che: P1 P2 P3 P4 P5 P6 P7 P8
= Pi = Pi · PC1 = Pi · PB1 = Pi · PB1 · PC2 = Pi · PA = Pi · PA · PC3 = Pi · PA · PB2 = Pi · PA · PB2 · PC4 .
Mentre nel caso di dipendenza si dovrebbe applicare la regola: P (A ∩ B) = P (A) × P (B/A). In questo modo vengono calcolate le sequenze incidentali per analisi sistemica di sicurezza e le probabilit` a delle relative conseguenze. Normalmente i sistemi e le funzioni di sicurezza considerati negli Alberi di Evento sono rappresentati da grandi insiemi di componenti con alta affidabilit` ae complessit`a, per cui risulta molto importante calcolare con attenzione i valori e le distribuzioni di probabilit` a associate a tali sistemi, cio`e le PA, PB1 , PB2 , . . . di Fig. 1.13. Per far ci` o si utilizzano gli Alberi di Guasto.
38
1 Analisi sistemica di sicurezza: concetti e metodi
1.4.2 Alberi di Guasto Concetti generali La tecnica degli Alberi di Guasto (FTA) si `e sempre pi` u sviluppata, fin dal suo primo apparire nel 1961, ed `e considerata come lo strumento analitico pi` u potente che esista per rappresentare le possibili combinazioni di modi di guasto dei componenti in un particolare sistema che portano alla definizione di un particolare malfunzionamento od indisponibilit` a. Date quindi le probabilit` a di guasto dei componenti basici di tale sistema, la tecnica FTA permette di calcolare la probabilit` a risultante del malfunzionamento od indisponibilit` a del sistema stesso. Il malfunzionamento od indisponibilit` a del sistema `e detto “evento TOP” e l’Albero di Guasto si sviluppa in ramificazioni derivanti da questo evento primario, rappresentanti le cause in cascata dei malfunzionamenti collegati dalle varie ramificazioni. In questo modo, i vari malfunzionamenti rappresentati nell’Albero di Guasto sono continuamente ridefiniti in termini di risoluzione dei malfunzionamenti al livello immediatamente inferiore. Questo processo in cascata termina quando guasti o malfunzionamenti di componenti basici od elementari sono incontrati. Questi ultimi sono detti eventi di base o elementari, o anche “foglie” dell’albero di guasto. Ogni FTA considera solamente un particolare modo di guasto del sistema in esame (evento TOP), per cui si richiedono tanti Alberi di Guasto quanti sono i modi di guasto o malfunzionamento del sistema che si vogliono studiare. Un Albero di Guasto `e composto di due tipologie di elementi, “eventi” e “porte” (“events” e “gates”). Le porte regolano (permettono o inibiscono) il passaggio logico attraverso l’albero e mostrano le relazioni che esistono tra i guasti che devono avvenire (combinarsi) per dare luogo all’evento TOP. Gli “eventi” sono di fatto i guasti od i malfunzionamento che si collegano con le “porte” per dare origine all’Albero di Guasto associato ad un certo evento TOP. Alcuni dei simboli principali usati per rappresentare porte ed eventi ed i loro significati logici sono presentati in Tab. 1.9 e Tab. 1.10. Regole generali per la costruzione degli alberi di guasto Definito il sistema e identificato il modo di guasto come evento TOP, l’Albero di Guasto si sviluppa cercando le cause immediate, necessarie e sufficienti perch´e ` importante osservare che queste non sono cause dell’evento a questo accada. E livello di componente, ma sono le cause immediate che portano all’evento stesso. Queste cause immediate, necessarie e sufficienti sono correlate ad eventi a livello inferiore ed il procedimento continua fino a che la risoluzione pi` u fine `e raggiunta con l’associazione di cause di guasto a componenti elementari, che non vengono ulteriormente scomposti in parti o sottoinsiemi.
1.4 Alberi di Evento e Alberi di Guasto
39
Tabella 1.9. Rappresentazione delle “Porte” principali degli Alberi di Guasto
Tabella 1.10. Rappresentazione degli “Eventi” negli Alberi di Guasto
Esempio semplice di analisi a mezzo di Albero di Guasto Per meglio descrivere il procedimento applicativo, si prenda un esempio semplice (Fig. 1.14), ma caratteristico, di sviluppo di un albero di guasto. Si consideri dunque il sistema semplificato di alimentazione motore composto di un filtro carburante (F ), due pompe alternative (P 1 e P 2) ed una valvola di regolazione. Il carburante `e fornito al motore attraverso il filtro F da una delle due pompe, che funzionano in alternativa. Il flusso `e regolato dalla valvola V . Si voglia studiare il caso di mancata erogazione del combustibile al motore costruendo l’Albero di Guasto relativo. Seguendo la semplice regola enunciata pi` u
40
1 Analisi sistemica di sicurezza: concetti e metodi
Figura 1.14. Sistema di alimentazione motore
sopra, si pu` o ottenere l’Albero di Guasto per il sistema in esame rappresentato in Fig. 1.15a-b. Una figura analoga alla Fig. 1.15b rappresenta lo sviluppo dell’Albero di Guasto per l’assenza di flusso di carburante dalla pompa P1. Ciascun guasto del sistema (evento TOP) `e da considerarsi come unico, e, pertanto, si rende necessario lo sviluppo del relativo Albero di Guasto per ogni evento TOP che si voglia esaminare. Dall’Albero di Guasto si derivano le combinazioni degli eventi di guasto elementari che concorrono all’evento TOP. L’insieme di modi di guasto elementari che danno origine all’evento TOP `e definito come “insieme di taglio” o “Cut Set”. Pertanto si pu` o definire il Cut Set come l’insieme degli eventi primari che devono verificarsi in concomitanza per dare origine all’evento TOP.
Figura 1.15a-b. Albero di Guasto per il sistema di alimentazione motore
1.4 Alberi di Evento e Alberi di Guasto
41
Lo studio e lo sviluppo di Alberi di Guasto in impianti reali d` a origine ad un alto numero di cut set ciascuno dei quali consiste nella combinazione di moltissimi componenti. Tuttavia, vi `e interesse solamente nell’insieme di componenti necessari e sufficienti per dare origine all’evento TOP. Pertanto, viene introdotto il concetto di insieme di taglio minimi, che rappresentano le configurazioni minime di combinazioni di eventi base che portano all’evento TOP. Per identificare gli insiemi minimi di taglio vengono applicati degli approcci a partire dal basso (bottom-up) o dall’alto (top-down) di analisi sistemica delle possibili combinazioni degli eventi facendo riferimento all’algebra booleana ed alle relative espressioni logiche. In pratica, poi, per lo sviluppo e la riduzione di Alberi di Guasto per grandi impianti e sistemi vengono utilizzati dei codici di calcolo, che tengono conto di molti aspetti, compresi naturalmente anche le combinazioni derivanti dalle “porte” pi` u complesse che non semplicemente le relazioni AND e OR.
Quantificazione degli alberi di guasto L’obbiettivo della quantificazione degli Alberi di Guasto `e di calcolare la probabilit` a dell’evento TOP partendo dalle probabilit` a associate agli eventi elementari di guasto o malfunzionamento dei componenti del sistema stesso. Nel caso in cui l’albero di guasto, per un certo evento TOP, contenga eventi elementari indipendenti che appaiono solamente una volta nell’albero, la probabilit` a dell’evento TOP pu` o essere ottenuta attraverso il calcolo delle probabilit`a dei vari eventi dell’albero. Tuttavia, questa procedura non `e possibile quando in un albero esistono degli eventi elementari che compaiono pi` u volte. In questi casi, `e necessario usare la tecnica per la definizione degli insiemi di taglio minimi (top-down o bottom-up) accoppiata con l’algebra booleana, che `e sempre valida e quindi sempre applicabile, a condizione che sia conservata l’indipendenza tra gli eventi elementari. Riprendendo il caso del sistema di alimentazione combustibile descritto poc’anzi, viene sviluppata la quantificazione dell’Albero di Guasto con l’obbiettivo di calcolare la probabilit` a di mancata erogazione del combustibile, in caso di indipendenza tra gli eventi elementari V , P 1, P 2 e F , e quando siano note le probabilit` a degli eventi elementari, che, per semplicit`a, verranno associate senza distribuzione di incertezza ai seguenti valori: • • • •
p(V ) = 0.05; p(F ) = 0.01; p(P 1) = 0.1; p(P 2) = 0.1.
Si assumer` a anche di trascurare le probabilit`a degli eventi di blocco delle tubazioni o mancanza di combustibile, per concentrare lo studio solo sui componenti elettromeccanici del sistema. In questo caso anzitutto l’Albero di Guasto della Fig. 1.15 si riduce drasticamente al seguente FT (Fig. 1.16).
42
1 Analisi sistemica di sicurezza: concetti e metodi
Figura 1.16. Albero di Guasto ridotto - mancata alimentazione motore
Sono quindi da considerare 4 eventi elementari V , P 1, F e P 2, ed applicando le regole della riduzione booleana si ottengono i seguenti insiemi minimi di taglio: (P 1 ∪ F ) ∩ (P 2 ∪ F ) ∪ V = (P 1 ∩ P 2) ∪ (P 1 ∩ F ∪ P 2 ∩ F ∪ F ∩ F ) ∪ V = (P 1 ∩ P 2) ∪ F ∪ V. Cio`e P 1 ∗ P 2 + F + V , se si utilizza la notazione ∗ per ∩ e + per ∪. Passando ora alle probabilit` a e ricordando il principio fondamentale della probabilit` a dell’unione di due eventi indipendenti, non mutuamente esclusivi, cio`e p(A ∪ B) = p(A) + p(B) − p(A ∩ B), si ottiene la probabilit` a dell’evento TOP: p(P 1P 2 + F + V ) = p(P 1P 2) + p(F ) + p(V ) − [p(F V ) + p(F P 1P 2) + p(V P 1P 2)] + p(P 1P 2F V ). Sostituendo infine i valori delle probabilit` a assegnate si ottiene: p(TOP) = 0.01 + 0.01 + 0.05 − (5 + 1 + 5)10−4 + 510−6 ≈ 0.0689. Si noti infine che: 1. Se si fosse calcolata la probabilit`a seguendo la struttura dell’albero si sarebbe ottenuto un risultato non corretto della p(TOP), sovrastimata rispetto al suo valore; ci`o `e dovuto alla ripetizione nell’Albero di Guasto dell’evento F . 2. L’Albero di Guasto di Fig. 1.16 si sarebbe potuto ridurre ad una rappresentazione pi` u semplice senza la ripetizione dell’evento F , che avrebbe permesso un calcolo pi` u diretto della probabilit` a dell’evento TOP.
1.5 Sicurezza Funzionale
43
Figura 1.17. Albero di Guasto “minimo”
1.5 Sicurezza Funzionale Nel 1996, in risposta a un numero crescente di incidenti industriali, la Instrument Society of America (ISA) eman` o una norma volta a gestire la classificazione dei sistemi strumentali di sicurezza per l’industria dei processi all’interno degli USA. Questa norma, ISA S84.01, ha introdotto il concetto di livelli di integrit` a di sistemi di sicurezza (“Safety Integrity Level”, SIL). Successivamente, la Commissione Elettrotecnica Internazionale (“International Electrotechnical Commission”, IEC) ha emanato uno standard industriale “neutro”, IEC 61508 (IEC, 2000) e 61511 (IEC, 2003), per contribuire a quantificare la sicurezza attraverso l’analisi probabilistica dei sistemi. La combinazione di tali norme ha spinto l’industria, specialmente nel dominio degli idrocarburi e della loro trasformazione industriale, a cercare soluzioni orientate alla sicurezza dei processi industriali e correlate a tali indicazioni normative. Come sottoprodotto di tale attivit` a, si `e scoperto che molti dei parametri essenziali per la valutazione dei SIL, una volta ottimizzati, hanno aggiunto affidabilit` a e disponibilit` a operativa ai processi in questione. Lo studio di sicurezza che passa attraverso tali normative e concetti viene identificato come “Sicurezza Funzionale”. I metodi basati sulla Sicurezza Funzionale hanno carattere generale e possono pertanto essere applicati anche a domini diversi da quelli tipici dell’industria chimica e di processo degli idrocarburi. Pertanto, la loro applicazione nel dominio dei trasporti ed in particolare al trasporto aereo `e certamente possibile. Questa sezione `e volta a definire e descrivere le principali sinergie, nonch´e a tracciare le differenze, tra i metodi classici di analisi di sicurezza e affidabilit` a dei sistemi, analizzati nelle precedenti sezioni, e la Sicurezza Funzionale. Inoltre, si descrivono brevemente i metodi disponibili per determinare i livelli di integrit`a dei sistemi.
44
1 Analisi sistemica di sicurezza: concetti e metodi
1.5.1 Definizione e concetto di integrit` a dei sistemi di sicurezza – SIL Per “Safety Integrity Level”, (SIL) si intende una misura del livello di sicurezza di un dato processo. In particolare i SIL offrono una possibile visione della misura e delle aspettative di funzionamento attese da parte di sistemi chiamati ad operare in condizioni di non-conformit` a od emergenza operativa. Le specificit`a di queste misure sono descritte nelle norme IEC 61508, IEC 61511, ` importante notare che nessun singolo prodotto JIS C 0508, e ISA SP84.01. E pu` o portare un valore di SIL. Componenti individuali, come ad esempio la strumentazione, possono solo essere certificati per l’uso all’interno di un determinato ambiente/valore di SIL. La necessit`a di ricavare e associare i valori SIL con “processi” deriva dall’analisi dei rischi quali “Risk Based Safety Analysis” (RBSA). RBSA ha il compito di valutare i rischi per la sicurezza di un processo, la loro quantificazione, e, successivamente, la classificazione che varia da accettabili a inaccettabili (Matrice di Rischio). I rischi sono accettabili quando possono essere moralmente, monetariamente, o per altri versi tecnologicamente, giustificati. Al contrario, rischi inaccettabili sono quelli le cui conseguenze sono troppo grandi o costose. Inoltre, quando i rischi sono giustificati, l’obbiettivo `e quello di arrivare ad un processo sicuro. Un tipico processo di RBSA potrebbe procedere come segue. Assegnando, come punto di partenza, un livello di sicurezza desiderato, viene stabilito un livello massimo di rischio accettabile, specificando anche la quantit` a di fallimenti che possono essere tollerati. Il processo pu`o quindi essere sezionato nei suoi componenti funzionali, ciascuno dei quali `e valutato per la gestione del rischio. Mediante la combinazione di questi livelli di rischio si ottiene una stima del rischio effettivo che pu` o essere confrontato con il livello rischio accettabile prestabilito. Quando il rischio effettivo supera il massimo valore accettabile, un’ottimizzazione del sistema o processo si rende ovviamente necessaria. Questa breve introduzione al concetto di SIL ed al processo di implementazione in analisi di rischio, legata dunque alle funzioni di sicurezza e non pi` u ai singoli componenti o sottosistemi chiamati ad intervenire in caso di incidente o evento di non-conformit` a, spiega il motivo del nome assegnato a tale branchia della sicurezza, cio`e “Sicurezza Funzionale”. I processi possono essere ottimizzati in funzione del rischio accettabile, scegliendo dei componenti particolari che sono anche riconosciuti per uso entro un certo valore di SIL. Ad esempio, se il valore di SIL per il processo in esame `e atteso molto alto (cio`e alto valore del livello di integrit` a dei sistemi di sicurezza coinvolti), tramite la scelta di certi componenti di alta qualit` a ed affidabilit` a, questo ` importante notare, tuttavia, che semplicemente obbiettivo pu` o essere raggiunto. E unire in un processo dei componenti di certi livelli di qualit` a non garantisce che il processo assuma automaticamente il valore di SIL atteso. Infatti, il valore di SIL del processo deve essere determinato attraverso un apposito metodo. Questi metodi sono, ad esempio:
1.5 Sicurezza Funzionale
• • • • •
45
analisi semplificate; analisi per mezzo di Grafi di Rischio (“Risk Graphs”); analisi mediante Alberi di Guasto; metodi semi-quantitativi e matrici di rischio; analisi di Markov, ecc.
La norma IEC 61508 definisce quattro livelli di Safety Integrity Level (da SIL1 a SIL4), a ciascuno dei quali `e associata una misura quantitativa crescente della necessaria riduzione del rischio e quindi il grado di integrit` a che il sistema di sicurezza deve raggiungere per poter garantire tale riduzione. Questa definizione `e di carattere generale, applicabile a tutti i sistemi correlati alla sicurezza e indipendente dal dominio di applicazione (trasporti, produzione, . . . ). La norma copre tutte le fasi di vita del sistema di sicurezza, dalla fase di progetto a quella di esercizio e manutenzione fino allo smaltimento e si applica a tutti i sistemi di sicurezza in cui almeno uno dei componenti incorpori dispositivi elettrici, elettronici o elettronici programmabili. 1.5.2 SIL e affidabilit` a Mentre l’obbiettivo principale del SIL `e l’interpretazione di un processo inerente la sicurezza, un importante sottoprodotto delle statistiche utilizzate per il calcolo del SIL `e la misura dell’affidabilit` a di un componente. Al fine di determinare se un componente pu`o essere utilizzato in un dato ambiente SIL, il componente deve essere dimostrato disponibile per svolgere i suoi compiti designati a un certo predeterminato rateo di performance. In altre parole, si deve definire quanto sia probabile che il dispositivo in questione sia disponibile e funzioni quando necessario. Le variabili in gioco per la determinazione della disponibilit` a di un componente (availability) comprendono: tempo medio tra guasti (“Mean Time Between Failures”, MTBF), tempo medio di riparazione (“Mean Time To Repair”, MTTR), e probabilit` a di fallimento a richiesta (“Probability to Fail on Demand”, PFD). Le valutazioni di queste variabili, combinate con considerazioni relative all’architettura del sistema in esame (vale a dire 2oo2, “Two-out-of-two”, rispetto a 2oo3, “Two-out-of-three”, o installazioni con sistemi tripli ridondanti “Triple Modular Redundant”, TMR, ecc.), contribuiscono a determinare l’affidabilit` a del sistema. Successivamente, questi dati di affidabilit` a, combinati con la probabilit` a del componente di fallire in un modo sicuro, noto come “Fail Safe” o “Safe Failure Fraction”(SFF), fissa il limite massimo nominale di SIL in cui il dispositivo pu` o essere usato. I valori di SIL possono essere equiparati alla probabilit` a di “Fail on Demand” del processo in questione, ovvero anche alle frequenze di guasto per unit`a di tempo di operativit` a del sistema. Le seguenti tabelle forniscono i valori riportati nella normativa IEC 61508 per l’associazione di valori di SIL con probabilit` a di guasto per operazioni continue, oppure On Demand.
46
1 Analisi sistemica di sicurezza: concetti e metodi
1.5.3 Calcolo del valore del SIL Come menzionato in precedenza, vi sono diverse tecniche per la determinazione del rating SIL per un determinato processo. Questi sono: metodi semplificati, Grafi di Rischio, Alberi di Guasto, Metodi semi-quantitativi, Analisi di Markov, ecc.. Ognuna di queste tecniche `e in grado di fornire un valore utile di SIL. In generale, pi` u la tecnica `e sofisticata, pi` u `e raffinato il calcolo del SIL. Pertanto, pi` u la tecnica `e semplificata, pi` u conservativo risulta essere il valore di SIL derivato. Quindi, ad esempio, la tecnica dei Grafi di Rischio `e pi` u conservativa, in termini di risultato, e meno complessa, per quanto concerne l’applicazione, dell’Analisi di Markov. Viceversa, l’approccio di Analisi di Markov `e pi` u preciso ma anche molto pi` u complesso. Gli Alberi di Guasto cadono nel mezzo. Per ognuna di queste tecniche, il primo passo `e quello di determinare la PFD per ogni componente. Per esempio, per un sistema “2oo3”, questo pu` o essere fatto utilizzando la seguente relazione: PFDmedia = (tasso di guasto) 2 ∗ Intervallo di prova dove: tasso di guasto = 1/MTBF. Nel caso di calcoli semplificati, il passo successivo `e la somma (booleana) dei PFD per ogni componente del processo. Il valore ottenuto pu` o quindi essere paragonato con i dati di Tab. 1.11 e/o Tab. 1.12 per avere il SIL globale del processo. Nel caso degli Alberi di Guasto, il passo successivo dovrebbe essere quello di produrre un diagramma di Albero di Guasto del sistema in esame. Questo schema `e un elenco dei vari componenti del processo coinvolti in un evento pericoloso. I componenti sono collegati tra di loro nell’Albero di Guasto attraverso la logica booleana. Una volta che questo `e fatto, il PFD per ogni percorso dell’albero `e determinato in base alla logica delle relazioni. Infine, i vari PFD sono combinati tra loro per produrre il PFDave per il processo. Ancora una volta, il valore ottenuto pu` o essere paragonato con i dati di Tab. 1.11 e/o Tab. 1.12 per avere il SIL globale del processo. L’analisi di Markov `e un metodo in cui `e prodotto un diagramma di stato per il processo di interazione tra vari componenti/funzioni di sicurezza. Questo Tabella 1.11. SIL e Probabilit` a di “Failure on Demand” Modalit`a operativa su richiesta SIL
Probabilit`a media di “Failure on demand”
Riduzione del rischio
4
≥ 10−5 a < 10−4
> 10.000 a ≤100.000
−4
−3
3
≥ 10
2
≥ 10−3 a < 10−2
1
−2
≥ 10
a < 10
a < 10
−1
> 1.000 a ≤10.000 > 100 a ≤1.000 > 10 a ≤100
1.5 Sicurezza Funzionale
47
Tabella 1.12. SIL e Probabilit` a di rottura per unit` a di tempo Modalit`a operativa continua SIL
Frequenza oraria di guasti pericolosi
4
≥ 10−9 a < 10−8
3
≥ 10−8 a < 10−7
2
≥ 10−7 a < 10−6
1
≥ 10−6 a < 10−5
stato comprender` a tutti gli stati possibili, comprese le situazioni di fuori linea derivanti da ogni modalit` a di guasto per tutti i componenti del processo. Attraverso il diagramma di stato, la probabilit` a di essere in un determinato stato, in funzione del tempo, `e determinata. Questa valutazione comprende non solo i MTBF e i PFD calcolati, ma include anche i tempi medi di riparazione (MTTR). Ci` o consente all’analisi di Markov di prevedere al meglio la disponibilit` a di un processo. Una volta ottenuta la probabilit` a di PFDave , si possono, ancora una volta, valutare i valori di SIL attraverso i dati di Tab. 1.11 e/o Tab. 1.12. Come la breve descrizione qui sopra mostra, il metodo semplificato `e il pi` u semplice da eseguire, ma fornir`a i risultati pi` u prudenti, e quindi dovrebbe essere utilizzato come un primo approccio per avvicinarsi ai valori di SIL reali, ottenuti attraverso una valutazione meno conservativa, per esempio tramite gli Alberi di Guasto. Questo metodo `e considerato da molti come il corretto mix di semplicit` a e completezza. Per altro, l’analisi Markov `e in grado di fornire il risultato pi` u preciso, ma pu` o essere molto onerosa e complicata da eseguire. Il metodo dei Grafi di Rischio I Grafi di Rischio sono un metodo proposto nella IEC 61508 (parte 5). Il metodo valuta qualitativamente, attraverso 4 parametri di rischio, rappresentati graficamente, il rischio derivante da assenza o non-operativit` a di una particolare funzione e determina il SIL relativo. I Grafi di Rischio hanno la struttura presentata in Fig. 1.18. Le diverse colonne e rami di un Grafo di Rischio si basano su valori specifici dei 4 parametri di rischio definiti come segue: 1. Severit` a delle Conseguenze (S): S1: Danni o ferite minori (“minor injury”). S2: Una o pi` u lesioni gravi e irreversibili, o una fatalit` a. S3: Diversi morti. S4: Effetti catastrofici, molti morti. Questo livello, utilizzato di norma solo per il nucleare, potrebbe essere applicato anche per il trasporto aereo.
48
1 Analisi sistemica di sicurezza: concetti e metodi
Figura 1.18. Grafi di Rischio
2. Esposizione ai pericoli (A): A1: Rara o infrequente esposizione a pericolo. A2: Frequente o costante esposizione a pericolo. 3. Difese e protezioni dalle conseguenze (G): G1: Possibile. G2: Appena possibile. 4. Probabilit` a di verificarsi dei pericoli (W ): W 1: Molto bassa (due ostacoli/barriere). W 2: Bassa (un ostacolo/barriera). W 3: Relativamente alta (senza altre barriere). Questi quattro parametri combinati compongono il rischio dal guasto di una particolare funzione di protezione/sicurezza: Rischio = Frequenza di eventi ∗ Gravit` a = W ∗ A ∗ S ∗ G. Questo rischio non `e calcolato esplicitamente e la tollerabilit`a appare solo implicitamente, attraverso l’assegnazione del SIL nel grafo. Ci` o significa che il SIL della funzione di sicurezza in esame, `e tale da ridurre il rischio ad un livello tollerabile. Severit` a–S Le categorie di severit`a in questo tipo di Grafi di Rischio sono enumerate da uno a quattro, ma questi livelli non corrispondono a quelli delle matrici di rischio di altre norme. I livelli dei Grafi di Rischio citati nella IEC61508 contengono anche la classe di gravit`a S4, che normalmente afferisce alle grandi catastrofi, tipicamente eventi di fusione del nocciolo nucleare. Quindi, si pu` o ritenere che nel dominio aeronautico, S2 e S3 corrispondono a livelli Critico e Catastrofico della Matrice di Rischio.
1.5 Sicurezza Funzionale
49
Esposizione – A L’esposizione di un passeggero ad un certo pericolo `e solo divisa in due classi. L’analisi di un fattore di pericolo inizia con il chiedersi se i passeggeri sono pi` u o meno direttamente esposti, che `e per lo pi` u il caso quando si va ad alti livelli di pericolo. Solo alcune operazioni non incidono direttamente sulla sicurezza dei passeggeri, ad esempio, un processo di manutenzione straordinaria ad un motore in avaria, effettuata in pista con passeggeri a bordo. Difese e protezioni dalle conseguenze – G Questo parametro permette la stima dei fattori di riduzione delle conseguenze associate al verificarsi di una catena di eventi di pericolo. In tale senso, rappresenta una misura delle barriere consequenziali, od esterne, esistenti e presenti nel sistema per limitare o contenere i danni (ultimo stadio di sicurezza sistemica), derivanti da diversi tipi di possibili catene incidentali. In altre parole, questo tipo di parametro misura la riduzione possibile delle conseguenze e non la riduzione della probabilit`a di occorrenza. La riduzione dei danni pu` o essere, per esempio, data dalla limitazione della velocit`a di un veicolo, quando questi si trova in corso di collisione con un ostacolo. Ovvero, si pu` o ipotizzare la possibilit`a che un passeggero eviti, per prudenza, di mettersi in condizione di rischio (es. mantenere sempre le cinture allacciate durante il volo). ` interessante notare come nel grafo precedente (Fig. 1.18) alcuni fattori di E riduzione del rischio non siano presi in considerazione, in particolare per le conseguenze di alta gravit` a (G per S3, G e A per S4), o viceversa per situazioni di bassa criticit`a. Ci` o riflette la tradizionale tendenza conservativa, quando si tratta di proteggere da incidenti rilevanti. Probabilit` a di verificarsi dei pericoli – W Per quanto riguarda la probabilit` a di occorrenza di pericolo, la parola “probabilit`a” associata al parametro W pu` o essere fuorviante. Infatti, l’espressione “possibilit`a” sarebbe pi` u appropriata, in quanto essa non comporta necessariamente una valutazione strettamente quantitativa di occorrenza di un evento, cosa che invece deve essere fatta, quando si assegna una di probabilit`a, la quale deve sempre essere accompagnata anche da una distribuzione di incertezza. Di fatto, questo parametro misura la presenza di ostacoli o barriere che limitano la probabilit` a di occorrenza di un evento di pericolo nel quadro di evoluzione di una dinamica incidentale. Pertanto, questo parametro d` a una valutazione delle barriere causali, od interne, alla catena incidentale, e si distingue dal parametro G, il quale si associa solo alla presenza di barriere orientate al contenimento delle conseguenze globali. Questo parametro viene utilizzato nel seguente modo: 1. viene assegnato un valore W 3 al parametro ogni volta che si verifica un pericolo che non pu` o essere controllato anche da un altro ostacolo/barriera causale supplementare (oltre alla funzione di tutela che `e oggetto di analisi);
50
1 Analisi sistemica di sicurezza: concetti e metodi
2. se invece un altro ostacolo o barriera pu` o prevenire l’evolvere del pericolo in un incidente, la “probabilit` a” W 2 pu` o essere assunta; 3. se esistono due o ulteriori barriere causali tali da limitare l’incidente, il parametro W 1 pu` o essere utilizzato. Ad esempio, la partenza di un treno con una porta aperta `e possibile solo se: a) il conducente non ha notato la situazione; b) un guasto locale alla chiusura mantiene una porta aperta, pur segnalandola come chiusa; e c) si `e in presenza del fallimento del segnale di porte aperte sul pannello di controllo. Esempio di applicazione di Grafi di Rischio Funzione: • Rilevamento di velocit` a eccessiva (trasporto stradale). Descrizione sintetica della funzione: • La velocit` a del veicolo (V) ed i limiti (Vmax e ΔVmax ) sono rilevati a bordo dai sottosistemi basati sul tachimetro e sui sensori, dove: – Vmax `e la massima velocit`a ammessa, rilevata elettronicamente o calcolata dai sistemi di bordo sulla base dei dati derivati da condizioni stradali, meteo ecc. – ΔVmax permette la definizione della velocit`a Vatt , superando la quale si avvia il segnale di allarme e parte il processo di reazione, che implica la limitazione elettronica della velocit`a: Vatt = Vmax − ΔVmax . Modi di funzionamento: • Obbligatorio: Attivit` a sensore Vmax in “Fail safe”: se lo strumento di rilevazione di Vmax `e guasto, un segnale di allarme di mancato funzionamento `e attivato (acustico e visivo) e la Vmax `e fissata ad un valore prestabilito (es: 50 Km/h). • Obbligatorio: Attivit` a sensore ΔVmax in “Fail safe”: se lo strumento di definizione di ΔVmax `e guasto, un segnale di allarme di mancato funzionamento `e attivato (acustico e visivo) e la ΔVmax `e fissata ad un valore prestabilito (es: 40 Km/h). • Obbligatorio: Attivit` a sensore V (tachimetro) in “Fail safe”: se il tachimetro `e guasto, un segnale di allarme di mancato funzionamento `e attivato (acustico e visivo) ed un dispositivo di “riconoscimento segnale” `e innescato che non permette la messa in moto senza un riconoscimento attivo della condizione di guasto da parte del conducente. Possibile guasto: • Una velocit` a eccessiva non rilevata porta ad un valore troppo elevato rispetto a quanto accettabile in curva o lungo un certo tratto stradale.
1.5 Sicurezza Funzionale
51
Figura 1.19. Valutazione del SIL per la Funzione “Rilevamento di velocit` a eccessiva”, per mezzo di Grafo di Rischio
Pericoli associati: • In caso di mancato rilevamento di velocit`a eccessiva, i veicoli possono avvicinarsi troppo, oltrepassando le distanze di sicurezza, ovvero si potrebbe operare in condizioni di velocit` a eccessive per il tratto di strada in oggetto. Possibili conseguenze / Incidenti / Severit` a: • La mancanza di rilevamento velocit`a eccessiva pu`o portare a collisioni o uscite di strada/deragliamenti con possibili morti e distruzione dei veicoli. ⇒ S3. Esposizione: • I passeggeri a bordo e possibili esseri umani al di fuori dei veicoli esposti perennemente a tale pericolo. ⇒ A2. Difese e protezioni dalle conseguenze: • Parametro non considerato in quanto non applicabile al grafo associato a livello di Severit` a S3. Probabilit` a di verificarsi dei pericoli - Possibili ulteriori barriere causali: • In caso di sovra-velocit`a inosservata, viene conservativamente assunto che nessuna ulteriore barriera (es: conducente) intervenga per ridurre le conseguenze. ⇒ W 3. Pertanto il Grafo di Rischio associato a tali considerazioni `e rappresentato in Fig. 1.19 e risulta in un valore di integrit` a della funzione di sicurezza “Rilevamento di velocit` a eccessiva“ pari a: SIL = 4. Metodo semi-quantitativo e Matrice di Rischio Il metodo utilizza come base la Matrice di Rischio (MdR), gi` a discussa in precedenza (Tab. 1.4 e Tab. 1.5), ed il rateo di pericolo accettabile (“Tolerable Hazard Rate”, THR) associato ad essa, come rappresentazione della frequenza tollerabile associata ad un dato pericolo.
52
1 Analisi sistemica di sicurezza: concetti e metodi
Per la selezione dei livelli di integrit`a di una data funzione di sicurezza (SIL) si combinano dunque la MdR ed i THR. Si richiamano qui di seguito le due misure di base per la valutazione del rischio, cio`e frequenza di incontro del pericolo e gravit`a delle conseguenze, e la conseguente definizione di rischio, anch’essa gi` a vista in precedenza e qui ripetuta per semplicit`a: Rischio = Frequenza (del pericolo) ∗ Severit` a (delle conseguenze). Dato che, per convenzione, si considerano 4 livelli di SIL (Tab. 1.11 e Tab. 1.12), questo metodo adotta una Matrice di Rischio basata solo quattro livelli di severit` a (“Severity Level”, SL), anzich´e cinque come precedentemente discusso (Tab. 1.4). Ci`o `e fatto per semplicit`a in relazione ai quattro livelli di SIL (Tab. 1.13). Tuttavia, volendo utilizzare una MdR a 5 livelli di severit` a, l’associazione dei SIL con degli intervalli di rateo di pericolo accettabile pu`o facilmente essere sviluppata attraverso una semplice estensione delle frequenze associate ai THR. L’applicazione di questo metodo `e semplicemente un’applicazione conservativa e sistematica dell’uso della tabella di relazioni THR/SIL (Tab. 1.14): Categoria di Severit` a “ SLα ” ⇒ SILα = THRα dove SLα identifica la severit` a assoluta associata al pericolo in esame (SL4 = Catastrofico, SL3 = Critico, SL2 = Marginale, SL1 = Trascurabile), cio`e senza Tabella 1.13. Matrice di Rischio a 4 livelli di severit` a
Severità SL
Trascurabile SL=1
Marginale SL=2
Critico SL=3
Catastrofico SL=4
Frequenza Frequente Probabile Occasionale Remoto Improbabile
Accettabile dopo revisione Accettabile senza revisione
Inaccettabile Indesiderabile Accettabile dopo revisione
Tabella 1.14. Relazione tra THR e SIL THR per ora e per funzione −9
THR4: 10
−8
THR3: 10
−8
≤ THR ≤ 10
−7
≤ THR ≤ 10
THR2: 10−7 ≤ THR ≤ 10−6 −6
THR1: 10
−5
≤ THR ≤ 10
SIL SIL4 SIL3 SIL2 SIL1
1.5 Sicurezza Funzionale
53
nessuna riduzione o aumento dovuto ad altre forme di correzioni ambientali, sociali o specifiche. Questo approccio tuttavia porta ad una stima prudente o conservativa del rischio rispetto al metodo di Grafo di Rischio, dal momento che non tiene conto di taluni fattori di riduzione del rischio come esposizione e prevenzione degli incidenti. Infatti, ci` o significa che si presume che quando si verifica un pericolo, questo porti direttamente a un incidente causando danni. Inoltre, spesso, in pratica, la frequenza di esposizione al pericolo senza funzione di protezione non `e stimata, e i valori di THR sono utilizzati per dare direttamente il SIL della funzione di protezione. Pertanto, solo un parametro deve effettivamente essere valutato per stimare il rischio, vale a dire la gravit` a delle sue potenziali conseguenze, al fine di determinare il SIL. Tale approccio ha il vantaggio di essere semplice e garantisce risultati riproducibili, ma trascura altri fattori che influenzano il rischio, e pu` o d’altro canto produrre richieste di eccessivi requisiti di integrit` a di sicurezza (SIL alti), soprattutto per i rischi con conseguenze inferiori a catastrofiche. Inoltre, la necessit` a di compatibilit` a, tra vari livelli di SIL utilizzati in pratica, rende necessario prendere in considerazione quei fattori che hanno un impatto potenziale sulla riduzione dei rischi. Pertanto, si rende necessario un ulteriore passo di valutazione quantitativa, e vari standard e norme (come IEC61508) considerano tre gruppi di fattori o parametri che potenzialmente incidono sulla riduzione del rischio: • Probabilit` a di esposizione a pericolo (E) Se c’`e un buon motivo per presumere, anche conservativamente, che i soggetti del gruppo a rischio (ad esempio, di passeggeri) non siano permanentemente esposti al rischio in esame, allora `e possibile una riduzione della probabilit`a di occorrenza. • Riduzione della probabilit` a di pericolo (P ) Spesso esistono dei validi motivi per presumere che l’evoluzione di un certo incidente possa essere chiaramente controllata da ulteriori ostacoli, barriere, o circostanze imposte ai possibili pericoli. Il parametro P `e simile al parametro W dei Grafi di Rischio. • Riduzione delle gravit` a delle conseguenze (C) Esistono anche valide misure di sicurezza per ritenere che si possano limitare le conseguenze sui membri del gruppo a rischio (ad esempio passeggeri), derivanti dall’occorrenza di pericoli, o ridurre considerevolmente i danni potenziali. In tal senso il parametro C `e simile al parametro G dei Grafi di Rischio. Integrare queste stime per la riduzione dei fattori provoca una questione sulla precisione numerica o valori di probabilit` a. Dato che tutti i passi citati / intervalli delle norme in materia di rischio sono espressi in termini di ordini di grandezza (SIL, Matrice di Rischio, Grafi di Rischio), `e chiaro che anche la riduzione dei fattori di rischio possa essere misurata in ordini di grandezza.
54
1 Analisi sistemica di sicurezza: concetti e metodi
Valori plausibili di riduzione delle probabilit` a attraverso i fattori E, P e C sono valutati come segue: E=1
L’esposizione dei membri del gruppo a rischio `e conservativa, ed `e assunto frequente o permanente.
E = 10−1
L’esposizione dei membri del gruppo a rischio si pu` o conservativamente presumere come rara, e solo in casi eccezionali (ad esempio i passeggeri in piedi durante fasi iniziali/finali del volo, ecc.).
E = 10−2
L’esposizione dei membri di un gruppo a rischio `e presente solo in rarissimi casi (ad esempio, i passeggeri in un aereo in hangar, ecc.).
P =1
Non si pu` o contare su nessun ulteriore ostacolo per ridurre la probabilit` a del pericolo nell’evoluzione di un incidente.
P = 10−1
Esistenza di un mezzo o circostanza che chiaramente tendono a ridurre la probabilit` a che un certo pericolo evolva in un incidente (ad esempio, il personale di bordo `e capace di intervenire in caso di mancato uso di sistemi o presenza di pericoli, quali ad esempio presenza di neve/ghiaccio sulle ali).
P = 10−2
Esistono almeno due mezzi o circostanze, per ridurre chiaramente e autonomamente la probabilit` a che un certo pericolo evolva in un incidente (ad esempio, presenza di personale di bordo specificatamente adibito al compito di sorveglianza dell’apertura/chiusura delle porte e un sistema di sensori capaci di valutare lo stato di apertura o meno del portellone).
C=1
Non vi `e motivo di supporre conservativamente che si possa limitare o evitare che membri del gruppo a rischio (ad esempio passeggeri) siano soggetti alle conseguenze di un certo pericolo.
C = 10−1
Esiste una barriera consequenziale o misura di protezione per supporre conservativamente che questa possa limitare le conseguenze sui membri del gruppo a rischio (ad esempio passeggeri), limitando, di fatto, il rischio globale associato all’occorrenza.
C = 10−2
Esistono almeno due barriere consequenziali o misure di sicurezza indipendenti capaci conservativamente di contenere le conseguenze di una certa occorrenza, di fatto riducendone il rischio.
Se uno qualsiasi dei fattori di riduzione pu` o essere plausibilmente e conservativamente applicato, la relazione tra una certa gravit` a ed il conseguente SIL della funzione di sicurezza diventer` a: Categoria di Severit` a “ SLe ” ⇒ THRe = THRα /(E ∗ P ∗ C) ⇒ SILe dove e rappresenta il valore effettivo della severit`a e di conseguenza del SILe `e valutato, sempre come un valore compreso fra 1 e 4. Esempio di applicazione del Metodo semi-quantitativo Funzione: • Rilevamento di velocit` a eccessiva (trasporto stradale).
1.5 Sicurezza Funzionale
55
Descrizione sintetica della Funzione: • La velocit` a del veicolo (V) ed i limiti (Vmax e ΔVmax ) sono rilevati a bordo dai sottosistemi basati sul tachimetro e sui sensori, dove: – Vmax `e la massima velocit`a ammessa, rilevata elettronicamente o calcolata dai sistemi di bordo sulla base dei dati derivati da condizioni stradali, meteo ecc. – ΔVmax permette la definizione della velocit`a Vatt , superando la quale si avvia il segnale di allarme e parte il processo di reazione, che implica la limitazione elettronica della velocit`a: Vatt = Vmax − ΔVmax . Modi di funzionamento: • Obbligatorio: Attivit` a sensore Vmax in “Fail safe”: se lo strumento di rilevazione di Vmax `e guasto, un segnale di allarme di mancato funzionamento `e attivato (acustico e visivo) e la Vmax `e fissata ad un valore prestabilito (es: 50 Km/h). • Obbligatorio: Attivit` a sensore ΔVmax in “Fail safe”: se lo strumento di definizione di ΔVmax `e guasto, un segnale di allarme di mancato funzionamento `e attivato (acustico e visivo) e la ΔVmax `e fissata ad un valore prestabilito (es: 40 Km/h). • Obbligatorio: Attivit` a sensore V (tachimetro) in “Fail safe”: se il tachimetro `e guasto, un segnale di allarme di mancato funzionamento `e attivato (acustico e visivo) ed un dispositivo di “riconoscimento segnale” `e innescato che non permette la messa in moto senza un riconoscimento attivo della condizione di guasto da parte del conducente. Possibile guasto: • Una velocit` a eccessiva non rilevata porta ad un valore troppo elevato rispetto a quanto accettabile in curva o lungo un certo tratto stradale. Pericoli associati: • In caso di mancato rilevamento di velocit`a eccessiva, i veicoli possono avvicinarsi troppo, oltrepassando le distanze di sicurezza, ovvero si potrebbe operare in condizioni di velocit` a eccessive per il tratto di strada in oggetto. Possibili conseguenze/Incidenti: • La mancanza di rilevamento velocit`a troppo elevata pu` o portare a delle collisioni o uscite di strada/deragliamenti con possibili morti e distruzione dei veicoli. ⇒ Livello di Severit` a SLα = 4. Esposizione: • I passeggeri a bordo e possibili esseri umani al di fuori dei veicoli esposti perennemente a tale pericolo. ⇒ E = 1.
56
1 Analisi sistemica di sicurezza: concetti e metodi
Figura 1.20. Valutazione del SIL e THR effettivi mediante metodo semi-quantitativo
Possibili barriere di sicurezza a ridurre i pericoli: • In caso di sovra-velocit`a inosservata, nessuna ulteriore barriera (driver ecc) pu` o conservativamente essere assunta per ridurre le probabilit` a dei pericoli presenti. ⇒ P = 1. Possibile riduzione conseguenza: • I passeggeri non possono evitare n´e sono prevedibili contenimenti delle conseguenze. ⇒ C = 1. Pertanto la valutazione del SIL e del THR effettivi `e fatta di conseguenza (Fig. 1.20). Caso studio: foreign object damage – FOD Funzione: • Rilevamento in cockpit di oggetto imprevisto in pista di rullaggio. Descrizione sintetica della Funzione: • Il FOD `e rilevata a bordo dai piloti. Modi di funzionamento: • Obbligatorio: Controllo visivo da parte dei piloti della pista per presenza di eventuali FOD. • Opzionale: Inclusione del controllo presenza FOD nella procedura di rullaggio. Possibile guasto: • FOD non rilevato. Pericoli associati: • In caso di mancato rilevamento e di oggetti di dimensioni di rilievo sono possibili danni molto seri e pericolo di perdita di aeronavigabilit` a. Possibili conseguenze/Incidenti: • La mancanza di rilevamento del FOD e i danni sull’aeromobile potrebbero causare un incidente con molti morti tra i passeggeri e l’equipaggio ⇒
1.6 Metodologia globale per la valutazione prospettica del rischio
57
– Grafo di Rischio: Severit` a delle Conseguenze: S3. – Metodo semi-quantitativo: Livello di Severit` a SLα = 4. Esposizione: • I passeggeri a bordo e possibili esseri umani al di fuori dei veicoli esposti perennemente a tale pericolo ⇒ – Grafo di Rischio: Frequente o costante esposizione a pericolo: A2. – Metodo semi-quantitativo: Esposizione dei membri del gruppo a rischio `e assunto frequente o permanente: E = 1. Possibili barriere di sicurezza: • In caso di FOD di una certa rilevanza, `e possibile che questi vengano identificati dal personale di terra e pertanto esiste una barriera aggiuntiva. Si pu` o conservativamente assumere ⇒ – Grafo di Rischio: Probabilit` a bassa di verificarsi situazioni di pericolo: W 2. – Metodo semi-quantitativo: Esistono circostanze che chiaramente tendono a ridurre la probabilit` a che il pericolo di grande FOD non rilevato evolva in un incidente: P = 10−1 . Possibile riduzione conseguenza: • I passeggeri non possono evitare le conseguenze ⇒ – Grafo di Rischio: Il parametro Difese e protezioni dalle conseguenze (G) non `e applicabile, essendo il livello di severit`a delle conseguenze uguale a S3. – Metodo semi-quantitativo: il parametro Riduzione delle Gravit` a delle conseguenze viene settato al valore uno come da definizione: C = 1. I risultati della valutazione del SIL con tali metodi sono riassunti in Fig. 1.21.
1.6 Metodologia globale per la valutazione prospettica del rischio Siamo ora in grado di delineare una metodologia per la valutazione prospettica del rischio, cio`e un insieme di metodi e modelli, tali da permettere una stima quantitativa predittiva dei rischi associati ad un determinato sistema, sia esso in fase di progetto, o in costruzione, oppure durante la vita o in fase di smantellamento dello stesso. Tale metodologia si sviluppa in una serie di passi sequenziali o ripetuti che comportano l’applicazione dei metodi e modelli descritti in precedenza e percorrono le tre fasi principali di analisi viste in precedenza, cio`e, l’analisi preliminare dei pericoli (PHA), l’analisi di rischio del sistema (SHA) e l’implementazione delle misure di sicurezza (QAT). Esulano dalla descrizione che segue tutti i metodi e procedure tipiche relative ai fattori umani, i quali verranno trattati a parte nel prossimo capitolo. Tuttavia, dato il carattere generale della metodologia, l’integrazione delle valutazioni associate alle performance ed ai contributi dei fattori umani all’analisi del rischio verranno identificati per quanto concerne i loro contributi e la loro presen-
58
1 Analisi sistemica di sicurezza: concetti e metodi
Figura 1.21. Valutazione del SIL di FOD con metodi: Grafo di Rischio e Semi-quantitativo
za nel processo metodologico globale di valutazione del rischio. Resta inteso che i rischi e le frequenze dei contributi relativi a tali fattori umani dovranno essere “calcolati” applicando i metodi descritti nel capitolo successivo. Una metodologia completa ed esaustiva per lo studio del rischio associato ad un sistema tecnologico complesso `e delineata in Fig. 1.22. Sono identificati una serie di passi che verranno ora descritti in dettaglio e inquadrati in relazione alle fasi di sviluppo di un’indagine quantitativa di rischio di impianto. Passo 1: Definizione del sistema, funzioni di sicurezza e barriere (“System Definition”) Il sistema nella sua globalit`a, le principali barriere di sicurezza, consequenziali e causali, e le condizioni al contorno devono essere definite in relazione alle “Funzioni di Sicurezza”. Passo 2: Identificazione dei pericoli (“Hazard Identification”) Il passo due si identifica con la fase di analisi preliminare dei pericoli (PHA). I contesti relativi a possibili incidenti ed eventi gravi devono essere inquadrati nell’insieme di scenari o contesti incidentali (“Accident Contexts”). Uno scenario incidentale `e definito in relazione ad un contesto operativo (“Operational Context”), ad una configurazione pericolosa o pericolo potenziale (“Boundary Hazard”) e ad una serie di possibili occorrenze incidentali. Questi sono cos`ı definiti: a. il contesto operativo (“Operational Contex”) `e definito attraverso una modalit` a operativa, una fase operativa ed un settore operativo, eventualmente associati ad alcune specifiche circostanze;
1.6 Metodologia globale per la valutazione prospettica del rischio
59
Figura 1.22. Approccio metodologico all’analisi quantitativa prospettica del rischio (QRA)
b. una configurazione pericolosa (“Boundary Hazard”) `e uno stato limite del sistema, che ha la potenzialit`a, direttamente o in combinazione con altri fattori esterni al sistema, di dare luogo ad un incidente o occorrenza grave a livello di sistema;
60
1 Analisi sistemica di sicurezza: concetti e metodi
c. le occorrenze incidentali da studiare sono selezionate partendo da insiemi standard di incidenti possibili e configurazioni pericolose, le quali devono essere adottate in modo tale da avere dei valori di severit` a, frequenza e rischio di riferimento generali. La conoscenza di scenari incidentali generici `e necessaria al fine di rendere la valutazione del rischio la pi` u realistica possibile e confrontabile con altri studi simili e di riferimento normativo. L’identificazione degli scenari specifici da analizzare per un dato sistema passa attraverso lo studio dell’impatto sulla sicurezza e delle forme che tali scenari generici assumono in relazione al sistema in esame (analisi costi/benefici). Ci`o si concretizza nei due seguenti risultati: a. consolidamento degli scenari incidentali specifici da studiare per un dato sistema; b. revisione delle funzioni di sicurezza da considerare nella fase successiva di analisi di rischio del sistema. Passo 3: Valutazione delle Conseguenze (“Consequence Analysis”) La fase di analisi di rischio del sistema (SHA) si sviluppa su diversi passi metodologici. Anzitutto si effettua una valutazione qualitativa delle conseguenze attraverso l’analisi delle barriere consequenziali (“consequence barriers”) che possono proteggere e limitare le conseguenze di configurazioni pericolose. Una barriera consequenziale `e in grado di ridurre o eliminare l’occorrenza o almeno di ridurne la severit` a. Ogni scenario incidentale, identificato nella fase precedente, `e associato ad un particolare evento iniziatore, e ad una catena (sequenzialit` a) di funzioni di sicurezza sia tecniche che di interventi umani. Le combinazioni o sequenze composte da eventi iniziatori ed interventi delle varie funzioni di sicurezza previste, sia umane che tecnologiche, costituiscono l’insieme degli elementi che permettono la costruzione di “Alberi di Evento”. Questi permettono una prima stima delle conseguenze, in relazione all’operativit` a o meno delle barriere/funzioni di sicurezza considerate. Passo 4: Analisi delle Cause Per ogni “nodo” degli Alberi di Evento ottenuti dalla fase precedente vengono analizzate le possibili cause di corretta o inadeguata funzionalit` a. Vengono considerate le barriere causali (“cause barriers”) che hanno l’obbiettivo di prevenire i pericoli specifici e limitare la probabilit` a che questi evolvano in configurazioni pericolose. Vengono inoltre definite le condizioni di operabilit` a delle funzioni e sistemi di sicurezza e delle relative procedure operative. L’analisi delle cause di pericolo, e relative barriere, e la valutazione dell’operabilit` a dei sistemi e procedure di sicurezza da origine agli Alberi di Guasto, che permettono di identificare le correlazioni esistenti tra diversi elementi basici dei sistemi, la cui cattiva funzionalit` a o rottura, ovvero errore umano, possono combinarsi per dare origine al mancato successo o funzionalit`a di tutta la funzione di sicurezza stessa.
1.6 Metodologia globale per la valutazione prospettica del rischio
61
In prima istanza, gli Alberi di Guasto cos`ı costituiti sono di natura qualitativa, in quanto i valori di probabilit` a di guasto dei componenti primari e la loro combinazione probabilistica richiede un calcolo specifico. Ci`o `e fatto nel passo successivo della valutazione del rischio. Passo 5: Stima dei rischi (“Risk Estimation”) La stima dei rischi associati ai vari pericoli analizzati `e il passo fondamentale di valutazione del processo di quantificazione del rischio di impianto. Data la sua complessit`a viene scomposto in una serie di passaggi specifici. a. Assegnazione di probabilit`a di guasto/errore e indici di rischio. – Si comincia con l’assegnazione delle probabilit`a di guasto dei vari componenti costitutivi dei sistemi tecnici e dei possibili errori umani. – A ciascuna di queste probabilit` a viene assegnata una distribuzione di incertezza. – Vengono quindi assegnati i ratei di pericolo accettabile (“Tolerable Hazard Rate”, THR), che rappresentano una misura del rischio ritenuta accettabile in associazione ad ogni funzione di sicurezza, barriera consequenziale e specifici contesti operativi. Si noti quindi che i THR sono definiti a livello di funzione di sicurezza o barriera specifica, e non gi`a a livello di impianto o di incidente. – Per ogni incidente viene identificato il rateo accettabile, o “Tolerable Accident Rate” (TAR) attraverso la combinazione dei THR delle varie funzioni di sicurezza che caratterizzano la sequenza incidentale stessa. Ovviamente, non sar` a possibile assegnare ad un incidente un valore del TAR inferiore al valore combinato dei ratei accettabili (THR) derivati dai vari pericoli specifici che si incontrano nella catena incidentale. Viene cio`e definita la Matrice di Rischio relativa all’incidente o famiglia di incidenti con i relativi valori accettabili di TAR. – Qualora si utilizzino le tecniche dell’analisi funzionale di sicurezza, vengono assegnati i livelli di integrit` a (SIL) dei sistemi e funzioni di sicurezza, le ridondanze e le misure di prevenzione e protezione impiegate. Quando diversi sistemi e barriere vengono integrati nell’intenzione di ottenere livelli alti di SIL e quindi di minimizzare il THR, un’attenzione particolare va dedicata ai problemi di dipendenza e cause comuni di guasto. L’applicazione di metodi di analisi funzionale semplifica il calcolo del rischio di impianto, riducendo, attraverso il concetto di SIL, i calcoli relativi alla combinazione della probabilit` a di malfunzionamento di sistemi, per mezzo degli alberi di guasto, che sono effettuati nel passaggio successivo. Tuttavia, il processo logico di valutazione del rischio di impianto resta inalterato. b. Per ogni incidente vengono poi calcolate le probabilit`a e distribuzioni di incertezza associate alle diverse configurazioni incidentali studiate ed alle loro conseguenze. Questo `e l’insieme dei rischi di impianto. – Le probabilit` a di occorrenza di ogni incidente vengono calcolate combinando Alberi di Evento ed Alberi di Guasto, in presenza di probabilit` a di guasto dei singoli componenti dei sistemi e delle protezioni e riduzioni offerte dalle
62
1 Analisi sistemica di sicurezza: concetti e metodi
barriere previste dal progetto, associate alle loro probabilit`a di successo o insuccesso. I dati relativi ai ratei di guasto di sistemi e di singoli componenti, con le relative distribuzioni di incertezza, sono derivati dalle banche dati internazionali, dall’esperienza specifica di impianto e dal giudizio di esperti. – Le distribuzioni di incertezza, associate ai diversi guasti ed errori, vengono propagate attraverso gli alberi di evento mediante l’applicazione di tecniche specifiche, ad esempio metodi Montecarlo. In questo modo si ottiene la distribuzione di incertezza associata alla probabilit` a ad ogni configurazione incidentale. c. Infine, a conclusione della fase di quantificazione del rischio di impianto, vengono confrontati i rischi di ogni incidente, sulla base delle relative probabilit` a di occorrenza e della severit` a associate, con i valori accettabili (TAR) della Matrice di Rischio (MdR). – Se i valori del rischio calcolati rientrano nell’area accettabile della Matrice di Rischio, allora la fase successiva e finale dell’analisi prospettica di sicurezza probabilistica pu` o essere iniziata. – Altrimenti, si rende necessario un miglioramento e cambiamento delle barriere consequenziali e barriere causali di sicurezza ed eventualmente anche una revisione globale progetto, con la ripetizione di tutto lo studio di valutazione dei rischi. Tale processo iterativo deve essere ripetuto fino a che non si ottengono risultati accettabili per i rischi di impianto in relazione alla Matrice di Rischio adottata. Passo 6: Implementazione delle funzioni di sicurezza La fase di implementazione delle misure di sicurezza (QAT) implica che il livello finale di sicurezza, calcolato ed accettato in relazione ai vari sistemi di un impianto attraverso i passi 1-5, venga effettivamente implementato e ulteriormente confermato attraverso i seguenti processi: a. Valutazione della qualit` a “Quality Assurance” dei prodotti e sistemi tecnici utilizzati. b. Addestramento e formazione del personale tecnico, a tutti i livelli. c. Studio deterministico di scenari incidentali di massimo incidente credibile, al fine di dimostrare (validazione) che le funzioni di sicurezza implementate in base all’analisi probabilistica prospettica di sicurezza sono comunque in grado di preservare adeguati margini di accettabilit` a, anche in relazione alla valutazione deterministica sicurezza.
2 Fattori umani nell’analisi di sicurezza
L’obbiettivo principale di questo capitolo `e quello di presentare e discutere le teorie ed i metodi pi` u diffusi e noti per l’implementazione dei fattori umani in analisi di sicurezza, sia a livello di progetto, sia nell’analisi di rischio di un sistema aeronautico. Vengono anzitutto presentati i modelli di comportamento umano sviluppati negli ultimi anni e pi` u comunemente usati per descrivere il sistema congiunto uomo-macchina. In particolare, si far` a riferimento al paradigma comportamentale dell’uomo come sistema processore di informazione. Di seguito sono rivisti sia i metodi classici di affidabilit` a umana, sia le tecniche pi` u recenti basate su modelli di comportamento cognitivo, orientate allo studio del rischio derivante da fattori umani in condizioni dinamiche. Infine viene discussa in dettaglio una delle tecniche classiche pi` u comunemente utilizzate, denominata “Technique for Human Error Rate Prediction” (THERP), mostrando tutti i passaggi e le risorse di dati necessari per la sua implementazione pratica.
2.1 Introduzione L’importanza di includere le considerazioni relative all’elemento umano nell’analisi di sicurezza di impianti e sistemi aeronautici `e stata ampiamente accertata e, con il maturare della disciplina, `e progressivamente aumentata l’attenzione dedicata all’impatto che le interazioni uomo-macchina hanno nella gestione dell’impianto, sia in situazioni di normale operativit` a, sia in situazioni di incidente o transitorio anormale. Ci` o porta ad un miglioramento sia dell’efficienza sia della sicurezza nella gestione dell’impianto. L’obbiettivo principale di questo capitolo `e di presentare e discutere le teorie ed i metodi pi` u diffusi e noti per l’implementazione dei fattori umani, sia in studi prospettici sia in indagini retrospettive. In questo modo verr` a fornito un quadro globale di possibili approcci che l’analista di sicurezza, o il responsabile della sicurezza, potr`a utilizzare per far fronte alle sempre pi` u frequenti e pressanti Cacciabue P. Carlo: Sicurezza del Trasporto Aereo. c Springer-Verlag Italia 2010, Milano
64
2 Fattori umani nell’analisi di sicurezza
esigenze di inclusione dei fattori umani a livello di progetto, di analisi di sicurezza deterministica e probabilistica, e di studio di incidenti. Verr` a infine discussa una metodologia specifica per l’inclusione di fattori umani in studi di sicurezza e progetto di sistemi integrati uomo-macchina, la quale offrir`a un quadro riassuntivo e sistematico di come i vari modelli possono interagire ed integrarsi con metodi di calcolo e simulazione di impianti.
2.2 I Fattori Umani nella tecnologia moderna Oggigiorno il progetto e l’analisi di sicurezza di sistemi tecnologicamente avanzati non sono pi` u solo retaggio dell’ingegneria “classica”, come forse poteva essere in passato, ma implicano il contributo, la collaborazione e la considerazione di esperienze, prospettive e competenze diverse, specialmente per quanto riguarda l’area dei fattori umani e l’ergonomia dei sistemi di controllo. Esempi tipici di tali sistemi si trovano nel dominio del trasporto aereo, marittimo, ferroviario e stradale, o nella produzione di energia, negli impianti di processo e chimici, ovvero per l’estrazione e distribuzione di materie prime, quali petrolio e gas. Questo fa pensare che il progetto di “sistemi”, cos`ı come definiti in precedenza, pur restando retaggio culturale e dominio di pertinenza dell’ingegneria, richiede l’applicazione di concetti, teorie e metodi che includono ed integrano gli aspetti relativi ai fattori umani. La scienza e lo studio dei Fattori Umani (“Human Factors”, HF) possono essere integrati in una ben precisa disciplina, definita come segue: I Fattori Umani rappresentano la disciplina che si occupa dell’analisi e dell’ottimizzazione delle relazioni tra le persone e le loro attivit` a, integrando le scienze umane e l’ingegneria in applicazioni sistemiche e prendendo in considerazione gli aspetti cognitivi e socio-tecnici dei contesti lavorativi. Attraverso questa definizione, il concetto di Fattori Umani supera la visione puramente ergonomica dell’uomo in ambiente di lavoro (Edwards, 1988), e va al di l` a della scienza comportamentale in ambiente lavorativo, comprendendo sia gli aspetti cognitivi sia le prospettive di progetto e analisi di sicurezza del sistema integrato uomo-macchina. Due fattori principali hanno dato origine e contribuiscono tuttora a tali nuove prospettive: l’applicazione estesa dell’automazione e la grande affidabilit`a meccanica dei componenti e delle strutture. L’automazione, che rappresenta il modo in cui i processi di produzione ed i compiti operazionali sono sviluppati, eseguiti e controllati da macchine o sistemi elettronici indipendenti, ha certamente reso gli impianti moderni molto pi` u semplici da controllare e gestire dei loro predecessori. Il progetto di sistemi automatizzati deve tuttavia tenere in considerazione i concetti di progetto incentrato sull’uomo (“Human-Centred-Design”, HCD), il cui principio fondamentale `e che l’operatore deve mantenere un ruolo centrale nel processo di gestione e/o supervisione dell’impianto, in maniera tale da permettergli
2.2 I Fattori Umani nella tecnologia moderna
65
di essere costantemente in grado di anticipare le “performance” dell’impianto. Ci`o avviene attraverso il controllo e la supervisione delle procedure e delle funzioni del sistema automatico stesso (Billings, 1997). Purtroppo, questo principio fondamentale non viene sempre rispettato dai progettisti, o, a volte, non `e completamente compreso dagli operatori, per cui, in caso di anomalie e, soprattutto, di emergenze non conosciute, le operazioni di gestione e controllo tendono a diventare confuse e problematiche. Ad esempio, in tali circostanze, si pu`o verificare uno “scollamento” tra la percezione delle situazioni (“Situational Awareness”, SA) dell’operatore e del sistema (autonomo) automatico con conseguenze a volte catastrofiche. Questo significa che il lavoro di controllo in tali impianti richiede notevoli qualit` a soprattutto in termini di attivit` a cognitive ed intellettuali piuttosto che di abilit` a sensorimotorie. In altri termini, l’impianto si comporta e risponde attraverso i sistemi automatici, i quali seguono le direttive impostate dai loro progettisti. Queste non sono sempre conosciute e familiari agli operatori. Inoltre, in condizioni incidentali, gli aspetti dinamici delle sequenze degli eventi complicano ulteriormente la complessit`a intrinseca delle situazioni e, di conseguenza, rendono ancora pi` u problematici i ragionamenti ed i processi decisionali degli operatori (Rankin, e Krichbaum, 1998; Hollnagel, 1993). Questi aspetti (automazione dei processi e complessit`a di situazioni) tendono a ridurre la numerosit`a degli “errori” umani, soprattutto a livello comportamentale, ma aumentano la portata delle conseguenze, quando gli “errori” di ragionamento, comprensione o decisione, normalmente legati alle conoscenze, alla cultura ed al contesto socio-tecnico del sistema, riescono ad infrangere le protezioni e barriere del sistema, diventando difficili da gestire, controllare e contenere. Pertanto, questo primo fattore gioca un ruolo importante nel peso relativo del contributo degli errori umani, soprattutto in relazione alla gravit` a degli incidenti che avvengono nei sistemi moderni ad alta automazione. Per quanto concerne il secondo fattore, cio`e l’affidabilit` a dei componenti elettromeccanici di un impianto, bisogna anzitutto ricordare che negli ultimi anni la tecnologia ha dato origine a componenti sempre pi` u affidabili, ed il progetto di impianti permette, grazie a ridondanze e protezioni, la gestione dei processi fondamentali e la funzionalit` a dei sistemi critici per la sicurezza, anche in presenza di guasti e malfunzionamenti locali. In questo modo, il contributo del fattore umano all’analisi di sicurezza `e diventato di primaria importanza e l’errore umano appare nella stragrande maggioranza degli incidenti. In sostanza, il contributo del fattore umano agli incidenti in impianti moderni diventa viepi` u visibile sia a livello statistico sia in termini di importanza relativa alla gravit` a di ogni incidente. Pertanto diventa vitale essere in grado di rappresentare analiticamente e simulare numericamente il ruolo e contributo del comportamento, in generale, ed in particolare, dell’errore umano nella generazione e sviluppo di incidenti. In generale, il principio, che oggigiorno `e generalmente accettato, implica una stretta correlazione tra errore e fattori ambientali ed organizzativi in cui l’errore si genera e si manifesta. Tale correlazione varia di caso in caso. In particolare, il contributo umano alla catena incidentale va inquadrato in una prospettiva di
66
2 Fattori umani nell’analisi di sicurezza
analisi organizzativa, la quale considera “l’errore umano” non gi`a come la causa di eventi, ma bens`ı la conseguenza di altri fattori che risiedono a dei livelli dell’organizzazione, alle volte, diversi da quelli direttamente coinvolti nell’incidente. Questi fattori rappresentano gli elementi “patogeni” o “latenti” del sistema socio-tecnico che vanno identificati ed eliminati, cos`ı da prevenire e cancellare le loro possibili svariate conseguenze sui comportamenti “attivi” degli operatori di prima linea. Dal punto di vista della sicurezza, nel caso della trattazione formale del problema degli errori umani, vale lo stesso principio gi`a enunciato in prima istanza in questo testo in relazione alla definizione di sicurezza dei sistemi. Pertanto vale la seguente definizione: La gestione degli errori umani (“error management”) in termini di sicurezza comprende la variet` a di metodi sviluppati per prevenire e ridurre gli errori umani, per recuperare la normalit` a e per controllare le conseguenze avverse degli errori, qualora questi venissero comunque commessi. Pi` u estesamente: • Prevenire e ridurre gli errori umani, implica: mettere in atto tutte le misure (barriere causali) necessarie per fare in modo che un errore, a tutti i livelli di un’organizzazione, non sia commesso o venga impedito, cio`e, mediante l’implementazione di misure tecniche e non-tecniche (training, procedure) tendenti a migliorare la resistenza dell’organizzazione agli errori umani. • Recuperare la normalit` a, richiede: approntare le misure necessarie per ristabilire condizioni di operabilit` a e normalit`a funzionale in presenza di tipi di errore che avvengono comunque. • Controllare le conseguenze, porta a: definire le misure ingegneristiche (barriere consequenziali) che rafforzano la risposta tecnologica agli errori umani, contenendo il pi` u possibile le conseguenze degli errori in termini di danno alle persone, all’ambiente ed al sistema tecnologico stesso. Per poter strutturare la modellistica dei sistemi uomo-macchina e quindi trattare adeguatamente il problema degli errori umani, si rende necessaria l’identificazione degli elementi caratterizzanti tali tipologie di sistemi, soprattutto sotto il profilo umano.
2.3 Definizioni ed elementi caratteristici di Sistemi Uomo-Macchina Tutti i sistemi tecnologici complessi, quali ad esempio gli aeromobili, le navi, le sale controllo del traffico aereo, degli impianti chimici e dei sistemi di produzione di energia, operano in ambienti a rischio e condividono una serie di caratteristiche che influenzano e sono strettamente legate all’interazione tra gli uomini ed i sistemi di controllo (Maurino et al., 1995; Dismukes, 2009). In particolare per quanto
2.3 Definizioni ed elementi caratteristici di Sistemi Uomo-Macchina
67
concerne i fattori umani e l’interazione uomo-macchina, tutti tali sistemi possono essere rappresentati in maniera formalmente simile. Una definizione comprensiva di tali aspetti fisici, tecnici e sociali di un Sistema Uomo-Macchina non pu` o che essere complessa, se con essa si intendono coprire tutte le aree di interazione possibili che influenzano, in ultima analisi, la gestione di un impianto. Tale definizione pu` o dunque assume la forma seguente (DOD, 1982): Un Sistema Uomo-Macchina pu` o essere definito come l’insieme degli elementi costituiti dal personale, dalle procedure, materiali, strumenti, equipaggiamento, infrastrutture e software che fanno parte di un impianto. Tali elementi interagiscono e vengono utilizzati nell’ambiente operazionale per mettere in opera i compiti assegnati o per ottenere specifici risultati, ovvero per raggiungere gli obbiettivi prefissati da una missione specifica.
2.3.1 Il Sistema Uomo-Macchina Ogni interazione tra una macchina ed il suo operatore si colloca sempre in un contesto reale che `e caratterizzato dalla definizione di “Sistema Uomo-Macchina” e dall’interazione uomo-macchina (“Human-Machine Interaction”, HMI), dove: 1. per “Uomo” si intende l’operatore che agisce e controlla l’impianto attraverso l’implementazione di procedure e azioni di controllo; 2. per “Macchina” si intende, in senso allargato, l’impianto vero e proprio, con i suoi sistemi di interfaccia e controllo, e l’ambiente di lavoro in cui avviene tale interazione. Il modello di “Macchina” Pi` u in dettaglio quindi, il modello di “Macchina” comprende (Fig. 2.1): • le interfacce, cio`e i pannelli di rappresentazione sinottica, gli indicatori ed i sistemi di supporto alle decisioni, che permettono agli operatori di percepire e comprendere le informazioni circa lo stato e l’evolversi di un sistema e, quindi, di sviluppare le strategie necessarie per la sua gestione; • gli attuatori ed i comandi con i quali si mettono in pratica le intenzioni e le strategie di controllo, attraverso operazioni sull’automazione. L’ambiente di lavoro `e costituito dai seguenti aspetti fisici e socio-tecnici: • il contesto reale nel quale si lavora, che include quindi rumore, spazio, luminosit`a, temperatura, comfort, eccetera; • le interazioni con i colleghi, con cui si collabora direttamente o si coopera a distanza per il controllo dell’impianto; • il contesto sociale, che `e rappresentato dal management, dalle direttive dell’organizzazione, dalla societ` a e dalla cultura nazionale in cui si opera.
68
2 Fattori umani nell’analisi di sicurezza
Figura 2.1. Struttura di modello di impianto o Macchina per un Sistema Uomo-Macchina
Il modello di “Uomo” La rappresentazione formale di un Sistema Uomo-Macchina in accordo con tale definizione `e stata tentata fin dagli anni 70 assumendo inizialmente forme assai semplificate (Rouse, 1980), che consideravano da un lato l’essere umano, come esecutore di operazioni manuali, e dall’altro la Macchina, intesa solo come impianto che rispondeva ai comandi dell’uomo. Solamente con l’introduzione e l’affermazione dei modelli di rappresentazione dell’uomo basati sul paradigma del sistema processore di informazione (“Information Processing System”, IPS) (Neisser, 1967; Newell e Simon, 1972), come si vedr`a in dettaglio pi` u avanti, si sono estesi i concetti relativi ai Sistemi Uomo-Macchina. In particolare, i modelli di Macchina comprendono ora tutti gli aspetti collaterali che si trovano in una sala controllo e che influenzano l’operato dell’uomo, ed il modello dell’uomo afferisce a considerazioni di carattere cognitivo ed organizzativo in aggiunta alla parte puramente comportamentale (Rasmussen, 1986), per dare la giusta importanza ai processi decisionali nella gestione di impianti. Gli aspetti principali della cognizione ed i processi mentali e comportamentali da catturare e rappresentare in un modello sono tipici della modellistica associata al paradigma IPS, e sono (Fig. 2.2): • memoria; • conoscenza di base; • meta-conoscenza;
2.3 Definizioni ed elementi caratteristici di Sistemi Uomo-Macchina
69
Figura 2.2. Struttura di modello di Uomo per un Sistema Uomo-Macchina
• • • • • • •
interpretazione; pianificazione; personalit` a; percezione; esecuzione; intenzioni; decisioni.
In sommario, grazie a tali modelli e considerando la discussione relativa alle componenti socio-tecniche del Sistema Uomo-Macchina `e possibile dare: • una rappresentazione grafica del modello di “Macchina”, comprendente l’impianto vero e proprio ed il contesto, i quali reagiscono alle azioni dell’operatore e generano le informazioni e gli stimoli che a loro volta danno origine a nuove azioni di controllo; • una rappresentazione strutturata del comportamento di “Uomo” che si riferisce alle funzioni cognitive e comportamentali fondamentali, cio`e percezione, interpretazione, pianificazione ed azione, ed ai processi critici di allocazione delle risorse e gestione della memoria e della conoscenza. 2.3.2 Elementi socio-tecnici di un Sistema Uomo-Macchina I fattori che influenzano un Sistema Uomo-Macchina ed intervengono nei processi evolutivi dei fenomeni fisici e nei processi cognitivi e comportamentali sono rappresentati da quattro componenti principali: a) gli aspetti culturali organizzativi,
70
2 Fattori umani nell’analisi di sicurezza
b) le condizioni ambientali di lavoro, c) le difese, barriere e salvaguardie, e d) le caratteristiche di personalit` a ed i fattori esterni. Verranno qui di seguito definiti questi quattro componenti. Aspetti culturali organizzativi L’influenza delle decisioni strategiche sulle forme e specificit` a delle attivit` a pratiche di gestione e controllo di un impianto `e ormai ben riconosciuta ed accettata. Tali decisioni sono alla base del comportamento corporativo (“corporate behaviour”), danno origine alla cultura dell’organizzazione e pervadono i processi decisionali locali ed operativi. La cultura di un’organizzazione rappresenta dunque un elemento fondamentale da considerare nella valutazione di un sistema tecnologico. La cultura organizzativa, che tiene conto dei fattori descritti in precedenza, pu` o definirsi come segue: La cultura di un’organizzazione si pu` o definire come l’insieme delle norme, dei valori, dei comportamenti, ideologie, ed assunzioni fondamentali, per lo pi` u inconsci e raramente articolati, che un’organizzazione sviluppa su se stessa, sulla natura dei suoi componenti e sull’ambiente in cui opera. La cultura organizzativa `e costituita dall’insieme delle “regole non scritte” che governano i comportamenti accettabili all’interno ed all’esterno dell’organizzazione stessa. Molti aspetti comportamentali dipendono da fattori legati alla cultura di un’organizzazione, i quali tuttavia non sono immediatamente palesi, e quindi, fanno parte di quei fattori latenti, od elementi patogeni, che influenzano profondamente la sicurezza di un sistema (Reason, 1990). Questi devono essere identificati prontamente in modo da controllarne gli effetti negativi ed anticiparne le possibili conseguenze incidentali. Condizioni ambientali di lavoro Nella definizione di condizioni ambientali di lavoro sono compresi i fattori fisici e sociali che influenzano il comportamento umano. La definizione di tali condizioni si pu` o pertanto riassumere semplicemente come segue (Maurino et al., 1995): Le condizioni ambientali di lavoro (ambiente di lavoro) sono rappresentate da tutti quei fattori che influenzano l’efficienza e l’affidabilit` a delle performance dell’uomo nell’ambito di un certo contesto lavorativo. Le condizioni ambientali di lavoro hanno un effetto locale ed immediato sui processi lavorativi anche se nascono alle volte a livelli diversi della struttura di un’organizzazione. Esempi di condizioni di lavoro locali che influiscono negativamente sul comportamento umano sono: progetti carenti di posti di lavoro soprattutto sotto il profilo ergonomico, automazione imprecisa e complessa, strumenti inadeguati ai
2.3 Definizioni ed elementi caratteristici di Sistemi Uomo-Macchina
71
compiti, distribuzione ed assegnazione dei compiti insufficiente, procedure inadeguate, mancanza di supervisione, addestramento insufficiente, carenza di politiche chiaramente definite.
Difese, barriere e salvaguardie Le difese, barriere e salvaguardie sono costituite da tutte quelle strutture fisiche e sociali che vengono progettate, programmate ed inserite in un sistema per supportare e rendere pi` u efficaci e sicuri il controllo e la gestione di un impianto, sia in condizioni di normale operazione che in emergenza. Le difese, barriere e salvaguardie, gi` a discusse in precedenza, sono dunque il risultato pi` u diretto dei processi decisionali ad alto livello nell’organizzazione e riguardano una serie di funzioni nella gestione del sistema che sono orientate a: • creare percezione e comprensione del rischio; • supportare i processi di identificazione precoce di processi anormali o di indicatori di situazioni deteriorate; • ristabilire condizioni di operabilit` a a seguito di situazioni anormali; • proteggere da possibili danni; • contenere le conseguenze di incidenti; • fornire le vie di fuga in caso di eventi catastrofici. Caratteristiche di personalit` a e fattori esterni Tra i fattori che maggiormente influenzano il comportamento umano esistono infine le caratteristiche di personalit` a ed i fattori esterni. I primi sono, per loro natura, molto difficili da prevedere e prevenire in quanto sono legati a caratteristiche individuali, che mal si possono generalizzare per ovvi motivi; mentre i secondi sono legati a situazioni contestuali casuali, le quali, per ragioni altrettanto ovvie, non possono essere formalizzate e strutturate in funzione di stereotipi di comportamento umano o sistemico. Tali fattori devono tuttavia essere definiti e considerati nel quadro di una metodologia che abbia come obbiettivo lo studio dell’interazione uomo-macchina, anche se si prestano male ad una considerazione sistemica o ad una formalizzazione stretta. Le definizioni che si possono associare a tali fattori vengono quindi proposte in questi termini: Fattori personali sono le condizioni individuali fisiche o mentali che influiscono sul comportamento, che sono specifiche di ogni persona e possono essere generalizzate solo quando vengono estese ad un gruppo particolare di persone in ambiti pi` u generici di categorie o classi di operatori. Fattori esterni possono essere considerati tutti gli eventi casuali fisici o sistemici che alterano o influenzano le condizioni di lavoro locali e le mi-
72
2 Fattori umani nell’analisi di sicurezza
sure di sicurezza in maniera tale da promuovere performance inadeguate dell’impianto e comportamenti erronei da parte degli operatori. La presenza di tali fattori deve dunque essere riconosciuta, anche se viene mal considerata, e rappresenta un’ampia area di incertezza attorno alla quale sono costruiti metodi e metodologie di cui si discuter` a nel prosieguo di questo capitolo.
2.4 Modelli e simulazioni di comportamento umano Al fine di dare una rappresentazione strutturata dei Sistemi Uomo-Macchina tale da permettere analisi di sicurezza, valutazioni formali ed, eventualmente, valutazioni numeriche e quantitative di interazioni uomo-macchina `e necessario che: • i quadri teorici discussi in precedenza vengano ulteriormente precisati in modelli di comportamento; • i fattori che influenzano il comportamento dell’uomo e favoriscono l’insorgere di errori siano formalizzati in tassonomie adeguate; • i modelli teorici e le tassonomie siano trasformati in simulazioni e classificazioni tali da rendere possibili lo sviluppo di calcoli ed analisi statistiche con l’ausilio di programmi di calcolo numerico, logico e probabilistico. Nel contesto del dominio dei Sistemi Uomo-Macchina, la modellizzazione del comportamento umano comporta la considerazione, in primo luogo, dei processi cognitivi e dell’evoluzione dinamica del sistema, vale a dire, le attivit` a mentali, derivanti dalle interazioni dagli esseri umani con le macchine che interagiscono con essi. La necessit`a di simulare “l’uomo-pi` u-l’elemento-controllato” `e gi`a stata enunciata negli anni ’60 da McRuer e colleghi (1965). Prima di quegli anni, la totalit` a delle teorie sul comportamento umano era basata su modelli predittivi limitati al dominio osservabile (“behaviorismo”), in quanto tutte le attivit` a umane erano praticamente associate con il controllo manuale e l’interazione diretta con i fenomeni fisici. L’inserimento del fattore umano nel circuito di controllo di un processo era quindi un semplice esercizio di considerazione matematica di ritardi e parametri relativi ad azioni. Tuttavia, i progressi della tecnologia che tendono ad assegnare all’uomo compiti di vigilanza e controllo dell’automazione, anzich´e il controllo diretto dei processi, ha richiesto la formulazione di modelli molto pi` u complessi capaci di rappresentare il ragionamento umano ed i processi decisionali, cio`e in grado di tener conto in primo luogo di attivit` a cognitive piuttosto che attivit` a manuali. La necessit`a di concentrarsi su processi mentali e lo sviluppo di tecnologie informatiche hanno ispirato, nei primi anni ’70, la metafora di operatore come sistema processore di informazione (“Information Processing System”, IPS). Questo ha generato le prime formulazioni di modelli teorici di cognizione, gi`a citati in precedenza (Neisser, 1967; Newell e Simon, 1972), e, da allora, sono stati sviluppati una serie di paradigmi del comportamento umano (Rouse, 1980; Stassen, et
2.4 Modelli e simulazioni di comportamento umano
73
al., 1990; Sheridan, 1992). Qui di seguito, un certo numero di modelli, che possono essere utilizzati per rappresentare il comportamento umano, sar` a descritto in dettaglio. Essi sono solo un piccolo numero della vasta variet` a di modelli teorici e rappresentazioni sviluppate in letteratura, ma possono essere considerati come stereotipi, che coprono diversi livelli di complessit`a e profondit` a di rappresentazione di processi mentali e funzioni cognitive e comportamentali. I modelli discussi sono: • Reference Model of Cognition-PIPE (RMC-PIPE) (Wickens, 1984; Cacciabue, 1998); • Step Ladder/Skill, Rule, Knowledge (SL/SRK) (Rasmussen, 1983, 1986); • Model of Fallible Machine (Reason, 1990); • Contextual Control Model (COCOM) (Hollnagel, 1993). In aggiunta a questi modelli basati sul paradigma IPS, un’altra struttura, ampiamente applicata e molto utile per rappresentare le interazioni uomo-macchina a livello socio-tecnico, `e il modello noto come: • Software, Hardware, Environment and Liveware (SHEL-L) (Edwards, 1972, 1988). SHELL `e, in sostanza, una configurazione di tutto l’ambiente HMI, in contesti tecnologici, pi` u che un modello di comportamento umano. Tuttavia, essa tratta l’elemento umano come punto focale dell’architettura, e, di conseguenza, SHELL sar`a anche esaminato e confrontato con i suddetti modelli. 2.4.1 Il modello RMC-PIPE Il Modello di riferimento della Cognizione (RMC-PIPE) contempla tutti i componenti fondamentali del paradigma del comportamento umano, sulla base della metafora IPS (Fig. 2.3). In RMC, particolare attenzione `e dedicata agli stimoli e risposte ed al ciclo iterativo che si instaura tra i processi e le operazioni mentali. Gli stimoli che interessano gli operatori vengono generati dall’impianto o dall’ambiente e contesto di lavoro. Le risposte sono il controllo manuale e le azioni svolte in risposta agli stimoli e/o a seguito dei processi cognitivi stessi. Quattro principali funzioni cognitive sono gli elementi fondamentali che descrivono il comportamento mentale e le prestazioni. Queste funzioni sono: Percezione, Interpretazione, Pianificazione ed Esecuzione (PIPE). La rilevanza del ruolo delle quattro funzioni cognitive nell’architettura generale del modello ha portato questo modello di essere identificato come RMC/PIPE (Cacciabue, 1998, 2004). Due processi cognitivi critici governano le quattro funzioni cognitive e gestiscono la loro attivazione o meno. Questi due processi cognitivi sono definiti come: Memoria/Knowledge Base (KB) e Allocazione delle Risorse (AOR) (Wickens, 1984; Wickens e Flach, 1988). Queste funzioni cognitive e processi non sono scelti a caso, ma riflettono il consenso sulle caratteristiche della cognizione umana che si sono sviluppate nel corso di molti anni:
74
2 Fattori umani nell’analisi di sicurezza
Figura 2.3. Reference Model of Cognition (RMC/PIPE)
• la Percezione `e legata al contenuto delle informazioni trasferite all’uomo attraverso i normali recettori sensoriali, vale a dire: vista, udito, gusto, tatto ed olfatto. Questa funzione sensoriale `e strettamente combinata con le aspettative, che rappresentano il sostegno cognitivo alla ricerca e acquisizione di informazioni per ulteriore trattamento; • l’Interpretazione consiste nell’elaborazione di informazioni percepite, attraverso il confronto tra i segni/sintomi provenienti e rilevati dall’ambiente, con quanto gi` a acquisito e formalizzato a livello di conoscenze e esperienze pregresse, che risiedono nella base di conoscenza e nella memoria degli individui; • la Pianificazione implica una scelta o uno sviluppo di un piano per il controllo manuale o azione da svolgere, ed `e il risultato del precedente evolvere di processi cognitivi; • l’Esecuzione implica l’attuazione della decisione, che pu`o assumere la forma di risposta manuale o azione di controllo, ma pu` o anche essere semplicemente l’inizio di un nuovo processo cognitivo; • la Memoria/Knowledge Base contiene tutta l’esperienza pregressa, le conoscenze (“know-how”) acquisite durante la formazione di un individuo, sia attraverso la pratica operativa, sia grazie ad apprendimenti teorici; la conoscenza contenuta nella Memoria/Knowledge Base `e fatta di regole, credenze, procedure, principi fisici ecc., che sostengono le quattro funzioni cognitive;
2.4 Modelli e simulazioni di comportamento umano
75
• l’Allocazione delle Risorse `e un processo ancora pi` u cruciale per l’intero modello cognitivo, in quanto descrive come le risorse disponibili all’uomo sono distribuite in tutto il modello ed il modo in cui influiscono sull’evolversi ed interazione tra le quattro funzioni cognitive. Il modo in cui i processi cognitivi e funzioni cognitive interagiscono gli uni con gli altri e con il mondo esterno (macchina e contesto) determina l’evoluzione dinamica del modello. L’Allocazione delle Risorse influenza il modo per eseguire gli altri processi e funzioni cognitivi, e genera o introduce scorciatoie e lacune nella memoria, nella conoscenza di base e funzioni cognitive. La Memoria/Knowledge Base interagisce solo con le due funzioni cognitive di Interpretazione e di Pianificazione, in quanto queste sono considerate come “alto livello di attivit` a mentale”, mentre la Percezione e l’Esecuzione sono principalmente legati all’attivit`a sensoriale di “basso livello”. Tuttavia, la Memoria/Knowledge Base pu`o fornire dati e informazioni a tutte e quattro le funzioni cognitive, al fine di sostenere le loro prestazioni. Gli stimoli e le risposte della Macchina appaiono come il motore sensoriale di connessione con l’operatore. Anche gli effetti del contesto e ambiente sono considerati nei processi cognitivi e funzioni cognitive. In questo modo, la situazione del contesto socio-tecnico pu`o modificare l’intero processo cognitivo e pu`o essere collegata ad un determinato comportamento a tutti i livelli, dai processi mentali alle effettive prestazioni. I collegamenti tra le quattro funzioni cognitive di percezione, interpretazione, pianificazione ed esecuzione sono strutturati per mantenere la natura ciclica della cognizione, da cui le informazioni percepite da stimoli esterni e la conoscenza sono combinati con ragionamento su eventi del passato e anticipazione sul futuro, per produrre ulteriori percezioni, ragionamenti, pianificazioni, ecc. Il modello RMC/PIPE `e stato utilizzato in passato, cos`ı come in recenti applicazioni, per la simulazione di piloti e di operatori nel settore del trasporto aereo (Cacciabue, Mauri, Owen, 2003).
2.4.2 Il modello SRK L’approccio pi` u conosciuto e ampiamente applicato che attua la metafora IPS `e stato sviluppato da Rasmussen negli anni ‘70 e ‘80 (1983, 1986) nell’ambito di un quadro generale noto come Step-Ladder (SL), e comprende la nozione di tre livelli di comportamento cognitivo, noti come Skill, Rule e Knowledge base (SRK). Il paradigma SL descrive come i processi di apprendimento ed interpretazione passino attraverso stadi di astrazione sempre pi` u elevati che partono dalla percezione delle forme fisiche assunte da un sistema per salire, attraverso le funzioni fisiche e generalizzate dei sistemi, alle funzioni astratte ed agli obbiettivi funzionali di un sistema (Fig. 2.4). Conseguentemente, una volta raggiunti i massimi livelli di astrazione concettuale associata ad un processo o sistema, `e possibile ritrovare le sue funzioni fisiche e forme ridiscendendo la “scala” (“step ladder”) dei valori funzionali dei suoi componenti. D’altro canto, il modello comportamentale umano
76
2 Fattori umani nell’analisi di sicurezza
Figura 2.4. Paradigma “Step-Ladder” (tradotto e adattato da Rasmussen, 1986)
SRK considera pi` u da vicino le conoscenze acquisite e gli stimoli del contesto, e come questi diano origine ai comportamenti specifici dell’uomo, strutturati appunto come “istintivo-procedurale-creativo” (Fig. 2.5). Il modello identifica un insieme di stati di conoscenza nel processo decisionale, e trasforma, attraverso i tre livelli SRK, i collegamenti di questi stati di conoscenza in serie di attivit`a di elaborazione delle informazioni e finalmente in azioni. In una sequenza standard, tutte le informazioni passano attraverso le attivit` a di
Figura 2.5. Il modello “SRK” (tradotto e adattato da Rasmussen, 1983, 1986)
2.4 Modelli e simulazioni di comportamento umano
77
trattamento a regole dell’operatore (“Rule-Based Behaviour”). Tuttavia, sono possibili scorciatoie, sulla base di conoscenze euristiche, per arrivare o attivare azioni immediate note e familiari. Questi ultimi aspetti, sono tipici del comportamento “Skill-Based Behaviour”, quando la percezione sensoriale di stimoli genera una situazione ben conosciuta e familiare all’uomo, il quale reagisce senza dover cercare le regole che definiscono il comportamento. Questo genere di situazioni `e molto comune e tipico di persone molto qualificate e dotate di una grande esperienza nel proprio dominio, per cui devono raramente ricorrere a conoscenze formali e procedurali apprese durante l’addestramento. Quando si incontra una situazione sconosciuta, inattesa o non familiare, pu` o essere necessario il ricorso a processi di ragionamento pi` u sofisticati, che vanno al di l` a delle norme acquisite e delle regole o procedure note. Queste situazioni richiedono l’uso di conoscenza “di base” dei processi di funzionamento dei sistemi ed il ragionamento su funzioni causali e processi fisici (Knowledge-Based Behaviour). In sostanza, i processi identificati nei comportamenti “istintivo-proceduralecreativo” rappresentano rispettivamente: • l’accoppiamento tra stimolo sensoriale e reazione istintiva (“Skill”); • l’esecuzione di insiemi di regole e/o procedure, richiamate consciamente alla memoria e verificate prima della loro implementazione (“Rule”); • il processo analitico di risoluzione di un problema, che richiede un lavoro mentale laborioso e complesso (“Knowledge”). Per esempio, il controllo in situazioni di emergenza da parte di operatori esperti avviene sostanzialmente a livello “Skill”, mediante quelle azioni che avvengono, in pratica, istantaneamente in funzione di una procedura acquisita in tempi precedenti e che `e nota a tal punto che non `e necessario ripercorrerla esplicitamente per l’applicazione. In tale comportamento vi `e un legame diretto tra lo “stimolo” e la “risposta”. A livello “Rule” la composizione delle azioni avviene in situazioni familiari all’operatore, non pi` u a livello subconscio ma, al contrario, `e controllata da una procedura disponibile in qualche forma, ad esempio fornita come sequenza di istruzioni o comunicata sul momento. La differenza che sussiste fra l’attivit` a di natura istintiva e quella procedurale dipende in modo particolare dal grado di addestramento dell’operatore. Nel comportamento procedurale il legame fra stimolo e risposta non `e pi` u di tipo diretto, ma vi `e un processo cognitivo che, attraverso le informazioni ricavate dal sistema, permette l’identificazione sia della situazione che della procedura appropriata. Per la gestione di situazioni non ben note e non familiari, l’operatore non possiede comportamenti istintivi e, in assenza anche di regole o procedure a cui fare ` questo ricorso, deve creare una strategia d’intervento in maniera autonoma. E il livello pi` u complesso, dal punto di vista cognitivo, del modello di Rasmussen (“Knowledge”). La scelta della strategia avviene paragonando gli obbiettivi prefissati con gli effetti presupposti di diversi piani d’azione, sviluppati in funzione delle conoscenze che l’operatore ha circa i principi di funzionamento del sistema. Non
78
2 Fattori umani nell’analisi di sicurezza
esiste pi` u, a questo livello, un legame diretto fra gli stimoli e la risposta: i primi vengono infatti usati solo come indicazioni dello stato del sistema per la creazione, in funzione degli obbiettivi, di una procedura ad hoc. 2.4.3 Modello di “Macchina cognitiva fallibile” Il paradigma del comportamento umano chiamato letteralmente Modello di “Macchina cognitiva fallibile” (“Model of Fallible Machine”) `e stato sviluppato da Reason (1990), negli anni ‘80. L’acronimo riflette le due principali caratteristiche di questo modello, vale a dire: la fallibilit` a umana, cio`e la possibilit`a di errore insita nel comportamento degli esseri umani, che `e il tema centrale della ricerca in psicologia cognitiva di Reason, e l’idea di esprimere il modello in formulazioni numeriche calcolabili, come avviene di solito quando si tratta di “macchine”. In questo senso, la teoria `e riferita a terminologia e strutture tipiche dell’ingegneria e scienze informatiche del tempo, come l’intelligenza artificiale. Il modello di macchina fallibile `e descritto in Fig. 2.6. Il modello ha due componenti principali: base di conoscenza (“Knowledge Base”, KB) e memoria (“Working Memory”, WM). La memoria `e ulteriormente suddivisa in memoria focale (“Focal Working Memory”, FWM) e memoria periferica (“Peripheral Working Memory”, PWM). Questa suddivisione conserva la distinzione fra due settori: uno spazio di grande capacit`a, cio`e PWM, che riceve informazioni direttamente dalla KB e dal mondo esterno, e seleziona le informazioni, ed uno spazio di capacit`a limitata, che `e la FWM, che riceve continuamente le informazioni filtrate, attraverso la PWM. I meccanismi di filtraggio, che supportano la selezione delle informazioni che raggiungono la FWM, si basano su una serie di principi di conservazione della cognizione, detti anche “primitive di cognizione”, che sono “Similarity Matching (SM)” e “Frequency Gambling (FG)”. Il primo (SM ) permette di fare il “matching” tra le informazioni percepite e la conoscenza contenuta nella KB, mentre il secondo
Figura 2.6. Modello di “Macchina cognitiva fallibile” (tradotto ed adattato da Reason, 1990)
2.4 Modelli e simulazioni di comportamento umano
79
(FG) permette di fare la scelta definitiva, basandosi sulla familiarit` a, l’esperienza e la vicinanza temporale con eventi gi`a accaduti in precedenza. Il processo di inferenza e ricerca diretta nella base di conoscenza (DS ) di conoscenze basiche e principi elementari per costruire piani di azione, `e un processo raramente messo in atto e richiede grandi risorse cognitive e notevole disponibilit`a di contesti operativi e sociali per avere successo. Nella teoria di Reason, le “funzioni primitive della cognizione” di SM e FG, che guidano il comportamento umano, sono anche i primi generatori di errori umani. Il modello di “Macchina cognitiva fallibile” si espande in questa direzione, cercando in primo luogo i tipi e modi di errori umani che possono essere osservati direttamente durante l’esecuzione delle attivit` a. Questi sono i cosiddetti errori “attivi ”. Il modello sviluppa anche la questione delle interazioni dinamiche all’interno delle organizzazioni, a diversi livelli del processo decisionale, con l’obbiettivo di rintracciare e sottolineare la radice nascosta e le cause che stanno alla base di un incidente. Questi sono chiamati errori “latenti ” in quanto “giacciono” nei sistemi e restano sepolti e nascosti fino al momento in cui esplodono allorquando i sottositemi interessati vengono chiamati ad operare. L’attenzione di Reason e la sua teoria di “Macchina cognitiva fallibile” si sono evolute nel tempo verso l’analisi delle organizzazioni e dei contesti socio-tecnici in aggiunta alle interazioni dinamiche di operatori con gli impianti, dando cos`ı origine alla teoria dei coinvolgimenti organizzativi nei processi di errore umano, che lo ha reso famoso (Reason, 1997). In sostanza, i concetti e principi adottati nel modello di “Macchina cognitiva fallibile” possono essere applicati sia per studiare il modo in cui un errore latente si insinua in un’organizzazione e va ad influire sulle prestazioni umane alla fine della catena di controllo (management, responsabili di impianti e sistemi, capi gruppo e operatori), sia per simulare le situazioni in cui la modifica dei contesti e ambienti di lavoro viene ad influenzare direttamente il comportamento delle persone in prima linea, a contatto diretto con gli impianti da gestire. 2.4.4 Il modello “Contextual Control Model” Il modello COCOM (“Contextual Control Model”) (Hollnagel, 1993) `e stato sviluppato sull’ipotesi di base che il comportamento umano `e regolato da due principi fondamentali: la ciclicit` a delle funzioni cognitive e la dipendenza dei processi cognitivi dal contesto e dall’ambiente di lavoro. Il modello fa riferimento al paradigma IPS e considera separatamente le funzioni cognitive con i loro meccanismi di collegamento (modello delle competenze) ed i processi cognitivi che ne regolano l’evoluzione (modello del controllo). Il modello delle competenze prende in conto la base di conoscenza e le quattro funzioni cognitive fondamentali del comportamento dell’uomo e rappresenta la parte pi` u classica del modello COCOM, in quanto costituisce in sostanza il paradigma IPS nella sua completezza. La parte pi` u interessante del modello delle competenze `e rappresentata dalla ciclicit` a contenuta nel modello (Fig. 2.7a), che contiene la possibilit`a di iterare tra le varie funzioni, ed in particolare di ripetere pi` u volte il processo cognitivo. Infatti, esiste un legame specifico tra l’esecuzione e la percezione, inteso
80
2 Fattori umani nell’analisi di sicurezza
Figura 2.7a,b. Modello COCOM (tradotto e adattato da Hollnagel, 1993); a) modello delle competenze; b) modello del controllo
come messa in funzione di un nuovo processo percettivo e decisionale a seguito di un ciclo cognitivo stesso. Il modello del controllo rappresenta la parte pi` u innovativa di COCOM, in quanto costituisce una sorta di modello di gestione delle risorse cognitive, che gestisce l’evoluzione dei processi decisionali e comportamentali in funzione delle condizioni contestuali in cui queste avvengono. Il modello prevede quattro diversi livelli di controllo, strategico, tattico, opportunistico, e impulsivo (“scrambled”) (Fig. 2.7b). Questi rappresentano gli atteggiamenti di un operatore nei confronti della sua competenza e determinano, in ultima analisi, la sequenza dei processi cognitivi e delle azioni. Il controllo strategico costituisce il livello massimo di controllo e permette l’utilizzo di tutte le funzioni cognitive, se necessario, lasciando ampio tempo all’operatore di decidere “strategicamente” sulle diverse opzioni. Il controllo tattico, `e caratteristico di situazioni in cui il comportamento si basa su una pianificazione che segue delle procedure e regole conosciute, e, quindi, permette ancora ampio uso delle risorse cognitive per la gestione di situazioni incidentali complesse. Il controllo opportunistico si identifica in una condizione nella quale le azioni vengono scelte in tempo reale, una di seguito all’altra, e sono basate sulle caratteristiche salienti dell’ambiente circostante e del comportamento dell’impianto. Pertanto, le funzioni pi` u “alte” del modello della competenza vengono utilizzate al minimo livello, mentre le reazioni sensoriali giocano un ruolo pi` u importante. Infine, il controllo impulsivo si registra quando la scelta dell’azione da compiere `e completamente non correlata con la situazione in corso, e risulta essere praticamente casuale. Ci`o `e dovuto al fatto che le condizioni contestuali danno origine ad una situazione di panico nel quale il controllo che l’operatore sviluppa sul suo comportamento `e praticamente nullo, e questi si trova a compiere delle azioni completamente impulsive che mirano semplicemente a preservare la propria persona ovvero a proteggersi o fuggire da una condizione di pericolo.
2.4 Modelli e simulazioni di comportamento umano
81
L’evoluzione dinamica del contesto ambientale influisce sul modello del controllo attraverso due parametri indipendenti fondamentali che regolano il modo di controllo in cui l’operatore si trova, i passaggi da un modo di controllo ad un altro e, di conseguenza, le funzioni cognitive che vengono messe in atto. Questi due parametri sono: il risultato delle azioni o compiti precedenti e la nozione soggettiva del tempo a disposizione. Esistono poi altri parametri indipendenti che influiscono sul modello del controllo, in maniera meno marcata, quali il numero di obbiettivi simultanei da raggiungere, la disponibilit` a di piani e procedure di controllo, i modi di esecuzione e la prospettiva consequenziale dell’evento in corso. Le correlazioni che regolano il modo di controllo ed i suoi parametri indipendenti non vengono da Hollnagel ulteriormente specificati e, pertanto, questa parte del modello `e lasciata alla discrezione o creativit`a di chi applica tale modello, in funzione del dominio di applicazione e degli obbiettivi specifici che si considerano. 2.4.5 Il modello SHELL Il modello qui descritto, originariamente chiamato SHEL, `e stato sviluppato con l’intento di rappresentare le relazioni tra gli operatori e le loro attivit` a in una prospettiva di fattori umani ed ergonomia (Edwards, 1972, 1988). La rappresentazione schematica originale del modello (Fig. 2.8a) si basa sul concetto che il nucleo fondamentale di un Sistema Uomo-Macchina sia costituito da un insieme di tre elementi: l’essere vivente, o “Liveware” (L), il sistema di controllo vero e proprio, con tutti i suoi equipaggiamenti, strutture e materiali connessi, o “Hardware” (H), e tutti i componenti di natura non tangibile che contribuiscono al processo di interazione, quali i regolamenti, le leggi, le procedure, gli usi, e le abitudini, o “Software” (S). Il processo di controllo e gestione di un impianto avviene attraverso l’interazione di pi` u insiemi LHS, i quali operano in un contesto, che, a sua volta, `e rappresentato dall’ambiente fisico di lavoro, e da tutti quei fattori sociali, economici e politici che
Figura 2.8a,b. Il modello SHELL; a) Modello SHEL originale (adattato da Edwards, 1972); b) SHELL avanzato (adattato da Hawkins, 1987)
82
2 Fattori umani nell’analisi di sicurezza
creano le condizioni socio-tecniche in cui si opera nella realt`a, e che possono essere genericamente definiti come ambiente di lavoro, o “Environment”(E). Nella struttura originale SHEL vi `e poca attenzione ai singoli individui (Liveware), che costituiscono la parte umana del modello. Al fine di concentrarsi maggiormente sul singolo essere umano, pur conservando le correlazioni con i fattori contestuali e organizzativi, una nuova struttura del modello `e stata sviluppata (Hawkins, 1987; Edwards, 1988). Un’ulteriore dimensione “Liveware” `e stata aggiunta per tener conto del fatto che le persone interagiscono le une con le altre, come pure con le macchine. In questo modo, il modello diventa pi` u centrato sulle caratteristiche e attitudini personali di un singolo essere umano e sulle interazioni che tale persona sviluppa con gli altri esseri umani, lavorando all’interno di ambienti socio-tecnici definiti, utilizzando macchinari e tecnologie differenti, in presenza di addestramenti, procedure e norme di lavoro ben precise ed altrettanto definite. L’unit` a originale SHEL, concepita da Edwards, non esiste pi` u, ed `e stata sostituita da una nuova unit` a, con l’essere umano al centro della struttura, in presenza delle sue interazioni con i circostanti ambienti socio-tecnici e umani. La configurazione in questa forma `e chiamata SHELL (Fig. 2.8b). Va ricordato che questa architettura SHELL si discosta dal paradigma di riferimento IPS in quanto non `e in grado di rappresentare la dinamica di un processo di interazione uomo-macchina, ma `e una rappresentazione molto flessibile e molto utile per lo studio dei legami esistenti fra le persone, le organizzazioni, e la societ`a. Questi sono di particolare interesse per l’analisi dei moderni sistemi complessi, come ad esempio il trasporto aereo, la produzione di energia, e sistemi di processo, ed in particolare per la classificazione di tali interazioni e per la raccolta di dati, come si vedr`a nel prosieguo di questo testo. Modello SHELL-T per la rappresentazione del “gruppo” La complessit`a dei contesti di lavoro e di interazione tra i diversi attori non `e sempre facilmente considerata in una struttura SHELL semplice. In pratica, quando esseri umani diversi si trovano a cooperare e comunicare da luoghi lontani o a collaborare in contesti di lavoro comuni per raggiungere lo stesso obbiettivo, il lavoro di squadra e le correlazioni esistenti tra i diversi attori diventano molto difficili da catturare per mezzo di una singola unit` a SHELL. Al fine di esaminare in dettaglio questa specifica caratteristica, tipica del lavoro di squadra, si pu` o considerare una struttura articolata e basata su un modello che contempla diverse unit`a SHELL interagenti tra di loro. In questa architettura, chiamata SHELL-T (per SHELL-Team), ciascuna unit` a condivide alcuni elementi con le altre unit` a, secondo il contesto specifico di ambiente di lavoro e compiti. In questo modo, ogni situazione specifica pu`o essere rappresentata da una combinazione dei cinque elementi fondamentali dell’unit` a, considerando che l’architettura SHELL-T pone comunque l’essere umano al centro del modello. A titolo di esempio, la cabina di pilotaggio di un velivolo con tre uomini a bordo, vale a dire pilota, il co-pilota e ingegnere di volo, pu` o essere rappresentata con una combinazione di tre unit` a SHELL-T, ciascuna associata a un membro della
2.4 Modelli e simulazioni di comportamento umano
83
Figura 2.9. Modello SHELL-T
squadra (Fig. 2.9) (De Grandis, 2003). In aggiunta, un quarto elemento SHELL-T pu` o essere considerato, al fine di includere il controllore del traffico aereo, che coopera con la cabina di pilotaggio da un luogo lontano, vale a dire, la torre o la sala di controllo del traffico aereo. In particolare, nel caso di membri della cabina di pilotaggio e di controllore del traffico aereo l’architettura globale SHELL-T considera i seguenti aspetti: • ogni membro dell’equipaggio ha un’interfaccia dedicata (Hardware, H) solo a se stesso; • tutti e tre i membri condividono lo stesso ambiente di lavoro (E), che, in termini di contesto socio-tecnico e organizzativo del sistema, rappresenta: lo stesso operatore aereo, la stessa cultura organizzativa, cos`ı come lo stesso contesto di lavoro fisico, cio`e la cabina di pilotaggio, con i suoi effetti ambientali, cio`e temperatura, rumore, ecc.; • il pilota e co-pilota condividono la stessa formazione e procedure, mentre l’ingegnere di bordo si riferisce ad un diverso insieme di norme (Software, S); • tutti e tre i membri dell’equipaggio comunicano tra di loro per lo svolgimento della missione di volo, cos`ı come pure con il controllore del traffico aereo; • il controllore del traffico aereo comunica e coopera con i membri dell’equipaggio, ma non condivide tutti gli altri elementi dell’unit` a SHELL-T, in quanto opera in un diverso luogo e contesto di lavoro (E), con differenti norme e regolamenti (S), e con un sistema di controllo e di interfacce completamente diverso (H). La rappresentazione del “team” piloti-controllore raffigurata in Fig. 2.9 permette di descrivere in maniera completa ed esaustiva tutti i rapporti e le relazioni esistenti e si presta molto bene a classificare tali aspetti relazionali in una prospettiva di analisi del lavoro di gruppo e di eventuali errori o malfunzionamenti del team.
84
2 Fattori umani nell’analisi di sicurezza
2.5 Implementazioni dei modelli in simulazioni numeriche Facendo riferimento al modello SRK di Rasmussen come rappresentazione di comportamento umano, scelta a paradigma, verranno ora brevemente passati in rassegna le implementazioni numeriche e gli algoritmi, cio`e le simulazioni numeriche, che permettono di rappresentare i modelli teorici attraverso espressioni numeriche e logiche, equazioni semplici e correlazioni algebriche e polinomiali. In questo modo, si possono trasformare i modelli in formulazioni o simulazioni che permettono di effettuare “calcoli” associati al comportamento umano. Verranno brevemente passati in rassegna alcuni metodi e formulazioni matematiche e logiche che sono stati sviluppati in passato ed in tempi pi` u recenti, inquadrando ciascuno di essi in funzione dei livelli di comportamento che `e in grado di rappresentare. Si far` a riferimento al modello SRK in quanto questo modello, contenendo molto bene tutti gli aspetti associati al paradigma IPS, ne `e considerato lo stereotipo pi` u appropriato esistente in letteratura. Pi` u in dettaglio, a livello di comportamento istintivo (SBB), molti modelli sono stati sviluppati soprattutto per il controllo manuale e per il riconoscimento di situazioni note (“detection”). I modelli basati sulla teoria del controllo hanno dimostrato la loro validit` a nel progetto di sistemi di interfaccia e controllo manuale (McRuer e Jex; 1967; Kleinman et al., 1971). Inoltre, modelli basati sulla teoria della percezione dei segnali (“signal detection theory”) (Sheridan e Ferrel, 1974) sono stati sviluppati ed ampiamente applicati negli anni ’80. A livello di comportamento procedurale (RBB), molti studi si sono orientati alla simulazione del comportamento in controllo e supervisione di processi utilizzando gli stessi modelli test´e citati. Ora, bench´e le procedure di controllo manuale e di supervisione differiscano sostanzialmente, sia in termini di complessit`a che in definizione degli obbiettivi, le aspettative erano ottimistiche. Tuttavia, nel controllo e supervisione, le procedure si compongono di molti obbiettivi concatenati e simultanei, mentre nel controllo manuale sono coinvolte solo delle correlazioni dirette tra intervento e risposta del sistema. Questo ha portato a delle notevoli difficolt` a per l’applicazione di modelli tipo SBB, quali, ad esempio, quelli basati sulla teoria del controllo manuale. Di conseguenza, sono stati sviluppati modelli nuovi basati su teorie pi` u vicine ai processi decisionali che non alle semplici azioni di risposta a stimoli sensoriali. I due modelli pi` u completi a questo livello sono: Observer Controller Decision Model, OCDM (Kok e Stassen, 1980), e PROCRU (Baron et al., 1980). I processi decisionali in OCDM sono rappresentati come regole semplici, mentre in PROCRU vengono utilizzati sistemi pi` u complessi basati sul principio delle regole di produzione, (“production rules”). Inoltre, assai promettente per la rappresentazione di regole e processi decisionali, `e la teoria degli insiemi sfumati, “fuzzy set theory” (Zadeh, 1965). L’idea di base degli insiemi sfumati `e quella di legare i valori numerici, rilevati dall’uomo sugli indicatori, a funzioni capaci di rappresentare la misura di appartenenza di un certo valore ad un insieme predefinito. Questo metodo permette la rappresentazione della conoscenza dell’operatore in maniera compatibile con le espressioni lessicografiche normalmente utilizzate per descrivere gli stati di un impianto. Ad esempio, per valori di pressione compresi
2.6 Teorie e modelli di errore umano
85
tra “150 e 160 bar”, lo stato del sistema `e ritenuto attraverso una espressione sfumata (“fuzzy”) “nominale”, mentre per valori “superiori a 160 bar” si tratta di un “transitorio di pressione”, e cos`ı via. Modelli basati su tale approccio sono stati sviluppati a livello di ricerca in vari domini (Papenhuijzen e Stassen, 1987) e vengono ancora oggigiorno impiegati industrialmente per il controllo automatico di impianti semplici, quali ad esempio le lavatrici domestiche. A livello di comportamento creativo (KBB), il modello da sviluppare richiede la considerazione di aspetti quali la creativit` a e l’intelligenza dell’operatore per descrivere processi decisionali complessi, quali la pianificazione e l’esecuzione di procedure di controllo in situazioni non conosciute od impreviste. Ora, il costringere la creativit`a e l’intelligenza dell’uomo nei limiti del formalismo di un modello sembra una contraddizione, semplicemente per definizione di creativit`a. Tuttavia, negli anni ’90 si sono sviluppati strumenti informatici e sistemi di programmazione tali da permettere nuovi approcci alla simulazione. In particolare, concetti quali i sistemi di produzione e la modellistica funzionale hanno reso possibile la formulazione di modelli interni o mentali degli operatori, con i quali `e possibile descrivere la rappresentazione che l’operatore ha del sistema sotto supervisione e controllo. Con tali formalismi si possono rappresentare processi decisionali complessi, quali la pianificazione, in considerazione di aspetti cognitivi e di principi di conservazione psicologici (Stephanopoulos, 1988; Vosniadou e Ortony (Eds.), 1989; Aitkenhead e Slack (Eds.), 1990). Esempi di simulazioni sviluppate negli anni ’90 e 2000, utilizzando i sistemi informatizzati dell’epoca, sono: CES (Woods et al., 1987), OFMspert (Rubin et al., 1988), COSIMO (Cacciabue et al., 1992), e AIDE (Amalberti et al., 1989). Inoltre, l’uso delle regole di produzione, l’enorme capacit`a dei calcolatori elettronici nel gestire moli enormi di dati e sequenze di “regole”, lo sviluppo di metodi di logica e simulazione numerica, quali la “programmazione ad oggetti” (“object oriented programming”), hanno reso possibile la generazione di modelli in cui i compiti degli individui sono programmati come “blocchi” precostituiti (“frames”) che interagiscono tra di loro in maniera strutturata in relazione ad altre regole “superiori”. Queste ultime si costituiscono come elementi indipendenti, o attori del processo (“actors”) che organizzano i blocchi precostituiti chiamandoli ad agire quando le condizioni contestuali e la dinamica del processo lo richiedono. Tali tipi di simulazioni, implementate in architetture informatiche tipiche dell’Intelligenza Artificiale e regole di produzione, sono utilizzate per “calcolare”, valutare o predire possibili comportamenti in vari domini. Tipico esempio di ci`o `e il trasporto stradale ed in particolare i sistemi avanzati di supporto alla guida, i quali si “adattano” alla tipologia di guida del conducente che “essi rilevano” dal comportamento in auto (Cacciabue, 2007).
2.6 Teorie e modelli di errore umano Mentre il progetto di sistemi richiede la modellistica delle interazioni uomomacchina e si concentra sugli aspetti globali di interazione, in modo da rendere
86
2 Fattori umani nell’analisi di sicurezza
pi` u facile e familiare il controllo e la gestione di impianto, lo studio della sicurezza coinvolge fortemente gli errori umani e le loro possibili conseguenze. Pertanto, si rende necessaria una teoria di base, che sia accoppiata ad una formalizzazione delle tipologie e delle forme che gli errori umani possono assumere. Ci`o permette di inquadrare gli errori in una simulazione globale di interazione ed analisi di sicurezza. ` necessario quindi partire da una definizione di errore umano chiara e di vasta E applicazione: L’errore umano `e definito come il fallimento nel raggiungere l’obbiettivo desiderato di azioni pianificate, senza l’intervento di eventi esterni imprevisti.
2.6.1 Tipologie di errore Errori attivi e latenti In un’ottica di analisi di sicurezza, si possono considerare tre classi di interazioni umane che, in principio, vengono considerate dalla modellistica: 1. le interazioni precedenti l’evento iniziatore di una sequenza incidentale; 2. le interazioni relative al funzionamento dell’impianto in condizioni normali; 3. le interazioni connesse con l’evento incidentale stesso. Le interazioni che avvengono prima dell’evento iniziatore sono sostanzialmente legate alla manutenzione, ai test di funzionamento ed alla verifica. Mentre queste attivit` a sono effettuate nell’ottica di migliorare il funzionamento e la sicurezza del sistema, in caso di errori, queste portano ad una non-disponibilit` a, spesso non rilevata, di sistemi o componenti che potrebbero essere utilizzati a seguito di un certo evento iniziatore. Questi errori sono inclusi come eventi base nella costruzione di Alberi di Guasto ed Alberi di Evento relativi a malfunzionamenti di componenti, quali ad esempio “valvola impropriamente tarata”. Gli errori umani che contribuiscono a questi eventi sono a volte indicati come errori latenti, in quanto essi non hanno un effetto immediato, ma vengono rilevati solo quando una richiesta di attivazione viene fatta dall’operatore o dal sistema di emergenza (Reason, 1990). Alla stessa tipologia di errori commessi in situazioni “lontane” dallo scenario incidentale che si esamina, ma ugualmente rilevanti, appartengono gli errori di carattere organizzativo, cio`e le imposizioni e le decisioni prese a livello di management che influiscono sui comportamenti degli attori di prima linea e ne alterano il comportamento. Anche questa categoria di errori commessi da esseri umani, lontani dal contesto incidentale in oggetto di studio, possono essere definiti come errori “latenti” ai fini della buona riuscita di una procedura o dello svolgimento dei compiti da parte degli operatori. In un’ottica di analisi del rischio, questi errori vengono inclusi nella probabilit` a di evento iniziatore, ovvero vengono conteggiati
2.6 Teorie e modelli di errore umano
87
nel calcolo delle probabilit`a di mancato funzionamento di certi sistemi di sicurezza al momento della loro partenza (probabilit` a di “failure on demand”). Alla seconda classe di interazioni, quelle relative al funzionamento dell’impianto in condizioni normali, corrispondono gli errori che, se commessi durante la gestione normale, portano all’arresto dell’impianto, ovvero generano condizioni di pericolo, dando origine a transitori e condizioni di non-conformit` a. Anche questa classe di errori `e raramente trattata esplicitamente in un modello logico di analisi del rischio, in quanto, solitamente, l’impatto di questo tipo di errori `e gi`a incluso nelle frequenze di accadimento di certi eventi iniziatori. Tuttavia, la loro tipologia `e completamente diversa dalla precedente. Infatti, si tratta in questo caso di errori attivi, i quali vengono associati alle operazioni di gestione e controllo di impianto. ` evidente che errori attivi e latenti possono essere collegati da relazioni causaE effetto molto rilevanti, che vanno evidenziate e considerate nello studio di incidenti, come si vedr`a nel prosieguo di questo testo. Alla terza classe di interazioni appartengono le azioni e le decisioni prese dagli operatori in risposta a certe combinazioni di malfunzionamenti di componenti. Queste rappresentano azioni specifiche legate alle procedure operazionali di emergenza (“Emergency Operating Procedures”, EOP), alle procedure operazionali anormali (“Abnormal Operating Procedures”, AOP) ed alle procedure funzionali di normalizzazione (“Functional Restoration Procedures”, FRP). Anche se tali azioni sono indirizzate ad avere un effetto positivo sull’impianto, `e pur sempre possibile che queste non vengano effettuate in maniera corretta. La modellizzazione di tali comportamenti inappropriati costituisce il “malfunzionamento” del comportamento degli operatori. Inoltre, le azioni innovative, non propriamente prescritte dalle procedure, vengono prese in considerazione in questa classe di interazioni e rappresentano le azioni correttive o di recupero di eventuali precedenti comportamenti inappropriati. Questo tipo di errori umani deve essere valutato in maniera dinamica durante l’analisi di rischio e sicurezza di un impianto. Pertanto una prima classificazione di tipologie di errore contempla la differenziazione tra errori attivi e latenti cos`ı definiti: Errori attivi (“Active Errors”) sono errori commessi da operatori in prima linea, cio`e dagli attori primari nel processo di controllo di un sistema, i quali risultano immediatamente visibili nell’evoluzione di un incidente. Errori latenti (“Latent Errors”) sono errori commessi ad alti livelli in seno ad un’organizzazione, ovvero in condizioni remote o distanti dal processo attivo di controllo, come, ad esempio, durante la manutenzione. Si pu` o osservare che, mentre gli errori attivi sono immediatamente identificabili e si manifestano in un contesto incidentale e di evento di non-conformit` a, gli errori latenti sono, per loro natura, nascosti ed insiti nel sistema, e pertanto complessi e difficili da scoprire in prima battuta. Questi ultimi vengono definiti, alle volte, come “elementi patogeni” di un evento incidentale. La suddivisione tra tipologie di errori attivi e latenti riguarda la temporalit` a e la natura degli errori.
88
2 Fattori umani nell’analisi di sicurezza
Errori di omissione e commissione Un’altra possibile suddivisione di diverse tipologie di errore riguarda la modalit` a esecutiva con cui gli errori possono essere commessi. Solitamente, in analisi semplici di rischio, le interazioni uomo-macchina sono rappresentate tramite stati binari logici, successo/insuccesso, e gli errori umani vengono modellati come mancate esecuzioni, od errori di omissione, delle azioni previste dalle procedure, ovvero, quali azioni inappropriate specifiche derivanti da errori di rappresentazione o da ragionamenti sbagliati oppure da diagnosi errate. Questi ultimi vengono identificati come errori di commissione e sono sempre pi` u importanti nello studio dei fattori umani in analisi di rischio (Swain, 1964, 1987). Slips Lapses, Mistakes e Violations Un’altra classificazione di tipologie di errori, pi` u accurata e dettagliata della precedente, prende in considerazione quattro diversi tipi di errore, cos`ı definiti (Reason, 1990, 1997): Slips:
Sono associati a sviste, dimenticanze o errori dovuti a mancanze di attenzione o percezione, e risultano in azioni osservabili non appropriate. Lapses: Sono eventi cognitivi che normalmente coinvolgono una mancanza di memoria. Mistakes: Sono errori commessi ad alto livello cognitivo, che coinvolgono un processo che dipende dalle informazioni percepite, dalla pianificazione, dal giudizio e dalla formulazione di intenzioni. Violations: Sono deviazioni dalle pratiche operative, da standards e regole di sicurezza. Un quadro riassuntivo delle diverse tipologie di errore umano e delle loro aree di influenza viene riportato in Tab. 2.1. Tabella 2.1. Tipi e Tipologie di errore umano
2.6 Teorie e modelli di errore umano
89
2.6.2 Modalit` a di errore umano Al fine di strutturare pi` u in dettaglio un’architettura o un modello di errore umano, che possa essere intergrato in calcoli di progetto e sicurezza di impianti, `e indispensabile effettuare ancora un passo di sviluppo e formalizzazione che permette di collegare tipologie diverse di errore a modalit` a specifiche o manifestazioni. Ci`o significa che, quando si studia uno specifico impianto ed un ben determinato Sistema Uomo-Macchina, `e necessario associare a tipi diversi di errore anche le forme, o modalit` a, che vengono cos`ı identificate e definite: Per modi di errore si intendono le forme specifiche che le diverse tipologie di errore possono assumere, per ciascuna funzione cognitiva umana ed in particolare per le azioni. Pertanto, le manifestazioni dei comportamenti errati, cio`e le forme che assumono le azioni erronee degli operatori, e che sono classificate in maniera generale dalle diverse tipologie, devono essere trasformate in espressioni quantitative e misurabili di comportamenti erronei relativi al sistema in esame. In questo modo, queste modalit`a di errore diventano rappresentative di quel particolare ambiente di lavoro e possono essere usate per studi di affidabilit`a e sicurezza. La definizione delle forme assunte dagli errori, per ogni funzione cognitiva, implica una grande riduzione ed una profonda semplificazione nella rappresentazione delle possibili azioni e manifestazioni degli operatori. Ci` o costituisce una delle forme di semplificazione tra le pi` u forti introdotte dal passaggio dal modello teorico alla simulazione numerica computazionale. Esempi di tali semplificazioni possono essere: • la delimitazione di possibili “azioni premature”, definite come una manifestazione di errata esecuzione, a degli intervalli quali, ad esempio, 30 e 60 come le uniche due possibili anticipazioni di azioni nel corso di incidenti in esame; • la limitazione della manifestazione “troppo a lungo” a 30 , 45 e 60 , quali possibili durate incorrette delle azioni da intraprendere; • la considerazione di un numero limitato e noto nelle sue forme per la rappresentazione del fenotipo “ripetizione”, identificando a priori quali azioni possono essere ripetute. Data la definizione che si `e appena data di modalit` a di errore, risulta come non sia possibile identificare delle forme standard di modalit` a differenti e, pertanto, le specifiche quantificazioni vanno effettuate caso per caso in relazione all’esperienza dell’analista, ai dati raccolti in relazione al sistema in esame e al modello che si adotta di interazione uomo-macchina. 2.6.3 Tassonomie e modelli di errore Nel contesto di un’analisi di fattori umani, il modello cognitivo, che agisce come paradigma di riferimento per la rappresentazione del comportamento dell’uomo,
90
2 Fattori umani nell’analisi di sicurezza
necessita il supporto di una corrispondente tassonomia capace di rappresentare in maniera ordinata e strutturata il comportamento ed in particolare le azioni errate. Una tassonomia `e una classificazione, vale a dire un insieme di categorie in cui vengono strutturati, raccolti e catalogati dei dati. Una tassonomia, nel dominio dell’analisi di sicurezza, mira a classificare le informazioni su un possibile incidente od evento indesiderato in modo sistematico seguendo uno schema prestabilito ed `e quindi anche un’ottima guida nella condotta dell’analisi dell’evento stesso. Come base di impiego di una tassonomia vi `e dunque sempre un modello di riferimento, che aiuta a comprendere i meccanismi attraverso i quali l’evento incidentale si caratterizza e si distingue, oppure si assimila ad altri. Nel caso di analisi di situazioni incidentali che coinvolgono l’uomo, una tassonomia, che abbia come obbiettivo la classificazione sistematica dei “fattori umani” inerenti l’incidente, deve basarsi su un modello di riferimento di comportamento umano. Numerose tassonomie di fattori umani sono state correttamente sviluppate in concomitanza di rispettivi modelli. In particolare, i modelli descritti in precedenza hanno dato origine a tassonomie ampiamente utilizzate per lo studio di situazioni incidentali. Sia il modello di Rasmussen che il modello di Reason sono legati a tassonomie specifiche, che sono state applicate per classificare errori umani in ambienti aeronautico, nucleare, petrolifero e chimico (Rassmussen et al., 1981; Bagnara et al., 1989, Hudson et al., 1994). Anche i due modelli SHELL e COCOM, hanno dato origine a tassonomie caratteristiche dei domini in cui sono tuttora applicate (ICAO 1987, 1997; Hollnagel, 1998). Alcune di queste tassonomie verranno analizzate in dettaglio nel prosieguo di questo testo, in relazione allo studio e classificazione di concorrenze incidentali ed eventi di pericolo. Le tassonomie degli errori umani possono essere sviluppate in maniera molto generica, oppure nascono gi`a associate ad un dominio specifico di applicazione. In ogni caso, per effettuare uno studio degli errori umani in maniera strutturata, `e necessario che esista uno stretto legame tra il modello di comportamento umano e la tassonomia stessa. Infatti, in un’ottica di interazione dinamica tra uomo, macchina e ambiente, vanno considerati due diversi aspetti derivanti dai dati associati alla simulazione ed al modello stesso: • la definizione delle cause effettive che influenzano il comportamento umano; • l’identificazione delle possibili manifestazioni e degli effetti degli errori. Questi due insiemi di fattori rappresentano gli elementi di collegamento tra l’ambiente di lavoro vero e proprio, che contiene l’impianto, le interfacce uomomacchina e le interazioni uomo-uomo e la tassonomia con i suoi riferimenti di cause-effetti-manifestazioni ed il modello cognitivo di riferimento (Fig. 2.10). Seguendo il paradigma IPS, il modello contiene una serie di regole mediante le quali si effettua un confronto fra quanto percepito e quanto conosciuto per poter eseguire un’interpretazione del tipo di evento o dell’evolversi della situazione. Di qui, se necessario, vengono richiamate altre regole logiche per la pianificazione di nuove azioni, le quali vengono poi eseguite in accordo con le procedure.
2.7 Rassegna di metodi e metodologie classici di affidabilit` a umana
91
Figura 2.10. Correlazioni modello di comportamento umano e tassonomia di errore
Altre correlazioni logico-numeriche permettono di rappresentare il flusso delle funzioni cognitive, cio`e il processo di allocazione delle risorse, mettendo in relazione il contesto e la quantit`a di risorse disponibili. Mentre le esperienze degli operatori sono contenute nella base di conoscenza, nella quale sono rappresentate le procedure ed i criteri di riferimento per effettuare le interpretazioni o diagnosi delle informazioni percepite. Gli errori ed i comportamenti non corretti vengono poi iniettati nel fluire dei processi e funzioni cognitivi mediante l’intervento di fattori esterni. Questi dati e parametri sono definiti attraverso le tassonomie di errore. Si ritorner` a su questi aspetti di relazioni tra modelli, tassonomie e dati quando si analizzeranno i metodi e le metodologie di studio di sequenze incidentali.
2.7 Rassegna di metodi e metodologie classici di affidabilit` a umana Vi sono due aspetti cruciali relativi alla modellistica delle interazioni uomomacchina nel contesto dell’analisi di sicurezza e rischio: 1. la necessit`a di inserire le interazioni umane nella struttura logica delle tecniche di analisi di rischio; 2. la quantificazione dell’effetto delle interazioni umane sul risultato finale di un’analisi quantitativa dei rischi (“Quantitative Risk Assessment”, QRA). I metodi che si occupano di introdurre gli errori umani e le loro quantificazioni in analisi di sicurezza e rischio vengono normalmente indicati come metodi di affidabilit` a umana (“Human Reliability Analysis”, HRA). Esistono in letteratura diversi
92
2 Fattori umani nell’analisi di sicurezza
lavori di rassegna di metodi di affidabilit` a umana (Watson, 1986; Humphreys, 1988; Lyons et al., 2005). Ad esempio, nel lavoro di Watson (1986) si identificano diverse categorie di metodi, in funzione delle tecniche di quantificazione degli errori, dove una prima categoria `e basata sulla combinazione di dati storici di errori umani su componenti elementari “classici”, quali valvole, pompe, letture di strumenti ecc., in modo da definire la probabilit` a di errore nell’esecuzione di missioni complesse comprendenti azioni elementari. Queste tecniche sono definite “riduzioniste” o di “decomposizione”. Una seconda categoria comprende i metodi che applicano le teorie classiche dell’affidabilit` a a problemi temporali in modo da definire delle probabilit` a di errore nel tempo. Una terza categoria comprende i metodi che si basano sulle valutazioni soggettive di esperti per la quantificazione degli errori umani. In altri lavori di rassegna (Humphreys, 1988; IAEA, 1989), ci si riferisce al soggetto trattato dai diversi metodi, identificando due passi principali necessari per lo studio affidabilistico degli errori umani: l’analisi qualitativa, comprendente la modellistica, e la quantificazione. Questo tipo di organizzazione `e l’approccio pi` u usato in letteratura in quanto fa riferimento agli stessi passi che si possono seguire in un’analisi affidabilistica sistemica e quindi, seguendo questo formalismo, risulta pi` u facile fare un parallelo di metodi e metodologie fra quest’ultima e l’affidabilit` a umana. I metodi e le metodologie che verranno descritti qui di seguito sono inquadrati in accordo a questa suddivisione. Per esempio, si pu` o gi` a fin d’ora dire che la metodologia sviluppata per l’EPRI (Electric Power Research Institute) dalla NUS Corporation e denominata SHARP (Systematic Human Action Reliability Procedure) (Hannaman e Spurgin, 1984), proprio perch´e tale, non si inquadra in nessuna delle due categorie suddette, ma si espande su entrambe in maniera generale, rappresentando una sorta di procedura di riferimento per l’analista di fattori umani pi` u che di un insieme di metodi ben precisi. I metodi usati per l’analisi qualitativa del comportamento degli operatori e delle procedure operazionali comprendono lo studio e la modellistica delle situazioni incidentali, formalizzandone la rappresentazione e, pertanto, costituiscono gli elementi portanti delle applicazioni numeriche (quantitative) che determinano la portata delle conseguenze. Per quanto concerne lo studio di situazioni incidentali, i metodi qualitativi possono essere suddivisi in due gruppi: metodi legati all’obbiettivo, o “Task driven methods”, e metodi legati alla componentistica, o “Component driven methods”. Nei primi ogni passo della procedura `e analizzato in dettaglio, con riferimento ai fattori che influenzano le performance (“Performance Shaping Factors”, PSF), quali la complessit` a, l’ambiente, lo stress ecc... In alcuni casi, questo passo `e formalizzato mediante l’uso di tabelle, cos`ı come `e fatto nell’affidabilit` a meccanica di componenti con le tabelle di “modi di guasto ed analisi degli effetti” (“Failure Mode and Effect Analysis”, FMEA). Nei metodi legati alla componentistica, i possibili guasti dei componenti e gli eventi iniziatori di sequenze incidentali, quali ad esempio una rottura di tubi nel generatore di vapore, vengono presi come punti di partenza ed un’indagine della procedura `e fatta per identificare le possibili azioni erronee dell’operatore che hanno influenza sull’evoluzione dell’incidente. Quest’ultimo approccio `e quello pi` u comunemente
2.7 Rassegna di metodi e metodologie classici di affidabilit` a umana
93
applicato in quanto permette un’analogia ed un legame diretto con gli Alberi di Evento sistemici sviluppati nel QRA di impianto. Per quanto concerne la modellistica, i modelli hanno l’obbiettivo di fornire una struttura logica con cui descrivere il successo o il fallimento di procedure comprendenti l’intervento di operatori. Con il modello, l’analista `e in grado di comprendere l’evento di errore e di quantificare meglio le probabilit` a dell’evento, durante la successiva fase dell’analisi affidabilistica. I modelli pi` u comunemente usati sono quelli che hanno forti analogie con le tecniche degli Alberi di Guasto ed Alberi di Evento. Ora, considerando l’aspetto prettamente dinamico degli errori umani durante l’esecuzione di procedure, l’approccio ET sembra presentare vantaggi rispetto al FT e pertanto `e pi` u ampiamente usato. D’altro canto la tecnica FT `e pi` u indicata per l’analisi di sequenze a ritroso, per le quali cio`e sia noto l’evento di errore e si voglia risalire alle cause che lo hanno generato. L’obbiettivo dei metodi di quantificazione `e la valutazione della probabilit` a di successo o insuccesso di azioni umane legate alle descrizioni ed ai fattori che le ` quindi importante ribadire, ancora influenzano, descritti nei passi precedenti. E una volta, il fatto che i metodi quantitativi non possono prescindere da una previa analisi qualitativa che ne giustifica le scelte e che permette di definire bene le condizioni al contorno ed i dati di partenza. I risultati dell’analisi quantitativa devono includere anche le incertezze e valori di sensitivit` a in modo da ottenere valori immediatamente accoppiabili ad analisi di affidabilit` a del rischio globale, quali i QRA (Dougherty e Fragola, 1988; Cacciabue, 1997). Esistono molti metodi di quantificazione ma, nel presente lavoro, solo quelli maggiormente usati nelle analisi di processi industriali complessi e di impianti di produzione di energia verranno presi in considerazione. Anzitutto, sar` a ora descritta la metodologia SHARP e quindi si passeranno in rassegna alcuni metodi di quantificazione, cercando di dare per ciascuno una descrizione breve e sostanziale. Si identificheranno anche alcuni criteri per la valutazione di tali metodi, in riferimento alle applicazioni desiderate. Pi` u specificatamente, verranno analizzati i seguenti metodi: Operator Action Tree (OAT), Absolute Probability Judgement (APJ); Paired Comparison (PC); Tecnica Empirica Stima Errori Operatori (TESEO); Success Likelihood Index Methodology (SLIM); Human Cognitive Reliability (HCR); e Technique for Human Error Rate Prediction (THERP). Per tali metodi, detti anche di “prima generazione”, si metteranno in risalto sia gli aspetti critici sia le carenze, che hanno dato origine allo sviluppo di tecniche nuove, di “seconda generazione”. Tra queste ultime, ne verranno descritte brevemente tre, cio`e: A Technique for Human Event Analysis (ATHEANA), Cognitive Reliability and Error Analysis method (CREAM) e Dynamic Logical Analytical method for Human Error Risk Assessment (DYLAM-HERA). Infine, si analizzer`a in dettaglio il metodo THERP, che rappresenta la tecnica pi` u completa e pi` u comunemente applicata per analisi qualitative e quantitative di rischio in molti domini tecnologici diversi.
94
2 Fattori umani nell’analisi di sicurezza
2.7.1 La metodologia SHARP Nel campo nucleare, si pu`o dire che la metodologia SHARP (“Systematic Human Action Reliability Procedure”) ed il documento che la descrive in dettaglio (Hannaman, Spurgin, 1984) rappresentano il lavoro di riferimento contenente le linee guida per l’analista di sicurezza dei fattori umani, cos`ı come il documento NUREG2300 (US-NRC, 1983) costituisce l’equivalente lavoro nel domino dell’affidabilit` a sistemica. SHARP `e, infatti, una struttura per l’analisi di sistemi che coinvolgono l’interazione dell’uomo con la macchina, che si sviluppa su 7 passi distinti (Fig. 2.11): (1) identificazione delle azioni umane (Definition); (2) selezione delle assunzioni di base (Screening); (3) definizione dei punti importanti di interazione (Break down); (4) descrizione dettagliata delle interazioni (Representation); (5) integrazione delle azioni con le risposte della macchina (Impact assessment); (6) quantificazione (Quantification), ed infine (7) documentazione dei risultati (Documentation).
Figura 2.11. Passi logici della metodologia SHARP
Ciascuno di questi passi consiste in valori di ingresso (“inputs”), di regole operative (“rules”) e di risultati (“outputs”). Gli “inputs” derivano dai passi precedenti, dai risultati del QRA sistemico di riferimento, ovvero da altre fonti quali l’analisi delle procedure, delle banche di dati di incidenti o anche da indagini sul posto di lavoro. Nel passo 1 (“Definition”), gli alberi logici sviluppati dall’analista sistemico sulla base delle descrizioni funzionali dell’impianto sono studiati a fondo con l’obbiettivo di identificare al meglio le interazioni uomo-macchina e di assicurarsi che le diverse azioni umane legate alla procedura di controllo in oggetto siano adeguatamente considerate. I dati di input per il passo 1 sono dunque costituiti dall’insieme degli eventi iniziatori considerati nello sviluppo del QRA dell’impianto e dagli Alberi (di Evento e di Guasto) logici ad esso associati. Le operazioni su tali dati sono basate su tre metodi di indagine: a) l’identificazione delle attivit`a umane associate con i sistemi ed i controlli definiti negli Alberi di Evento e di Guasto sistemici; b) l’esame degli alberi di evento e di guasto utilizzando una classificazione di tipologie di azioni relative alle sequenze incidentali, quali ad esempio gli interventi
2.7 Rassegna di metodi e metodologie classici di affidabilit` a umana
95
antecedenti e susseguenti l’evento iniziatore; c) lo studio di situazioni simili gi` a verificatesi in passato attraverso banche di dati quali ad esempio i “Licensee Event Reports” (LER). Nel passo 2 (“Screening”), gli alberi logici arricchiti delle azioni umane sono analizzati e rivisti per l’identificazione delle azioni pi` u importanti da studiare in dettaglio nel prosieguo dell’indagine affidabilistica. L’input a questo passo `e costituito dalle strutture logiche derivate dal passo 1 di definizione e pu` o assumere la forma di Alberi di Evento o di Guasto oppure di altre forme di costruzione logica. Le tecniche pi` u comunemente usate per la revisione delle interazioni vanno dai giudizi di esperti relativi ad una valutazione qualitativa dell’impatto di una particolare azione sulla sicurezza dell’impianto, ad analisi semplificate di sequenze (“coarse screening”) con probabilit`a fisse su possibili errori degli operatori, ovvero ad analisi pi` u approfondite (“fine screening”) con l’inclusione di valutazioni probabilistiche pi` u dettagliate gi` a in questo passo della metodologia. Nel passo 3 (“Break down”), ciascuna interazione, definita precedentemente come rilevante, `e suddivisa in azioni, obbiettivi e sotto-obbiettivi, con l’identificazione dei fattori pi` u influenti per una modellizzazione completa. Le tecniche pi` u utilizzate per questo passo dell’indagine sono basate sullo studio delle procedure di controllo ed emergenza. Un attento esame degli ambienti di lavoro reali `e altres`ı indispensabile per scoprire quali siano i fattori influenti sul comportamento degli operatori. Si tratta quindi ancora di indagini di tipo qualitativo, anche se basate su tecniche di disegno sperimentale (“Experimental Design”) in sala controllo. Nel passo 4 (“Representation”), le interazioni dettagliate sono modellate esplicitamente nella forma di alberi di evento o di guasto, includendo anche le alternative che si pongono all’operatore, in modo tale da poter analizzare i possibili impatti sull’albero logico del sistema. Le tecniche usate per l’elaborazione delle informazioni, anche se ancora di tipo qualitativo, devono essere integrate in un approccio metodologico che prevede lo sviluppo quantitativo. I metodi pi` u utilizzabili per tale passo sono THERP, OAT ed altre che verranno analizzate nel loro complesso nelle sezioni successive di questo capitolo. Inoltre, in questo passo vengono analizzati anche i dati di base disponibili per una successiva valutazione quantitativa e la disponibilit` a di giudizi di esperti, qualora non siano disponibili dati sufficienti relativi all’interazione in esame. L’output di questo passo `e cos`ı costituito dalla rappresentazione delle interazioni uomo-macchina in termini di successi ed insuccessi formalizzati in maniera tale da permettere la valutazione e l’inclusione nelle strutture logiche del QRA sistemico generale. Nel passo 5 (“Impact Assessment”), i possibili alberi logici derivanti dalle azioni identificate nel passo precedente sono sviluppati in maniera tale da permettere all’analista di sicurezza di valutarne l’impatto sul comportamento globale dell’impianto. Gli Alberi di Evento e di Guasto sistemici vengono pertanto modificati e rivisti basandosi sui risultati del passo precedente, dando cos`ı origine a possibili nuovi eventi iniziatori oppure a modifiche nella valutazione delle dipendenze, nelle strutture degli alberi o delle sequenze di eventi.
96
2 Fattori umani nell’analisi di sicurezza
Nel passo 6, le azioni sono quantificate in termini di probabilit`a per inclusione completa nel QRA. La quantificazione delle strutture logiche definite nei passi precedenti implica l’uso di dati, associati alle relative incertezze e tali da corrispondere al metodo di rappresentazione scelto nel passo 4. Infine, nel passo 7, i risultati dell’analisi sono documentati con tutte le informazioni necessarie per future analisi e definizioni di errori umani. 2.7.2 Il metodo OAT Il metodo, o tecnica, OAT (“Operator Action Tree”) (Wreathall, 1982) `e basato sulla rappresentazione grafica ad albero delle sequenze di azioni che sono necessarie per raggiungere un determinato obbiettivo. OAT (Fig. 2.12) si focalizza sul processo decisionale ed identifica alternative sulla base di ambiguit` a od interpretazioni dell’operatore associate con le fasi di osservazione, diagnosi e selezione di risposte al sistema. La versione estesa de metodo (“Extended OAT”, EOAT) include anche l’analisi dello stadio di riconoscimento (“detection”) di malfunzionamento e dunque anche il relativo errore di mancato riconoscimento. OAT permette all’analista di identificare e rappresentare diversi tipi di strategie che possono influenzare in maniera diversa lo sviluppo della sequenza sotto il profilo concettuale, quali ad esempio la scelta opzionale di una procedura che genera situazioni estreme per il sistema e che `e raramente usata in condizioni normali.
Figura 2.12. Rappresentazione del metodo “Operator Action Tree” (OAT)
2.7 Rassegna di metodi e metodologie classici di affidabilit` a umana
97
Figura 2.13. Probabilit` a di non-risposta vs. tempo di risposta in situazioni incidentali (tradotto ed adattato da Hannaman e Spurgin, 1984 pag. 3-56)
Con questo metodo `e dunque possibile valutare l’applicazione di procedure alternative e stabilire se e quali siano i nodi decisionali importanti nell’evoluzione di sequenze incidentali. Un aspetto altrettanto importante di tale procedura `e il concetto di “time failure”, usato per quantificare errori legati al tempo. In questo caso vengono usate delle curve tipiche (Fig. 2.13), anche discusse nella metodologia SHARP, che mostrano i comportamenti caratteristici, a livello di procedure, noti come “skill, rule or knowledge base behaviour”, cos`ı come sono stati definiti da Rasmussen (1983). Esistono poi altre rappresentazioni, anch’esse riprese da SHARP, usate per definire le probabilit` a associate alle azioni legate ad una procedura. Queste sono la “confusion matrix” per l’identificazione delle azioni dell’operatore in risposta ad una situazione incidentale non ben definita; la “Human Reliability Assessment” (Swain e Guttmann, 1983), che fornisce un approccio di analisi di azioni attese o inattese durante l’esecuzione di una procedura; ed infine anche il metodo proposto nel famoso WASH-1400 Reactor Safety Study (US-NRC, 1975), basato su un semplice algoritmo di successo-insuccesso di ogni singola azione. 2.7.3 Il metodo APJ Il metodo APJ (“Absolute Probability Judgement”) (Seaver e Stillwell, 1982), anche noto come “Direct Numerical Estimation”, `e il metodo pi` u diretto per la quantificazione degli errori umani, o “Human Error Probabilities”, HEPs. APJ si basa sul giudizio di esperti in fattori umani, grazie alla loro esperienza e conoscenza. La ragione che sta alla base del metodo `e il fatto che esistono pochissimi dati a disposizione sugli errori umani, mentre sono molti gli esperti nel campo.
98
2 Fattori umani nell’analisi di sicurezza
Esistono due forme di APJ, precisamente il “Group APJ” ed il “Single Expert Method”. La maggior parte delle ricerche `e peraltro basata sul lavoro del gruppo, in quanto raramente esiste un solo esperto capace di avere sufficiente conoscenza ed informazione per stimare completamente gli errori umani in procedure complesse. Nel metodo del gruppo, le opinioni singole e la conoscenza di ogni esperto sono combinate sia mediante metodi matematici, sia forzando i giudici al consenso su singoli problemi. Indipendentemente dal metodo seguito, sono previsti i seguenti passi: (1) selezione degli esperti; (2) identificazione della missione e relativa procedura; (3) preparazione di formati di risposta; (4) sviluppo di istruzioni per gli esperti; (5) raccolta dei giudizi singoli; (6) valutazione della consistenza tra i giudici; (7) aggregazione delle stime individuali; (8) valutazione delle incertezze. Mentre i passi 1-4 sono immediatamente comprensibili, i passi 5-8 richiedono un ulteriore chiarimento. Per quanto concerne il passo 5, esistono 4 diversi metodi per ottenere i giudizi degli esperti: a. “Aggregated Individual Method”, che richiede stime individuali di esperti separatamente elicitati; tali stime vengono poi combinate statisticamente prendendone la media geometrica; b. “Delphi Method”, con il quale gli esperti devono fare stime singolarmente ed autonomamente, salvo poi rivedere ed aggiustare le loro stime sulla base dei giudizi di altri esperti; i valori finali vengono poi combinati statisticamente come in precedenza; c. “Nominal Group Technique”, simile alla Delphi dove per` o `e ammessa una certa discussione tra gli esperti; d. “Consensus Group Method”, dove si impone agli esperti di raggiungere valori consensuali di stime. Quando si usa un metodo diverso dal “Consensus Group Method”, una procedura statistica per il calcolo della consistenza dei giudizi (passo 6) `e applicata, sulla base di tecniche di analisi della varianza, che permettono di calcolare il valore medio delle stime individuali (passo 7). Infine, per la stima delle incertezze (passo 8) si usano i concetti statistici di deviazione standard e scarti di confidenza. La tecnica APJ presenta due svantaggi principali, dovuti fondamentalmente al fatto che `e completamente legata al giudizio di esperti. Questi svantaggi sono: le alienazioni che possono generarsi a seguito di conflitti di personalit` a e problemi vari nell’ambito del gruppo di esperti; e la tendenza alla stima approssimata cui gli esperti tendono molto spesso. D’altro canto tale metodo ha dimostrato notevole accuratezza in diversi campi ed `e di applicazione molto rapida. 2.7.4 Il metodo PC Il metodo PC (“Paired Comparison”), originariamente sviluppato da Thurstone (1980) `e stato poi ampliato nel corso dell’applicazione al campo nucleare. Si tratta ancora di una tecnica che usa il giudizio di esperti, senza per`o richiedere delle
2.7 Rassegna di metodi e metodologie classici di affidabilit` a umana
99
quantificazioni. Gli esperti devono, in questo caso, paragonare coppie di procedure per le quali si vogliono valutare gli errori umani. Per ogni coppia l’esperto deve identificare la procedura con la maggiore probabilit` a di errori umani (HEPs). In questo modo una graduatoria di procedure con crescente probabilit` a di errori umani viene stilata e quindi, utilizzando procedure per le quali sono noti i valori di HEPs, vengono calibrate tutte le altre su scala logaritmica, derivando infine le stime di HEPs. Questa tecnica prevede 16 passi: (1) definizione della procedura; (2) calibrazione delle procedure; (3) selezione degli esperti; (4); preparazione dell’esercizio; (5) informazione degli esperti; (6) applicazione delle scelte comparative; (7) derivazione della matrice di frequenze approssimata; (8) derivazione della matrice proporzionale; (9) derivazione della matrice di trasformazione; (10) derivazione del vettore differenze; (11) calcolo dei valori; (12) stima dei punti di calibrazione; (13) trasformazione dei valori in probabilit` a; (14) determinazione della consistenza dei giudizi di ogni singolo esperto; (15) determinazione della consistenza dei giudizi tra esperti; (16) stima degli intervalli di incertezza. I singoli passi non vengono qui commentati, anche perch´e la trattazione matematica del metodo esula dagli scopi del presente lavoro. I vantaggi che il metodo offre sono basati soprattutto sulla relativa semplicit` a della valutazione delle stime, che permette di arrivare assai velocemente alle probabilit` a, salvo poi applicare il metodo statistico descritto, che `e normalmente computerizzato. Tuttavia, anche senza la parte applicativa, la tecnica fornisce un mezzo interessante per valutare, in maniera differenziata, l’importanza relativa di errori umani e quindi per definire un ordine di gravit` a che pu` o essere usato anche da altri metodi di quantificazione. Infine, con questo metodo si eliminano, a scapito per` o di un pi` u complesso formalismo matematico, i problemi derivanti dalle conflittualit` a di personalit` a riscontrate nel caso del metodo APJ. 2.7.5 Il metodo TESEO Il metodo TESEO (Tecnica Empirica Stima Errori Operatori) (Bello e Colombari, 1980) predice i valori di affidabilit` a umana in funzione di cinque fattori che vengono considerati i maggiori determinanti del comportamento. Questi sono: • • • • •
il tipo di lavoro (K1 ); il tempo disponibile (K2 ); le caratteristiche dell’operatore (K3 ); lo stato emotivo dell’operatore (K4 ); l’aspetto ergonomico dell’ambiente di lavoro (K5 ).
Quindi la probabilit` a di errore umano viene calcolata con una semplice formula del tipo: HEP = K1 K2 K3 K4 K5 . I valori assunti da ciascun termine sono derivati da tabelle standardizzate che tengono conto della formula adottata per calcolare i valori di HEPs.
100
2 Fattori umani nell’analisi di sicurezza
Chiaramente questo approccio mostra lacune di retroterra teorico, specialmente in relazione ai metodi precedentemente illustrati. Inoltre, TESEO assume che i cinque fattori su cui si basa siano sempre sufficienti alla definizione dell’errore in termini di HEP, senza alcuna giustificazione del rapporto moltiplicativo tra di essi. Tuttavia, gli autori stessi riconoscono tali lacune e specificano che si tratta di un metodo puramente empirico che, in principio, non richiede giustificazioni o fondamenti teorici. TESEO `e, come del resto tutti i metodi puramente empirici, facilmente applicabile soprattutto per analisi di sensitivit` a ed ha un’attrattiva particolare in applicazioni di tipo comparativo, per esempio, tra diversi progetti di sale controllo o tra procedure alternative.
2.7.6 Il metodo SLIM Il metodo SLIM (“Success Likelihood Index Method”) (Embrey et al., 1984) deriva dal dominio dell’analisi delle decisioni. Si tratta di una tecnica applicabile alla valutazione delle probabilit`a di errori umani integralmente basata sul concetto di PSF (“Performance Shaping Factors”) gi` a introdotto per altri metodi. Il metodo `e completamente computerizzato e considera due moduli: SLIMMAUD e SLIM-SARAH. SLIM-MAUD (“Multi-Attribute Utility Decomposition”) viene usato per la quantificazione dei diversi fattori che contribuiscono al comportamento in termini affidabilistici. Utilizzando giudizi di esperti, si ottengono valori relativi di possibilit` a di successo o fallimento di insiemi di azioni. SLIM-SARAH (“Systematic Approach to the Reliability Assessment of Humans”), serve per la quantificazione, utilizzando i valori assoluti derivati dai giudizi degli esperti e scale logaritmiche di calibrazione e normalizzazione. L’applicazione del metodo `e prevista in 10 passi: (1) definizione delle situazioni e sottoinsiemi; (2) elicitazione dei PSF; (3) combinazione della procedure e dei PSF; (4) identificazione di valori di riferimento; (5) valutazione delle indipendenze; (6) procedure di correlazione tra azioni; (7) calcolo di “Success Likelihood Index” (SLI); (8) conversione dei valori di SLI in probabilit` a; (9) analisi degli intervalli di incertezza e (10) analisi dei costi-benefici. I primi 8 passi sono sviluppati in SLIM-MAUD ed i rimanenti in SLIM-SARAH. Il primo passo di SLIM-MAUD `e indirizzato a fornire agli esperti il massimo dell’informazione relativa alle caratteristiche della procedura. Poi, gli esperti devono, durante una seduta interattiva al calcolatore, identificare e rateizzare i PSF relativi alla missione sulla base di valori che vanno da 1 a 9, dovendo anche definire il punto ideale della scala che viene usata. Quest’ultimo passo permette di mettere in correlazione il giudizio dei vari esperti. Avviene poi un procedimento di correlazione di importanze relative tra i passi della procedura, indirizzato alla valutazione dei pesi relativi dei PSF sul successo finale della missione. Questo permette di arrivare alla valutazione dei valori SLI mediante la seguente formula: SLIj = Wi Rij
2.7 Rassegna di metodi e metodologie classici di affidabilit` a umana
101
dove: SLIj Wi Rij
rappresenta il valore di “Success Likelihood Index” per la missione j; rappresenta il valore normalizzato del peso dell’importanza dell’iesimo PSF; rappresenta il rateo della missione j relativo all’iesimo PSF.
Per trasformare queste misure di possibilit` a di fallimento in valori di probabilit` a di errori umani (HEP) `e necessario calibrare opportunamente i valori di SLI per ogni missione considerata. La relazione logaritmica usata in SLIM `e : log HEP = a · SLI + b dove a e b sono costanti. La giustificazione di tale formalismo `e in parte legata alla tecnica “Pair Comparison”, gi` a vista prima, che si basa su giudizi comparativi di esperti ed, in parte, su considerazioni teoriche che supportano l’uso di scale logaritmiche per questa forma di normalizzazioni. D’altro canto questo uso esteso di giudizi di vari esperti rappresenta il principale ostacolo ad una semplice e rapida applicazione della tecnica, che `e comunque basata su solide basi teoriche e si presta ad applicazioni di varia natura con l’uso di calcolatori. Quest’ultimo aspetto poi la rende particolarmente attraente, in quanto la parte pi` u ardua, sotto il profilo teorico-matematico, `e completamente proceduralizzata e quindi non richiede profonde conoscenze di statistica, una volta acquisita sufficiente esperienza di impiego. 2.7.7 metodo HCR Il metodo HCR (“Human Cognitive Reliability”) (Hannaman et al., 1984) permette di valutare la dipendenza temporale della mancanza di risposta dell’operatore in funzione di un certo numero di parametri ingegneristici. Si tratta, dunque, ancora di un metodo indirizzato alla valutazione di probabilit` a di insuccesso di missioni, nel quale per` o si tenta di identificare il comportamento cognitivo dell’individuo in relazione al tempo medio di risposta e, ancora una volta, ai PSFs (“Performance Shaping Factors”). Il tempo medio di risposta dell’operatore rappresenta il tempo che l’operatore impiega normalmente ad eseguire determinate operazioni e viene normalmente valutato mediante sedute al simulatore di addestramento, o con giudizi di esperti, ovvero mediante lo studio dei compiti dell’operatore (“task analysis”). I PSFs tengono conto, come negli altri modelli, di fattori quali lo stress, la strumentazione, l’ambiente di lavoro, ecc. Il comportamento cognitivo dell’operatore `e invece legato al modello SRK (Rasmussen, 1983), che formalizza il comportamento decisionale ed operativo dell’uomo in tre livelli: la stretta correlazione tra lo stimolo sensorio e risposta immediata istintiva (“skill-based behaviour”), l’esecuzione di procedure conosciute, consciamente richiamate alla memoria e riviste prima della loro applicazione (“rule-based
102
2 Fattori umani nell’analisi di sicurezza
behaviour”), ed il processo analitico di risoluzione di un problema, in una situazione complessa non ben nota, che richiede un lavoro mentale difficile e laborioso (“knowledge-based behaviour”). Le analisi di dati e stime sulle missioni da completare permettono di identificare, poi, un numero di parametri empirici con i quali vengono correlate le motivazioni teoriche di cui sopra. Le curve ottenute al calcolatore sono infine approssimate da una distribuzione a tre parametri di tipo Weibull data da: ⎛ ⎞ t − Cγj βj ⎜ T1/2 ⎟ ⎟ p(t) = exp ⎜ ⎝ ⎠ Cηj in cui: t T1/2 βJ Cγj Cηj
rappresenta il tempo impiegato dal soggetto per completare l’azione; `e il tempo medio stimato e corretto in considerazione dei PSF; `e un parametro di correlazione relativo al tipo di lavoro cognitivo; `e un parametro di tempo di ritardo; `e un parametro di normalizzazione legato al tipo di lavoro cognitivo.
Se T `e il tempo massimo ammesso per completare la missione, p(T ) `e la probabilit` a di non risposta del soggetto. La Fig. 2.14 mostra le curve normalizzate di non risposta per i tre processi cognitivi “skill”, “rule” e “knowledge”. La probabilit`a di non risposta cos`ı definita diventa uno dei componenti del calcolo globale di probabilit` a di successo di una procedura o di una serie di procedure da valutare in un QRA di impianto. HCR, essendo un metodo basato su giudizi di esperti, soffre delle stesse limitazioni gi` a espresse in precedenza per tali tipi di metodi. Tuttavia, HCR `e, rispetto ad
Figura 2.14. Curve normalizzate del modello HCR
2.7 Rassegna di metodi e metodologie classici di affidabilit` a umana
103
altri metodi, molto pi` u semplice nell’uso e nell’applicazione in quanto non richiede complessi formalismi matematici o statistici. Infine, si pu` o osservare come in HCR si sia cercato di arrivare ad un compromesso tra le tecniche completamente empiriche (TESEO), i modelli probabilistici puri (OAT) e le analisi psicologiche di comportamento.
2.7.8 Il metodo THERP La tecnica per la predizione dei ratei di errore umano THERP (“Technique for Human Error Rate Prediction”), sviluppata da Swain e Guttmann (1983), nel corso di pi` u anni tra il 1979 ed il 1983, `e il metodo pi` u ampiamente usato ed applicato in questo campo. Si tratta, in principio, di un metodo ibrido in quanto gli errori umani vengono descritti usando alberi di probabilit` a e modelli di dipendenza combinati con considerazioni sui fattori di influenza delle performance (PSFs). La tecnica `e fortemente legata alla banca dati contenuta nel capitolo 20 del suo manuale d’uso, nel quale sono contenuti i dati derivati da un insieme di informazioni ottenute dagli autori del metodo, sia per via sperimentale che da elicitazione di esperti. Questa notevole banca dati, accoppiata al fatto che il metodo `e fortemente orientato all’analisi ingegneristica degli errori e che `e stato il primo ad essere utilizzato estensivamente in maniera completa, fanno s`ı che THERP sia particolarmente interessante per analisi di affidabilit` a con fattori umani. THERP si sviluppa in quattro fasi (Bell e Swain, 1981), ciascuna delle quali richiede l’esecuzione di passi ben definiti (Fig. 2.15). 1. Familiarizzazione (“Familiarisation”), che comprende i passi di visita all’impianto e lo studio delle informazioni relative al sistema da parte dell’analista di sicurezza (“Plant Visit” e “Review Information from System Analyst”). 2. Analisi Qualitativa (“Qualitative Assessment”), nella quale vengono eseguiti il sopralluogo e la discussione con il personale, l’analisi delle procedure e dei compiti degli operatori e lo sviluppo degli Alberi di Evento di errore umano (“Talkor Walk-through”, “Task Analysis” e “Develop Human Reliability Analysis Event Tree”). 3. Analisi Quantitativa (“Quantitative Assessment”), che comprende l’assegnazione dei valori nominali della probabilit` a d’errore umano (“Nominal Human Error Probabilities”, NHEP), la stima dei fattori influenzanti il comportamento (“Performance Shaping Factors”, PSF), la valutazione delle dipendenze, ed infine il calcolo delle probabilit` a di successo od insuccesso e gli effetti dei fattori di recupero (“Assign NHEPs”, “Estimate the Relative Effects of PSFs”, “Assess Dependence”, “Determine Success and Failure Probabilities” e “Determine the Effects of Recovery Factors”). 4. Incorporazione (“Incorporation”), che comprende l’analisi di sensitivit` a ed il processo di trasmissione dell’informazione all’analista di sicurezza (“Perform a Sensitivity Analysis, if Warranted” e “Supply Information to System Analysts”), per l’inclusione (incorporazione) nella valutazione quantitativa dei rischi (QRA).
104
2 Fattori umani nell’analisi di sicurezza
Figura 2.15. Fasi fondamentali della tecnica THERP
L’applicazione di THERP richiede una notevole mole di lavoro, senza peraltro permettere in questo formalismo la valutazione di errori fatti ad alto livello cognitivo, quali errori di diagnosi o di pianificazione di procedure in situazione confuse. Tuttavia i vantaggi che la tecnica offre sotto il profilo della compatibilit` a con i metodi classici di affidabilit`a e la totale indipendenza del metodo da altre fonti di informazioni, soprattutto per i dati, fanno si che vi sia una grande applicazione della stessa, sia in toto sia anche solamente quale fonte di dati per la valutazione, possibilmente con altri metodi formali, degli errori di operatori. Questa tecnica verr` a descritta in dettaglio nel prosieguo di questo capitolo.
2.8 Limiti e critiche dei metodi classici di affidabilit` a umana
105
2.8 Limiti e critiche dei metodi classici di affidabilit` a umana I limiti e le critiche pi` u rilevanti ai modelli affidabilistici umani “classici”, o “di prima generazione”, sono basati su due aspetti fondamentali: • la mancanza di considerazione di aspetti cognitivi e socio-tecnici nel processo decisionale che porta alla manifestazione dell’errore; • la sostanziale assenza di considerazione per gli aspetti dinamici nella simulazione dell’interazione uomo-macchina, che invece rappresenta la caratteristica pi` u rilevante nell’evoluzione di un incidente.
2.8.1 Aspetti cognitivi e socio-tecnici La critica di base all’adeguatezza di metodi “classici” di affidabilit` a umana risiede nel fatto che questi approcci hanno una tendenza “descrittiva” degli eventi, in cui solo gli aspetti formali esterni del comportamento vengono osservati e studiati sotto il profilo degli errori, senza considerare le ragioni ed i meccanismi che li hanno indotti a livello di cognizione. Per questo motivo i modelli di comportamento umano che accompagnano questi metodi affidabilistici vengono spesso riferiti come modelli comportamentali. Questa considerazione di tipo fondamentale, che verr` a ripresa qui di seguito, trova un riscontro eclatante nella critica che viene comunemente mossa ai metodi di affidabilit` a sistemica. Infatti, nello studio affidabilistico di sistemi, l’impianto viene dapprima suddiviso nei suoi componenti fondamentali e sottosistemi e, quindi, per ciascuno di questi si valutano le probabilit` a di rottura. Si costruiscono, poi, gli Alberi di Evento e di Guasto e si combinano le probabilit` a dei singoli eventi seguendo le diramazioni degli alberi secondo la teoria delle probabilit` a. Questo modo di procedere porta a sostanziali problemi quando si sia in presenza di cause comuni di guasto (“common cause failures”) e quando si debbano considerare delle correlazioni tra eventi di guasto con l’evoluzione fisico-logica della sequenza incidentale. Questo tipo di problemi viene ulteriormente amplificato qualora si tenti di analizzare il comportamento umano con metodi analoghi all’affidabilit` a sistemica. Infatti, `e ben noto che gli errori umani sono, per loro natura, eventi di cause comuni di guasto e quindi difficilmente trattabili con formalismi puramente statistici. Tutto ci` o porta alla considerazione che, per la valutazione del processo globale di decisione-azione dell’operatore, i modelli non possono prescindere dalla considerazione delle intenzioni e della conoscenza dell’operatore, che devono prendere la forma di schemi funzionali e rappresentazioni mentali dell’impianto. Questi modelli di comportamento umano, che si differenziano dai precedenti per la caratteristica di includere i processi mentali accanto alla simulazione del comportamento esterno, vengono definiti come modelli “cognitivi”, in contrapposizione ai modelli comportamentali precedenti (Cacciabue e Hollnagel, 1995). Esistono poi due altri aspetti fondamentali di problematica relativa agli aspetti cognitivi del comportamento umano: il livello di esperienza degli operatori e la
106
2 Fattori umani nell’analisi di sicurezza
situazione socio-tecnica dell’ambiente di lavoro. Il tipo di esperienza influisce enormemente sul modo di risolvere problemi. Infatti, ad esempio in una configurazione incidentale di impianto, il novizio si porr` a sempre in una posizione di estremo rispetto delle procedure previste dai manuali e le seguir` a passo dopo passo, salvo ricorrere a complessi ragionamenti di tipo funzionale-analitico sul comportamento fisico dell’impianto senza correlare questi al reale stato dell’impianto. D’altro canto, l’esperto eseguir`a immediatamente una delle strategie a lui ben note e sperimentate, che si adattano quasi perfettamente alla situazione in corso, o che hanno un alto grado di similarit` a con situazioni gi` a vissute in passato. Gli aspetti socio-tecnici sono poi particolarmente rilevanti in quanto nelle sale di controllo di impianti, quali le cabine di pilotaggio di aeromobili per il trasporto civile, le decisioni sono il risultato di diversi tipi di interazioni tra esseri umani e sistemi automatici. Ad esempio, a volte il “comandante” di un aeromobile impone la propria esperienza e conoscenza al “primo ufficiale”; altre volte, invece, vi `e una decisone condivisa tra i membri dell’equipaggio, e, nei casi pi` u articolati, intervengono le comunicazioni con la torre ed il controllo del traffico. In ogni caso, questi aspetti sono fondamentali nella definizione delle cause di manovre errate e devono essere adeguatamente considerati. Ad esempio, `e possibile che una decisione sia presa in maniera collegiale e condivisa dai membri dell’equipaggio, attraverso un processo di collaborazione, vale a dire tra pi` u persone che lavorano a diretto contatto, e dagli operatori del traffico aereo, attivando anche un processo di cooperazione, vale a dire tra pi` u persone in comunicazione le une con le altre da luoghi diversi. Tali decisioni, proprio perch´e condivise, hanno una valenza molto elevata e, se errate, possono dare origine a manifestazioni di comportamento inadeguato estremamente influenti su incidenti, anche molto rilevanti, e sono molto difficili da correggere e/o cambiare, riconoscendole come errate. In tali casi, evidentemente, l’errore risiede nel processo decisionale e non gi`a nella conseguente manifestazione comportamentale. I metodi classici, o di prima generazione, non sono in grado di differenziare adeguatamente tra questi due tipi di errore umano. Tutto ci`o va tenuto in debita considerazione nell’analisi della sicurezza degli impianti.
2.8.2 Aspetti dinamici Passando ora agli aspetti dinamici dell’interazione uomo-macchina, si pu` o osservare come le procedure di emergenza da applicare varino in maniera sostanziale in funzione della dinamicit` a o meno che queste comportano. Ora, mentre nelle procedure statiche esistono limiti di funzionalit` a ed i possibili errori umani nella loro esecuzione sono per lo pi` u stimabili in maniera quasi-indipendente dai processi fisici, in missioni dinamiche, che sono peraltro la stragrande maggioranza dei casi, esistono delle strette correlazioni tra le azioni, il tempo e le risposte del sistema. Tutto ci`o complica lo scenario globale in maniera sostanziale.
2.8 Limiti e critiche dei metodi classici di affidabilit` a umana
107
Infatti, l’analisi del comportamento dell’operatore in situazioni complesse deve essere fatta in considerazione di tutti i fattori che contribuiscono al suo comportamento con particolare riguardo a: • schemi mentali e atteggiamenti dell’operatore, in modo da coprire sia le forme comportamentali degli errori sia le forme interne legate ai processi cognitivi, includendo tra questi le caratteristiche peculiari dell’operatore, quali, ad esempio, esperienza, capacit`a di adattamento al lavoro di gruppo, personalit` a, ecc.; • caratteristiche delle missioni e sequenze di interventi dinamici inclusi nel processo evolutivo temporale del rapporto uomo-macchina. Alcune delle tecniche analizzate in precedenza, quali ad esempio SLIM e HCR tentano di considerare parte di questi aspetti. Tuttavia, in tali metodi, questi aspetti sono solo condizioni al contorno di secondaria importanza, mentre viene privilegiata l’interfaccia che essi hanno con le tecniche complementari di studio affidabilistico di sistema. 2.8.3 Limiti di applicazione dei metodi di prima generazione In sostanza, da un lato i metodi finora analizzati sono perfettamente allineati con le tecniche di QRA e sono quindi immediatamente combinabili con esse per uno studio affidabilistico globale di impianto, in considerazione di fattori umani. Per altro, non `e pensabile di introdurre per analisi di tipo QRA generali delle tecniche pi` u sofisticate, quali le modellistiche cognitive, in quanto queste sarebbero troppo complesse, e quindi sproporzionate, nei confronti degli analoghi metodi utilizzati per l’analisi sistemica di affidabilit` a (Cacciabue, 1992). Il problema nasce dunque allorquando si vuole estendere l’uso di queste tecniche a casi pi` u specifici, quali la valutazione dettagliata di procedure, lo studio di sistemi piccoli o sottosistemi e la definizione di sistemi di supporto alla decisione (“Decision Support Systems”, DSS). In questi casi le tecniche di affidabilit` a umana “comportamentali” falliscono miseramente per i motivi appena descritti e si rende necessaria l’applicazione di metodi pi` u complessi di indagine, che tengano in debita considerazione gli aspetti cognitivi e l’effetto dell’evoluzione dinamica del sistema sul processo decisionale e sull’errore in generale. Tali metodi, detti di “seconda generazione” come gi`a accennato in precedenza, si inquadrano in questo preciso ambito e, pertanto, si indirizzano ai progettisti di procedure di controllo ed emergenza, ed agli analisti di sicurezza che intendano studiare una particolare parte di impianto, o un incidente specifico nei minimi dettagli. Alcuni di questi metodi verranno ora discussi.
108
2 Fattori umani nell’analisi di sicurezza
2.9 Metodi di affidabilit` a umana di seconda generazione 2.9.1 Il metodo ATHEANA ATHEANA (“A Technique for Human Event Analysis”) `e una tecnica strutturata, pienamente sviluppata per il nucleare (US-Nuclear Regulatory Commission), per rispondere alle esigenze di nuovi approcci HRA orientati al comportamento cognitivo degli operatori, senza tralasciare le prestazioni e le azioni di questi ultimi (Barriere et al., 1998 ). Questo metodo vuole essere integrato all’interno di un QRA tipo, e pertanto deve rispondere ad alcuni requisiti fondamentali, in particolare: a) produzione di probabilit` a e distribuzioni di incertezza associate con prestazioni erronee o applicazioni erronee delle procedure; b) uso consolidato di una serie di dati; e c) garanzia di convalida del metodo. Per questi motivi, l’applicazione di ATHEANA passa attraverso un lungo processo di 5 fasi principali: 1. Preparazione – definizione della portata globale di analisi; – raccolta informazioni di base; – definizione di priorit` a per l’esame degli eventi iniziatori/ alberi di evento; – analisi delle funzioni di impianto/sistema. 2. Identificare errori umani suddivisi tra eventi di errore umano (“Human Failure Events”, HFE) e azioni insicure o pericolose (“Unsafe Acts”, UA). 3. Individuare le cause.
Figura 2.16. ATHEANA: metodologia e requisiti per la gestione di erori umani e incidenti
2.9 Metodi di affidabilit` a umana di seconda generazione
109
4. Quantificare HFEs. 5. Includere in QRA. Il metodo che viene proposto in ATHEANA affronta le pi` u importanti questioni aperte in relazione ai metodi di seconda generazione e segue un processo mediante il quale le “radici” di diversa natura, comprese le cause cognitive individuali, le origini organizzative, e le condizioni ambientali sono combinate per la produzione di probabilit` a di comportamento errato (Fig. 2.16).
2.9.2 Il metodo CREAM La tecnica CREAM (“Cognitive Reliability and Error Analysis Method”) si basa sul modello di cognizione COCOM, che prende in considerazione gli effetti del contesto operativo e sociale sui differenti modi comportamentali. Gli aspetti cognitivi sono poi combinati e valutati al fine di generare le strutture di dati che consentono di classificare gli errori umani, commessi a diversi livelli dei processi mentali, ed il loro inserimento in un’analisi formale di affidabilit` a. Questo approccio metodologico per l’interazione uomo-macchina `e inserito in un processo che genera le sequenze di eventi in base a criteri predefiniti ed a considerazioni sulla dinamica degli eventi, e consente di analizzare impianti ed operatori in maniera integrata (Hollnagel, 1998). Ci` o `e raggiunto unendo effetti ambientali sul comportamento cognitivo umano e valutazione di possibili probabilit` a di errore associate alle quattro funzioni cognitive tipiche della parte di modello relativa alle “competenze”, come decritto nel § 2.4.4. Le componenti principali dell’approccio CREAM sono (Fig. 2.17): 1. i meccanismi per l’analisi della ripartizione delle funzioni (“Function Allocation Method”, FAME); 2. il modello di elaborazione delle informazioni, che rappresenta l’effetto dei fattori contestuali sul modello di controllo;
Figura 2.17. Metodo COCOM-CREAM-FAME
110
2 Fattori umani nell’analisi di sicurezza
3. il metodo specifico per la valutazione delle probabilit` a di errore a diversi livelli delle quattro funzioni cognitive del modello delle competenze (CREAM). Il problema principale di questa tecnica, come di molti altri metodi di seconda generazione, consiste nella difficolt`a di reperire dati consolidati di probabilit` a di errore umano per le diverse attivit` a cognitive. 2.9.3 Il metodo DYLAM-HERA La tecnica DYLAM-HERA (“Dynamic Logical Analytical Method for Human Error Risk Assessment”) applicata allo studio di errore umano per la valutazione dei rischi (Cacciabue, 1997) si basa su quattro componenti principali, due di natura teorica e due di matrice implementativa, vale a dire: un modello del comportamento dell’uomo e della macchina, una tassonomia o classificazione degli errori, una banca dati di riferimento ed un metodo formale di applicazione (Fig. 2.18): 1. il modello dell’uomo deve tener conto del fatto che l’operatore interagisce in condizioni dinamiche con l’impianto, e pertanto si parla di modello cognitivo congiunto (“Joint Cognitive Model”), cio`e capace di trattare in maniera integrata azioni umane e risposte della macchina; 2. il sistema di classificazione di comportamento errato deve essere sviluppato e strettamente correlato al modello cognitivo congiunto; 3. la banca dati di comportamenti inappropriati e guasti deriva da eventi passati e contiene sia prestazioni umane errate sia malfunzionamenti dell’impianto; 4. il metodo di analisi probabilistica di interazione uomo-macchina viene poi applicato per strutturare l’interazione dei modelli di cognizione e impianti. Questo
Figura 2.18. Il metodo DYLAM-HERA
2.10 Technique for Human Error Rate Prediction – THERP
111
metodo integra il modello cognitivo congiunto ed i dati di guasto ed errore umano e “genera” il comportamento corretto o inappropriato degli operatori e/o dei componenti meccanici del sistema in base a valutazioni probabilistiche e considerazioni logiche-analitiche sull’evoluzione dinamica degli eventi e processi di interazione.
2.10 Technique for Human Error Rate Prediction – THERP 2.10.1 Schema generale tecnica THERP La tecnica THERP (“Technique for Human Error Rate Prediction”) (Swain e Guttmann, 1983) rappresenta il metodo pi` u ampiamente usato ed applicato nel dominio dell’analisi dell’affidabilit` a umana. Lo schema generale della tecnica THERP si sviluppa su dodici passi che, come gi` a mostrato in Fig. 2.15, possono essere raggruppati in quattro fasi diverse: familiarizzazione, analisi qualitativa, analisi quantitativa ed infine la applicazione per incorporazione negli Alberi di Evento/Guasto (Bell e Swain, 1983). Si discuteranno ora le fasi 3 e 4 del metodo, in quanto le prime due fasi sono di natura prettamente qualitativa e sono anche molto simili a quanto gi` a descritto nei casi precedenti, mentre la valutazione quantitativa degli errori e la loro combinazione, per la valutazione del successo o dell’insuccesso di una missione, sono aspetti peculiari del metodo THERP. Una volta identificati il comportamento dell’impianto ed i possibili malfunzionamenti cui questo pu` o essere soggetto, con le relative influenze sul comportamento dell’operatore, viene eseguita un’analisi dettagliata della procedura da eseguire, identificando tutti i possibili errori e dimenticanze dell’operatore. Alla definizione degli errori contribuisce fortemente la classificazione implicita contenuta nella banca di dati legata al metodo, nel quale vengono classificati tutti gli errori suddivisi nelle due grandi categorie gi` a identificate in precedenza durante la trattazione generica dei fattori umani nel QRA. Cio`e gli errori sono suddivisi in “errori di omissione” ed “errori di commissione”. Le definizioni che vengono date di questi nella trattazione del metodo THERP sono le seguenti: • errori di omissione (“Error of Omission”) sono errori a causa dei quali un passo di procedura o un insieme di passi correlati vengono omessi durante l’esecuzione della stessa; • errori di commissione (“Error of Commission”) sono errori che riguardano la mancanza di conoscenza, le possibili interpretazioni errate di informazioni e segnali, le nozioni distorte, quali ad esempio il tempo e le variazioni dinamiche di valori. Per descrivere ed analizzare gli errori ed il comportamento umano, THERP usa la tecnica degli Alberi di Evento, “Human Reliability Analysis – Event Tree” (HRA-ET).
112
2 Fattori umani nell’analisi di sicurezza
Mediante tale tecnica, la descrizione dei passi procedurali `e rappresentata in un’architettura tale per cui ad ogni nodo decisionale od esecutivo esiste una separazione binaria, che permette di continuare l’analisi sia nel caso di successo che nel caso di errore. Pertanto la rappresentazione finale della procedura `e sotto la forma di un albero con rami e nodi di divisioni binarie che si concludono con il successo od il fallimento della missione. ` necessario quindi assegnare a ciascun nodo i valori di probabilit` E a relativi alla azione o decisione da prendersi, dopodich´e, essendo questa rappresentazione del tutto compatibile con gli alberi di evento classici di affidabilit` a sistemica, la valutazione delle probabilit` a globali di successo o fallimento della missione avviene secondo i formalismi ben noti e validati del QRA. Con riferimento al semplice Albero di Evento di Fig. 2.19, il calcolo delle probabilit` a di successo (S) o di insuccesso (F ) della procedura avviene secondo il formalismo seguente: a A b/a B/a b/A B/A p(S)
probabilit` a di eseguire con successo l’obbiettivo ‘A’; probabilit` a di eseguire senza successo l’obbiettivo ‘A’; probabilit` a di eseguire con successo l’obbiettivo ‘B’ dato a; probabilit` a di eseguire senza successo l’obbiettivo ‘B’ dato a; probabilit` a di eseguire con successo l’obbiettivo ‘B’ dato A; probabilit` a di eseguire senza successo l’obbiettivo ‘B’ dato A, probabilit` a di successo della procedura composta dagli obbiettivi ‘A’ e/o ‘B’; p(F ) probabilit` a di insuccesso della procedura composta dagli obbiettivi ‘A’ e/o ‘B’. Se la procedura richiede che entrambi gli obbiettivi debbano essere eseguiti con successo, si ha, ovviamente, una procedura del tipo “serie” e pertanto il calcolo delle p(S) e p(F ) `e: p(S) = a(b/a) p(F ) = 1 − a(b/a) = a(B/a) + A(b/A) + A(B/A). Se la procedura richiede che almeno uno degli obbiettivi sia eseguito con successo, si ha una procedura del tipo “parallelo” e pertanto il calcolo delle p(S) e p(F ) `e: p(S) = 1 − A(B/A) = a(b/a) + a(B/a) + A(b/A) p(F ) = A(B/A). Il ruolo determinante della banca di dati di errori umani, contenuta nel capitolo 20 del manuale d’uso del metodo, risulta chiaro e, per una sua corretta applicazione, esistono regole che possono essere racchiuse in quattro punti: 1. anzitutto `e necessario identificare l’errore generico relativo alla particolare azione o decisione per cui si vuol valutare la probabilit`a di occorrenza; 2. quindi si devono valutare i fattori che possono influenzare il comportamento dell’operatore nel caso particolare in esame, cio`e i “Performance Shaping Factors” (PSFs);
2.10 Technique for Human Error Rate Prediction – THERP
113
Figura 2.19. Alberi di Evento di affidabilit` a umana per obbiettivi in Serie e Parallelo
3. deve poi essere fatto un passo molto attento e laborioso di correzione e raffinamento legato alle dipendenze tra i vari passi della missione; per questo passo vengono identificati 5 livelli diversi di dipendenza che vanno dalla completa indipendenza alla dipendenza totale; 4. infine, avviene la trasformazione dei valori ottenuti per ogni passo in quantit` a immediatamente combinabili dalla teoria della probabilit` a con i valori associati agli altri passi della procedura.
2.10.2 THERP in dettaglio Verranno qui di seguito solo descritti pi` u in dettaglio i vari passi della procedura raffigurati in Fig. 2.15. A tal fine `e bene tenere a mente che l’ordine delle varie attivit` a che compongono una HRA non `e predeterminato ma, al contrario, l’intero processo risulta essere iterativo e, per alcune di tali attivit` a, ricorsivo. Passo 1: Visita all’impianto (“Plant Visit”) La visita all’impianto `e un passo essenziale per poter successivamente eseguire una corretta HRA. L’analista, in tal modo, acquisisce familiarit` a col sistema, identificandovi gli aspetti significativi quali i sistemi di controllo ed altri elementi che possono influire sulle prestazioni degli operatori (PSF). Passo 2: Analisi delle informazioni fornite dagli analisti del sistema (“Review Information from System Analysts”) Preso in considerazione uno scenario od una sequenza incidentale, l’analista del sistema vi individua le azioni umane che risultano essere cruciali nei riguardi dei componenti critici del sistema precedentemente identificati. Queste azioni vengono quindi riesaminate dall’analista dell’affidabilit` a umana, sulla base delle informazioni ricavate in seguito al primo passo, al fine di determinare gli eventuali fattori
114
2 Fattori umani nell’analisi di sicurezza
che influiscono sull’attivit` a degli operatori, fattori che non erano stati individuati dall’analista del sistema. Passo 3: Sopralluogo e discussioni con il personale (“Talk- or Walk-Through”) In tale fase, l’analista che esegue la HRA discute con gli operatori del sistema circa i vari passi riguardanti la procedura che sta analizzando, allo scopo di acquisire una completa padronanza delle attivit` a che devono essere eseguite. L’analista stesso, al limite, dovrebbe essere cos`ı in grado di portare a termine, egli stesso, le azioni previste dalla procedura. Sempre in tale fase, vengono determinate le specifiche concernenti le prestazioni degli operatori quali, ad esempio, vincoli temporali, addestramento richiesto, presenza di allarmi o di possibilit` a di recuperare eventuali errori, ecc. Si osservi che le variazioni che verranno apportate ai valori nominali delle probabilit` a d’errore umano (Nominal Human Error Probability, NHEP) saranno basate sulle informazioni ottenute in questa fase. Passo 4: Analisi delle procedure (“Task Analysis”) A questo punto, l’analista dell’affidabilit` a umana deve suddividere la procedura in un numero finito di compiti e, fra questi, individuare quelli che risultano essere significativi ai fini della sicurezza e dell’affidabilit` a del sistema. Per compito si intende un insieme di azioni correlate che contribuiscono al raggiungimento di un obbiettivo intrinseco alla procedura. Inoltre, in questa fase dell’analisi vengono anche identificati i possibili errori che possono essere commessi dagli operatori. Nell’Handbook (Swain e Guttmann, 1983) `e presente una classificazione di tali errori che risultano riconducibili alla tipologia di errori gi` a vista in precedenza e definiti nelle due seguenti due categorie: • Errori di omissione:
Un’azione oppure un insieme di passi correlati vengono omessi durante l’esecuzione.
• Errori di commissione:
Un’azione errata, dovuta a carenza di conoscenza, del tipo: Selezione: selezione errata di un controllo; posizionamento errato di un controllo. Sequenza: temporale (troppo presto o tardi); qualitativa (troppo o troppo poco).
Passo 5: Sviluppo degli Alberi di Eventi di errore umano (HRA-ET) (“Develop HRA Event Trees”) Per descrivere ed analizzare i possibili errori, relativi al comportamento umano, identificati nella fase precedente, THERP utilizza la tecnica degli Alberi di Evento per HRA (“Human Reliability Analysis Event Trees”, HRA-ETs). Mediante tale tecnica, la descrizione dei passi della procedura in esame viene rappresentata attraverso un’architettura nella quale, ad ogni nodo corrispondente ad un potenziale errore `e associata una separazione binaria che permette di continuare l’analisi sia nel caso di successo che nel caso di errore. Pertanto la rappresentazione finale della procedura assume la forma di un albero con rami e nodi di divisioni binarie che si concludono con il successo od il fallimento della procedura stessa.
2.10 Technique for Human Error Rate Prediction – THERP
115
Figura 2.20. Esempi di Alberi di Evento HRA
In generale, la sequenza delle azioni `e rappresentata a partire dall’alto verso il basso e ogni azione `e identificata da una lettera in ordine alfabetico, ad esclusione della S ed F che sono usate per indicare rispettivamente il successo od il fallimento della procedura. Inoltre, l’organizzazione dei rami `e sviluppata in modo tale che da ogni nodo parte verso sinistra, guardando la figura dell’albero HRA-ET, il ramo relativo al successo dell’azione, che viene contrassegnato da una lettera minuscola; mentre verso destra, parte il ramo relativo all’insuccesso, contrassegnato da una lettera maiuscola. A titolo d’esempio, nella Fig. 2.20 sono rappresentati gli HRAET relativi a due situazioni differenti. Il primo (“Series”) `e riferito ad una serie di azioni per le quali il fallimento di una di esse comporta il fallimento dell’intera procedura. Il secondo, invece, si addice ad una situazione in cui il successo della procedura deriva dal successo di almeno due delle tre azioni che compongono la procedura stessa, detto anche “Two-out-of-three”. ` bene notare come in questa fase non devono essere ancora introdotte le E possibilit` a di recupero degli errori (recovery). Questo permette un risparmio di tempo in quanto sarebbe evidentemente superfluo complicare il HRA-ET con dei recuperi che magari successivamente non risultano essere significativi ai fini della sicurezza ed affidabilit` a globale del sistema. Passo 6: Determinazione delle HEP nominali (“Assign Nominal Human Error Probabilities”) Completata, con lo sviluppo dell’Albero degli Eventi HRA-ET, l’analisi qualitativa, la seguente quantificazione viene suddivisa in cinque passi. Il primo passo consiste nello stimare il valore nominale della probabilit`a d’errore umano (“Nominal Human Error Probability”, NHEP) di ogni azione presente sull’HRA-ET. Il termine nominale sta ad indicare che tali valori prescindono dalla situazione specifica in esame, che devono, pertanto, essere adattati a questa. I valori di NHEP possono essere derivati da varie fonti quali le prove ai simulatori o i giudizi di esperti del settore. Tuttavia, nel capitolo 20 dell’Handbook `e fornito un gran numero di
116
2 Fattori umani nell’analisi di sicurezza
NHEP, che sono raggruppati in 27 tabelle debitamente strutturate ed organizzate. ` comunque necessario che l’analista sia pienamente conscio delle limitazioni ed E ipotesi che risiedono alla base di ciascun dato, cos`ı da poterne opportunamente estrapolare valori pi` u idonei alla situazione che sta esaminando. Inoltre, le suddette tabelle contengono, per ciascun dato, un fattore d’errore (“Error Factor”, EF). Dato che il valore di NHEP `e la mediana di una distribuzione lognormale, moltiplicando e dividendo tale valore per l’EF si ottiene una stima del 95-esimo e del quinto percentile della HEP, che rappresentano i valori ai quali sono rispettivamente associati i limiti superiori ed inferiori di incertezza. Passo 7: Stima degli effetti dei PSF (“Estimate the Relative Effects of PSFs”) I valori nominali della probabilit` a d’errore umano devono ora essere modificati al fine di tener conto delle caratteristiche reali del caso in esame. Questo avviene introducendo i fattori che influiscono sulle prestazioni degli operatori (PSFs). Sulla base dei giudizi dell’analista dell’affidabilit` a umana, il valore NHEP viene incrementato, al massimo fino a NHEP×EF, oppure diminuito, al minimo fino a NHEP/EF, qualora le condizioni operative risultino essere, rispettivamente, peggiori o migliori di quelle nominali. Passo 8: Determinazione e valutazione delle dipendenze (“Assess Dependence”) Ogni procedura `e normalmente suddivisa in una sequenza di azioni e verifiche da farsi da parte degli operatori. Esistono chiaramente diversi livelli di dipendenza fra le varie azioni, che sono funzione sia delle caratteristiche delle azioni stesse, sia dell’addestramento e delle direttive che gli operatori hanno ricevuto. Siccome la tecnica THERP viene applicata eseguendo un elevato frazionamento dei compiti, trascurare la dipendenza fra le varie azioni comporterebbe dei risultati chiaramente errati nei riguardi delle probabilit` a d’errore umano, in senso ottimistico. Pertanto, per due azioni A e B conseguenti l’una dall’altra, tale tecnica fornisce un modello per determinare la probabilit` a condizionata di successo od insuccesso nel compiere B dato A. Si parler` a quindi di dipendenza positiva quando il successo (errore) di A aumenta la probabilit` a di successo (errore) di B, e di dipendenza negativa quando il successo (errore) di A diminuisce la probabilit`a di errore (successo) di B. Nell’Handbook viene considerato solo il primo tipo di dipendenza, trascurando il quale si otterrebbero appunto delle valutazioni ottimistiche. Invece, nel caso di dipendenza negativa, viene suggerito di trattare le due azioni A e B come indipendenti, ricavando di conseguenza risultati conservativi. La scelta del grado di dipendenza positiva, delimitato dall’estremo di dipendenza nulla e da quello di dipendenza completa, viene inoltre ridotto a cinque livelli, come rappresentato in Fig. 2.21: dipendenza nulla (DN), dipendenza bassa (DB), dipendenza media (DM), dipendenza alta (DA) e dipendenza completa (DC). I valori delle probabilit` a di successo od errore dei rami dell’HRA-ET, valori gi` a modificati dai PSFs, sono quindi ulteriormente elaborati mediante le equazioni seguenti, che tengono conto dei rispettivi livelli di dipendenza (nulla, bassa, media, alta e completa), dove Pc rappresenta la probabilit` a condizionata di successo (insuccesso) dell’azione B dato il successo (insuccesso) della precedente azione A, in
2.10 Technique for Human Error Rate Prediction – THERP
117
Figura 2.21. Rappresentazione grafica dei livelli di dipendenza
funzione del livello di dipendenza e della probabilit` a incondizionata P di successo (insuccesso) della stessa azione B: DN DB DM DA DC
Pc = P 1 + 19P Pc = 20 1 + 6P Pc = 7 1+P Pc = 2 Pc = 1.
Passo 9: Calcolo delle probabilit` a di successo e fallimento (“Determine Success and Failure Probabilities”) Ogni terminale di una sequenza di azioni individuabile attraverso l’HRA-ET, rappresenta una condizione di successo o di fallimento della procedura in esame. Pertanto, moltiplicando le probabilit` a assegnate ai rami di ciascuna sequenza del suddetto albero si ottengono i valori di successo (fallimento) di ciascuna sequenza, valori che, opportunamente combinati, forniranno infine la probabilit` a globale di successo (fallimento) della procedura stessa, come mostrato in Fig. 2.22, che contiene la formulazione del calcolo delle probabilit` a di successo ed insuccesso dell’albero qualitativo THERP, gi` a mostrato in Fig. 2.20, per il caso di “Two-out-of-three”.
Figura 2.22. Esempio di calcolo delle probabilit` a di successo e fallimento per un HRAET
118
2 Fattori umani nell’analisi di sicurezza
Passo 10: Determinazione degli effetti di recuperi (“Determine the Effects of Recovery”) Risulta conveniente compiere solo ora la valutazione degli effetti delle possibilit` a di recupero degli errori (recovery) commessi dagli operatori nell’applicazione della procedura. In effetti, le probabilit` a di insuccesso di alcune delle sequenze dell’HRAET, calcolate al passo precedente, potranno risultare talmente contenute, gi` a senza aver considerato il recupero, che per tali sequenze, non essendo significative ai fini della sicurezza ed affidabilit` a del sistema, si potr` a tralasciare l’introduzione e l’analisi degli effetti degli eventuali recupero. Passo 11: Possibile analisi di sensitivit` a (“Perform a Sensitivity Analysis, if Warranted”) Per determinare gli effetti di un singolo parametro sulla probabilit` a globale di successo della procedura, pu` o essere fatta un’analisi di sensitivit` a. Questa fase, pur non facendo necessariamente parte di una HRA, risulta essere estremamente utile al fine di individuare quegli elementi del sistema o quei passi della procedura che hanno un peso minimo (massimo) sulla sicurezza globale. Passo 12: Informazioni per l’analista del sistema ed inclusione nel QRA (“Supply Information to System Analyst”) Una copia di ogni HRA-ET correlata sia dell’analisi delle procedure e dei risultati, sia da una lista delle ipotesi fatte, deve infine essere presentata all’analista del sistema. L’analista del sistema e quello dell’affidabilit` a umana devono quindi riesaminare il tutto al fine sia di verificare che l’analista di HRA abbia identificato correttamente le condizioni di successo, sia per assicurarsi che l’analista del sistema utilizzi, a sua volta, i risultati ottenuti, nel rispetto delle ipotesi che sono state fatte. Come si pu`o vedere, l’applicazione di THERP richiede una notevole mole di lavoro, senza peraltro permettere la valutazione di errori, quali quelli di diagnosi o di pianificazione di procedure in situazione non familiari agli operatori, errori caratteristici di processi cognitivi complessi. Tuttavia, i vantaggi che la tecnica offre sotto il profilo della compatibilit` a con i metodi classici di affidabilit`a di sistemi e la totale indipendenza del metodo da altre fonti di informazioni, soprattutto per ci` o che concerne i dati, fanno s`ı che vi sia una estesa applicazione del metodo, sia in toto sia anche solamente quale fonte di dati per una valutazione, con altri metodi formali, degli errori degli operatori. Si noti inoltre che, analogamente alla tecnica SHARP, anche THERP rappresenta una struttura procedurale di carattere generale che consente l’analisi integrata dei sistemi che coinvolgono l’interazione uomo-macchina. Tuttavia, al contrario della prima, THERP fornisce anche gli strumenti ed i dati che permettono a qualsiasi analista una sua applicazione diretta. Proprio per queste sue notevoli propriet` a, e per la sua diffusissima applicazione negli studi dell’affidabilit` a umana, la tecnica THERP `e stata preferita tra quelle analizzate nei precedenti paragrafi per lo studio di affidabilit` a umana relativa all’esecuzione di una procedura durante una fase di volo, che `e sviluppato in dettaglio in appendice come esercizio applicativo specifico.
3 Metodi per analisi retrospettive
In questo capitolo, sono discussi i componenti fondamentali delle analisi retrospettive. L’obbiettivo `e quello di offrire uno spettro di possibili approcci tra i quali scegliere il pi` u adatto di volta in volta, in funzione dell’applicazione specifica. Non tutti i metodi e le tecniche esistenti in letteratura sono presentati, in quanto l’obbiettivo del presente capitolo non `e quello di essere esaustivo, ma piuttosto di considerare alcuni dei pi` u noti metodi di riferimento e discutere una metodologia integrativa dei vari approcci. Un confronto sar` a effettuato tra le tecniche discusse, evidenziando limiti e pregi di ciascuna, e le loro possibili sinergie ed integrazioni. Ci si limiter` a allo studio dei metodi retrospettivi per eccellenza, cio`e: la raccolta di informazioni, l’implementazione in banche dati, l’analisi e lo sviluppo di raccomandazioni derivanti da occorrenze, inconvenienti gravi ed incidenti.
3.1 Introduzione all’analisi retrospettiva di occorrenze e incidenti Lo studio di incidenti e occorrenze e la loro classificazione sono l’applicazione pi` u immediata dell’analisi retrospettiva. I risultati di tali studi offrono dati preziosi, informazioni e conoscenze che sono essenziali per la valutazione e progettazione di nuovi sistemi e misure di sicurezza, ivi compresi l’addestramento e la formazione. Le linee guida che saranno sviluppate sono generali e possono essere applicate sia per la valutazione sistemica delle cause di incidenti sia per la stima del contributo umano al nesso di causalit` a dell’incidente. Le indagini sugli incidenti ed occorrenze, anche a livello di non-conformit` a, danno un contributo essenziale al miglioramento della sicurezza in ambienti tecnologici moderni. Nel dominio del trasporto aereo le procedure e le prassi per effettuare indagini sugli incidenti sono state formalizzate a livello internazionale da molti anni (ICAO, 1984, 1986, 1988). In particolare, l’allegato 13 della Convenzione dell’Organizzazione Internazionale dell’Aviazione Civile (ICAO, 1988) prescrive un formato adatto per la segnalazione degli incidenti, che permette una notevole flessibilit`a nella descrizione del sistema e relativi eventi, denominato ADREP Cacciabue P. Carlo: Sicurezza del Trasporto Aereo. c Springer-Verlag Italia 2010, Milano
120
3 Metodi per analisi retrospettive
(“Accident/Incident data Reporting”, ICAO web-ref, 2006). In anni pi` u recenti, questo formato `e stato ulteriormente elaborato concentrandosi, in particolare, sui fattori umani (ICAO, 1991, 1993, 1997). Anche in settori diversi dal trasporto aereo, specialmente per i sistemi di trasporto di superficie e marittimo, per la produzione di energia, per gli impianti petrolchimici e di processo, le analisi di incidenti ed eventi di non-conformit` a svolgono un ruolo molto importante nella valutazione di scenari di sicurezza globale. Le procedure che vengono attuate in questi settori seguono molto da vicino quelle definite nel trasporto aereo e sono formalizzate in modi simili, a livello di autorit` a nazionali (Gow e Otway, 1990; Byrom, 1994). La rilevanza significativa associata alle inchieste `e ovvia, e dipende dalle conseguenze in termini di distruzione di impianti, dal numero di vite perse e danni ambientali causati da un singolo incidente. Inoltre, gli incidenti in tali domini, specialmente nel trasporto aereo, hanno un impatto considerevole sull’opinione pubblica, e possono avere un drastico effetto sullo sviluppo globale di un determinato sistema od organizzazione, fino ad arrivare ad avere effetto su tutta una tecnologia. Esempi tipici sono il fallimento della compagnia aerea “Easyjet”, seguita all’incidente di Miami, anche se, in seguito all’inchiesta, la compagnia aerea `e risultata estranea alle cause dell’incidente. Ancora pi` u eclatante `e il caso dell’incidente di Chernobyl che ha segnato l’effettivo arresto, per oltre venti anni, dello sviluppo e lo sfruttamento pacifico dell’energia nucleare. Purtroppo, il tempo di risposta dell’opinione pubblica alle conseguenze di un incidente rilevante e il tempo richiesto per l’esecuzione di un’investigazione adeguata di un incidente sono molto diversi. Il primo `e immediato e ha una durata di soli pochi giorni o settimane, mentre il secondo di solito richiede vari mesi, ma pu` o avere un impatto molto grande. L’unico settore che sembra in qualche modo immune da un forte feedback negativo del pubblico agli incidenti `e il settore dei trasporti su strada, anche se pi` u di mezzo milione di persone vengono uccise in tutto il mondo ogni anno in incidenti di traffico, cio`e una persona ogni 200 della popolazione mondiale muore per danni subiti in incidenti stradali (Parlamento europeo, 1998). Le ragioni di tale basso impatto sul pubblico interesse sono molteplici e variano grandemente da paese a paese. In generale, questo `e dovuto al numero relativamente basso di decessi causati da un singolo incidente ed all’enorme diffusione e popolarit`a di questo mezzo di trasporto. Altri motivi pi` u sottili sono di natura culturale nazionale, di percezione e comunicazione del rischio, di personalit` a ed atteggiamenti individuali, come invulnerabilit` a o machismo. L’importanza delle indagini sugli incidenti risiede nella ricchezza e la quantit` a di informazioni e di dati che possono essere generati. I risultati di un’indagine sugli incidenti di solito dimostrano la rarit` a e la singolarit` a di eventi specifici. Essi mostrano la combinazione dei fattori e delle cause che hanno portato all’incidente e propongono nuove misure di sicurezza atte a garantire che la specifica sequenza di eventi e la combinazione di fattori, non accada di nuovo. Oggigiorno tuttavia, in settori tecnologici moderni, gli incidenti gravi sono rari, ed altri tipi di eventi di importanza minore, quali “eventi di non-conformit` a” o incidenti sfiorati (“near misses”), o inconvenienti gravi, sono molto pi` u frequenti. Pertanto, la ricchezza
3.2 Linee guida all’applicazione di metodi per analisi retrospettive
121
delle informazioni che possono essere incluse in un sistema di reporting dei dati, sulla base di tali occorrenze di minore entit`a, `e molto pi` u rilevante di quanto non sia contenuto in una banca dati su incidenti gravi. Purtroppo, in caso di incidenti sfiorati, la comunicazione dei dati non `e sempre obbligatoria, come nel caso di incidenti e inconvenienti gravi. La raccolta di informazioni da parte di privati e operatori in questi casi diventa molto pi` u difficile e si sviluppa su base volontaria, e richiede molte e complicate caratteristiche di riservatezza, nonch´e la fiducia e la definizione di regole di non-responsabilit` a che hanno bisogno di un’adeguata regolamentazione e dello sviluppo di una “cultura” di comunicazione che `e difficile da inculcare. Quello che `e importante `e che i metodi per analizzare le relazioni sugli incidenti ed inconvenienti gravi o near-misses siano integrati in un comune approccio metodologico e modellizzazioni tali da rendere tutti questi diversi tipi di dati compatibili e confrontabili. Ci`o porta alla definizione di banche dati basate su occorrenze anche di minore entit`a e su segnalazioni volontarie, e, in questo modo, `e possibile sfruttare i risultati dell’analisi di tali occorrenze ed eventi in maniera prospettiva per la progettazione di nuove misure di sicurezza.
3.2 Linee guida all’applicazione di metodi per analisi retrospettive 3.2.1 Metodologia di analisi retrospettiva: i concetti di occorrenza, evento e dinamica sequenziale In pratica, lo sviluppo di un’inchiesta su un incidente o un evento che `e avvenuto o `e stato segnalato, comporta l’applicazione dei metodi e delle tecniche discusse nei capitoli precedenti. Di conseguenza, prima di analizzare le linee guida per lo sviluppo di analisi di incidente, `e interessante vedere come alcuni dei metodi e modelli discussi in precedenza possano essere combinati nel processo di indagine sugli incidenti. Questi possono essere sintetizzati in una serie di fasi che descrivono il quadro metodologico e dei risultati di analisi di un incidente (Fig. 3.1). Queste fasi sono: 1. 2. 3. 4. 5.
la raccolta e strutturazione logico-temporale di dati su incidenti; lo studio delle organizzazioni coinvolte e scelta dei modelli e metodi di analisi; l’analisi dei dati e la definizione delle cause; lo sviluppo di raccomandazioni e valutazione di efficacia delle difese esistenti; l’archiviazione dei dati.
La raccolta di dati su un incidente `e un processo critico di acquisizione delle prove e dei risultati di un incidente che ha luogo subito dopo un evento, sia a livello logistico che temporale. Il requisito ovvio, in questa fase, `e che i dati dovrebbero essere influenzati il meno possibile dal processo di raccolta e devono dare l’immagine pi` u realistica delle conseguenze dell’incidente. In particolare, nel caso di analisi dei fattori umani, registrazioni di scambi verbali tra le persone coinvolte, come ad
122
3 Metodi per analisi retrospettive
Figura 3.1. Metodologia di indagine retrospettiva
esempio i piloti, controllori del traffico aereo ed i commenti da parte di osservatori degli eventi sono informazioni essenziali per comprendere ci` o che `e accaduto. I dati acquisiti devono essere strutturati e organizzati in una sequenza logica. Ci`o implica che nell’analisi di occorrenze, soprattutto se complesse ed articolate, un certo numero di eventi dovrebbe essere individuato, ciascuno dei quali pu` o essere considerato come un elemento specifico da analizzare pi` u in dettaglio ed una componente specifica che ha contribuito all’occorrenza globale. Definizioni di Occorrenza ed Evento ` pertanto importante definire fin da ora i concetti associati ai termini Occorrenza E ed Evento. Nel caso di Occorrenza si fa riferimento alla Direttiva Europea 2003/42/EC Art 2(1) (EC, 2003): Un’Occorrenza in aviazione `e definita come un’interruzione di operazioni, difetto, fallimento, o altra circostanza non regolare che ha o pu` o avere influenza sulla sicurezza del volo, che non ha necessariamente dato origine ad un incidente severo, e che soddisfa la necessit` a di archiviare i fatti accaduti secondo una modalit` a standard in un sistema di raccolta dati, tale da permettere valutazioni di carattere retrospettivo e prospettico associate alla sicurezza stessa. La definizione di Evento resta oggigiorno ancora un argomento di dibattito. Tuttavia, per gli scopi di questo libro, la seguente definizione verr` a adottata in ri-
3.2 Linee guida all’applicazione di metodi per analisi retrospettive
123
ferimento ad un sistema tecnico, o “Macchina”, come definita nel precedente capitolo: Per Evento si intende un fatto o un’azione determinanti un cambiamento di stato del sistema. Pertanto l’Evento presuppone una variazione delle condizioni del sistema che, in seguito all’Evento stesso, non presenta pi` u le caratteristiche precedenti. Ad esempio si tratta di evento qualora vi sia un guasto, un danneggiamento, un allarme, un evento atmosferico, una collisione o impatto, ecc. Molto pi` u difficile `e la definizione degli eventi dovuti ai fattori umani. Tuttavia, nel caso della presente trattazione, si fa riferimento al paradigma IPS ed alla definizione di evento appena sviluppata in riferimento ad un sistema tecnico. Pertanto la seguente definizione di Evento Umano verr` a adottata: Per Evento Umano si intende un evento implicante fattori umani e si identifica solo con l’esecuzione di un’azione che determina un cambiamento di stato del sistema.
Struttura logica temporale di un’Occorrenza La logica con cui si strutturano gli eventi `e di solito una sequenza temporale, che si genera identificando la dinamica con cui questi si sono succeduti. Ci`o fornisce il quadro generale della sequenzialit`a e dipendenza tra gli eventi stessi. Questo processo viene definito come ETL (“Event Time Line”). Inoltre, spesso esiste un’evidente correlazione tra due o pi` u eventi, per esempio nel senso che uno determina l’altro e rende il secondo evento soggetto ad un rapporto diretto e inevitabile di causa-effetto con il primo. Tale rapporto va rilevato ed evidenziato nel processo di analisi, ed in particolar modo, va messo in risalto nel processo di ETL ed accuratamente studiato nelle fasi seguenti di analisi. Studio delle organizzazioni coinvolte e scelta dei modelli e metodi di analisi Una necessaria e fondamentale fase di analisi degli incidenti `e la raccolta di informazioni e la presa di conoscenza delle organizzazioni interessate. Questa fase deve essere effettuata in parallelo alla fase iniziale di raccolta dei dati relativi all’occorrenza e permette una pi` u facile comprensione del “perch´e”, “come” e “che cosa” sia accaduto durante l’incidente. Una miscela di teorie e approcci pratici, supportati da punti di vista metodologici appropriati, sostiene la revisione e l’esame di un’organizzazione. L’essenziale punto di partenza teorico `e il modello di interazione uomo-macchina e la relativa tassonomia. Con la selezione di un modello di riferimento, l’analista definisce la profondit` a e la portata dello studio, nonch´e i contesti a cui lo studio si applica.
124
3 Metodi per analisi retrospettive
Attraverso il modello e la tassonomia `e possibile generare i collegamenti tra le diverse manifestazioni di comportamento e la classificazione delle prestazioni, gli errori umani ed i malfunzionamenti sistemici. L’uso di altri metodi formali, quali l’analisi dei compiti e lo studio delle procedure, nonch´e la revisione di incidenti ed occorrenze verificatisi in precedenza all’interno dell’organizzazione, offrono i mezzi adeguati per acquisire ulteriori informazioni che possono aiutare in fase di studio dell’incidente. Infatti, da un lato essi mostrano come la filosofia generale e le politiche di gestione istituite dall’Organizzazione vengono attuate nelle procedure e sono applicate in pratica dagli operatori di prima linea (Degani e Wiener, 1994). D’altro canto, essi offrono un quadro del passato e danno una misura delle difese che l’analisi di tali precedenti eventi ha generato all’interno dell’organizzazione. Infine, lo sviluppo e l’applicazione di studi etnografici, con ampio campo di osservazione, conduce alla valutazione del clima e della dimensione ecologica del` evidente che questa forma l’ambiente di lavoro in cui l’incidente si `e sviluppato. E di analisi di un’organizzazione e la valutazione del suo contesto socio-tecnico al momento dell’incidente, sono aspetti fondamentali per indagare al fine di raggiungere una comprensione dei fatti e dei comportamenti. Questa analisi `e tanto importante quanto la raccolta e la strutturazione dei dati per la descrizione e la comprensione dell’incidente. Pertanto, non pu` o essere trascurata nel processo globale di un’inchiesta. Il rischio di non eseguire con precisione l’analisi del caso, qualora questa parte di un’indagine non venga eseguita, `e enorme. In tal caso, da un lato, `e quasi certo che le vere cause che stanno alla radice di ci`o che `e accaduto non saranno identificate. Inoltre, gli attori di prima linea probabilmente sarebbero identificati come i soli responsabili dell’incidente, in quanto il loro comportamento `e facilmente e immediatamente rilevato, senza che siano adeguatamente considerate altre cause quali il condizionamento dei contesti e le priorit`a derivanti da culture organizzative ed altri effetti latenti sul comportamento stesso. Ma, cosa ancora pi` u importante, i rimedi basati su interventi a ampio raggio e sulla gestione dei guasti e degli errori non sarebbero ottenuti. In altre parole, la lezione da trarre dall’analisi degli incidenti sarebbe minima, producendo risultati di minore rilevanza e forse addirittura pericolosi. D’altro canto, uno studio ben eseguito delle organizzazioni coinvolte rappresenta una solida base per la comprensione dei comportamenti e per l’intera indagine sull’incidente. Analisi dei dati e definizione delle cause Per ogni evento, deve essere effettuato uno studio delle cause che ne stanno alla base (“Root Cause Analysis”, RCA). Una RCA di solito consiste nella semplice ricostruzione a forma di “albero”, dove si descrive l’interazione di fattori che portano ad un comportamento inadeguato o alla rottura di un componente. Queste sono normalmente considerate le cause principali degli incidenti e sono espresse come fattori correlati che vengono combinati per generare la sequenza di eventi.
3.2 Linee guida all’applicazione di metodi per analisi retrospettive
125
Tuttavia, esiste un certo numero di correlazioni logiche e temporali, cos`ı come dipendenze e interazioni tra eventi e cause principali. Queste devono essere considerate nello sviluppo della RCA. Inoltre, alcuni eventi possono essere molto rilevanti per il nesso di causalit`a con il percorso di incidente e per il fatto di svolgere un ruolo di mitigazione in tutta la sequenza. Anche questi eventi dovrebbero essere individuati e analizzati con particolare cura. I metodi pi` u noti per effettuare RCA verranno esaminati in dettaglio nel prosieguo di questo capitolo. Valutazione efficacia difese e sviluppo raccomandazioni Dopo i primi passi di analisi e la definizione delle cause, devono essere valutate le conseguenze di incidenti rispetto alle attuali misure di difese, barriere e salvaguardie (DBS) che erano presenti durante l’incidente. In particolare, l’analista dovrebbe essere in grado di misurare o stimare l’efficacia delle DBS durante l’incidente, in conformit`a con il piano originario e le specifiche di progettazione. In molti casi di incidente, il degrado delle DBS e gli atteggiamenti rilassati nei confronti della sicurezza a favore della produzione e l’efficienza dei costi, ha portato alla riduzione della qualit` a e l’efficacia della DBS e quindi a prestazioni inadeguate durante l’incidente. L’obbiettivo dell’analista, in questa fase di indagine dell’incidente, `e quello di sviluppare raccomandazioni per il miglioramento della sicurezza. Queste raccomandazioni dovrebbero concentrarsi sui settori di intervento, al fine di evitare il ripetersi dello stesso incidente e, cosa pi` u importante, per evitare la ripetizione delle stesse cause iniziali e contributive che potrebbero favorire nuovi incidenti di diversa natura. Questo di solito si concentra sul miglioramento delle attuali misure di prevenzione, recupero e protezione e/o su suggerimento di nuovi e pi` u efficaci misure. Tuttavia, quando le raccomandazioni sono emesse per nuove misure di protezione e per l’implementazione di nuove barriere si sicurezza, queste hanno bisogno di essere integrate all’interno degli impianti esistenti. Di conseguenza, `e necessario un pi` u ampio studio che coinvolga il progetto e l’intera organizzazione che gestisce l’impianto, al fine di garantire che l’attuazione di tali nuove misure sia coerente con le raccomandazioni dell’analisi degli incidenti e, al tempo stesso, sia adeguatamente integrata con la serie di prassi e procedure necessarie per la buona gestione degli impianti stessi. Banche dati La conservazione dei dati relativi agli incidenti in banche dati `e un aspetto molto importante e difficile. Essa esige che gli analisti incaricati formalizzino i risultati di un’indagine su un incidente in formati che sono specifici per la tassonomia associata al sottostante modello di incidente e la struttura del database. Il modo in cui i dati sono di norma registrati in banche di dati `e solitamente molto lungo, laborioso e dettagliato, poich´e le informazioni devono essere memo-
126
3 Metodi per analisi retrospettive
rizzate nel formato del sistema di classificazione della banca dati. La maggior parte delle relazioni di incidenti contiene una sezione finale che riassume i risultati pi` u pertinenti e li descrive in forma di “conclusioni”. Questi risultati sono di solito sufficienti per la registrazione dei dati. Tuttavia, quando si verificano delle incertezze circa la classificazione di alcuni fatti, possono essere considerate le sezioni dettagliate contenute nella relazione sull’incidente. Nel caso in cui non si tratti di un incidente ma “solo” di un’occorrenza o evento di non-conformit` a non esiste un vero e proprio rapporto dettagliato, ma, di solito, vengono riempiti formulari specifici associati ai domini applicativi, quali le operazioni di volo, la manutenzione o le operazioni di terra e traffico aereo. Anche in questo caso la classificazione richiede particolare attenzione da parte dell’analista che spesso viene chiamato ad un lavoro di analisi e ricostruzione dell’occorrenza e dei suoi eventi attraverso la propria competenza ed esperienza e, alle volte, attraverso un contatto specifico con la persona che ha stilato e compilato il rapporto di occorrenza specifica. ` chiaro che il processo di memorizzazione di dati da relazioni di incidenti `e E molto difficile e richiede una competenza molto diversificata da parte degli analisti. Requisiti particolari comprendono: 1. conoscenza del dominio tecnologico in esame; ci`o consente all’analista di capire la terminologia adottata nella relazione d’incidente; 2. conoscenza e competenza in fattori umani e di interazione uomo-macchina; dato che molte cause di incidenti sono legate a fattori socio-tecnici, le tassonomie delle banche dati moderne sono molto precise e permettono la classificazione dei comportamenti dei singoli, degli aspetti organizzativi e sociali; senza adeguate competenze in questo settore `e impossibile sfruttare le potenzialit` a di un tale schema di classificazione e rendere conto adeguatamente delle cause profonde dell’incidente; 3. conoscenza delle strutture informatizzate di basi di dati; ci`o consente all’analista di navigare in modo rapido ed efficiente attraverso la banca dati per selezionare l’area specifica di classificazione per la registrazione dei dati. Questi tre tipi di esperienza e conoscenza si trovano raramente concentrati in un unico analista responsabile della classificazione. D’altro canto, `e evidente che un’inadeguata classificazione dei dati pu` o essere anche pi` u dannosa di un’assenza di classificazione, in quanto, oltre a produrre un’errata spiegazione dell’incidente analizzato, contribuirebbe anche ad inquinare la banca dati, il che porterebbe portare ad errate interpretazioni di altri incidenti ed alla generazione di errate statistiche su dati aggregati. Di conseguenza, al fine di ridurre il numero di errori nella classificazione dei dati, pur conservando la precisione ed il dettaglio delle tassonomie moderne, diversi sistemi sono stati sviluppati per supportare l’analista nella registrazione dei dati. Queste tecniche mirano a guidare i loro utenti a sfruttare tutti gli aspetti delle classificazioni e a far s`ı che le vere cause degli incidenti siano correttamente registrate per usi futuri e analisi di sicurezza integrate.
3.2 Linee guida all’applicazione di metodi per analisi retrospettive
127
3.2.2 Procedura di implementazione di studio di incidente Da un punto di vista pratico, seguendo la metodologia descritta nella sezione precedente si pu` o sviluppare la procedura di indagine sugli incidenti. Dato che diversi elementi contribuiscono alla sua formulazione, lo studio di un incidente non `e normalmente basato su un metodo unico, ma implica l’uso di modelli e metodi integrati. In sintesi, il processo di analisi degli incidenti si sviluppa in sette passi che possono essere riassunti come segue (Fig. 3.2): Passo 1. Identificare i principali obbiettivi dell’inchiesta, vale a dire l’identificazione delle cause, la prevenzione di future carenze/eventi/incidenti della stessa natura, il recupero di guasti dal sistema e/o gli errori umani, la protezione per l’uomo, l’ambiente e la macchina in casi analoghi. Passo 2. Selezionare il modello di Sistema Uomo-Macchina e di organizzazione da utilizzare nell’analisi retrospettiva, vale a dire: a. selezione della tassonomia dei guasti del sistema, tipi e modalit` a di errore in relazione al contesto socio-tecnico e le condizioni personali; b. definizione della logica e connessione sequenziale tra errori e funzioni cognitive, modalit` a ed effetti dei guasti sistemici. Passo 3. Effettuare l’analisi di organizzazione e atteggiamenti del personale, e delle procedure implementative delle operazioni normali e di emergenza relative alle attivit`a in esame. Ci`o equivale ad effettuare: a. uno studio etnografico, vale a dire, visite e osservazioni nei luoghi di lavoro, registrazioni audio-video, verbali/protocolli comportamentali, interviste ecc.; b. l’esame dei compiti e delle procedure; c. lo studio delle esperienze passate di sistema, e, in particolare, l’analisi di incidenti avvenuti in precedenza; d. un processo di iterazione con il Passo 2. Passo 4. Raccogliere ed implementare dati in banca-dati ed iterare con Passo 3, se necessario. Passo 5. Definire struttura logica-analitica e sequenziale dell’occorrenza (ETL). Passo 6. Definire le cause specifiche ed i fattori di base che hanno generato l’occorrenza e la sequenza degli eventi. Passo 7. Definire le raccomandazioni circa le aree di cambiamento ed eventuali modifiche e miglioramenti ritenuti necessari per migliorare il livello di sicurezza globale del sistema e dell’organizzazione.
Le modifiche individuate dall’indagine dovrebbero mirare ad evitare il ripetersi di simili circostanze e delle condizioni di contesto che hanno favorito l’occorrenza. La loro effettiva attuazione e l’implementazione in un contesto regolamentare e normativo dipendono dall’autorit` a responsabile della sicurezza.
128
3 Metodi per analisi retrospettive
Figura 3.2. I passi della procedura di analisi di un’occorrenza
Un altro aspetto molto rilevante e delicato che necessita chiarimenti `e il ruolo ed i confini delle indagini tecniche sugli incidenti per quanto riguarda l’inchiesta giudiziaria. Come gi` a sottolineato chiaramente in precedenza, l’indagine tecnica di incidente mira all’identificazione delle cause profonde che hanno generato e favorito un incidente e la sua evoluzione. L’inchiesta giudiziaria `e impostata per l’individuare delle responsabilit` a e colpe. Vi `e un’evidente connessione e correlazione tra questi due obbiettivi. Tuttavia, le loro posizioni di base sono del tutto diverse. Infatti, l’inchiesta giudiziaria dovrebbe utilizzare i risultati delle indagini tecniche sugli incidenti per trarre le conclusioni
3.3 Modelli, tassonomie e metodi per l’analisi di occorrenze
129
che vengono inquadrate da un punto di vista giuridico. Mentre l’indagine tecnica mira alla comprensione delle cause dell’occorrenza ed alla definizione delle condizioni necessarie ad assicurare il miglioramento della sicurezza in termini di difese e di pi` u efficace gestione di occorrenze simili a quelle esaminate. Questi aspetti giuridici e le questioni legali vanno ben oltre la portata di questo lavoro e, pertanto, non sono ulteriormente sviluppati. Il solo punto che `e qui sostenuto `e che la tecnica di indagine sugli incidenti, per essere eseguita come descritto in questo capitolo, deve essere totalmente indipendente dalle indagini giudiziarie e deve essere concesso all’analista l’accesso in tempi utili a tutte le informazioni che possono essere rilevanti per raggiungere i suoi obbiettivi. In mancanza di tali condizioni, i risultati non possono essere totalmente coerenti e completi, e ci`o pu` o anche influire in larga misura sullo sviluppo di un’indagine giudiziaria. Ai fini della comprensione delle tecniche di indagine da applicare per lo studio di occorrenze, verranno qui di seguito discussi in dettaglio i Passi 2, 5 e 6 in relazione a diversi tipi di modelli, tassonomie e metodi di indagine. Gli altri passi della metodologia qui presentata sono stati gi` a discussi in precedenza o richiedono tecniche che esulano dal carattere ingegneristico e analitico del rischio, oggetto di questo testo. Inoltre, questi passi sono stati brevemente descritti in generale nella precedente sezione e, qualora si volesse approfondire la loro analisi ci si deve indirizzare alla letteratura specifica. Un caso studio di un’applicazione della procedura qui descritta sar` a discusso in dettaglio in Appendice.
3.3 Modelli, tassonomie e metodi per l’analisi di occorrenze Questa sezione si concentra sulla descrizione di tre tassonomie per la classificazione di guasti e malfunzionamenti sistemici ed errori umani. Mentre la definizione di tassonomia ed il ruolo che essa gioca nelle analisi di sicurezza sono gi` a stati trattati, ci si focalizzer`a ora su tre specifiche tassonomie e sulle loro capacit`a di definizione e classificazione. Non verranno invece discussi i metodi di analisi di occorrenze ad esse associati, in quanto la trattazione di tale soggetto `e rimandata alla sezione relativa all’analisi e ricerca delle cause di base delle occorrenze, semplicemente per mantenere un riferimento al processo logico analitico da seguire nell’analisi retrospettiva. Le tre tassonomie che verranno discusse sono: la tassonomia ADREP (ICAO, 1993, 1997), la tassonomia CREAM (Hollnagel, 1998), e la tassonomia relativa al modello cognitivo “Fallible Machine” (Reason, 1990). La tassonomia ADREP La tassonomia ADREP fa ampio uso del modello SHELL ed `e stata adottata dal dominio dell’aviazione civile per supportare la catalogazione di eventi incidentali nei quali il contributo dell’uomo risulti essere molto importante, sia a livello di individui che di organizzazioni (ICAO, 1993, 1997).
130
3 Metodi per analisi retrospettive
Figura 3.3. Il modello SHELL utilizzato nella tassonomia ADREP
In ADREP il comportamento umano `e visto nel suo complesso come il risultato delle relazioni e dipendenze che esistono tra l’individuo ed il contesto socio-tecnico che lo circonda. Pertanto i legami che esistono tra l’individuo, l’organizzazione e la societ`a sono molto ben espressi dal modello di riferimento. Ci` o permette, tra l’altro di tenere conto degli errori “latenti” commessi a diversi livelli in seno all’organizzazione e dei loro effetti sul comportamento attivo degli operatori di prima linea. Per poter inoltre considerare le caratteristiche individuali ed i loro effetti sul comportamento, `e stato necessario sviluppare una visione del modello leggermente differente dall’originale, qui ripresa per completezza (Fig. 3.3), che prevede l’uomo (“L”) come elemento centrale di un sistema composto da altri esseri umani (“L”), dall’ambiente (“E”), dall’hardware (“H”) e dal software (“S”). Nella sua applicazione “classica”, tutte le caratteristiche di personalit`a e gli aspetti legati agli individui stessi sono riferiti, nella classificazione, all’elemento centrale umano, mentre tutti gli altri termini della tassonomia si riferiscono sempre ad interazioni del tipo “L-L”, “L-H”, “L-S” o “L-E”. La tassonomia ADREP, pertanto, offre il quadro formale per la strutturazione dei legami che esistono tra errori umani e contesto in cui questi si sono verificati, anche in conseguenza di altri errori commessi ad altri livelli nell’organizzazione stessa. Tuttavia, la natura generale e la dimensione globale del modello SHELL ha permesso di proporre l’uso dello stesso modello per “osservare” e catalogare la totalit`a degli eventi associati ad un’occorrenza, cio`e sia quelli legati ad aspetti puramente tecnici e meccanici sia quelli correlati a fattori umani (Ref. Web, ICAO, 2006). Pertanto, tutte le tabelle associate alla tassonomia ADREP sono riconducibili ad un’inquadratura in “termini” di modello SHELL (Fig. 3.4). La completezza cui si tende nella tassonomia ADREP, che contiene riferimenti anche ai codici classificazioni ATA, porta alla definizione di un numero molto rilevante di classi, termini e voci, tali da coprire tutto il dominio dell’aviazione e le aree collegate, che quindi si estendono non solo al velivolo vero e proprio, ma
3.3 Modelli, tassonomie e metodi per l’analisi di occorrenze
131
Figura 3.4. Modello SHELL e tabelle di riferimento ADREP 2000
considerano tutto l’insieme del trasporto aereo e delle persone coinvolte. Infatti, ad esempio, i sistemi aeroportuali e la gestione del traffico aereo giocano un ruolo altrettanto importante a quello delle operazioni di volo. In conseguenza di ci` o, la tassonomia ADREP si `e sviluppata nel tempo e rimane una struttura “viva”, che viene costantemente aggiornata ed `e costituita da un numero molto rilevante di tabelle piuttosto complesse di classi e voci diverse, che afferiscono ad aspetti peculiari di un processo di classificazione. In sostanza esistono pertanto tabelle per: • la classificazione delle strutture, organizzazioni, componenti, macchine e persone coinvolte; • i regolamenti e le norme in vigore; • la classificazione di attributi e peculiarit` a associate a tali elementi; • le fasi del volo e le operazioni di terra coinvolte; • le interazioni tra i vari componenti. La tassonomia ADREP risulta pertanto la forma pi` u completa e dettagliata di classificazione che si possa sviluppare per la catalogazione di eventi aeronautici. Si vedano, ad esempio, le strutture delle tabelle che afferiscono alla classificazione delle Classi di Occorrenze (“Occurrence classes”), degli Eventi (“Events”) e dei Fattori Descrittivi (“Descriptive Factors”), di cui viene riportato un estratto in Fig. 3.5, Fig. 3.6 e Fig. 3.7. Ci`o fa s`ı che la tassonomia ADREP e la sua tecnica di classificazione e ricerca delle cause primarie di occorrenze ed incidenti, che verr`a discussa nella sezione seguente, siano il metodo di fatto seguito dalla gran parte di organizzazioni ed
132
3 Metodi per analisi retrospettive
Figura 3.5. Estratto tabella “Classi di Occorrenze” - ADREP (Ref. Web, ICAO 2006)
autorit` a aeronautiche per la registrazione di dati in specifiche banche dati e sistemi di raccolta di informazioni. Tale vastit` a e dettaglio di definizione portano tuttavia con s´e degli aspetti non del tutto positivi che devono essere conosciuti e tenuti nel giusto conto dagli analisti per la scelta del metodo e della tassonomia pi` u appropriate da utilizzare per la catalogazione. In pratica, il prezzo da pagare per tale completezza e vastit`a di dettaglio `e la complessit`a intrinseca che ne risulta. Infatti, l’analista per catalogare un evento si trova a navigare attraverso oltre venti tabelle che descrivono classi diverse di riferimento, ciascuna delle quali contiene innumerevoli voci. Ci` o richiede una gran-
3.3 Modelli, tassonomie e metodi per l’analisi di occorrenze
Figura 3.6. Estratto tabella “Eventi” - ADREP (Ref. Web, ICAO 2006)
133
134
3 Metodi per analisi retrospettive
Figura 3.7. Estratto tabella “Fattori Descrittivi” - ADREP (Ref. Web, ICAO 2006)
dissima competenza del dominio aeronautico, ed un’approfondita conoscenza del modello SHELL e dei suoi riferimenti logici e teorici. Anche se le tabelle della tassonomia sono corroborate da descrizioni che hanno l’obbiettivo di aiutare l’analista nel lavoro di catalogazione, il grande numero di tabelle e il grande dettaglio offerto all’analista rendono molto complesso il lavoro di classificazione attraverso la tassonomia ADREP. Ci`o rappresenta un problema per l’applicazione di ADREP da parte di analisti non esperti. Esiste un altro svantaggio e rischio molto grave, cio`e di concludere la classificazione con dei riferimenti tassonomici errati. Ci`o vanifica gli obbiettivi stessi per cui la classificazione `e nata, cio`e per offrire la possibilit` a all’analista di entrare nel massimo dettaglio dell’analisi e registrare, per scopi di valutazioni e statisti-
3.3 Modelli, tassonomie e metodi per l’analisi di occorrenze
135
che future, il massimo di informazione possibile. Come gi` a discusso in precedenza, questo errore porterebbe addirittura al doppio effetto negativo di: 1. errata classificazione dell’occorrenza e dell’evento in oggetto; 2. inquinamento dei dati globali contenuti nella banca dati con effetto negativo su tutte le analisi future che potrebbero essere fatte a livello aggregativo dei dati. Infine, tale struttura `e statica in quanto non “vede” la sequenza logico temporale degli eventi e delle interazioni che sono avvenute nello svolgimento dell’incidente ma si limita ad offrire una “fotografia” del Sistema Uomo-Macchina ad un determinato istante nel tempo. Questo aspetto deve essere considerato e la classificazione deve essere correlata ad un’appropriata tecnica di studio della dinamica dell’occorrenza per formalizzare la ricerca delle cause, come verr`a descritto nel prosieguo di questo capitolo.
La tassonomia CREAM La tassonomia denominata CREAM (“Cognitive Reliability and Error Analysis Method”) (Hollnagel, 1998) `e associata al modello COCOM ed `e specificatamente orientata alla classificazione degli errori umani, senza occuparsi dei guasti sistemici. In questa tassonomia, una sequenza logica `e mantenuta tra le quattro funzioni cognitive del modello COCOM, vale a dire tra Percezione, Interpretazione, Pianificazione ed Esecuzione, nel collegare con attenzione le cause, gli effetti e le manifestazioni di comportamento umano, in un’interazione dinamica circolare. Questa `e la caratteristica fondamentale di questo approccio, che consente lo sviluppo di una procedura formale con la quale il modello e la tassonomia vengono applicati per la costruzione logica di sequenze di processi decisionali che porta a manifestazioni di errori. Le cause di un comportamento errato, anche chiamate “genotipi”, sono le radici di alcuni comportamenti inappropriati. Questi possono essere ulteriormente suddivise in cause interne, che dipendono dalle caratteristiche individuali (personalit` a, atteggiamenti, ecc), e cause esterne, che dipendono dal contesto e dal sistema. Gli effetti e le manifestazioni di comportamento erroneo, anche chiamati “fenotipi”, consistono nelle forme che l’intero processo cognitivo prende, cio`e le azioni umane. La distinzione tra le cause e gli effetti deve essere chiaramente osservata e mantenuta in sede di analisi. Nella tassonomia CREAM, questa distinzione `e formalmente applicata per quanto riguarda le quattro funzioni cognitive del modello di competenza di COCOM. Per ogni funzione cognitiva la tassonomia definisce (Fig. 3.8): • Effetti, vale a dire, le manifestazioni di specifiche di ogni funzione cognitiva; questi sono i “fenotipi”, nel caso della funzione di esecuzione. • Cause Generiche, che consistono in un elenco di cause legate alla funzione cognitiva immediatamente collegata a quella in esame, in entrambe le direzioni del processo cognitivo. Un elenco generale di questi fattori pu` o essere svilup-
136
3 Metodi per analisi retrospettive
Execuzione Fenotipi
Cause generiche
Pianificazione
Interpretazione Effetti Percezione
Cause specifiche
Figura 3.8. La tassonomia CREAM (“Cognitive Reliability and Error Analysis Method”)
pato, proprio in relazione alla generalit` a della causa. La tassonomia pertanto prevede una serie di classi di Cause Generiche ben definite, come verr`a discusso nel prosieguo di questa sezione. • Cause Specifiche, che sono essenzialmente costituite da fattori ambientali e contestuali che possono influenzare il comportamento individuale. Si tratta di una serie di fattori costanti per tutte le funzioni cognitive, che dipendono principalmente da settori specifici e ambienti di lavoro. Anche se un elenco generale di questi fattori pu`o essere sviluppato, essi devono essere individuati in relazione a ciascun dominio di applicazione. Pertanto, delle tabelle di Cause Specifiche e Generiche associate a ciascuna funzione cognitiva devono essere sviluppate per ogni dominio specifico, anche se alcuni esempi di tabelle generiche possono essere identificate a livello generale. In Tab. 3.1, Tab. 3.2, Tab. 3.3, e Tab. 3.4 si trovano gli insiemi degli effetti generici e specifici, nonch´e i riferimenti alle cause generiche e specifiche che servono per classificare gli errori a vari livelli dei processi cognitivi. Mentre in Tab. 3.5 si trova la lista delle Cause Esterne Sistemiche che influenzano il comportamento e favoriscono gli errori umani. Le modalit`a del processo di sfruttamento della tassonomia CREAM per l’identificazione delle specifiche cause (genotipi) di comportamenti inappropriati (fenotipi) sar` a descritto pi` u avanti in questo capitolo, in connessione con la revisione dei metodi di analisi delle cause. La tassonomia legata al modello COCOM permette una rappresentazione precisa, approfondita e, soprattutto, dinamica e ciclica delle interazioni uomo-macchina, in quanto `e in grado di seguire il processo temporale e logico che conduce a manifestazioni di comportamento inadeguato. Tuttavia, non `e in grado di inquadrare tutta la sequenza di un incidente, nel quale si verificano diversi episodi, eventi di errore e malfunzionamenti che si combinano per dare origine all’occorrenza ed alle conseguenze indesiderate di un incidente. Pertanto, se si vuole avere una visione pi` u globale di un incidente, si rende necessario un ulteriore passo metodologico che dia una visione pi` u sistemica dello studio delle interazioni uomo macchina.
3.3 Modelli, tassonomie e metodi per l’analisi di occorrenze Tabella 3.1. Modi di errori dovuti alla funzione cognitiva Azione/Esecuzione ESECUZIONE Effetti Generici
Effetti Specifici
Cause Generiche
Azione fuori tempo
Ritardo Omissione Azione prematura
Scelta errata di alternativa (PIAN ) Nessuna Scelta (PIAN )
Azione non in sequenza
Salto in avanti Salto indietro Ripetizione Scambio di azione Interruzione
Azione non corretta
Cambiamento Cattura cognitiva Intrusione Deviazione
Forza non corretta
Troppo Troppo poco
Durata non corretta
Troppo lungo Troppo breve
Scelta errata di alternativa (PIAN )
Direzione non corretta Troppo lontano Troppo vicino Movimento scorretto Direzione errata Oggetto non corretto
Prossimit`a Oggetto simile Oggetto non correlato
Scelta errata di alternativa (PIAN )
Cause Specifiche
Evento Casuale (Evento Esterno)
137
138
3 Metodi per analisi retrospettive Tabella 3.2. Modi di errori dovuti alla funzione cognitiva Pianificazione
PIANIFICAZIONE Effetti Generici
Effetti Specifici
Cause Generiche
Cause Specifiche
Nessuna Scelta
Paralisi di decisone (Shock, Paura, . . . ) Compiacimento Orizzonte temporale limitato
Identificazione errata (INT ) Diagnosi errata (INT )
Assenza dal posto Carenza di attenzione Errore di memoria Modo di operazione errato
Scelta errata di alternativa
Uso di regole decisionali errate
Incorretto/incompleto riconoscimento di stato
Cattivo giudizio Carenze psicologiche
(INT ) Alternative mal definite Uso di criteri errati Obbiettivi secondari non considerati
Errori recenti Tempo improprio Carico di lavoro Pressione temporale Errore di deduzione Conoscenza inadeguata
Effetti collaterali non considerati
Errore di induzione Lunga assenza di addestramento
Orizzonte di pianificazione troppo limitato
Carenza di addestramento Sovra-Generalizzazione
3.3 Modelli, tassonomie e metodi per l’analisi di occorrenze
139
Tabella 3.3. Modi di errori dovuti alla funzione cognitiva Interpretazione INTERPRETAZIONE Effetti Generici
Effetti Specifici
Identificazione errata
Assunzione non corretta Incompleto o parziale ricordo (carenza di conoscenza) Ricostruzione non corretta Errato richiamo di conoscenza Identificazione prematura
Cause Generiche
Cause Specifiche Assenza dal posto Carenza di attenzione Errore di memoria Modo di operazione errato Errori recenti Tempo improprio Carico di lavoro Pressione temporale Errore di deduzione Conoscenza inadeguata
Sintomi male interpretati Diagnosi errata
Situazione non familiare Informazioni soggettive ambigue Ricordo parziale o incompleto
Incorretto/ incompleto riconoscimento di stato
Incompleto o parziale ricordo (carenza di conoscenza) Ricostruzione non corretta Conoscenza errata Sintomi mal interpretati
Lunga assenza di addestramento Carenza di addestramento Sovra-Generalizzazione Incorretto o incompleto riconoscimento di valore (OSS) Mancato riconoscimento di segnale/allarme (OSS)
140
3 Metodi per analisi retrospettive Tabella 3.4. Modi di errori dovuti alla funzione cognitiva Percezione
PERCEZIONE Effetti Generici
Effetti Specifici
Cause Specifiche Assenza dal posto Carenza di attenzione Errore di memoria Modo di operazione errato Errori recenti Tempo improprio Carico di lavoro Pressione temporale
Mancato riconoscimento di segnale/allarme
Incorretto o incompleto riconoscimento di valore
Cause Generiche
Lettura errata del valore Lettura di indicatore errato
Errore di deduzione Conoscenza inadeguata Lunga assenza di addestramento Carenza di addestramento Sovra-Generalizzazione
3.3 Modelli, tassonomie e metodi per l’analisi di occorrenze
141
Tabella 3.5. Classifica generale delle cause di errori derivati da cause esterne CAUSE ESTERNE SISTEMICHE Comunicazione
Colleghi Conflitti di priorit`a Distrazione Management Rumore
Telefono
Attuatori e interfacce (temporanei)
Difficolt`a di accesso/ostruzioni Attuatore guasto Rottura Segnali in conflitto Strumento non disponibile Componente bloccato Funzionamento eccessivo Segnali nascosti Funzionamento inadeguato Segnali o indicatori mancanti Operazione spuria Sistema non ristabilito
(Spray, fuoco, vuoto, blocco) Scollegato Duro da operare
Interferenze
Attivit`a/priorit`a conflittuali Disturbi generici (Rumore, caldo, . . . ) Disturbi specifici
Procedure
Testo ambiguo Logica confusa Discrepanza componente/manuali Testo non corretto Passi mancanti nella procedura
Posto di lavoro / Interfacce (permanenti)
Indicazioni ambigue Convenzioni conflittuali Distanza Posizione Ergonomia del sistema tecnico
Informazione inadeguata. Contrasto inadeguato Descrizione errata Parallasse Simboli e lettere troppo piccoli
142
3 Metodi per analisi retrospettive
La tassonomia relativa al modello “Fallible-Machine” Il modello di comportamento umano identificato come “Fallible-Machine” (Reason, 1990) `e stato sviluppato sulla base delle teorie di comportamento e errori umani sviluppati negli anni ’90 che collocano gli errori a diversi livelli di un’organizzazione e che possono essere correlati e commessi in momenti e luoghi diversi. In particolare, la distinzione tra errori latenti ed errori attivi mira esattamente a catturare queste differenze e ad offrire all’analista uno strumento per identificare gli errori commessi ad alto livello in un’organizzazione che rappresentano gli elementi “patogeni” di errori commessi a livello pi` u basso ed in prima linea. I loro legami e dipendenze vanno poi inquadrati per mezzo di una tecnica appropriata. La tassonomia specifica degli errori si limita a definire inoltre alcune tipologie di errore molto semplici che inquadrano gli errori come: dimenticanze (“slips”), errori di memoria (“lapses”), errori di conoscenza (“mistakes”) e violazioni (“violations”) (Fig. 3.9).
Figura 3.9. Struttura tassonomia associata al modello “Fallible-Machine”
Le modalit`a esecutive degli errori di fatto non sono mai state affrontate nel quadro teorico dello sviluppo del modello in quanto queste dipendono dal dominio specifico in cui sono applicate. Pertanto ci` o `e lasciato alle specifiche applicazioni della tassonomia stessa. Inoltre, sulla base della stessa struttura teorica, `e possibile combinare gli errori umani e i guasti sistemici in un approccio metodologico globale che definisce le correlazioni esistenti tra eventi di errore umano ed eventi di guasto tecnico (Maurino et al., 1995). Tale approccio verr` a discusso in dettaglio nella prossima sezione. Le tassonomie a confronto Come gi`a citato in precedenza, la differenza sostanziale tra il modello SHELL ed il modello COCOM consiste nel fatto che il primo permette una rappresentazione globale, a livello macroscopico dell’interazione uomo-macchina, mentre il secondo entra nel dettaglio delle funzioni e dei processi cognitivi, rappresentando l’interazione ed il comportamento umano a livello microscopico. Entrambe queste tassonomie permettono di descrivere molto precisamente, in relazione alle loro spe-
3.3 Modelli, tassonomie e metodi per l’analisi di occorrenze
143
cifiche peculiarit` a, le relazioni causa-effetto con le quali `e possibile spiegare come certi comportamenti e manifestazioni erronee siano in realt` a semplicemente il risultato, o la conseguenza logica, di altre situazioni sistemiche e/o processi cognitivi che sono avvenuti in precedenza. Queste due tassonomie, proprio per il fatto che entrano nel dettaglio dei sistemi e delle interazioni che descrivono, sono necessariamente complesse ed articolate. Inoltre richiedono una grande competenza da parte dell’analista sia del dominio specifico sia degli aspetti tecnici ed umani coinvolti nelle interazioni e nei guasti/errori rilevati. ` altres`ı importante ricordare l’aspetto fondamentale nella scelta della tassoE nomia da utilizzare per classificare eventi: cio`e che una classificazione errata porta con s´e l’errata interpretazione delle cause di un incidente e l’inquinamento dei dati. Questi due aspetti vanno tenuti in debita considerazione quando si `e chiamati a valutare un’occorrenza o un incidente, e possono fare orientare l’analista verso una scelta, anche solo in prima istanza, di tassonomia pi` u semplice e generale, ma tale da garantire una classificazione corretta e analiticamente attinente alla sequenza degli eventi. Qualora poi si rivelasse indispensabile passare ad una classificazione pi` u approfondita, si dovrebbe fare uso di tassonomie di dettaglio, ma in un quadro metodologico tale da garantire la correttezza di una serie di condizioni preliminarmente identificate. Pertanto `e importante rilevare come l’applicazione di una tassonomia semplice e facilmente implementabile, come quella legata al modello Fallible Machine, sia appropriata a considerare tale obbiettivo. Infatti, tale tassonomia presenta caratteristiche intermedie fra le due precedentemente citate e tende a minimizzare le complessit`a specifiche di una e dell’altra, a scapito di una minore profondit` a di dettaglio di analisi. In sostanza la classificazione per mezzo della tassonomia associata al modello Fallible Machine permette: • di ridurre le problematiche identificate nel caso di ADREP e CREAM; • di integrare sia errori umani sia guasti sistemici in maniera semplice e rapida, pur restando a livello abbastanza alto nel dettaglio di entrambe le tipologie di classificazione; • ma, al tempo stesso, non `e in grado di entrare nel dettaglio del comportamento umano, come invece `e possibile fare con ADREP e con CREAM. Applicando la tassonomia legata al modello Fallible Machine, il lavoro dell’analista risulta semplificato dal punto di vista dell’analisi. Tuttavia, va anche detto che un lavoro di definizione delle modalit` a specifiche di errore va sviluppato di caso in caso e che questo non permette un confronto approfondito dei risultati di dettaglio tra domini diversi e, a volte, tra organizzazioni diverse all’interno dello stesso dominio. Tuttavia, le cause primarie di un evento e dell’occorrenza in generale posso essere identificate in maniera sufficientemente precisa fin dalla prima analisi.
144
3 Metodi per analisi retrospettive
Infine `e importante fare rilevare come: • la scelta di una tassonomia piuttosto dell’altra `e di importanza vitale per il risultato finale dell’analisi e definisce ovviamente la tecnica di ricerca delle cause primarie degli eventi; • le differenze e gli elementi comuni identificati nel caso delle tre tassonomie considerate, cos`ı come i loro centri di attenzione, permettono l’uso integrato e correlato delle tassonomie stesse. Quest’ultimo aspetto `e particolarmente utile quando si vogliano effettuare pi` u analisi ripetute ed approfondite a livelli diversi mano a mano che l’indagine si sviluppa. Inoltre, tali aspetti sinergici e integrativi delle tre tassonomie risulteranno evidenti quando queste verranno messe a confronto sia attraverso le loro tecniche di implementazione per la ricerca delle cause primarie, come discusso qui di seguito, sia nella loro applicazione pratica presentata in Appendice e relativa allo studio di un incidente reale.
3.4 Definizione logica analitica dell’Occorrenza La definizione logica analitica di un’Occorrenza necessita di documentazione aggiuntiva rispetto a quanto contenuto nei dati iniziali. La definizione di un’Occorrenza richiede una procedura di quattro passaggi fondamentali: 1. 2. 3. 4.
individuazione degli Eventi; sviluppo dell’Event Time Line (ETL); identificazione di Eventi scatenanti ed Eventi conseguenza; riconoscimento degli Eventi positivi ed Eventi negativi.
Questi quattro passaggi verranno trattati nelle sezioni seguenti in maniera informale e pratica. Infine, `e importante inquadrare il processo di definizione logica analitica dell’occorrenza in un quadro metodologico che permette di associare l’analisi di un’occorrenza con una visione proattiva dell’insieme di eventi riportati. Tali approcci metodologici permettono di inserire il processo di analisi in un quadro pi` u ampio, costituito dal “Safety Management System” che rappresenta lo stadio finale in cui l’analisi di dati viene inserita. I metodi proposti ed adottati afferiscono sostanzialmente a teorie consolidate e riconosciute, quali il modello di rappresentazione di sequenze incidentali associato a processi organizzativi (Reason, 1997) e le tecniche di analisi delle cause di guasti sistemici e/o comportamenti umani inadeguati che verranno discusse nel prosieguo di questo capitolo.
3.4 Definizione logica analitica dell’Occorrenza
145
3.4.1 Individuazione degli eventi L’accadere di un’occorrenza, inconveniente grave o incidente nel dominio dell’aviazione civile viene normalmente rilevato da una serie di soggetti coinvolti, i quali, in conformit` a delle vigenti direttive comunitarie (EC, 2003) e norme italiane (ENAC, 2007), devono riportare le loro osservazioni e dati relativi. Per rendere possibile la trasmissione delle informazioni e delle osservazioni effettuate sono state sviluppate diverse tipologie di formati che richiedono una serie di informazioni formali e strutturate, ma anche di descrizioni in formato libero di quanto `e stato osservato da parte dei testimoni dell’evento. Questi, spesso sono anche gli attori principali dell’occorrenza, quali i piloti, i manutentori, i controllori del traffico. Alle volte, poi, un’occorrenza viene riscontrata da pi` u parti, ad esempio piloti e controllori del traffico. Ci`o rende ancora pi` u utile l’effettuare il rapporto da parte delle persone coinvolte che possono offrire punti di vista differenti e quindi trasmettere una quantit` a di informazioni diverse che permettono una visione pi` u completa a meno soggettiva di ci` o che `e avvenuto. La discussione dei formati e degli strumenti offerti agli utenti per riportare occorrenze, inconvenienti gravi o incidenti esula dagli scopi di questo testo ed il lettore interessato viene rinviato alla documentazione specifica che si pu` o reperire presso l’autorit` a italiana (ENAC) ed europea di sicurezza del trasporto aereo (EASA). I rapporti compilati rendono possibile la classificazione di quanto avvenuto in maniera formale e strutturata. Tuttavia, l’individuazione degli eventi e la ricerca dei fatti oggettivi accaduti, cio`e di cambiamenti dello stato del sistema, non dipendono dalle valutazioni di chi compila i rapporti, ma bens`ı dai processi di valutazione di quanto riportato e da ulteriori analisi collaterali da farsi da parte degli analisti di sicurezza. Pertanto, una volta ricevuti uno o pi` u rapporti afferenti alla stessa occorrenza o inconveniente incidentale, il primo passaggio fondamentale che l’analista di sicurezza deve compiere `e quello di stabilire quanti e quali eventi siano avvenuti.
Figura 3.10. Individuazione degli Eventi
146
3 Metodi per analisi retrospettive
Bisogna tenere in debita considerazione la definizione di Evento sviluppata nei paragrafi precedenti che si pu`o riassumere con il fatto che un Evento `e un fatto o un’azione che determinano un cambiamento di stato del sistema. Un Evento riferito ad un sistema tecnico `e un guasto, un danneggiamento, un allarme, un evento atmosferico, una collisione o impatto, che modificano lo stato del sistema; mentre un Evento riferito all’uomo si identifica con la manifestazione del comportamento, indipendentemente da possibili processi cognitivi che la hanno generata (Fig. 3.10). 3.4.2 Event Time Line Una volta individuati gli eventi che costituiscono l’occorrenza `e necessario stabilire l’Event Time Line (ETL), ovvero decidere l’ordine cronologico di accadimento. Riuscire a dare una concatenazione temporale dei vari sottoinsiemi in cui l’occorrenza si realizza, aiuta ad analizzare la tipologia di evento stesso, a chiarire come il fatto sia accaduto e come esso sia stato gestito. Il processo di individuazione dell’Event Time Line aiuta nell’identificare quali eventi si possono considerare come iniziatori, o scatenanti, dell’occorrenza e quali altri eventi, invece, sono semplicemente conseguenti o ricollegabili, in maniera logica o temporale, all’evento iniziatore. La decisione che un evento sia l’iniziatore di un’occorrenza in esame `e spesso subordinata alla quantit` a di informazioni a disposizione dell’analista; possono, infatti, verificarsi situazioni in cui un evento che sembrava aver scatenato un’occorrenza risulta, dopo un’approfondita e successiva analisi, esso stesso conseguenza di eventi non ancora noti in fase di stesura del rapporto ricevuto (Fig. 3.11).
Figura 3.11. Eventi scatenanti ed eventi conseguenza
3.5 Metodi per la classificazione e ricerca delle cause primarie
147
3.4.3 Eventi positivi ed eventi negativi All’interno di un’occorrenza gli eventi identificati hanno due connotazioni alternative: possono essere di natura negativa rispetto all’evolversi dell’occorrenza, cio`e contribuiscono al suo aggravarsi, oppure servono ad interrompere la sequenza incidentale ed a recuperare la situazione di normalit` a. Si avranno, in questo senso, Eventi negativi ed Eventi positivi. Per Evento negativo si intende un evento che rappresenta la dimostrazione esplicita di una carenza o di un malfunzionamento che fa in modo che il sistema si discosti dal comportamento programmato e che porta a delle conseguenze che non sono controllabili in tutte le loro parti, ma sono al massimo arginabili. In coerenza con questa definizione si possono avere tre tipologie o nature di eventi negativi: • natura tecnica (malfunzionamento, rottura di un componente); • natura umana (errore o violazione del personale a tutti i livelli, anche manageriale); • natura ambientale (fenomeni atmosferici). Per Evento positivo si intende un evento strettamente connesso ad un evento negativo, che ne rappresenta l’argine che ha permesso l’interruzione della catena incidentale e che ha impedito all’occorrenza di evolvere in conseguenze peggiori di quelle che si sono verificate (Cacciabue, et al., 2007). La considerazione degli Eventi positivi `e un approccio relativamente nuovo rispetto alla pratica ormai consolidata di analisi di un’occorrenza o inconveniente grave. All’evento positivo viene assegnata un’importanza di pari livello, se non superiore, all’evento negativo, in quanto questo aiuta a capire gli aspetti che hanno contribuito al contenimento delle conseguenze dell’occorrenza e in molti casi a recuperare situazioni di pericolo rilevanti.
3.5 Metodi per la classificazione e ricerca delle cause primarie 3.5.1 Il modello organizzativo di Reason Gli studi ed i relativi modelli pi` u significativi condotti sul tema dell’errore umano ed accettati dalla totalit` a degli enti ed organizzazioni coinvolti nella sicurezza del trasporto aereo sono certamente quelli sviluppati da James Reason dell’Universit` a di Manchester negli anni ’90 e culminati nel suo famoso libro sulle relazioni tra incidenti, errori umani, e cause organizzative (Reason, 1997). Nel 1990 Reason propose un modello per l’analisi e l’identificazione dei fattori causali che provocano le occorrenze, detto anche dall’autore stesso (“Swiss Cheese Model”), per la ovvia immagine metaforica associata alla rappresentazione grafica del modello stesso che di fatto chiameremo anche “Modello Organizzativo” delle cause di incidenti. Per Reason il sistema dell’aviazione, ed anche ogni altro grande
148
3 Metodi per analisi retrospettive
sistema socio-tecnico, `e un sistema complesso il cui obbiettivo `e quello di condurre in sicurezza le operazioni di volo, sia per il trasporto di cose/persone, sia per le altre missioni. Il Modello Organizzativo, in particolare, illustra come errori attivi ed errori latenti, definiti dall’autore stesso nella sua trattazione del problema della gestione dell’errore umano, e gi` a discussi in precedenza, si integrino e si correlino tra di loro in un quadro socio tecnico, che descrive l’insieme dei cedimenti e delle fallibilit` a del sistema in caso di incidente. Infatti, grazie agli sviluppi tecnologici nel campo dei sistemi aeronautici ed alle barriere difensive che vengono adottate all’interno delle organizzazioni, difficilmente le occorrenze hanno origine solo a causa di errori da parte del personale che opera in prima linea (“errori attivi”) o a causa di guasti tecnologici (“guasti attivi”). Solitamente le occorrenze avvengono a causa di una concatenazione di errori e guasti latenti ed attivi, commessi a livelli diversi di un’organizzazione. Di fatto tali errori e guasti costituiscono dei “buchi” nelle barriere causali e consequenziali che sono state poste dal sistema nei confronti di possibili errori e che ne intaccano l’integrit`a, favorendo o creando i presupposti per un incidente. L’incidente avviene quando i “buchi” che esistono in tali barriere si “allineano” in una sequenza sfortunata, ma sempre possibile, di coincidenze. Da qui il nome simbolico di modello del formaggio svizzero assegnato alla teoria (Fig. 3.12). Tale rappresentazione grafica sembra favorire, a prima vista, il ruolo fondamentale degli attori di prima linea in un quadro di sicurezza totale. Infatti, basterebbe “tappare” tutti i buchi della barriera “prima linea” per essere certi che nessun incidente possa avvenire. Tuttavia, cos`ı non `e, in quanto non `e logicamente possibile eliminare tutti gli errori possibili della “prima linea” quando siano presenti “buchi” ad alto livello organizzativo. Infatti, eliminando le carenze della prima linea non si influisce minimamente sugli altri livelli dell’organizzazione ed in particolare sul management, i cui “buchi” restano aperti. Inoltre, la presenza di tali “buchi” ha conseguenze enormi ed inevitabili in prima linea, e rende di fatto impossibile l’e-
Figura 3.12. Modello organizzativo o Swiss cheese model
3.5 Metodi per la classificazione e ricerca delle cause primarie
149
liminazione di quegli errori e comportamenti inadeguati a questo livello, che sono direttamente collegati o dipendenti da certi “buchi” esistenti nel management. D’altro canto, l’eliminazione di carenze o buchi ad alti livelli di un’organizzazione influisce anche sui livelli sottostanti del sistema, riducendo quindi anche la presenza di tali carenze in prima linea. Da qui la necessit`a di identificare e correlare chiaramente i diversi contributi che hanno dato origine ad un’occorrenza ed eliminare le carenze a tutti i livelli del management e della prima linea. In tale quadro generale `e possibile identificare gli effetti e le correlazioni dovute a possibili mancanze ad altissimo livello che si verificano in un sistema tecnologico, comprendendo non solo le singole organizzazioni ma anche le strutture e gli organismi nazionali e sopranazionali preposti alla regolamentazione e normativa in materia di gestione e sicurezza del sistema. Nel dominio aeronautico, `e chiaro qui il riferimento per l’Italia all’Autorit` a nazionale per il trasporto aereo, ENAC, e alla Agenzia per la sicurezza del volo (ANSV) e in campo europeo all’EASA (“European Aviation Safety Agency”). Questo modello rappresenta l’approccio pi` u completo e strutturato che esista per la classificazione e la ricerca delle cause primarie di un’occorrenza. Pertanto, la sua conoscenza `e propedeutica alla presentazione e discussione che segue delle diverse tecniche di classificazione. Ad ulteriore conferma della validit` a e generalit`a di tale teoria, si vedr` a come alcuni dei metodi presentati, sviluppati molto prima del modello organizzativo, presentano correlazioni e legami assai forti con il modello stesso, mentre i metodi pi` u recenti fanno chiaro ed esplicito riferimento ad esso.
3.5.2 Classificazione di informazioni secondo il metodo ADREP 2000 Il metodo ADREP Questo approccio `e stato adottato a livello mondiale per la classificazione di dati relativi ad un’occorrenza, inconveniente grave o incidente nel dominio del trasporto aereo. Tuttavia, presenta caratteristiche molto generali, per cui la sua applicazione `e di natura universale, e si pu` o adattare, con ovvie modifiche, a qualsiasi sistema di classificazione che utilizzi come riferimento il modello SHELL. Non si entrer` a nel merito delle varie tabelle che compongono il sistema ADREP e delle altre definizioni e assunti tassonomici che afferiscono a definizioni e standards, quali quelli Eurocontrol o ICAO. Tali tabelle sono facilmente rintracciabili in letteratura e nei siti “web” relativi a tali organismi. Mentre l’utilizzo delle tabelle relative ai componenti del modello SHELL, cio` e “E”, “H”, “S” e “L” `e immediato dato che le informazioni da archiviare sono spesso oggettive e trovano veloce riscontro tra le voci, le tabelle che rappresentano le interazioni tra gli elementi del modello (“L-L”, “L-E” ecc.) non sono altrettanto facilmente utilizzabili. Si richiede, infatti, una capacit` a di lettura del fatto che va oltre semplici constatazioni e una conoscenza approfondita di tutte le possibilit`a
150
3 Metodi per analisi retrospettive
descrittive che la tassonomia offre. La categoria interazioni costituisce il passo del modello che rende possibile una completa rappresentazione della realt` a. Come gi`a discusso in precedenza, le interazioni sono descritte attraverso una serie di tabelle che collegano tra loro vari elementi tassonomici di ADREP che sono correlati in cascata tra di loro. Gli elementi principali della tassonomia ADREP sono: Events, Descriptive Factors, Explanatory Factors, e Modifiers: • Events descrivono le tipologie di Eventi attraverso cui `e possibile ricostruire l’accaduto (§ 3.4) e definire la fase del volo in cui l’evento si `e verificato. Si veda ad esempio in Fig. 3.6 un estratto dalla tabella Events, con eventi rappresentanti attivit`a di interazione L–L e L–S. • Descriptive factors elencano una serie di voci che mirano a descrivere in maniera specifica l’accaduto, rispondendo alla domanda “che cosa `e avvenuto e quando?”. In Fig. 3.7 sono mostrati, ad esempio, alcuni dei Descriptive Factors che permettono di classificare eventi di operazioni e la manutenzione del velivolo, dei suoi componenti e dei sistemi tecnici. • Explanatory Factors sono delle voci della tassonomia dedicate specificatamente alla classificazione di dettaglio di fattori umani, quando questi siano riscontrati in relazione a certi Descriptive Factors. Il modello SHELL e le interazioni fra i suoi componenti sono particolarmente appropriati per la definizione degli Explanatory Factors. • Modifiers sono gli attributi che vengono assegnati, assieme ad altre voci minori, in relazione sia a Descriptive Factors che a Explanatory Factors, e servono a dare una misura qualitativa del fattore a cui si riferiscono. L’elenco di Modifiers possibili associati alla tassonomia ADREP `e molto esteso e variegato. Procedura di applicazione del metodo ADREP La procedura di implementazione del metodo ADREP `e rappresentata in Fig. 3.13 e prevede che ogni Occorrenza venga classificata per un certo grado di severit`a e quindi venga catalogata come appartenente ad una certa categoria. Mentre la tabella delle severit`a di Occorrenza `e stata presentata e discussa in precedenza (Fig. 3.5), la corrispondente categoria di appartenenza non `e immediatamente rintracciabile in ADREP. Pertanto, per assolvere tale passo del metodo si deve fare riferimento a categorie di appartenenza definite da diversi gruppi di lavoro esistenti e sponsorizzati da ICAO stesso. Ad esempio, in Fig. 3.14 viene riportato l’elenco di possibili categorie definite dal gruppo CAST (“Commercial Aviation Safety Team”) e generalmente accettate a tale scopo. Nei passi successivi vengono definiti e disposti in sequenza temporale gli Eventi che contribuiscono all’Occorrenza (ETL). Quindi, per ogni evento, vengono classificati i fattori descrittivi in base alle diverse classi di appartenenza delle tabelle ADREP e per ognuno di questi, ed in caso di presenza di fattori umani, vengono assegnati gli Explanatory Factors. A maggior chiarezza di come le relazioni tra i diversi fattori e parametri vari della tassonomia si correlano tra di loro, viene riportata in Fig. 3.15 una possibile rappresentazione grafica di classificazione di un evento.
3.5 Metodi per la classificazione e ricerca delle cause primarie
Figura 3.13. Processo di classificazione per mezzo di ADREP
Figura 3.14. Categorie di Occorrenze (Ref web: IFSC, 2007, CAST, 2007)
151
152
3 Metodi per analisi retrospettive
Figura 3.15. Rappresentazione grafica di classificazione di un Evento
3.5.3 Metodo specifico ai fattori umani: CREAM Il metodo CREAM In CREAM viene rigorosamente mantenuta la suddivisione logica tra gli elementi fondamentali del processo che porta alle azioni errate, cio`e la suddivisione tra Cause, Effetti-Manifestazioni e Conseguenze degli errori dell’uomo. Questa caratteristica `e fondamentale per poter sviluppare una procedura formale di applicazione dell’insieme tassonomia-modello umano per la costruzione logica delle sequenze di processi inferenziali e decisionali di operatori, che portano alle azioni errate. Le conseguenze sono il risultato dell’interazione uomo-macchina e sono implicitamente ottenute dagli eventi reali. Come gi`a ricordato, la distinzione tra cause ed effetti -manifestazioni deve essere chiaramente rispettata nell’analisi di interazione uomo-macchina, in modo da permettere un collegamento logico tra di esse nella ricerca e nell’identificazione delle cause primarie che hanno dato origine alle manifestazioni erronee in termini di azioni umane. Nella tassonomia CREAM, questa distinzione `e costantemente mantenuta per tutti i tipi di cause ed effetti-manifestazioni, e viene formalmente applicata a tutte le funzioni cognitive del modello COCOM, discusso in precedenza. Procedura di applicazione del metodo CREAM ` cos`ı possibile percorrere una sequenza di processi logici-decisionali, sia in “avanE ti” (Fig. 3.16), cio`e dalla percezione all’esecuzione, effettuando cos`ı un’analisi prospettica, sia a ritroso, compiendo quindi un’indagine retrospettiva, la quale passa attraverso tutte le funzioni cognitive fondamentali del modello del controllo di
3.5 Metodi per la classificazione e ricerca delle cause primarie
153
Figura 3.16. Rappresentazione grafica metodo CREAM
COCOM, partendo dalla manifestazione di comportamento errato, o fenotipo. Per ciascuna funzione cognitiva si identificano le Cause Specifiche che possono aver originato un errore relativo alla funzione in oggetto, ovvero si devono cercare le Cause Generiche del comportamento che rimandano ad un diverso livello cognitivo. Ad esempio l’errata esecuzione di una manovra pu` o essere il risultato sia di Cause Specifiche manifestatesi durante l’esecuzione dell’azione stessa, sia di un errore commesso ad altro livello, quale ad esempio nell’interpretazione delle informazioni percepite in precedenza. Questo procedimento viene formalmente applicato ogni qual volta sia necessario effettuare uno studio che cerchi di definire le cause primarie di errori e manifestazioni di comportamento errati. ` quindi ovvio come una tassonomia di questo tipo si focalizzi sul dettaglio E dei processi cognitivi che possono portare ad un’azione errata, permettendo al tempo stesso di identificare, tra le Cause Specifiche associate alle varie funzioni cognitive, anche i legami con il sistema socio-tecnico nel quale si svolge l’interazione uomo-macchina. Come gi`a ricordato pi` u sopra, l’indagine retrospettiva si applica ad incidenti reali dei quali si conosca la storia nei suoi dettagli, con particolare riguardo al comportamento umano. La tecnica `e dunque particolarmente utile per analisi di incidenti in domini quali il nucleare e l’aeronautico. Gli obbiettivi di uno studio retrospettivo sono la ricerca delle cause primarie che hanno dato origine agli errori, che, come ampiamente discusso nel corso dei precedenti capitoli, si manifestano in azioni inappropriate. Queste ultime, tuttavia, non sono necessariamente azioni errate in s´e, in quanto l’errore potrebbe risiedere in uno dei processi cognitivi che hanno preceduto le azioni stesse. Mediante l’applicazione della tecnica secondo i criteri che verranno ora discussi, l’analista di sicurezza riesce a risalire alle (o alla) cause(a) che hanno dato origine alle manifestazioni errate.
154
3 Metodi per analisi retrospettive
Nella procedura di analisi di un’occorrenza (Fig. 3.2), l’applicazione di CREAM per la classificazione richiede che i passi iniziali ed in particolare lo studio dell’incidente reale siano sviluppati nei minimi dettagli. In questo modo vengono evidenziati (Passo 4 della procedura) le manifestazioni errate del comportamento, cio`e i fenotipi, dai quali si deve partire per una ricerca sistematica e logica all’interno delle tabelle della tassonomia, dando origine alle cause primarie degli errori umani, cio`e i genotipi (passo 6 della procedura). In Fig. 3.17 `e riportata la procedura dettagliata per la ricerca delle cause tipiche di CREAM, che, partendo precisamente dalle manifestazioni del comportamento umano, cio`e dai fenotipi, segue la logica descritta qui di seguito, al fine di definire, per ciascuno di essi, i genotipi che li hanno generati: Ricerca delle possibili Cause Generiche e/o Cause Esterne Sistemiche, degli errori di esecuzione o manifestazioni. Non esistono Cause Specifiche. ↓ 2 < se > sono trovate solo Cause Esterne Sistemiche, allora l’effetto del sistema su questi fenotipi va registrato e questo termina una ramificazione della ricerca, con l’identificazione di una causa fondamentale del comportamenteo errato. ↓ 3 < se > vengono trovate anche, o solo Cause Generiche, la ricerca di altre cause fondamentali continua, spostandosi al livello successivo, cio`e la Pianificazione. ↓ 4 Identificazione degli Effetti Generici e Specifici al livello Pianificazione/Scelta. ↓ 5 Ricerca delle Cause Generiche e/o Cause Specifiche delle manifestazioni a questo livello. ↓ 6 < se > sono trovate solo Cause Specifiche, allora l’effetto del sistema su queste Cause Specifiche viene valutato e questo termina una ramificazione della ricerca, con l’identificazione di una causa fondamentale di errore. ↓ 7 < se > vengono trovate anche Cause Generiche, la ricerca di altre cause fondamentali continua, spostandosi al livello successivo, cio`e l’Interpretazione. ↓ 8 Al livello di Interpretazione la stessa procedura usata per la Pianificazione/Scelta si applica, per arrivare cos`ı al livello Percezione/Osservazione. ↓ 9 Al livello Percezione/Osservazione, non esistono Cause Generiche, in quanto non esistono altri livelli del modello cui risalire. ↓ 10 La ricerca termina quando sono identificate solo Cause Specifiche con i loro riferimenti ai fattori esterni.
1
3.5 Metodi per la classificazione e ricerca delle cause primarie
155
Figura 3.17. Procedura di applicazione retrospettiva della tassonomia CREAM
Quanto avvenuto nelle diverse fasi dell’incidente non `e facilmente rappresentabile con le tabelle della tassonomia. Infatti, tali tabelle servono pi` u come guida per l’analisi delle sequenze che come supporto per illustrare il loro evolversi. ` peraltro possibile ricorrere ad un diagramma di flusso per riassumere le fasi E salienti di una sequenza; `e importante per` o sottolineare che si arriva ai diagrammi di flusso solo dopo aver eseguito l’analisi dell’incidente, cio`e, dopo aver individuato la concatenazione di cause interne ed esterne e dei relativi effetti (Fig. 3.18).
156
3 Metodi per analisi retrospettive
Nella costruzione di un diagramma di flusso si tiene presente l’impostazione della tassonomia, per cui anche per esso `e rispettata la suddivisione e la successione delle quattro funzioni cognitive corrispondenti alle quattro tabelle, rispettivamente: Esecuzione/Azione, Pianificazione/Scelta, Interpretazione, Percezione/Osservazione. Il senso di percorrenza del diagramma di flusso che risulta da destra verso sinistra, permette di illustrare da dove ha avuto inizio la sequenza incidentale. Per completezza, e per rendere maggiormente evidente in quale delle suddette funzioni cognitive avviene il fenotipo, il ciclo del modello SMoC `e sempre rappresentato per intero. Pertanto, per le sequenze incidentali che hanno avuto origine in una fase intermedia, viene completato comunque il ciclo, riportando anche quelle fasi (funzioni cognitive) che fino a quel momento erano state compiute correttamente. In questo caso, i blocchi del diagramma di flusso appaiono tratteggiati ed in essi `e riportata non pi` u la causa d’errore bens`ı l’azione compiuta in modo corretto. La seguente simbologia viene adottata per rappresentare situazioni di cause ed effetti: • ellisse: Cause Esterne Sistemiche; • rettangolo: Cause Specifiche; • rettangolo con angoli smussati: Cause Generiche e/o Effetti Generici e Specifici. Nell’esempio di diagramma di flusso `e riportato in Fig. 3.18 si `e ipotizzato un fenotipo di tipi Omissione, e sono contemplate solo Cause Specifiche dovute alla pianificazione non appropriata. Il ciclo di classificazione `e stato comunque completato con le fasi (funzioni cognitive) correttamente eseguite di percezione ed interpretazione di segnali.
Figura 3.18. Esempio di diagramma di flusso applicato al metodo CREAM
3.5 Metodi per la classificazione e ricerca delle cause primarie
157
3.5.4 Metodo ISAAC “Integrated Systemic Approach for Accident Causation” Il metodo ISAAC L’approccio sistemico integrato per l’analisi di cause degli eventi costituenti gli incidenti (“Integrated Systemic Approach for Accident Causation”, ISAAC) offre un altro quadro di riferimento per la valutazione e identificazione delle cause profonde derivanti dalla combinazione di fattori umani e di guasti di impianti correlati (Cacciabue, 2004). Questo metodo, originariamente sviluppato come metodo semplice per descrivere in maniera coordinata i guasti e gli errori umani che sono le cause degli incidenti (Carpignano e Piccini, 1999), fa riferimento in particolare al modello organizzativo di Reason (1997) sulle casue degli incidenti. ISAAC inquadra, in una visione globale ed organizzativa, gli errori che si manifestano durante gli incidenti e mira all’identificazione degli errori “attivi” e “latenti” commessi dai diversi soggetti che operano a vari livelli e in tempi distribuiti all’interno di un’organizzazione (Reason, 1990, 1997; Maurino et al., 1995). Il metodo ISAAC pu`o essere applicato sia in maniera retrospettiva, sia per analisi prospettiche, una volta stabiliti gli obbiettivi dell’analisi e definite le condizioni iniziali ed al contorno della situazione in esame. In Fig. 3.19 viene mostrato il diagramma di flusso di ISAAC per studi retrospettivi. In ISAAC, al fine di analizzare tutte le diverse tipologie di errori e guasti tecnici ed identificare le cause e le ragioni di un evento, sono considerati due possibili percorsi: 1. Percorso Fattori Umani, che studia le manifestazioni di comportamento errato. 2. Percorso Guasti Tecnici, che analizza le carenze tecniche dell’impianto. Nel Percorso Fattori Umani, vengono evidenziati gli Errori Attivi, associati a comportamenti inadeguati degli operatori in prima linea durante l’esecuzione di un compito, e, parallelamente nel Percorso Guasti Tecnici, vengono contemplati i Guasti Tecnici e malfunzionamenti dell’hardware e di componenti di impianto durante l’esecuzione di un compito o procedura. Questi Errori Attivi e Guasti Tecnici vengono associati a possibili Errori e/o Guasti Latenti, vale a dire, ad errori o guasti verificatisi prima o comunque in momenti e/o luoghi remoti rispetto all’effettiva dinamica dell’incidente. Questi rimangono inerti o dormienti nel sistema/organizzazione, ma possono influenzare manifestazioni di comportamenti scorretti (Errori Attivi ) o malfunzionamenti hardware. Entrambi i percorsi possono dipendere o derivare da errori latenti. Inoltre, altre cause possono ulteriormente aumentare o generare errori attivi e guasti tecnici. Queste sono: • Fattori Personali, che rappresentano l’effetto sui singoli individui in termini di limitazioni fisiche o mentali e degli atteggiamenti individuali. • Fattori Casuali, che rappresentano gli imprevisti ed i guasti casuali che si verificano in componenti meccanici ed elettronici che compongono l’impianto.
158
3 Metodi per analisi retrospettive
• Fattori Contestuali, che comprendono l’ambiente fisico e le condizioni locali, esterne ai singoli individui, le quali possono agire sia sui guasti tecnici che sugli errori attivi. ` infine possibile considerare, ad un livello pi` E u elevato all’interno dell’organizzazione, il contributo pi` u significativo di Errori Latenti, provenienti da taluni Processi Organizzativi che possono generare o pregiudicare il sistema a livello globale. Questo metodo `e particolarmente utile per indagare le cause reali di incidenti in cui siano presenti contemporaneamente errori umani e guasti, per tre ragioni principali: 1. `e possibile distinguere chiaramente tra gli effetti che certi errori latenti hanno sia sul sistema sia sulle prestazioni umane; 2. consente di identificare e distinguere le componenti nascoste (latenti) ed i fattori personali, casuali ed esterni, che sono sempre presenti ed influenzano i comportamenti attivi; 3. conduce all’identificazione di uno spettro completo di: – manifestazioni di comportamenti errati e prestazioni inadeguate del sistema, come appaiono nella stessa sequenza di eventi; – traiettorie ed elementi contributivi dell’incidente, in forma di fattori organizzativi, latenti, esterni ed interni che influenzano gli operatori in prima linea e le componenti hardware dell’impianto. Procedura di applicazione metodo ISAAC In pratica, il modo in cui ISAAC viene applicato in analisi retrospettive richiede l’esecuzione della seguente sequenza di passaggi: 1. ogni Evento `e associato ad un percorso fattori umani e/o guasti tecnici; 2. nel caso di Percorso Fattori Umani : a. `e identificato un Errore Attivo; b. l’analista deve quindi valutare se possono essere riconosciuti alcuni Fattori Personali e/o Fattori Contestuali che hanno favorito l’errore specifico, al momento della sua comparsa; c. in aggiunta a fattori personali e contestuali, devono essere ricercati i possibili Errori/Guasti Latenti che abbiano svolto un effetto specifico sugli errori attivi; d. `e quindi necessario considerare l’eventuale contributo pi` u significativo di errori latenti, effettuati a pi` u alto livello organizzativo (Pocessi Organizzativi ) che di solito sono alla base anche di altre carenze a livello di sistema. 3. Nel caso di Percorso Guasti Tecnici : a. `e identificato un Guasto Tecnico; b. poi `e necessario in primo luogo valutare i Fattori Casuali e/o Fattori di Contesto che hanno colpito i componenti dell’impianto; c. in aggiunta a tali fattori o nel caso in cui questi non possano essere individuati, uno o pi` u Errori/Guasti Latenti devono essere ricercati, come nel caso del percorso fattori umani;
3.5 Metodi per la classificazione e ricerca delle cause primarie
159
d. infine, vanno analizzate le cause a livello organizzativo, come possibili elementi contribuenti, pertinenti al guasto del sistema in esame. Al fine di consentire la rappresentazione grafica delle dipendenze tra cause, `e adottato un certo formalismo di connessione: • linea piena indica “collegamenti logici all’indietro” (“backwards logical links”) e implica che un elemento “A” `e stato generato da o favorito da un elemento “B”;
• linea tratteggiata indica “collegamento logico in avanti” (“forwards logical link”) e implica che un elemento “C” genera o favorisce un elemento “D”;
Inoltre, in uno specifico processo di ricerca di cause, `e possibile che un fallimento attivo generi il guasto di alcuni componenti (o viceversa). Questi sono tipici legami tra gli effetti che possono anche essere identificati come “connessioni in avanti”. Tassonomia di supporto e rappresentazione cause-effetti metodo ISAAC Il metodo ISAAC non `e supportato da una specifica tassonomia di dettaglio, a parte la classificazione di tipologie di errori del modello “Fallibile Machine”. Questo presenta il vantaggio che l’approccio pu` o essere applicato entro un formalismo meno severo rispetto agli approcci descritti in precedenza e permette all’analista di utilizzare la sua esperienza nel settore. D’altro canto, la mancanza di una tassonomia predefinita pu` o essere problematica quando l’analista necessiti di linee guida per l’esecuzione dello studio dell’occorrenza. Per offrire un formalismo di classificazione pi` u dettagliato in materia di fattori umani, oltre alla suddivisione degli errori umani nelle quattro tipologie di “Slips”, “Lapses”, “Mistakes” e “Violations”, definite nel modello Fallible Machine, `e possibile considerare ulteriori possibili cause specifiche di errori. Tali cause vanno ad aggiungersi ai fattori personali e/o fattori di contesto e casuali discussi in precedenza e possono essere selezionate tra una classificazione generalmente accettata, soprattutto nel dominio aeronautico, nota come la Sporca Dozzina (“The Dirty Dozen”). Nel 1993, dopo diversi eventi ed incidenti aeronautici legati soprattutto alla manutenzione, l’Autorit` a per la sicurezza dei trasporti canadese ha sviluppato un programma orientato alla riduzione degli errori in manutenzione. In stretta collaborazione con l’industria aeronautica, sono stati successivamente identificati 12 fattori umani – chiamati “Sporca Dozzina” – che possono portare ad errori di manutenzione (Dupont, 1997). Da allora, i tecnici di manutenzione e molte delle principali compagnie aeree hanno adottato la “Sporca Dozzina” per la loro formazione di routine e per riconoscere le cause di base degli errori umani.
160
3 Metodi per analisi retrospettive
In Tab. 3.6 sono riportate le dodici voci della “Sporca Dozzina”, che sono auto esplicative, con i consigli che vengono normalmente dati ai manutentori ed attori di prima linea per combattere e prevenire le cause relative. Tabella 3.6. La “Sporca Dozzina” e gli antidoti proposti per combatterla
3.5 Metodi per la classificazione e ricerca delle cause primarie
161
Infine, viene riportata in Tab. 3.7 e in Fig. 3.20 la sequenza di classificazione ed una rappresentazione grafica di come potrebbe essere rappresentato un evento che contempla errori attivi, guasti di componenti, cause ambientali e personali, cause latenti e cause organizzative correlati gli uni con gli altri.
Figura 3.19. Esempio di rappresentazione grafica di un evento analizzato mediante ISAAC
162
3 Metodi per analisi retrospettive
Tabella 3.7. Sequenza di classificazione delle cause di guasti ed errori per mezzo di ISAAC EVENTO Linea Tecnica Guasti Descrizione Tipi guasti Consequenze
Fattori Casuali Fattori esterni Altri eventi correlati Cause/Guasti Latenti Cause Latenti Organizzative
Linea Umana Errori Umani Descrizione Tipie errore Cause spec.
Fattori Personali Fattori esterni Altri eventi correlati Cause Latenti Cause Latenti Organizzative
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
Questo capitolo descrive inizialmente lo strumento integrativo delle metodologie e tecniche discusse nei precedenti capitoli denominato sistema di gestione della sicurezza o “Safety Management System” (SMS). Si evidenziano i legami tra le varie tecniche nei confronti della valutazione della sicurezza per eseguire sia analisi deterministiche sia audit e valutazioni in termini di rischio. Ci si concentra quindi sull’implementazione di tecniche retrospettive di analisi di dati e rapporti volontari e obbligatori, in caso di occorrenze e situazioni di non normalit` a, e sono presentati i metodi per valutare lo stato di sicurezza di un’organizzazione, in termini di rischio, derivante da queste analisi tipicamente retrospettive. Ci`o chiude il ciclo di presentazione del processo metodologico di applicazione del concetto di rischio per analisi di sicurezza integrate retrospettive e prospettiche, iniziato fin dal capitolo uno, e che rappresenta il filo conduttore del discorso sulla sicurezza nel trasporto aereo di questo volume. Infine, in conformit` a con le proposte contenute in diversi manuali di gestione globale della sicurezza, viene discussa e presentata una metodologia integrata per analisi di rischio prospettiche e retrospettive, che costituisce la parte tecnica del discorso normativo relativo al SMS, in quanto descrive in dettaglio quali passi e metodi vadano utilizzati, ed in quale ordine vadano eseguiti al fine di ottemperare alle richieste strutturate di un SMS. Questa metodologia si concentra principalmente sugli aspetti “fattori umani”, in quanto questi rappresentano la parte principale degli elementi costituenti una situazione di pericolo, senza trascurare tuttavia la considerazione per i fattori tecnologici classici dell’analisi di sicurezza. Non sono invece trattati gli aspetti di audit di sicurezza e gestione delle emergenze, che pure sono parti integranti di un sistema globale SMS, ma che richiedono l’uso di metodologie e tecniche che esulano dai contenuti di questo testo.
4.1 Safety Management System L’approccio strategico proposto dalle autorit` a nazionali ed internazionali incaricate di attuare uno sviluppo ordinato e sicuro dell’aviazione civile si `e spostato da un Cacciabue P. Carlo: Sicurezza del Trasporto Aereo. c Springer-Verlag Italia 2010, Milano
164
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
atteggiamento tradizionale nei confronti della sicurezza, basato essenzialmente sul rispetto di requisiti di legge, ad un approccio proattivo. Come fondamento di questo nuovo approccio contemporaneo vi `e un solido quadro legislativo, che `e in continua evoluzione, ma che identifica la parte costitutiva della sicurezza in una elaborata e completa struttura, definita come il sistema di gestione della sicurezza o “Safety Management System” (SMS). Questo approccio `e chiaramente incoraggiato dall’Organizzazione Internazionale dell’Aviazione Civile (ICAO), dalla Commissione Europea (CE) e dell’Agenzia Europea per la Sicurezza Aerea (EASA), che hanno incluso nei loro piani strategici per il miglioramento della sicurezza l’obiettivo di sostenere gli stati membri nell’attuazione di un sistema di gestione della sicurezza, in tutti i settori interessati dalle attivit` a di trasporto aereo (EC, 2003; ICAO, 2006; EASA, 2008). Un sistema di gestione della sicurezza `e composto da un insieme coordinato di processi che integrano le operazioni e le attivit` a tecniche e finanziarie con la gestione delle risorse umane, al fine di orientare l’organizzazione verso la riduzione dei rischi e la continua garanzia della sicurezza delle operazioni. Un SMS coinvolge direttamente tutti i livelli dell’organizzazione: esso deve essere sostenuto con forza dal top management a tutti i livelli e deve essere continuamente alimentato dalle figure chiave della prima linea. Ad esempio, si vedano il rapporto dell’ International Air Transport Association (IATA, 2006) ed il Rapporto del Transport Canada Civil Aviation (AARQ, 2006). In sostanza, la seguente definizione di SMS pu` o essere sviluppata: Il Safety Management System `e la forma pi` u completa ed integrata dell’approccio alla sicurezza messo in atto in un’organizzazione nei confronti della prevenzione, gestione e contenimento di occorrenze negative, eventi di pericolo, non-conformit` a e incidenti che si possono verificare nella vita e nei processi produttivi di un sistema.
4.1.1 Componenti principali di un SMS Un SMS si compone di quattro componenti principali, che rappresentano rispettivamente i due approcci operativi fondamentali che sottendono all’applicazione pratica di un SMS, e due modalit` a organizzative che sono necessarie per sostenere e promuovere il SMS nei processi implementativi. I quattro componenti di un SMS sono i seguenti: • • • •
la politica di sicurezza e gli obbiettivi istituzionali; l’analisi e la gestione del rischio; la valutazione dei pericoli e della sicurezza reale; la promozione della sicurezza in seno all’organizzazione.
Le due principali attivit` a operative di un SMS sono l’analisi e la gestione del rischio e la valutazione della sicurezza reale. L’analisi del rischio deve essere considerata come un’attivit` a associata alla progettazione fin dalle sue fasi iniziali, orientata
4.1 Safety Management System
165
alla stima dei pericoli che si manifestano nella gestione dei sistemi e dei servizi offerti dall’organizzazione. La valutazione della sicurezza reale `e da considerarsi come l’attivit`a permanente e continua che, attraverso l’osservazione ed analisi delle attivit` a reali dell’organizzazione, verifica se le barriere di sicurezza e contenimento (barriere causali e consequenziali) messe in atto dell’organizzazione restano valide e applicabili, durante la vita e l’evoluzione tecnologica del sistema, ovvero se nuove misura di sicurezza siano necessarie per mantenere i livelli di sicurezza richiesti. Pertanto, l’identificazione dei pericoli e l’analisi dei rischi possono essere considerate come attivit`a uniche e puntuali, che si svolgono “una-tantum” sia durante la progettazione del sistema o quando ci si trovi di fronte a cambiamenti significativi del sistema originale. D’altra parte, la valutazione della sicurezza reale `e un’attivit` a quotidiana che si svolge non-stop al fine di garantire che le misure di sostegno alla fornitura di servizi ed operazioni del sistema siano adeguatamente messe in atto per rendere accettabili e/o molto ridotte le condizioni di pericolo per gli esseri umani, l’ambiente e l’impianto stesso. In poche parole, lo studio del pericolo determina il quadro di riferimento iniziale nei confronti del quale si effettuata la valutazione della sicurezza reale su base giornaliera. Le due principali attivit` a operative si svolgono sotto l’egida fornita dalle politiche di sicurezza e dagli obbiettivi posti dal management dell’organizzazione e, di conseguenza, dal supporto offerto a tali obbiettivi dalla promozione della sicurezza. Queste due disposizioni organizzative sono necessarie e, senza di esse, l’identificazione dei pericoli reali e la gestione del rischio sarebbe impossibile, o gravemente lacunosa. Si pu` o pertanto sostenere che mentre l’analisi dei rischi e la valutazione reale dei pericoli sono le attivit` a costitutive del SMS, le politiche e gli obbiettivi definiti dal management e la promozione della sicurezza forniscono il quadro di riferimento, nonch´e il sostegno e la garanzia che le attivit`a operative di base di sicurezza e di gestione del rischio possono essere condotte in modo efficace ed indipendente. Discussione sugli aspetti ingegneristici di un SMS Ognuno dei quattro componenti di un SMS `e ulteriormente suddiviso in elementi, che comprendono specifici sotto-processi, compiti o strumenti che devono essere implementati o utilizzati al fine di sviluppare la gestione della sicurezza, come qualsiasi altra funzione o attivit` a organizzativa di processo (Tab. 4.1). Pi` u in dettaglio e mantenendo l’ordine logico temporale di implementazione dei quattro componenti, si ha che il componente “politica di sicurezza e obbiettivi istituzionali” `e composto da cinque elementi: • • • • •
impegno e presa di responsabilit` a da parte del management; assunzione delle responsabilit`a sulla sicurezza; nomina del personale chiave in materia di sicurezza (il “Safety Manager”); coordinamento e pianificazione dei piani di emergenza; documentazione del SMS.
166
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza Tabella 4.1. Componenti ed Elementi Costitutivi di un SMS
Componenti
Elementi Costitutivi
Politica della sicurezza e obbiettivi:
• • • • • • • • • • • • •
Analisi e gestione del rischio: Valutazione pericoli e sicurezza reale: Promozione della sicurezza:
impegno da parte del management; assunzione delle responsabilit`a sulla sicurezza; nomina del “Safety Manager”; coordinamento e pianificazione dei piani di emergenza; documentazione del SMS. l’identificazione dei pericoli; la valutazione quantitativa dei rischi; sviluppo di misure di mitigazione. misurazione, monitoraggio e controllo delle prestazioni; gestione del cambiamento; miglioramento continuo SMS e misure di sicurezza. formazione e istruzione; comunicazioni di sicurezza.
Il componente di analisi e gestione del rischio `e composto da tre elementi, che sono molto articolati e distribuiti in seno all’organizzazione: • l’identificazione dei pericoli; • la valutazione quantitativa dei rischi; • sviluppo di misure di mitigazione. Il componente di valutazione dei pericoli e sicurezza reale `e composto da tre elementi: • misurazione, monitoraggio e controllo delle prestazioni di sicurezza in relazione alle operazioni del sistema; • gestione del cambiamento; • miglioramento continuo del SMS e delle misure di sicurezza. Il componente di promozione della sicurezza si basa su due elementi, fondamentali per la preservazione dei livelli sicurezza raggiunti: • formazione e istruzione del personale a tutti i livelli e ripetizione dei corsi relativi alla sicurezza; • comunicazioni di sicurezza. Le modalit`a organizzative di un SMS riguardano soprattutto gli aspetti politici e deontologici di un’organizzazione. Pertanto la trattazione delle modalit` a di implementazione e le relative metodologie e approcci specifici esulano dalle competenze tipiche dell’ingegneria aeronautica e aerospaziale e appartengono pi` u specificatamente a competenze di carattere gestionale. Pertanto la loro trattazione esula dagli scopi del presente testo e queste non verranno ulteriormente discusse. Il lettore interessato a tali argomenti pu` o rivolgersi principalmente al testo di riferimento dell’implementazione di SMS nel campo dell’aviazione civile, cio`e il documento ICAO Doc 9859 – “Safety Managemnt Manual” (ICAO, 2006), il quale
4.1 Safety Management System
167
tuttavia `e un documento in continua evoluzione e viene costantemente aggiornato. Pertanto, alcune delle metodologie e tecniche discusse in edizioni precedenti a quella di riferimento nella versione citata in questo testo sono “superate” e modificate nelle edizioni successive. 4.1.2 Approcci operativi principali di un SMS Gli approcci operativi principali di un SMS prevedono l’applicazione di metodologie e tecniche ampiamente consolidate e gi` a applicate in molti domini tecnologici avanzati quali, ad esempio, la produzione di energia, il trattamento di prodotti chimici e gli impianti di processo. Probabilmente `e per questo motivo che il documento ICAO Doc 9859 non entra nei dettagli delle tecniche specifiche n´e delle metodologie che devono essere messe in atto per implementare effettivamente approcci operativi, cio`e l’analisi e gestione del rischio e la valutazione dei pericoli e sicurezza reale. Nel documento ICAO, infatti, sono lungamente e dettagliatamente discusse e descritte le motivazioni e i vantaggi che derivano dall’implementare sia di analisi di rischio sia di valutazioni dello stato effettivo della sicurezza di un sistema/organizzazione. Ma non si entra mai nello specifico delle tecniche da usare per valutare i livelli di sicurezza e rischio. Pertanto, si pu` o dedurre che tale documento `e di riferimento soprattutto per i manager e la parte organizzativa e gestionale di un’organizzazione, pi` u che per i tecnici e l’area operativa della stessa. Ci`o giustifica ampiamente lo sviluppo del presente testo e spiega le ragioni per le quali la formazione degli ingegneri e tecnici preposti alla sicurezza del trasporto aereo passa attraverso lo studio approfondito dei metodi dell’analisi del rischio per la sicurezza degli impianti. Ora, entrando pi` u in dettaglio nella trattazione specifica degli aspetti operativi principali di un SMS, si possono identificare quattro approcci fondamentali: 1. 2. 3. 4.
analisi prospettiche di sicurezza; analisi retrospettive di sicurezza; audit di sicurezza; gestione delle emergenze.
Analisi prospettiche e retrospettive di sicurezza Si pu` o facilmente intuire come l’analisi e gestione del rischio richieda l’implementazione di tecniche tipicamente di natura prospettica, mentre la valutazione dei pericoli e sicurezza reale richiede l’applicazione di metodi retrospettivi di analisi di occorrenze realmente accadute in precedenza. Entrambi questi metodi permettono la valutazione del rischio associato alla attivit` a di un’organizzazione e, dato che, come gi`a si `e visto, le analisi retrospettive e prospettiche sono solo “i due lati della stessa medaglia”, ci`o significa che queste devono essere trattate con tecniche del tutto integrate e correlate. In particolare, l’elemento che pi` u di ogni altro accomuna le due tipologie di analisi e permette
168
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
un’osmosi e la sinergia totale tra i risultati di una e dell’altra `e rappresentato dalla Matrice di Rischio (MdR). Attraverso la MdR si ha, infatti, una visione immediata, sintetica e globale del livello di sicurezza nel quale ci si trova, date le occorrenze pregresse (analisi retrospettive), o ci si viene a trovare, data l’implementazione di determinate misure di sicurezza pianificate per contenere certi pericoli previsti (analisi prospettiche). Per effettuare dunque un’analisi dei pericoli e la valutazione di rischio prospettica si devono mettere in atto le metodologie ed i relativi approcci specifici descritti in dettaglio nel capitolo 1 del presente testo. In particolare, nell’ultima sezione di tale capitolo, `e stata descritta una metodologia precisa che permette di valutare il rischio di determinati eventi iniziatori e possibili condizioni al contorno, dando cos`ı origine a valori precisi da inserire nella Matrice di Rischio e sapendo quindi il livello di sicurezza cui si valuta di operare quando si implementano determinate misure e barriere di sicurezza. Pertanto, il primo dei due componenti degli approcci operativi principali di un SMS `e gi`a stato trattato in dettaglio in precedenza. Il secondo approccio operativo, cio`e la valutazione del rischio effettivo derivante dalle operazioni reali dell’organizzazione, richiede l’implementazione dei metodi di analisi retrospettive descritti nel precedente capitolo. Ora, la ricchezza dei contenuti derivanti dai dati raccolti in occasione di occorrenze ed eventi di non-conformit` a, per i quali `e richiesto obbligatoriamente un rapporto all’autorit` a, e i rapporti volontari sottoposti all’attenzione di un’organizzazione, rappresentano una sorgente molto vasta e ricca di informazioni, che vanno adeguatamente trattate al fine di una valutazione dello stato di “salute”, in termini di sicurezza, ma anche di efficienza ed efficacia, delle operazioni. Le tecniche di analisi retrospettiva di occorrenze sono ormai stabilite e consolidate, cos`ı come descritto nel precedente capitolo. Tuttavia, lo sviluppo di tali tecniche in ottica di valutazione del rischio resta oggigiorno un terreno oggetto di dibattito e sviluppo di ricerca. Pertanto, non esistono metodi consolidati in tal senso. Nel prosieguo di questo capitolo verranno descritti alcuni metodi, proposti ed utilizzati in ambito italiano, per sfruttare i dati raccolti in termini di valutazione del rischio attraverso indagini retrospettive. Tali metodi permettono: • la stima del livello di sicurezza esistente nell’organizzazione in termini di MdR, per un confronto con le analisi prospettiche corrispondenti e con i valori di rischio accettabile definiti dalle autorit` a di sicurezza del trasporto aereo; • la valutazione dello stato di salute dell’organizzazione, anche in termini non probabilistici; • la considerazione di possibili azioni da intraprendere da parte del management per mantenere alto il livello di sicurezza dell’organizzazione e quindi rispondere a pieno ai doveri di implementazione del SMS.
4.2 Analisi di sicurezza retrospettiva in ottica SMS
169
Audit di sicurezza e gestione delle emergenze Oltre alle analisi prospettiche e retrospettive di occorrenze per la valutazione del livello di rischio a cui opera un’organizzazione, esistono altri due approcci essenziali per la conformit` a dei processi aziendali e delle pratiche operative in termini di sicurezza: l’audit di sicurezza e la gestione delle emergenze. L’audit di sicurezza ha come obbiettivo primario la stima della conformit` a esistente in un’organizzazione rispetto alle norme e standard di sicurezza e ai livelli attesi e valutati in sede di progetto. Questi tipi di indagine rappresentano la parte del SMS comune al Safety Manager e al Quality Manger e, per una loro corretta implementazione, `e indispensabile e necessario che queste due figure istituzionali collaborino efficacemente. Proprio a causa del fatto che i processi di audit sono tipici pi` u della valutazione “qualit` a” che della “sicurezza” di un’organizzazione, la loro implementazione richiede l’uso di metodologie e tecniche non trattate in questo testo. Pertanto, si `e fatta la scelta di non presentare n´e discutere pi` u oltre i metodi di audit aziendali di sicurezza del SMS, che resta un approccio operativo ugualmente importante, ma i cui contenuti tecnici sono sviluppati altrove. La gestione delle emergenze `e un capitolo molto specifico, a s´e stante, del sistema SMS, che si concentra sulla gestione del “dopo-incidente” pi` u che sugli aspetti peculiari della gestione della sicurezza, cio`e la prevenzione, recupero della normalit` a o il contenimento delle conseguenze. Anche in questo caso, la discussione dei metodi di gestione di un’emergenza richiede l’implementazione ed uso di metodologie e tecniche che esulano dai contenuti di questo testo, come ad esempio, la comunicazione ai media e la gestione delle persone e familiari coinvolte in un incidente, la condivisione dei compiti e responsabilit`a tra le varie figure operative e manageriali di un’organizzazione. Pertanto, anche nel caso della gestione delle emergenze, viene riconosciuta l’importanza dell’approccio operativo, che non viene per`o ulteriormente trattato in questo testo, rimandando il lettore alla letteratura specifica in materia.
4.2 Analisi di sicurezza retrospettiva in ottica SMS Un elemento chiave di un SMS `e il processo di identificazione di potenziali situazioni di pericolo e la valutazione dei rischi derivanti dalle operazioni non standard e dagli interventi di emergenza che sono occorsi nell’organizzazione, in periodi di tempo precedenti l’analisi. Si tratta essenzialmente di una attivit`a basata sull’analisi retrospettiva di segnalazioni interne di eventi di non conformit` a ed occorrenze “mandatorie”, cio`e per le quali `e obbligatorio effettuare un rapporto scritto. L’efficacia e l’efficienza di questo processo dipendono da una serie di aspetti organizzativi di natura non tecnica e, in primo luogo, dalla non-punibilit` a del processo di reporting, cio`e dal fatto che chi riporta non deve sentirsi necessariamente accusato e colpevolizzato, in caso di rapporto fatto su un evento negativo sfiorato o
170
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
recuperato in tempo. Inoltre, sono molto importanti la quantit` a e qualit` a dei dati, raccolti attraverso il processo di raccolta, ed una corretta analisi dei dati stessi. Al primo di questi punti concorrono diversi aspetti socio-tecnici insiti in un’organizzazione, quali soprattutto la corretta cultura di sicurezza, la fiducia degli attori di prima linea nel management e la qualit` a dell’informazione associata ai rapporti di non conformit` a inviati. Il secondo punto `e legato principalmente al modello utilizzato per valutazione del rischio, che deve essere appropriato per le attivit` a e gli scopi dell’organizzazione e consolidato sotto il profilo metodologico e teorico. Il presente testo si concentra sulla valutazione dei rischi che possono essere derivati dallo studio dei dati raccolti principalmente attraverso rapporti volontari e obbligatori (“Mandatory Occurrence Reporting”, MOR), sia per le operazioni di volo, che per la manutenzione e le operazioni di terra. La ricchezza e qualit`a dei contenuti di una raccolta dati sono direttamente proporzionali ai risultati che si possono ottenere attraverso le analisi di natura probabilistica e non, integrate a pi` u livelli, incrociando ed aggregando dati diversi. In particolare, le tecniche descritte qui di seguito permettono lo sviluppo di strumenti che possono essere applicati per valutare in pratica ed in “tempo reale” i rischi e lo stato di sicurezza associati ad un’organizzazione (Cacciabue, Lancia e Toti, 2008). Esistono due importanti aspetti dell’analisi di sicurezza retrospettiva, vale a dire, la mole di dati disponibili e gli obbiettivi dell’analisi: • per quanto riguarda l’analisi retrospettiva di sicurezza e valutazione del rischio, vi `e un enorme quantit` a di dati ed informazioni che possono essere raccolti e utilizzati in aggiunta a MORs e ai rapporti volontari; questi sono dati che provengono da altre fonti, ad esempio, la valutazione dei processi del lavoro, le operazioni sul campo, l’analisi dei compiti e dei cartoni di lavoro, i dati contenuti nel “Flight Data Monitoring”, (FDM), ecc; tuttavia, la revisione di tale tipo di approcci va al di l` a del campo di applicazione del presente testo e non verr` a effettuata in seguito; • il secondo aspetto fondamentale `e che la valutazione del rischio effettivo derivante dalle operazioni reali dell’organizzazione non riguarda l’area molto importante e gi` a ampiamente trattata di valutazione prospettica di sicurezza e rischio, ma `e correlata ad essa attraverso alcune misure fondamentali comuni quali, ad esempio, la Matrice di Rischio. Nel seguito di questo capitolo, i concetti e definizioni di base saranno brevemente richiamati alla memoria. Poi, una serie di strumenti per la valorizzazione dei dati provenienti da MORs saranno presentati, in particolare sul modo di valutazione dei rischi derivanti dal numero di relazioni in merito a certi eventi. Particolare attenzione sar` a dedicata alla classificazione del concetto di gravit` a e frequenza degli Eventi che consentono la valutazione del loro posizionamento nella Matrice di Rischio e quindi la loro accettabilit`a o meno.
4.2 Analisi di sicurezza retrospettiva in ottica SMS
171
4.2.1 La raccolta dati e classificazione di Occorrenze Ogni organizzazione che opera nel settore del trasporto aereo deve, in ottemperanza alle direttive europee in materia di sicurezza del trasporto aereo (EC, 2003), ed alle relative leggi e norme nazionali che le recepiscono (ENAC, 2007), applicare metodi e tecniche al fine di raccogliere dati ed informazioni relative agli eventi di non-conformit` a e occorrenze, al fine di valutare il livello di sicurezza e cercare soluzioni per mantenere e ridurre i potenziali rischi. I dati raccolti attraverso appositi moduli o formalismi ed interfacce predefinite dai vari attori coinvolti nell’occorrenza (piloti, manutentori, controllori del traffico, ecc.) devono essere inizialmente strutturati per mezzo di uno dei metodi descritti nel capitolo precedente e devono quindi essere elaborati pi` u in dettaglio, cio`e analizzati, sia a livello qualitativo che quantitativo ai fini di trarre le “giuste” lezioni in termini di sicurezza. In questo processo, l’analista deve applicare i concetti di ricerca delle cause primarie (“Root Cause Analysis”) e, come primo passo, deve strutturare l’occorrenza in Eventi attraverso la “Event Time Line”. Gli Eventi costituenti l’Occorrenza, una volta cos`ı organizzati vengono esaminati individualmente, valutandone la gravit` a e quantificandone la frequenza rispetto ad intervalli di tempo definiti. Pertanto, i concetti di Evento ed Occorrenza devono essere molto chiari all’analista cos`ı come la distinzione tra Eventi positivi ed Eventi negativi. In particolare, la distinzione tra Eventi ed Occorrenza governa la dinamica dall’evoluzione cronologica della sequenza ed `e fondamentale per la loro comprensione e classificazione. Si ricorda che l’Occorrenza `e definita come l’“incidente o inconveniente” nella sua globalit` a, mentre un Evento `e una realt` a visibile e misurabile (fatto) o un’azione umana tali da indurre il sistema ad evolvere da uno stato “A” ad uno stato “B”, dove A o B non sono condizioni di esercizio normali (Fig. 4.1). In alcuni casi, tuttavia, quando un’Occorrenza `e costituita da un solo Evento, le due definizioni si sovrappongono. La definizione logica analitica dell’occorrenza richiede un lavoro di apprendimento e studio di ci` o che `e avvenuto che, alle volte, richiede l’uso dei documenti e rapporti raccolti al di l` a di quanto riportato in sede di implementazione dei dati iniziali. Vengono effettuati quattro passaggi fondamentali: 1. 2. 3. 4.
individuazione degli Eventi; Event Time Line; Eventi iniziatori o scatenanti ed Eventi conseguenza; Eventi positivi ed Eventi negativi.
La trattazione specifica di questi quattro passaggi fondamentali per la classificazione dell’Occorrenza e degli Eventi in essa contenuti `e stato oggetto di descrizione dettagliata nel capitolo precedente. In particolare, si attira l’attenzione sul concetto innovativo della caratteristica che ogni evento porta con s´e, cio`e sul fatto che, all’interno di un’occorrenza, gli eventi identificati abbiano due connotazioni alternative, cio`e che possano essere di natura negativa rispetto all’evolversi della occorrenza, ovvero che abbiano contribuito ad interrompere la sequenza incidenta-
172
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
Figura 4.1. Correlazione tra Occorrenza ed Eventi
le o a recuperare la situazione di normalit`a e pertanto abbiano una connotazione positiva. Si avranno, in questo senso, degli Eventi negativi e degli Eventi positivi. 4.2.2 Metodi per l’analisi dei dati Questa sezione presenta alcune tecniche e strumenti analitici per lo studio della sicurezza e dell’efficienza di una organizzazione risultanti dai dati raccolti attraverso segnalazioni obbligatorie (MORs), nonch´e su base volontaria, derivanti da incidenti e infortuni, come pure da incidenti sfiorati. Si presume che gli effettivi rapporti MORs siano gi` a stati trattati ad un primo livello, vale a dire, che i dati reali risultanti dalle relazioni siano stati immessi in un database, tramite sistema automatico (“introduzione elettronica dei dati”) o con l’inserimento dei dati da moduli cartacei, opportunamente compilati dagli attori di prima linea. Gli strumenti analitici possono essere utilizzati come semplice e immediato approccio per valutare i livelli di sicurezza, basata sui concetti di rischio e di affidabilit` a, oppure permettono una analisi pi` u approfondita dello stato della sicurezza dell’organizzazione, in relazione ai valori assunti ed alle derive temporali associate ad alcuni fattori di riferimento predefiniti. Vengono ora descritti quattro tipi di analisi che possono essere integrate con il sistema di database che raccoglie i dati da MORs e rapporti volontari. La prime tre analisi sono di carattere specifico alle possibili esigenze di un’organizzazione e permettono una visone sistemica della sicurezza anche in termini deterministici oltrech´e probabilistici. La quarta tipologia di analisi riguarda la valutazione dei rischi, che `e effettuata attraverso un processo retrospettivo di analisi dati ed `e da mettere in relazione all’omologo procedimento di valutazione effettuato in maniera prospettica. Questi quattro tipi di analisi sono:
4.2 Analisi di sicurezza retrospettiva in ottica SMS
1. 2. 3. 4.
173
interrogazioni standard (“query standards”); Key Performance Indicators (KPI); similarit` a; valutazione dei rischi.
Interrogazioni standard Lo strumento delle interrogazioni standard `e costituito da una libreria di interrogazioni predefinite che sviluppano una lista di andamenti e tendenze di valori relativi ad una serie di tipologie di eventi considerate standard. Lo scopo di uno strumento quale quello proposto `e assai semplice e si basa sul fatto che l’analista di sicurezza non deve operare sulla banca dati effettuando o imponendo filtri e ricerche particolari, in quanto tutto `e prestabilito sulla base del periodo di osservazione, ad esempio un anno, e delle quantit` a che si vogliono monitorare. Queste ultime sono abbastanza comuni a tutte le tipologie di organizzazioni nel campo aeronautico, siano esse un gestore aeroportuale o un operatore aereo oppure un gestore di traffico o un’organizzazione di manutenzione. In particolare, la definizione delle interrogazioni standard pi` u comuni deriva dal lavoro di sintesi che `e stato fatto nel mondo del trasporto aereo da specifici gruppi di lavoro e proviene dal campo di dati. Per il primo aspetto ci si riferisce ad un documento prodotto da JSSI (JAA Safety Strategy Initiatives) Occurrence Data Analysis Working Group (WG-ODA), che ha iniziato la sua attivit` a subito dopo la pubblicazione della direttiva europea 2003/42/CE, con l’obbiettivo di uno studio dei parametri di sicurezza. Il suddetto gruppo di lavoro `e composto da rappresentanti dell’UE, EASA, produttori, fornitori di servizi di navigazione aerea, compagnie aeree e comunit` a di ricerca. Il gruppo di lavoro contiene anche i rappresentanti del team commerciale per la sicurezza aerea (CAST). Ad esempio, Tab. 4.2 riporta alcune delle interrogazioni standard che possono essere attivate automaticamente con una semplice interfaccia di comando, la quale permette all’analista di selezionare le statistiche e le tendenze relative a periodi di tempo scelti dall’analista stesso e Fig. 4.2 mostra un esempio di possibile grafico delle tendenze ottenute e visualizzate dall’analisi risultante sui dati. Tabella 4.2. Esempio di interrogazioni standard Lista interrogazioni standard su Eventi∗ Runway Incursions TCAS alerts ATM occurrences Bird strikes Foreign Object Damages Altitude bust Unstabilised Approach GPWS alert ∗ Eventi
tratti dalla tassonomia ADREP-2000
174
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
Figura 4.2. Esempio di istogramma per “Unstabilised Approach” per aeroporto/pista
Key Performance Indicators Il metodo degli indicatori di performance principali (“Key Performance Indicators”, KPI) si propone come ausilio al monitoraggio costante di alcune tipologie di dati contenuti nella banca dati di riferimento aziendale degli eventi MOR e volontari che il Safety Manager identifica come i fattori di performance, appunto definiti KPI. Ad ogni scadenza programmatica, ad esempio ogni anno, nel documento relativo al programma aziendale sulla sicurezza, vengono definiti gli obbiettivi da perseguire nel periodo successivo, prendendo a riferimento i dati del periodo precedente. L’indagine statistica, basata sui KPI attraverso il confronto tra i valori ottenuti di KPI nel periodo passato e le aspettative di miglioramento, permette di valutare i valori di KPI da raggiungere nel periodo futuro. Al fine di poter verificare le tendenze dei KPI in qualsiasi momento del periodo in corso, il dato `e espresso in termini di rapporto tra il numero di eventi registrati durante l’attivit` a operativa e correlati al KPI in esame e un indice di riferimento preciso. Nel caso di un operatore aereo tali indici sono due: il numero di decolli oppure movimenti e/o le ore volo. Per avere accesso, in qualsiasi momento alla situazione reale, `e indispensabile che sia in atto il costante aggiornamento, all’interno dell’organizzazione, dei dati relativi all’attivit` a operativa. In Tab. 4.3 `e rappresentata, ad esempio, una serie di possibili tipologie di KPI e relativi ratei, che potrebbero far parte degli obbiettivi di un qualsiasi programma di sicurezza di un operatore aereo.
4.2 Analisi di sicurezza retrospettiva in ottica SMS
175
Tabella 4.3. Esempio di Key Performance Indicators e obbiettivi da raggiungere
Similarit` a Questa tecnica ha lo scopo di rilevare la similarit`a tra Occorrenze diverse, dove per similarit` a si intende una appartenenza a “famiglie” di occorrenze, che sono formalmente classificate in maniera differente, ma risultano simili e comparabili per condizioni iniziali e/o al contorno comuni o equivalenti. Questo concetto non deve essere confuso con la ripetitivit`a nella quale le Occorrenze si replicano anche negli effetti e/o conseguenze. Fermo restando che la ripetitivit`a di un’Occorrenza `e estremamente rara, data la complessit`a del dominio e la necessaria eguaglianza tra Eventi che rappresentano un’Occorrenza, la similarit` a tra Occorrenze `e invece una situazione assai pi` u frequente e, per certi versi molto importante, perch´e indica come esistano in un’organizzazione tendenze a comportamenti, performances e possibili guasti, che si ripetono, ma che, essendo combinati in dinamiche diverse, danno origine a occorrenze diverse e quindi potrebbero restare “nascosti” e non rilevati dalla semplice analisi di singole Occorrenze. Quindi la rilevazione di similarit` a, nel campo dell’aviazione civile, `e estremamente importante e risponde ai seguenti requisiti: medesimi parametri di riferimento e medesime, ma non tutte, tipologie di eventi. Pertanto, questo metodo si costituisce come un sistema di allertamento, ossia intende evidenziare eventuali Eventi ripetitivi, che danno una misura di possibili situazioni di pericolo anche gravi ma latenti, ai quali il sistema sicurezza dell’organizzazione deve reagire preventivamente e rapidamente. Il metodo si applica sia per gli Eventi tecnici che per Eventi tipicamente dipendenti dai fattori umani. In pratica, lo strumento si configura come un contatore di Occorrenze simili mediante il seguente processo di dettaglio: • medesimo parametro di riferimento; il parametro di riferimento principale usato per operatori aeronautici `e tipicamente: stesso tipo di aeromobile. In riferimento alla tassonomia ADREP-2000 questa informazione `e riportata nella tabella “Aircraft make/model”; in connessione a questo codice possono essere consi-
176
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
derati tre livelli di sensitivit` a diversi e di dettaglio: peso e tipo di aeromobile e costruttore; come si intuisce facilmente questi tre livelli sono di sensibilit`a diversa e permettono una granularit` a di indagine pi` u o meno profonda a seconda del loro uso; • medesima tipologia di evento; questo parametro `e molto semplice e permette di identificare Eventi identici che compaiano in Occorrenze classificate con codici diversi. Per poter completare le specifiche di questo metodo bisogna individuare il periodo di interrogazione della banca dati. Essendo una tecnica che si prefigge lo scopo di dare un allerta, il periodo di analisi non pu` o essere molto ampio. La decisione dell’intervallo di tempo sar` a lasciata all’analista, il quale dovr` a, in caso di allarme, effettuare un’ulteriore valutazione sulle possibili conseguenze o potenziali pericoli “nascosti” che richiedono un intervento preventivo. Valutazione dei rischi L’obbiettivo dello strumento di analisi del rischio `e quello di fornire una valutazione del livello del rischio derivante dallo studio di una singola Occorrenza e dei suoi Eventi, quando questi vengano integrati in un sistema di banca dati che contiene i dati relativi ad altre Occorrenze ed Eventi pregressi. Sono fondamentali a questo fine le definizioni di frequenza e severit` a associate ad Eventi ed Occorrenze. Queste si possono derivare dalla vasta letteratura in proposito e sono state ampiamente discusse in precedenza nel capitolo 1. Dato che i maggiori sistemi europei e la stessa ICAO suggeriscono l’uso della tassonomia ADREP-2000, si rende inizialmente necessaria la formulazione di una adeguata correlazione tra: le classi di severit` a utilizzate nella tassonomia ADREP2000 (capitolo 3, Fig. 3.5), ed i livelli di severit` a della Matrice di Rischio, gi` a ampiamente discussa nel capitolo 1 (Tab. 1.5) e qui ripetuta per completezza (Fig. 4.3). Tale correlazione `e mostrata in Tab. 4.4. Tabella 4.4. Correlazione tra livelli di severit` a della MdR e classi di severit` a di Occorrenze della tassonomia ADREP-2000 Severit`a 1 - Trascurabile 2 - Minore 3 - Maggiore 4 - Pericoloso 5 - Catastrofico
∼ ∼ ∼ ∼ ∼
Classe ADREP-2000 100 - Accident 200 - Serious Incident 300 - Major Incident 400 - Significant Incident 500 - Occurrence with no safety effect
Per quanto concerne le frequenze, i livelli considerati sono cinque, come ampiamente discusso nel capitolo 1 (Tab. 1.3), e precisamente: Frequente, Ragionevolmente Probabile, Remoto, Estremamente Remoto, ed Estremamente Improbabile. I va-
4.2 Analisi di sicurezza retrospettiva in ottica SMS
177
Figura 4.3. La Matrice di Rischio
lori numerici delle frequenze associati a ciascuno di questi cinque livelli dipende dalla tipologia di operazioni e dalle attivit` a specifiche dell’organizzazione. Questo `e il motivo per cui in Tab. 1.3 vengono riportati sia valori numerici che descrittivi dei diversi livelli di frequenza. Si noti come in Fig. 4.3 la frequenza `e misurata in termini di “ore volate”. Questa `e un tipo di unit` a di misura che sembra essere ovvia, ma che, di fatto, viene sconsigliata come `e gi`a stato discusso in precedenza e come si vedr`a in dettaglio nel prosieguo di questo capitolo. Nella discussione che segue verr` a proposto un approccio specifico per la valutazione della severit` a e della frequenza associate ad Eventi in relazione alla tipologia di operazioni ed alle peculiarit` a socio-tecniche ambientali in cui si collocano gli Eventi da valutare in termini di rischio. 4.2.3 Valutazione del rischio di Evento ed Occorrenza In ottemperanza con la sua definizione, il rischio `e dato dal prodotto della severit` a o criticit` a (S) delle conseguenze per la loro frequenza (φ) di accadimento: R = S ∗ φ. Tuttavia queste due quantit` a richiedono una trattazione separata, essendo esse non necessariamente omogenee e rappresentando quantit`a diverse in natura e dimensione. ` anche molto importante ricordare che in questo capitolo si studia la rapE presentazione del rischio derivante da analisi retrospettive, cio`e il rischio derivante dallo studio dei dati, rapporti di eventi MOR e rapporti volontari, nei quali vengono riportati Eventi differenti che si sono combinati in un’Occorrenza specifica. Le tecniche di analisi retrospettiva di occorrenze sono state descritte nel precedente capitolo. Queste si combinano, per la valutazione del rischio, con le valutazioni della severit` a e frequenza dei vari componenti di un’Occorrenza, cio`e gli Eventi. Pertanto per l’identificazione del rischio si richiedono i cinque passi seguenti:
178
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
1. sviluppo della “Event Time Line” (ETL), cio`e della sequenza temporale degli Eventi, che si sono succeduti nel evoluzione dinamica dell’Occorrenza; 2. assegnazione della severit` a di ogni singolo Evento componente l’Occorrenza; 3. valutazione, per ogni Evento, della frequenza di avvenimento; 4. valutazione della severit` a dell’Occorrenza stessa 5. valutazione del rischio di ogni Evento componente l’Occorrenza. ` da notare come non venga assegnato ad un’Occorrenza un valore di frequenza E e quindi di rischio. Ci` o `e il risultato dell’assunto che la ripetitivit` a (frequenza) di un’Occorrenza, nella sua totalit` a, `e di fatto quasi impossibile, e pertanto la valutazione della frequenza e quindi del rischio di ripetersi della stessa Occorrenza sono considerati irrilevanti. D’altro canto, risulta assolutamente importante la valutazione del rischio dei singoli Eventi che sono spesso incontrati in Occorrenze diverse in quanto si sono presentati in sequenze leggermente differenti e/o in situazioni contestuali diverse. Si noti infine come la logica con cui `e stato sviluppato il concetto di rischio e la sua associazione ad Eventi piuttosto che ad Occorrenze, `e del tutto conforme e riflette la stessa filosofia di sicurezza che ha dato origine allo strumento di valutazione delle similarit` a tra occorrenze diverse. I passi dal 2 al 5 verranno ora discussi e dettagliati, mentre il passo 1 che `e specifico di ogni occorrenza, `e gi`a stato ampiamente descritto nel precedente capitolo.
Severit` a di Evento Partendo dall’assunzione che l’ETL sia stata effettuata, il secondo passo del processo di assegnazione del rischio di Evento comporta la valutazione della severit` a dei singoli eventi che compongono l’Occorrenza stessa. Il metodo che viene proposto di seguito assume, prima di tutto, che un valore di severit` a o criticit` a assoluta, Sa (α), sia stato associato ad ogni Evento α contemplato nella tassonomia selezionata per la raccolta dati. Tale valore indica un livello intrinseco di pericolosit` a di un evento, indipendentemente dalle condizioni contestuali ed ambientali nelle quali l’Evento ha luogo. Il valore Sa (α) deve essere assegnato a-priori e deve essere universalmente accettato, almeno a livello nazionale, dalle autorit` a preposte alla sicurezza, in modo da garantire un valore di riferimento comune per tutti gli operatori ed per le organizzazioni che sono chiamati a valutare il rischio delle proprie strutture e sistemi. Il concetto di severit` a assoluta esprime il grado di pericolosit`a di un evento indipendentemente dal contesto socio-tecnico nel quale questo si verifica. Si noti come i valori di severit` a assoluta possono variare nel tempo e devono essere rivisti a scadenze regolari e di conseguenza aggiornati nel sistema di valutazione del rischio. Alla severit` a assoluta viene associata la severit` a effettiva che rappresenta il valore assegnato alla severit` a di un certo Evento in relazione al particolare contesto lavorativo e sociale in cui l’Evento si verifica.
4.2 Analisi di sicurezza retrospettiva in ottica SMS
179
Avendo dunque ogni Evento della tassonomia un valore preassegnato di severit` a assoluta, la valutazione della severit` a effettiva, Se (α) di un Evento α si calcola come segue: se (α) = Sa (α) ∗
dove: Se (α): Sa (α): fo (α): fc (α):
severit` a (effettiva) severit` a assoluta fattore impatto organizzativo fattore impatto contestuale
fo (α) + fc (α) 2
(4.1)
1 ≤ Se ≤ 5; 1 ≤ Sa ≤ 5; 1 ≤ fo ≤ 1,5; 1 ≤ fc ≤ 1,5.
Il fattore di impatto organizzativo, fo (α), indica la gravit` a che l’Evento α pu` o assumere in relazione agli aspetti organizzativi. Ad esempio, il fattore di impatto organizzativo associato al “danno” derivato dal fatto che l’aeroplano non pu` o volare, sar` a leggermente diverso tra una compagnia aerea a basso costo ed una compagnia aerea tradizionale, e sar` a molto importante per un’organizzazione che si dedica alla manutenzione e meno importante per un gestore aeroportuale. Il fattore di impatto organizzativo `e stato introdotto in quanto consente di stabilire un rapporto tra la gravit` a di eventi e le aree operative che sono costantemente sotto controllo da parte dell’organizzazione. Infatti, anche un basso deficit di efficienza di questi settori si ripercuote sia in termini di produttivit` a sia in perdite economiche. Il fattore impatto contestuale, fc (α), esprime l’importanza del contesto ambientale e fisico sulla gravit`a dell’Evento. Questo fattore dipende da diversi parametri che tengono in conto delle possibili conseguenze associate ad un particolare evento dagli aspetti ambientali e meteorologici, condizioni fisiche e psicologiche. Ad esempio, il fattore impatto contestuale associato ad un certo evento che si verifica su una pista lunga e con ampie “vie di fuga” piane dopo il fine-pista avr` a un fattore di impatto contestuale minore rispetto dello stesso evento che si verifichi su una pista “corta” e in presenza del mare a fine pista. Il fattore di impatto organizzativo ed il fattore impatto contestuale sono associati a valori sempre maggiori di uno. Questa scelta `e necessaria per evitare che il livello severit` a effettiva possa essere ridotto rispetto al valore di severit` a assoluta. Infatti, non `e possibile “calcolare”, per un dato Evento, un valore di severit` a effettiva inferiore alla severit` a assoluta, che `e il valore di riferimento, assegnato dall’autorit` a di sicurezza, e quindi generalmente accettabile. Si noti anche il valore si severit` a effettiva non pu` o superare il valore 5, cui `e associato il massimo di severit`a associata ad un evento. I valori dei due fattori, vale a dire, di impatto organizzativo e contestuale, sono definiti dal Safety Manager di un’organizzazione durante l’esecuzione di analisi dei rischi e possono essere valutati solo attraverso la propria esperienza, competenza e cultura di sicurezza (Borgna, 2008).
180
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
Frequenza di Evento Il secondo passo `e la valutazione della probabilit` a o frequenza del verificarsi di Eventi indesiderati, essendo il rischio definito come la combinazione di frequenza di un evento indesiderato e la sua gravit` a. La probabilit` a, o frequenza, φ(α) che un Evento indesiderato α si verifichi `e calcolata in termini di rapporto come: φ(α) =
Na NT
(4.2)
dove: Nα NT
`e il numero totale di Eventi di tipo α che si verificano nell’intervallo di tempo preso in considerazione (in genere un anno); indica: – il numero totale di ore volate o cicli da parte della organizzazione nell’intervallo di tempo in esame, quando l’organizzazione sia una compagnia aerea o di qualsiasi altra societ` a che svolge attivit` a di volo; oppure – il numero totale degli interventi in caso di eventi che influiscono sulle operazioni di manutenzione; oppure – il numero totale di movimenti di terra, in caso di eventi che accadono all’interno del perimetro di aeroporto; per il calcolo del numero di movimenti, dato che eventi di terra non devono coinvolgere necessariamente degli aeromobili, `e necessario comprendere non solo il numero totale dei decolli e atterraggi, ma anche i movimenti dei veicoli di servizio a terra.
L’attuazione di questo processo prevede l’utilizzo di uno strumento in grado di riconoscere Eventi simili tra tutti gli Eventi memorizzati in un database. Questa operazione diventa pi` u facile se la classificazione degli Eventi si basa su una tassonomia “affidabile” che permette l’obiettivit`a e l’integrit` a dei dati. L’uso della tassonomia ADREP-2000 garantisce tale affidabilit`a, anche se `e necessario effettuare periodici aggiornamenti ed eventuali integrazioni, a livello nazionale, ove la stessa tassonomia ADREP risultasse carente. Secondo i cinque livelli di frequenza definiti nella Matrice di Rischio, il totale delle ore volate, o numero di interventi e movimenti a terra, non sono dei valori di riferimento adeguati per consentire l’associazione delle definizioni, soprattutto ai valori di frequenza “Estremamente improbabile”, che prevedono delle grandezze dell’ordine di 10−9 . Infatti, pochi operatori possono considerare un numero totale di ore annuali di volato o decolli ed atterraggi che permettono di raggiungere valori nella zona di 10−9 . In tali circostanze, la stragrande maggioranza degli operatori sarebbero raggruppati nella parte “alta” della matrice di rischio per quanto concerne la frequenza, con la conseguenza che ogni caso con severit` a di livelli 3 o 4 risulterebbe sempre tale da originare interventi, cio`e risulterebbe nella zona “gialla” (grigio chiaro in Fig. 4.3, cio`e rischio intermedio) nella matrice di rischio, ovvero sarebbe tale da causare l’impossibilit` a di continuare l’attivit` a, trovandosi nella zona “rossa” della
4.2 Analisi di sicurezza retrospettiva in ottica SMS
181
` importante matrice (grigio molto scuro in Fig. 4.3, cio`e rischio inaccettabile). E ricordare qui che anche la zona “gialla” richiede notevoli interventi per la mitigazione del rischio, tra cui, la revisione del sistema di progettazione, la modifica delle procedure operative o della struttura del personale, nonch´e la formazione aggiuntiva del personale per affrontare il pericolo. Rischio di Evento La valutazione del rischio associato ad un Evento diventa un puro esercizio di collocazione sulla MdR del valore di incrocio tra la frequenza e la severit` a di Evento, valutate attraverso le tecniche descritte poc’anzi. Tuttavia, il calcolo della severit` a richiede l’applicazione da parte dell’analista di sicurezza di criteri consolidati e accertati soprattutto per la valutazione dei fattori di impatto organizzativo e contestuale. D’altro canto la valutazione della frequenza di accadimento non presenta difficolt` a di sorta, in quanto `e semplicemente assegnata attraverso la numerosit`a di accadimento dell’Evento in esame. Tuttavia, il problema resta aperto per la definizione delle frequenze di riferimento da utilizzare nella Matrice di Rischio, come discusso nella precedente sezione. Per questo motivo, sar` a proposto nella seguente sezione un metodo pratico per la valutazione del rischio di evento che utilizza delle assegnazioni di frequenze di riferimento derivate da alcune definizioni sviluppate a livello internazionale. Valutazione della Severit` a di Occorrenza Dopo aver valutato la gravit` a ed il rischio di ogni Evento che costituisce un’Occorrenza, `e essenziale ora definire la gravit`a di quest’ultima. Questo si ottiene combinando l’analisi della sequenza di Eventi e la considerazione di Eventi positivi e negativi. Come si `e gi`a discusso in precedenza, la valutazione del rischio di un’Occorrenza in termini di analisi retrospettiva, cio`e sulla base di dati raccolti in relazione a MOR e rapporti volontari, non rappresenta una valida stima di sicurezza, in quanto la ripetitivit` a di una specifica sequenza nella sua totalit` a, cio`e la frequenza di un’Occorrenza, `e estremamente improbabile e quindi risulterebbe sempre molto rara sulla scala delle frequenze e, come tale, non darebbe una misura attendibile n´e conservativa della sicurezza. D’alto canto, la valutazione della severit` a di Occorrenza `e possibile e ci`o comporta appunto la considerazione degli Eventi negativi che l’hanno costituita e anche degli Eventi positivi che hanno contributo a limitarne le conseguenze. Come accennato in precedenza, questa impostazione `e innovativa e mira a mettere in risalto sia gli aspetti positivi sia quelli negativi di una organizzazione e la loro quantificazione in termini di gravit` a. Ovviamente, gli Eventi positivi sono contabilizzati in termini di riduzione del rischio e gravit` a, e sono associati con l’intervento delle barriere causali che hanno di fatto arrestato l’evoluzione verso ulteriori conseguenze negative. In particolare, nel capitolo 1, si sono analizzati
182
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
quattro tipi di barriere: barriere materiali, che impediscono l’esecuzione di azioni pericolose attraverso vincoli fisici (ad esempio, porte, ringhiere, recinzioni, filtri, ecc.); barriere funzionali, che richiedono che alcune funzioni predefinite e/o valori diventino attivi al fine di permettere certe azioni o esecuzioni di funzioni (ad esempio, chiusure a pressione, riconoscimenti-segnali, password, codici di sicurezza, ecc.); barriere simboliche, che sono associate a certe regole o norme convenzionali (quali indicazioni, i segnali, avvertenze, i cartoni di lavoro, procedure, ecc.) e barriere immateriali, che sono barriere di tipo intellettuale e che poggiano sugli aspetti cognitivi umani (quali leggi, norme generali, culture, ecc .). La valutazione della gravit` a associata ad un’Occorrenza che tenga conto del concetto di barriere o Eventi positivi, che ne hanno ridotto la gravit` a, pu` o essere effettuata attraverso la seguente correlazione: Se−occ = [max Se (α)] · γ(αpos )
(4.3)
dove: `e la severit` a effettiva dell’Occorrenza; `e la severit` a effettiva di ogni Evento associato all’Occorrenza e [max Se (α)] `e il massimo livello di severit`a valutato durante lo studio della ETL (“Event Time Line”); γ(αpos ) `e un fattore di riduzione della severit` a dovuta all’intervento delle barriere; γ ≤ 1 e, in assenza di barriere o Eventi positivi, γ = 1. Se−occ Se (α)
In presenza di barriere vale la correlazione: γ(αpos ) =
4
(1 − βi )
(4.4)
i=1
dove: βi
`e il fattore di riduzione per tipo di barriera (0 ≤ βi ≤ 1).
Al fine di rendere conto della presenza/assenza di barriere e di mantenere la logica complessiva della formulazione della gravit`a di un evento o un incidente (Se−occ ), l’assenza di una specifica barriera implica un valore di βi = 0, e la presenza di una barriera implica un valore di 0 < βi ≤ 1. I valori reali di βi associati ad ogni tipo di barriera devono essere definiti dalla autorit` a di sicurezza, in modo da concedere un uniforme e adeguato impiego del concetto di “riduzione della gravit` a”. I valori di βi raccomandati sono compresi tra 0,1 e 0,2 (cio`e, 0,1 ≤ βi ≤ 0,2), dato che la scala di gravit` a della Matrice di Rischio `e basata su 5 livelli discreti e che il fattore di riduzione non pu`o essere troppo elevato. Pertanto i seguenti valori di βi possono essere applicati, per i diversi tipi di barriera : barriere barriere barriere barriere
fisiche: funzionali: simboliche: immateriali:
βb-fis = 0.1; βb-fun = 0.2; βb-sim = 0.2; βb-imm = 0.1.
4.2 Analisi di sicurezza retrospettiva in ottica SMS
183
4.2.4 Approccio pratico per valutare il rischio di Evento Un approccio pratico `e proposto in questa sezione per la valutazione del rischio di Evento, il quale permette di considerare in maniera relativa la distribuzione di frequenza della matrice di rischio nella sua totalit` a, pur rimanendo correlato al totale delle ore volate, o cicli, interventi e movimenti a terra. L’approccio prevede quattro passi fondamentali: stima della severit` a effettiva dell’Evento; selezione della scala di frequenze di riferimento da adottare; stima della frequenza relativa dell’Evento in esame; e valutazione del rischio ed accettabilit` a, tramite collocazione sulla matrice di rischio. Questi quattro passi verranno ora discussi in dettaglio. Passo 1: Stima della severit` a effettiva dell’Evento In primo luogo `e indispensabile stimare la severit` a effettiva dell’Evento, Se . Ci` o richiede che sia nota la severit` a assoluta, Sa , e che vengano valutati i valori dei fattori di impatto organizzativo e contestuale, attraverso i quali `e possibile aumentare, ma non ridurre, la severit` a associata all’evento in esame. Questo processo `e sostanzialmente legato alla capacit`a dell’analista di effettuare la valutazione della severit` a effettiva e si conclude con il valore di severit`a da inserire nella tabella della MdR. Passo 2: Selezione della scala di frequenze di riferimento In primo luogo `e indispensabile selezionare una scala delle frequenze cui fare riferimento. Come discusso in precedenza, per evitare problemi di assegnazione di frequenze troppo elevate, viene proposto di utilizzare il riferimento a sistemi NAS e NAS-Wide (Tab. 1.3 del capitolo 1), sia relativamente a misure qualitative di frequenza di sistemi individuali o componenti (“Individual Item/System”), sia per la frequenza operativa ATC per struttura (“per facility”). Pertanto, le seguenti frequenze possono essere considerate: a. frequente: un evento che pu` o avvenire pi` u di una volta per settimana, cio`e φ ≥ 1/settimana; b. ragionevolmente probabile: un evento che pu` o avvenire pi` u di una volta al mese, ma meno di una volta la settimana, cio`e 1/mese ≤ φ < 1/settimana; c. remoto: un evento che pu` o avvenire pi` u di una volta l’anno, ma meno di una volta al mese, cio`e 1/anno ≤ φ < 1/mese; d. estremamente remoto: un evento che pu` o avvenire pi` u di una volta ogni 100 anni, ma meno di una volta l’anno, cio`e 1/100 anni ≤ φ < 1/anno; e. estremamente improbabile: un evento che pu` o avvenire pi` u di una volta ogni 1000 anni, ma meno di una volta ogni 100 anni, cio`e 1/1000 anni ≤ φ < 1/100 anni. Questa scelta `e comunque lasciata all’analista di sicurezza che meglio conosce l’organizzazione ed i suoi volumi e tipologie specifiche di attivit` a.
184
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
Passo 3: Stima della frequenza relativa dell’Evento In questo passo viene stimato il valore di frequenza da assegnare all’Evento in esame, in relazione alla specifica organizzazione. Per far ci` o, vengono valutati il totale delle ore volate (o decolli e atterraggi), il numero di interventi e i movimenti a terra che possono essere registrati a livello nazionale. Conoscendo la totalit`a delle organizzazioni operanti a livello nazionale nei vari settori, `e possibile valutare un valore medio del volato, o di numeri di interventi o di movimenti di terra. Partendo dal presupposto che l’organizzazione media si deve adattare ai valori di frequenza di cui sopra, il calcolo del numero di eventi di un certo tipo per una societ`a, con un certo numero di ore volate (ecc.), pu` o essere riportato al valore ` quindi possibile effettuare una valutazione di frequenza di Evento relativa medio. E al valore medio nazionale. Ci`o consente di distinguere tra gli operatori e gli aeroporti con diversi quantit` a di operazioni e di movimenti, e permette un uso migliore del posizionamento sull’asse delle frequenze, utilizzando anche tutti i 5 livelli sopra descritti. Passo 4: Collocazione nella matrice di rischio La valutazione del rischio associato ad un evento diventa quindi una semplice operazione matematica in conformit`a con la definizione di rischio. L’esempio di applicazione che segue aiuta a chiarire tale processo di valutazione del rischio di Evento.
Esempio di applicazione del calcolo del rischio di Evento Il seguente esempio, puramente ipotetico, `e dato ad ulteriore chiarimento di questo concetto e metodo di valutazione del rischio di Evento. Si tratta di valutare il rischio di un certo evento (α1 ), che sia avvenuto in due aeroporti diversi (Airp-1 e Airp-2 ), per pi` u volte nel corso di un anno. Si assumer` a che: 1. tale Evento abbia un valore di severit` a assoluta, Sa (α1 ), pari a 3 (“Maggiore”); 2. l’Evento in oggetto sia avvenuto 2 volte in Airp-1 e 5 volte in Airp-2 ; 3. i movimenti registrati nei due aeroporti nel corso dell’anno precedente siano: a. Airp-1 : 24.610 movimenti; b. Airp-2 : 201.540 movimenti. Per fare il calcolo, in accordo all’approccio proposto, sono indispensabili i dati su scala nazionale dei sistemi aeroportuali. Tali dati sono normalmente ottenibili presso le autorit` a oppure le associazioni nazionali. Viene pertanto fatta l’ulteriore ipotesi di lavoro che: 4. l’importo totale dei movimenti a terra, a livello nazionale, nel corso dell’ultimo anno, sia stato di 1.277.680 e che il numero di aeroporti della nazione sia 37. L’esempio riporta l’approccio al calcolo del rischio di tale Evento α1 per le due strutture aeroportuali. Seguendo i passi descritti in precedenza si ha:
4.2 Analisi di sicurezza retrospettiva in ottica SMS
185
Passo 1: Stima della severit` a effettiva dell’Evento α1 Nel caso studio in esame, per semplicit`a, viene fatta l’ipostesi che i fattori di impatto organizzativo e contestuale, fo (α1 ) e fc (α1 ), siano fissati al valore 1. Dunque, entrambi i Safety Managers delle strutture aeroportuali hanno scelto di non modificare il valore della severit` a assoluta assegnata e prefissata. Pertanto la severit` a effettiva dell’Evento, Se (α1 ) `e identica alla severit` a assoluta ed `e stabilita al valore 3, sia per Airp-1 che per Airp-2. Passo 2: Assegnazione della scala di frequenze di riferimento La scala delle frequenze di riferimento selezionate `e quella proposta dal metodo, cio`e, la scala assegnata dai sistemi NAS e NAS-Wide (Tab. 1.3). Passo 3: Stima della frequenza relativa dell’Evento α1 Il valore medio dei movimenti a terra, a livello nazionale, `e calcolato sulla base dei dati relativi al traffico nazionale: 1.277.680/37 = 34.532. Prendendo ora in considerazione le due strutture aeroportuali si nota come Airp-1 abbia 24.610 movimenti, cio`e meno del traffico dell’aeroporto medio nazionale, e Airp-2, invece, con 201.540 movimenti, presenti un traffico molto pi` u grande dell’aeroporto medio nazionale. Pertanto `e possibile calcolare i due fattori di ponderazione come segue: a. WAirp-1 = 24.610/34.532 = 0,71, in conformit` a con il fatto che l’aeroporto `e al di sotto della media del traffico nazionale per aeroporto; b. WAirp-1 = 201.540/34.532 = 5,84, che dimostra come questo aeroporto abbia un traffico ben superiore alla media nazionale. La valutazione delle rispettive posizioni sulla matrice del rischio risulta quindi essere calcolata come segue: a. per Airp-1 : φAirp-1 (α1 ) = [2∗1/WAirp-1] volte/anno = 2, 8 volte/anno = 0,23 volte/mese ⇒ 1/anno ≤ φAirp-1 (α1 ) < 1/mese; ci`o significa che l’evento presenta una frequenza “remoto”; b. per Airp-2 : φAirp-2 = [5 ∗ 1/WAirp-2] + volte/anno = 0,85 volte/anno ⇒ 1/100 anni ≤ φAirp-2 (α1 ) < 1/anno; ci`o significa che l’evento presenta una frequenza “estremamente remoto”. Passo 4: Collocazione nella matrice di rischio L’obbiettivo `e quello di valutare il rischio associato all’Evento specifico α1 , classificato come “major” dal punto di vista la severit` a, che, nel corso dell’anno precedente, `e avvenuto 2 volte nel “piccolo” aeroporto e 5 volte nell’aeroporto “grande”. Pertanto, il valore di rischio dell’ Evento α1 `e semplicemente valutato combinando i valori severit` a e frequenza sulla MdR, mediante la formula: R(α1 ) = φ(α1 ) · Se (α1 ).
(4.5)
186
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
Il rischio dell’Evento α1 per Airp-1 ed Airp-2 risulta quindi calcolato associando al valore di severit` a effettiva, cio`e 3, le frequenze relative dell’Evento α1 per i due aeroporti, cos`ı come calcolato durante il Passo 3 (Fig. 4.4). Pertanto, in riferimento alla matrice di rischio, il numero di eventi verificatisi in Airp-1 richiede un intervento di revisione e la valutazione di mezzi per riportare il rischio dalla zona “gialla” della matrice alla zona “verde”. Mentre in Airp-2 non `e necessario intervenire, anche se il responsabile della sicurezza deve essere informato che la frequenza di Evento si sta avvicinando al valore limite che richiede un intervento.
Figura 4.4. Rischio di Evento calcolato
4.3 Metodologia per analisi di sicurezza integrate di sistemi Per la definizione di una procedura di applicazione dei metodi e modelli discussi in precedenza sono necessarie alcune considerazioni essenziali nel processo di sviluppo ed integrazione sia di studi prospettici che retrospettivi. Queste verranno descritte in connessione alla discussione effettuata in precedenza che si `e focalizzata sulla conclusione che, in generale, non vi `e una differenza sostanziale tra questi due tipi di approcci, se non la loro finalit`a intrinseca, mentre metodi, modelli e teorie devono essere condivisi per poter essere certi di mantenere coerenza e congruit`a di risultati. La Fig. 1.3 di capitolo 1 mostra la rappresentazione grafica di quanto sostenuto in tale discussione. Questa figura `e qui ripetuta per completezza (Fig. 4.5).
4.3 Metodologia per analisi di sicurezza integrate di sistemi
187
Figura 4.5. Analisi Prospettiche ed Analisi Retrospettive
Anzitutto, si nota come la valutazione dell’ambiente di lavoro (studio etnografico) sia una condizione necessaria e preliminare per entrambi i tipi di analisi, e come una importante sorgente di dati per le analisi prospettiche, anche se non la sola, sia costituita proprio dallo studio retrospettivo di eventi incidentali o pericolosi verificatisi nella realt` a. L’analisi preliminare dell’ambiente di lavoro `e molto im` pertanto indispensabile portante ed ha un’influenza cruciale sui risultati finali. E che uno sforzo adeguato alla rilevanza di tale attivit` a sia messo in atto e che le indagini sia “di campo”, sia teoriche relative a procedure e progetti esistenti siano molto accurate (Baranzini, 2009). A volte questo passo metodologico viene trascurato, per esigenze di tempo o per superficialit` a, con un conseguente assai grave sui risultati finali. A livello di selezione di modelli, oltre alla scelta dei modelli e tassonomie, `e importante definire le correlazioni che esistono tra modello di comportamento umano e modello della macchina, che comprende anche il contesto ambientale, soprattutto per calcoli predittivi. Infatti, nel caso di valutazioni affidabilistiche, si richiede che i comportamenti stocastici dei componenti del sistema siano adeguatamente rappresentati e che le dipendenze degli uni dagli altri e la dinamica dei tipi e modi di guasto/errore siano considerati. Nel caso invece di valutazioni “deterministiche” di sicurezza, peraltro, `e necessario stabilire le relazioni logico-temporali, che collegano i due modelli e gestiscono la sequenza delle interazioni. In particolare, per quanto concerne le analisi retrospettive valgono le seguenti considerazioni:
188
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
• lo studio di eventi realmente accaduti richiede che si passi ad una rappresentazione delle sequenze incidentali su una scala temporale tale da permettere la comprensione della sequenza e della correlazione che esiste tra gli eventi; • contestualmente a tale strutturazione, bisogna poi identificare i comportamenti umani che non sono considerati conformi alle aspettative o previsioni di comportamento adeguato alle circostanze; questo comprende anche i comportamenti ovviamente dipendenti da altri fattori causali ma comunque considerati erronei nel contesto dell’evento specifico; • in questo modo si pu` o passare all’applicazione dei modelli e tassonomie per effettuare la ricerca delle cause e delle ragioni che hanno prodotto i comportamenti osservati; questi danno origine ai dati che sono cos`ı utili per effettuare calcoli predittivi e possono essere utilizzati per sviluppare delle misure di prevenzione e sicurezza nei confronti di situazioni incidentali simili. Nel caso di analisi prospettiche: • vengono definiti i dati, parametri e quantit` a specifiche necessari per le valutazioni quantitative tipiche di questo tipo di indagini; tali quantit` a sono ottenute da studi di eventi verificatisi in passato in impianti simili (studi retrospettivi), in aggiunta ad altre fonti di informazioni quali le indagini sul posto di lavoro, o le ricerche in banche dati esistenti, ovvero le opinioni di esperti nel dominio specifico; • grazie a questi dati e parametri si possono effettuare le valutazioni quantitative delle conseguenze e dei rischi risultanti dalle interazioni uomo-macchina, in presenza di malfunzionamenti ed errori. Tali calcoli vengono poi integrati in valutazioni di sicurezza o in metodi di progetto dei sistemi di sicurezza, di procedure ed interfacce per la gestione di sistemi tecnologici complessi. In conclusione di questa discussione, risulta chiaro come l’uso di modelli teorici e simulazioni quantitative dipenda dal tipo di applicazione che si intende effettuare. In ogni caso, il principio fondamentale che lega questi due tipi di analisi consiste nel fatto che lo stesso paradigma o modello teorico di riferimento deve essere utilizzato sia per studi retrospettivi che per analisi prospettiche, in maniera tale da garantire la congruenza di dati ed informazioni raccolte da studi di eventi accaduti in precedenza e da analisi di ambienti di lavoro con dati e parametri da utilizzare per studi predittivi di possibili situazioni critiche per la sicurezza.
4.3.1 La metodologia HERMES La necessit`a di associare queste considerazioni ad una metodologia, in grado di contenere i concetti qui discussi e al tempo stesso di offrire all’analista di sicurezza un procedimento di passi integrati per arrivare agli obbiettivi della propria analisi, ha dato origine ad una proposta di metodologia che `e rappresentata graficamente in Fig. 4.6. Dato che i sistemi moderni sono centrati sull’interazione uomo-macchina, la metodologia si focalizza sugli aspetti di gestione del rischio di errori umani in
4.3 Metodologia per analisi di sicurezza integrate di sistemi
189
Figura 4.6. Metodologia HERMES per analisi di sicurezza di Sistemi Uomo-Macchina
sistemi ingegneristici e prende il nome HERMES (“Human Error Risk Management for Engineering Systems”) (Cacciabue, 2004). ` stato costruito un albero logico e sequenziale dei passi da compiere integrando E i concetti qui descritti e la loro implementazione in un ordine logico temporale. Sar` a quindi compito dell’analista distinguere ed implementare solo i passi necessari per portare a termine l’analisi, caso per caso ed in maniera sostanziale e consolidata. Il primo di tali passi metodologici mantiene la relazione tra modelli e tassonomie e metodi prospettici e retrospettivi e riconosce la necessit`a di effettuare studi etnografici preliminari, per familiarizzarsi con l’ambiente di lavoro ed i suoi effetti sul Sistema Uomo-Macchina. Si rileva quindi l’importanza di esaminare dati ed informazioni riguardanti eventi passati, attraverso le analisi retrospettive, per costruire un bagaglio di conoscenze fondamentali su cui basare la definizione delle condizioni al contorno ed iniziali di studi prospettici. Lo sviluppo di investigazioni su incidenti termina l’analisi retrospettiva, mentre l’uso dei dati e delle esperienze pregresse costituiscono la base di partenza
190
4 Il Safety Management System e metodologia integrata per l’analisi di sicurezza
per gli studi prospettici legati al processo di progettazione ed analisi di sicurezza preventiva dei sistemi uomo-macchina. Si pu` o infine notare come uno dei risultati importanti dell’implementazione della metodologia HERMES sia la definizione dell’addestramento non-tecnico, intesa come la generazione dei corsi di formazione sugli aspetti di fattori umani associati al lavoro. Questo tipo di processo `e uno dei capisaldi della metodologia HERMES, ma non `e stato trattato ed approfondito nel corso di questo volume in quanto richiede l’implementazione di tecniche e metodi che non sono stati analizzati in questo testo, pur essendo uno degli obbiettivi della sicurezza. Ci`o mostra come il problema della sicurezza di un sistema tecnologico moderno, dove la presenza dell’uomo rimane primaria e centrale al progetto di gestione e controllo di impianto, non sia completamente risolta attraverso le analisi di rischio per quanto raffinate e complesse, ma richieda bens`ı la valutazione di fattori articolati ed integrati a pi` u livelli di profondit` a e da punti di vista differenti. Pertanto, `e assolutamente importante che sia ben compreso che la sicurezza di un Sistema Uomo-Macchina non `e solo retaggio dell’ingegneria dei sistemi e richiede la collaborazione di pi` u competenze, conoscenze e tecniche diverse, quali ad esempio la psicologia e le scienze umane. ` solo attraverso la comprensione e la convinzione dell’importanza della necesE sita di generare sinergia tra queste competenze diverse che l’ingegnere pu`o mettersi a capo di un processo integrativo, sfruttando al meglio le proprie competenze e conoscenze tecniche e la visione di insieme che gli derivano delle conoscenze dei metodi quantitativi discussi in questo testo, e generare cos`ı applicazioni efficaci ed effettive per la sicurezza dei sistemi.
Appendice 1 Applicazione del metodo THERP ad un caso reale: la procedura di avvicinamento all’aeroporto MI-Malpensa
Il caso scelto per effettuare lo studio di affidabilit` a umana consiste nell’esame della procedura di avvicinamento all’aeroporto di Mi-Malpensa per un velivolo Boeing 747-200. Vengono definite una serie di condizioni di successo della procedura di avvicinamento sull’aeroporto di Milano Malpensa e delle condizioni iniziali in cui si trova l’aeromobile. Vengono altres`ı definite le procedure da seguire in modo tale da considerare la procedura di avvicinamento eseguita con successo al momento del passaggio sull’outer marker di Novara. Viene di seguito applicata la tecnica THERP per l’individuazione delle probabilit` a di successo e fallimento delle procedure da utilizzare in uno studio di affidabilit` a globale del sistema costituito dall’aeromobile e dalle operazioni ad esso collegate.
A1.1 Il caso studio Il caso studio di affidabilit` a umana consiste nella valutazione della procedura di avvicinamento all’aeroporto di Mi-Malpensa per un velivolo Boeing 747-200. Per cominciare, oltre alle caratteristiche aerodinamiche dell’aeroplano, `e necessario definire i passi della procedura che deve essere applicata dal pilota ideale, ovvero immune dal commettere errori, nella fase di avvicinamento. A tal fine, si `e preso in considerazione un modello di simulazione del comportamento del velivolo e del pilota (Mancini, 1991) per l’avvicinamento sull’aeroporto di Milano Malpensa. Con riferimento alla carta aeronautica corrispondente a tale situazione (Alitalia, 1991a), `e possibile ricavare le seguenti informazioni a riguardo dell’esecuzione di un avvicinamento perfetto: • la pista d’atterraggio si trova a 691 ft al di sopra del livello del mare; • il glide path `e inclinato di 3◦ sull’orizzonte; • il glide path viene intercettato secondo una traiettoria orizzontale eseguita alla quota, riferita al livello del mare, di 4000 ft; Cacciabue P. Carlo: Sicurezza del Trasporto Aereo. c Springer-Verlag Italia 2010, Milano
192
Appendice 1 Applicazione del metodo THERP
• al sorvolo del VOR di Novara, l’aeroplano dista 11.7 NM dalla pista e si trova alla quota di 4000 ft QNH (3309 ft QFE); • al sorvolo dell’Outer Marker del sistema di atterraggio strumentale, l’aeroplano dista 4.3 NM dalla pista e si trova alla quota di 2110 ft QNH (1419 ft QFE); • al sorvolo del Middle Marker del sistema di atterraggio strumentale, l’aeroplano dista 0.5 NM dalla pista e si trova alla quota di 920 ft QNH (229 ft QFE). A1.1.1 La procedura ideale In base alle informazioni ottenute dalla Compagnia Alitalia ed a quelle ricavate dalla carta aeronautica e dalle Norme Operative di Volo dell’Alitalia (Alitalia, 1991b), `e possibile definire una procedura ideale in base alla quale viene analizzato il comportamento procedurale del pilota. Analizzando la procedura della fase dell’avvicinamento, si pu` o notare che questa `e scomponibile in tre parti. La prima parte si estende dalla discesa dalla quota di volo iniziale fino alla verifica dello stato in cui si trova l’aeroplano quando sorvola il VOR di Novara. Nel caso in cui questo stato soddisfi certe specifiche, pu`o iniziare la seconda parte che termina quando l’indicazione del radaraltimetro `e inferiore ai 2000 ft. Anche in questa situazione `e necessario eseguire una verifica dello stato dell’aereo. Se anche questa verifica risulta positiva, `e allora possibile continuare l’avvicinamento. Ai fini della simulazione, se, fino al sorvolo del middle marker dell’ILS, non si sono presentate condizioni che avrebbero causato l’interruzione dell’avvicinamento, quale, ad esempio, un eccessivo scostamento dal glide path, si pu` o concludere che l’intera fase dell’avvicinamento `e stata portata a termine con successo. Nella Tab. A1.1 sono quindi elencati i segni, contemplati nella procedura ideale, e le azioni, ad essi correlate, che devono essere eseguite nelle suddette tre fasi dell’avvicinamento, o dal membro dell’equipaggio che pilota effettivamente l’aeroplano (“Pilot Flying”, PF ), oppure da un altro membro dell’equipaggio (“Pilot Not-Flying”, PNF ). Questa `e la procedura che viene presa in considerazione per lo studio del comportamento procedurale del pilota. A1.1.2 Condizioni di ATI ed assenza di raffica In questo esempio vengono messi a confronto i risultati ottenuti dalla simulazione dell’evoluzione di due situazioni aventi condizioni iniziali diverse. In particolare sono stati cambiati sia il peso totale dell’aeroplano che la velocit`a inizialmente indicata dall’anemometro, mentre sono rimaste uguali, in entrambe le situazioni, le posizioni iniziali ed i momenti e prodotti d’inerzia. Infine, si `e anche imposto che le condizioni dell’aria al livello del mare coincidano con quelle dell’aria tipo internazionale e che non vi sia vento. I dati iniziali relativi alle due situazioni sono riassunti nella Tab. A1.2.
A1.1 Il caso studio Tabella A1.1. La procedura ideale di avvicinamento su MI-Malpensa
continua . . .
193
194
Appendice 1 Applicazione del metodo THERP continua . . .
continua . . .
A1.1 Il caso studio
195
continua . . .
Tabella A1.2. Condizioni iniziali
Come si pu`o vedere dai risultati ottenuti dalla simulazione e riportati nella Fig. A1.1 e nella Fig. A1.2, la corretta applicazione della procedura ideale della Tab. A1.1 ha fatto s`ı che, in entrambi i casi, l’aeroplano giungesse con successo fino al medium marker del sistema di atterraggio strumentale. Quello che per` o `e interessante notare `e che l’ordine con cui vengono eseguite le varie azioni associate al comportamento procedurale `e diverso da un caso all’altro. Si consideri ad esempio l’azione relativa all’estensione degli ipersostentatori alla posizione 1. Mentre nel primo caso il pilota compie questa azione dopo aver calibrato l’altimetro sulla QNH e dopo aver iniziato la fase del livellamento del volo, nel secondo la medesima azione viene eseguita immediatamente, ancor prima che l’aeroplano abbia attra-
196
Appendice 1 Applicazione del metodo THERP
Figura A1.1. Risultati relativi al caso studio con condizioni iniziali di riferimento (Mancini, 1991)
A1.1 Il caso studio
197
Figura A1.2. Risultati relativi al caso studio con condizioni iniziali modificate (Mancini, 1991)
versato il livello di transizione dei 7000 ft, livello al quale il pilota deve calibrare l’altimetro. La causa di questo cambiamento dell’ordine d’esecuzione delle azioni del comportamento procedurale non pu` o che essere ricercata nella variazione delle condizioni iniziali che caratterizzano le due simulazioni. In effetti `e bene osservare come l’esecuzione di queste azioni `e stata associata a dei segni dipendenti da grandez-
198
Appendice 1 Applicazione del metodo THERP
ze fisiche diverse: la calibrazione dell’altimetro sulla QNH `e funzione dalla quota mentre l’estensione degli ipersostentatori dipende unicamente dall’indicazione fornita dall’anemometro, cio`e dalla velocit` a dell’aeroplano. Le due azioni risultano cos`ı fisicamente indipendenti. Inoltre, l’andamento della quota e della velocit` a sono legati alla simulazione della dinamica del volo del velivolo e, quindi, anche alle ` pertanto evidente che, al variare di queste, condizioni iniziali della simulazione. E le condizioni alle quali corrisponde l’esecuzione di azioni proceduralmente indipendenti si presenteranno in istanti di tempo diversi, che a volte potranno anche essere invertiti. Si pu` o quindi concludere che: • L’ordine con cui sono eseguite azioni fisicamente indipendenti `e strettamente legato all’evoluzione della dinamica del volo dell’aeroplano ed alle condizioni iniziali della simulazione.
A1.2 Individuazione delle condizioni di successo della procedura Il simulatore permette di seguire passo dopo passo l’attivit` a di tipo procedurale svolta da un pilota ideale, cio`e immune dal commettere errori, nella fase dell’avvicinamento. Analizzando i risultati ottenuti dai due esempi del caso in esame, si nota che possono individuarsi 15 diverse azioni che devono essere eseguite dal pilota nell’intervallo di tempo definito dall’inizio della discesa e dal sorvolo del medium marker del sistema di atterraggio strumentale. Si ipotizzi ora che l’unico tipo di errore che il pilota possa eventualmente commettere sia un errore di omissione, cio`e la totale non esecuzione dell’azione o di un compito che dovrebbe compiere in un dato istante. Questo, nella schematizzazione degli alberi degli eventi per l’analisi dell’affidabilit`a umana (HRA-ETs) descritta assieme alla tecnica THERP, equivale all’introduzione di un unico nodo binario per ogni singola azione della procedura. In queste condizioni, per ogni azione di tipo procedurale possono svilupparsi solo due cammini: uno `e associato alla corretta esecuzione dell’azione, l’altro alla sua omissione. Gi` a in tali circostanze, l’applicazione dell’analisi THERP all’intera fase dell’avvicinamento genererebbe un HRA-ET composto da 215 (32768) possibili sequenze. Tale numero di sequenze, di per s`e gi`a proibitivo dal punto di vista dell’analisi dei risultati, aumenterebbe ulteriormente qualora si considerassero anche gli errori che il pilota potrebbe commettere durante l’attivit`a che caratterizza il comportamento istintivo. Risulta allora evidente che, per poter effettuare l’analisi THERP, `e necessario limitare il numero delle possibili sequenze, ovvero il numero dei compiti che devono essere considerati tra tutti quelli compiuti dal pilota nella fase dell’avvicinamento. Un metodo che consente di ridurre il numero complessivo delle azioni che devono essere incluse nell’analisi dell’affidabilit` a del comportamento del pilota, consiste nell’individuare, nella procedura stessa, degli obbiettivi intermedi il cui mancato raggiungimento comporterebbe comunque il fallimento della missione. Analizzando
A1.2 Individuazione delle condizioni di successo della procedura
199
a tal fine la procedura ideale che deve essere seguita dal pilota `e possibile identificare 2 successivi obbiettivi intermedi: il primo in corrispondenza del sorvolo del VOR di Novara, mentre il secondo `e associato all’attraversamento dell’indicazione di 2000 ft del radaraltimetro. In entrambe le situazioni `e infatti richiesto che, per il proseguimento dell’avvicinamento, vengano verificati alcuni parametri quali, ad esempio, la velocit`a di volo o la posizione degli ipersostentatori. Nel caso in cui almeno uno di tali controlli risulti negativo, il pilota sar` a costretto ad interrompere l’avvicinamento e riprendere quota per ritentare successivamente l’atterraggio. Inoltre, se si considera la terza parte della procedura ideale, che comincia dopo aver raggiunto con successo il secondo obbiettivo intermedio, si pu` o notare che tale fase non prevede l’esecuzione di azioni procedurali la cui omissione possa compromettere il corretto raggiungimento del medium marker del sistema d’atterraggio strumentale. Pertanto, `e sufficiente aver conseguito con successo il secondo obbiettivo per considerare positivamente conclusa la fase dell’avvicinamento. Risulta quindi evidente che anche la probabilit` a di successo dell’intera fase dell’avvicinamento sar`a data dal prodotto tra la probabilit` a di successo associata al raggiungimento del primo obbiettivo intermedio, e quella associata al conseguimento del secondo obbiettivo intermedio. Poich´e l’obbiettivo del presente caso studio `e di mostrare la procedura di applicazione della tecnica THERP, ci si limiter` a alla prima parte dell’avvicinamento, parte che si conclude con il raggiungimento del primo obbiettivo intermedio e cio`e con il sorvolo del VOR di Novara. Le condizioni che devono essere soddisfatte per poter continuare la fase dell’avvicinamento, sarebbe a dire le condizioni di successo nei riguardi della procedura relativa alla prima parte dell’avvicinamento, sono identificate dalle verifiche, previste nella procedura stessa, che l’equipaggio deve effettuare al sorvolo del VOR di Novara. Quindi, occorre controllare che gli ipersostentatori siano estratti fino alla posizione 10 e che le indicazioni della velocit` a e della quota siano entro i limiti previsti. A tale proposito, `e bene osservare come il vincolo sulla quota indicata dall’altimetro includa implicitamente la necessit`a che l’altimetro sia correttamente calibrato sulla QNH. Infatti, come mostrato nella Fig. A1.3, l’errata calibrazione dell’altimetro rappresenta una condizione di errore sia dal punto di vista di una perfetta esecuzione della procedura1 , che, qualora non vi siano condizioni di ATI, per l’eventuale possibilit`a di sorvolare il VOR di Novara ad una quota che non risulta compresa entro i limiti previsti. Quindi, sulla base di tali considerazioni, il successo `e individuato dal soddisfacimento delle condizioni ricapitolate nella Tab. A1.3. Esaminando queste condizioni, necessarie per il raggiungimento del successo, sorge immediatamente un problema: la tecnica THERP, cos`ı come tutte le altre tecniche classiche di analisi dell’affidabilit` a umana (HRA) `e caratterizzata da un’analisi quasi statica del problema. In tal senso, queste tecniche non tengono conto della dinamica effettiva del sistema in quanto sia le conseguenze degli errori umani 1
L’altimetro non `e stato calibrato n´e all’attraversamento del livello di transizione, n´e durante la lettura dell’approach check list.
200
Appendice 1 Applicazione del metodo THERP
Figura A1.3. Possibili conseguenze dell’omissione della calibrazione dell’altimetro sulla QNH
sull’evoluzione del sistema, che l’influenza di quest’ultimo sul comportamento degli operatori stessi, sono introdotti nell’HRA in maniera rigida all’inizio dell’analisi ed indipendentemente dall’evoluzione di questa. Pertanto, non essendovi un vero e proprio aspetto dinamico, non `e neppure possibile determinare a priori quando condizioni, come ad esempio la 2 e la 3, saranno verificate: il loro raggiungimento `e funzione sia delle condizioni iniziali, che dell’evoluzione del sistema. Per ovviare a tale inconveniente `e quindi necessario individuare, nella procedura stessa, delle azioni o dei compiti, la cui omissione possa essere riferita a condizioni di successo associate a variabili dinamiche del sistema (quota, velocit` a). Per quanto riguarda le condizioni 2 e 3 della Tab. A1.3, `e ragionevole supporre che, l’omissione dell’azione che determina l’inizio della procedura di livellamento del
Tabella A1.3. Condizioni di Successo della Procedura dell’Avvicinamento (Prima Parte)
A1.2 Individuazione delle condizioni di successo della procedura
201
Figura A1.4. Possibile effetto della mancata attivazione della procedura di livellamento del volo
volo dell’aeroplano, comporti il mancato sorvolo del VOR di Novara nel rispetto dei vincoli che sono stati imposti. Infatti, il pilota sta inizialmente applicando la procedura di controllo della discesa. Qualora questa attivit` a non venga sostituita dalla procedura di livellamento del volo, l’aeroplano continuer` a la traiettoria discendente, fallendo quindi il conseguimento del primo obbiettivo intermedio in quanto non sorvoler` a sicuramente il VOR di Novara nel rispetto dei limiti imposti per la quota, come schematizzato in Fig. A1.4. Pertanto, nell’analisi THERP relativa alla prima parte della procedura dell’avvicinamento, le condizioni che devono essere verificate per il conseguimento del successo si riconducono a quelle riportate nella Tab. A1.4. Tabella A1.4. Condizioni pratiche di successo della procedura di avvicinamento (prima parte)
Considerando invece i vari passi della procedura in esame, `e importante notare come l’esecuzione del primo compito, riportato nella Tab. A1.1 e che rappresenta l’attivazione della procedura istintiva che comporta l’effettivo inizio della discesa, risulta essere fondamentale per il conseguimento delle condizioni di successo associate al primo obbiettivo intermedio. Le condizioni iniziali, infatti, prevedono che il velivolo si trovi in volo orizzontale rettilineo uniforme. Di conseguenza, in
202
Appendice 1 Applicazione del metodo THERP
maniera analoga al caso del livellamento del volo, l’omissione dell’attivazione della procedura istintiva con la quale viene effettuato l’inizio della discesa comporta l’impossibilit` a di giungere sul VOR di Novara ad una quota ed una velocit` a che rispettino i limiti imposti dalla procedura. Pertanto, ai fini dell’analisi THERP che si intende fare, si impone che il primo passo della procedura, che quindi rappresenta l’evento iniziatore, sia stato sempre correttamente eseguito. La procedura `e quindi ricondotta al compimento dei seguenti 6 compiti o passi (Tab. A1.5): Tabella A1.5. Compiti essenziali del pilota previsti dall’analisi THERP
A1.3 Costruzione degli HRA-ET Come `e gi`a stato osservato in precedenza, `e importante notare l’ordine con cui vengono effettivamente svolte le azioni, associate al comportamento procedurale del pilota. Infatti, la procedura `e fortemente influenzata sia dalle condizioni in cui si trova l’aeroplano all’inizio della simulazione, sia dalla stessa dinamica dell’aeroplano. In particolare: • al cambiare delle condizioni iniziali varia l’ordine con cui sono eseguite le azioni previste nella procedura. Tuttavia, la determinazione di questo ordine risulta possibile grazie al modello di simulazione velivolo-pilota. Infatti, imposte le condizioni iniziali, la simulazione consentir`a di seguire passo dopo passo l’attivit` a, corretta, di tipo procedurale che viene svolta nella prima fase dell’avvicinamento e, pertanto, di definire l’ordine con cui le suddette azioni verrebbero compiute nel caso in cui non venissero commessi errori (omissioni).
A1.3 Costruzione degli HRA-ET
203
` comunque fondamentale ricordare il carattere statico dell’analisi THERP, E che si traduce in una valutazione, a priori, sia delle probabilit` a nominali dell’errore umano (NHEPs), sia dei livelli di dipendenza (nullo, basso, medio, alto, completo) tra i compiti che compongono la procedura ed i fattori che influiscono sulle prestazioni degli operatori (PSFs). Di conseguenza, risultano costanti anche i valori delle probabilit` a di successo e d’errore associate ai rami degli alberi degli eventi dell’analisi di affidabilit` a umana (HRA-ETs). Pertanto: La probabilit` a globale di successo (fallimento) dell’analisi THERP di una procedura risulter` a, in generale, indipendente dall’ordine con cui vengono eseguiti i compiti che caratterizzano la procedura stessa. Infatti, in termini probabilistici il successo (fallimento) di una sequenza `e rappresentato semplicemente dal prodotto dei singoli successi (fallimenti), che prescindono dall’ordine di esecuzione, come risulta dalla relazione di dipendenza, gi` a vista in precedenza: P (A, B) = P (A/B) · P (B) = P (A/B) · P (A). Qui di seguito viene eseguita un’analisi THERP della procedura relativa alla prima parte dell’avvicinamento e vengono altres`ı riportati i risultati ottenuti a partire da due casi caratterizzati da condizioni iniziali diverse. Si noti come l’ordine dei 6 compiti che devono essere svolti dall’equipaggio risulti diverso nei due casi e come, invece, in base alle suddette considerazioni, la probabilit` a globale di successo (fallimento) risulti identica. Le due analisi svolte con la tecnica classica THERP sono qui riportate. Nel primo caso sono imposte delle condizioni iniziali normali. Per normali si intendono delle condizioni in cui la posizione del velivolo rispetto all’inizio della pista (altezza e distanza) sia tale che tutte le varie attivit`a che devono essere eseguite dal pilota nella fase dell’avvicinamento, abbiano tempo a sufficienza sia per essere svolte correttamente, che per produrre i dovuti effetti. Pertanto, si potranno definire normali quelle condizioni iniziali in cui, in funzione della quota alla quale inizia la fase della discesa, il velivolo si trova adeguatamente distante dall’inizio della pista d’atterraggio. Nel secondo caso, invece, sono imposte delle condizioni iniziali limiti. In dette condizioni, il pilota `e ancora in grado di eseguire tutte le attivit` a previste dalla procedura, che quindi gli permettono di completare con successo, in assenza di errori, la fase dell’avvicinamento, ma, contrariamente al caso precedente, il tempo che avr`a a disposizione sar` a appena sufficiente. Tuttavia, l’appellativo limite non sta solo ad indicare questo vincolo temporale che condiziona la corretta esecuzione della procedura, ma `e anche da collegarsi al fatto che situazioni di questo tipo si avvicinano ai limiti di validit` a ed applicabilit`a della procedura ideale che `e stata introdotta nel sistema. Mano a mano che le condizioni iniziali si approssimano a quelle limiti, aumenta la criticit` a del sistema velivolo-pilota. Questo comporta che gli eventuali errori (omissioni) che vengono commessi dal pilota, incideranno
204
Appendice 1 Applicazione del metodo THERP
in maniera pi` u o meno significativa sulla sicurezza ed affidabilit` a del sistema a seconda che le condizioni iniziali siano, rispettivamente, normali o limiti. La criticit` a del sistema sar`a ulteriormente aggravata da condizioni dell’aria diverse da quelle dell’aria tipo internazionale in quanto l’indicazione dell’altimetro, che risulta essere fondamentale per l’applicazione della procedura e per la verifica delle condizioni di successo al sorvolo del VOR di Novara, non risulter` a pi` u precisa. In particolare, l’omissione della calibrazione dell’altimetro sul valore di QNH, valore che in tale caso risulta essere diverso dal QNE (1013 mbar) su cui `e inizialmente calibrato, potr` a avere gravi conseguenze per il raggiungimento del primo obbiettivo intermedio, come appunto precedentemente accennato e mostrato nella Fig. A1.3. In base alle suddette considerazioni, si sono potute determinare le condizioni iniziali per la simulazione (in assenza di raffiche di vento). I risultati cos`ı ottenuti, riportati in Fig. A1.5 e Fig. A1.6, permettono di individuare l’ordine con cui, nei due casi studio, sono eseguiti i 6 compiti che caratterizzano la procedura, relativa alla prima parte dell’avvicinamento, che verr` a analizzata mediante la tecnica THERP. Si noti ancora come, in entrambi i casi, il diverso ordine che sussiste nell’adempimento di tali azioni, non pregiudichi la conclusione positiva dell’intera fase dell’avvicinamento. Mediante tali risultati, si `e quindi in grado di costruire gli HRA-ETs associati ai due casi studio e rappresentati in Fig. A1.7 e Fig. A1.8. I sei diversi compiti, che formano la procedura in esame, danno origine ad un totale di 64 sequenze. Tuttavia, grazie alle tre condizioni finali della Tab. A1.4, che devono essere verificate al fine di decretare il successo (S) di una sequenza, `e stato possibile interrompere alcune delle sequenze in corrispondenza di quei compiti la cui omissione comportava necessariamente il fallimento (F) della procedura. Tenendo in considerazione questa semplificazione, gli HRA-ETs relativi ai due casi studio risultano essere composti rispettivamente da 26 sequenze nel caso di condizioni iniziali normali, e da 32 sequenze nel caso di condizioni iniziali limiti. Infine, `e importante osservare come l’esecuzione dell’approach check list risulti ininfluente ai fini del soddisfacimento della condizione 1 (Tab. A1.4) nel caso in cui l’altimetro sia stato correttamente calibrato all’attraversamento del livello di transizione. Pertanto, quelle sequenze caratterizzate da tale evenienza, risulteranno concluse con un successo (S) anche se `e stata omessa la lettura del suddetto approach check list.
A1.3 Costruzione degli HRA-ET
205
Figura A1.5. Risultati relativi al caso studio con condizioni iniziali normali (Mancini, 1991)
206
Appendice 1 Applicazione del metodo THERP
Figura A1.6. Risultati relativi al caso studio con condizioni iniziali limiti
A1.3 Costruzione degli HRA-ET
Figura A1.7. HRA-ET relativo al caso studio con condizioni iniziali normali
207
208
Appendice 1 Applicazione del metodo THERP
Figura A1.8. HRA-ET relativo al caso studio con condizioni iniziali limiti
A1.4 Determinazione delle HEP
209
A1.4 Determinazione delle HEP Il passo successivo nell’applicazione della tecnica THERP consiste nella determinazione dei valori delle probabilit`a d’errore umano (HEP) associati ai 6 compiti che caratterizzano entrambi gli HRA-ETs rappresentati in Fig. A1.7 e Fig. A1.8. A tal fine, `e bene osservare, come risulta anche evidente dalla procedura ideale descritta nella Tab. A1.1, che nella valutazione delle suddette probabilit` a `e necessario tener conto anche dell’interazione che sussiste tra i vari membri dell’equipaggio. In particolare, si nota che, per ci` o che concerne i 6 compiti che devono essere eseguiti nella parte dell’avvicinamento che si sta esaminando, `e possibile limitare il numero dei suddetti membri dell’equipaggio ai seguenti due: il pilota che controlla effettivamente l’aeroplano (Pilot Flying, PF ) ed il copilota (Pilot Not Flying, PNF ). Inizialmente, ogni compito viene decomposto in una serie di azioni elementari che, tra l’altro, permettono anche di individuare il tipo di cooperazione che avviene tra il PF ed il PNF. In funzione dei risultati ottenuti da questa analisi qualitativa, si `e allora in grado di determinare il valore NHEP (“Nominal Human Error Probability”) associato a ciascuna delle azioni elementari. A tal fine sono stati utilizzati i dati raccolti nelle tabelle del capitolo 20 dell’Handbook di Swain e Guttmann. Per ogni azione `e stato riportato il valore mediano NHEP con i corrispondenti limiti d’incertezza, l’azione a cui `e associato nell’Handbook ed il numero della tabella da cui `e stato preso. Poich´e questi dati derivano da studi condotti prevalentemente nel dominio delle centrali nucleari, nella scelta dei dati adeguati per il successivo utilizzo nell’analisi affidabilistica della fase dell’avvicinamento si `e tenuto conto delle eventuali similitudini e differenze che intercorrono tra le azioni elementari in cui `e stato suddiviso ogni compito e quelle considerate nell’Handbook della tecnica THERP. In funzione delle eventuali dipendenze che sussistono tra i 6 compiti che compongono la procedura in esame, i NHEP precedentemente trovati vengono modificati mediante le equazioni relative alle dipendenze. L’elevato livello d’addestramento dell’equipaggio in combinazione col fatto che non sono previste anomalie di funzionamento dei sistemi dell’aeroplano, consente, in prima approssimazione, di supporre privi di influenza i fattori che generalmente modificano le prestazioni dell’equipaggio (PSF). Pertanto, nell’ottica delle suddette considerazioni, vengono qui di seguito determinate le HEP dei 6 compiti compresi nella procedura che si sta analizzando: estensione degli ipersostentatori alle posizioni 1, 5 e 10, calibrazione dell’altimetro sulla QNH, attivazione della procedura di livellamento del volo, lettura dell’approach check list. A1.4.1 Estensione degli ipersostentatori alle posizioni 1, 5 e 10 Al pilota sar` a permesso di eseguire l’estensione degli ipersostentatori ad una delle tre posizioni, 1, 5 o 10 (F1, F5, F10) appena la velocit` a di volo indicata dall’ anemometro risulta essere inferiore a dei valori limite caratteristici di ognuna delle tre posizioni, valori che, inoltre, sono generalmente indicati sull’anemometro stesso
210
Appendice 1 Applicazione del metodo THERP
mediante delle piccole tacche di riferimento. Il PF, che sta supervisionando la strumentazione, deve quindi verificare che la velocit` a indicata risulti minore di uno di questi limiti e, conseguentemente, deve ordinare al PNF di eseguire l’estensione degli ipersostentatori alla nuova posizione consentita. Gli errori che sono stati identificati nell’esecuzione di tale compito sono la mancata individuazione, da parte del PF, di una delle condizioni che consentono l’estensione degli ipersostentatori e l’omissione, da parte del PNF, dell’ordine ricevuto. Quindi si suppone che il PF, una volta individuata una condizione favorevole, impartisca sicuramente il relativo ordine. Pertanto, il compito in esame `e scomponibile in due azioni, come schematizzato in Fig. A1.9.
Figura A1.9. HRA-ET associato al compito “estensione degli ipersostentatori”
Il successo del compito sar`a ottenuto solo nel caso in cui entrambe le azioni A e B saranno state eseguite correttamente. Le NHEP che sono state associate a tali azioni sono: Margini d’incertezza Azione corrispondente nell’Handbook
No tabella
Azione
NHEP
A
.001
.0005 - .005
Indicatori analogici con valori di riferimento facilmente individuabili
20-7
B
.001
.0005 - .005
Compiere un’azione, data 1 azione da ricordare
20-18
Tenendo conto dell’HRA-ET di Fig. A1.9, `e possibile ricavare la probabilit` a di successo S e di fallimento F associata al compito estensione degli ipersostentatori. S = 0.999 · 0.999 ∼ = 0.998 F = 0.001 + 0.999 · 0.001 ∼ = 0.002. Occorre tuttavia notare che `e possibile identificare delle relazioni di dipendenza ` ragionevole tra i tre compiti F1, F5 ed F10. Si consideri inizialmente l’azione F5. E ritenere che la causa della mancata esecuzione di F1 possa ancora sussistere quando si verifica la possibilit`a di estrarre gli ipersostentatori a 5 e, pertanto, influire in
A1.4 Determinazione delle HEP
211
maniera negativa anche sulla esecuzione di F5. Viene pertanto imposto un livello di dipendenza bassa (DB) tra F5 ed F1 (la sottolineatura sta ad indicare l’omissione dell’esecuzione del corrispondente compito). In maniera del tutto analoga, si impone un livello di dipendenza bassa (DB) anche tra F5 ed F1. Considerando invece l’azione F10, si pu` o conseguentemente ipotizzare l’esistenza di una dipendenza tra l’esecuzione di questa azione e l’avvenuta, o meno, esecuzione di F1 ed F5. In particolare, se F1 non `e stata eseguita (F1) e se neppure F5 `e stata eseguita (F5), allora vi `e un livello di dipendenza media (MD) che neppure F10 venga eseguita. Al contrario, se F5 `e stata eseguita correttamente, si pu` o ritenere che sia stato notato l’errore su F1. L’equipaggio sar`a pertanto particolarmente attento a non commettere ulteriori errori nell’estensione degli ipersostentatori, cos`ı che `e possibile individuare un livello di dipendenza alta (DA) tra F10 ed F1 e F5. Lo stesso livello di dipendenza `e associabile anche alla corretta esecuzione di F10 essendo stati eseguiti sia F1 che F5: l’equipaggio sta, presumibilmente, ponendo attenzione alla esecuzione dell’estensione degli ipersostentatori. Infine, se `e avvenuta correttamente F1 ma non F5, allora vi `e un livello di dipendenza basso (DB) che non avvenga F10. Nella Tab. A1.6 sono quindi ricapitolati i vari livelli di dipendenza individuati tra i tre compiti relativi all’estensione degli ipersostentatori. Sono altres`ı fornite le probabilit` a di successo e di errore ottenute, in funzione del livello di dipendenza, da quelle espresse, rispettivamente, dalle equazioni (3.1) e (3.2). Tabella A1.6. Probabilit` a di Successo ed Errore Associate all’Azione “Estensione degli Ipersostentatori”
A1.4.2 Calibrazione dell’altimetro sulla QNH La calibrazione dell’altimetro (CA) sulla QNH deve essere compiuta dopo che l’aeroplano ha attraversato il livello di transizione di 7000 ft, e pertanto viene eseguita appena l’indicazione dell’altimetro, che fino a tale istante `e calibrato sulla QNE
212
Appendice 1 Applicazione del metodo THERP
(1013 mbar), risulta inferiore a 7000 ft. Al contrario che nel caso dell’estensione degli ipersostentatori, `e ora compito del PNF, che supervisiona la strumentazione in concomitanza con il PF, di individuare il verificarsi della suddetta condizione. Si noti, a tale proposito, che sull’altimetro non `e presente un riferimento che faciliti al PNF l’identificazione dell’attraversamento dei 7000 ft. Si suppone che gli errori che possono essere commessi sono la mancata individuazione dell’attraversamento del livello di transizione, da parte del PNF, e l’omissione della calibrazione dell’altimetro, da parte del PF. Pertanto, il compito in esame `e scomponibile in due azioni, come schematizzato in Fig. A1.10.
Figura A1.10. HRA-ET associato al compito “calibrazione dell’altimetro”
Il successo del compito sar`a raggiunto solo nel caso in cui entrambe le azioni C e D saranno state eseguite correttamente. Le NHEP che sono state associate a tali azioni sono:
Azione
NHEP
Marginid’incertezza Azione corrispondente nell’Handbook
C
.003
.001 - .01
D
.001
.0005 - .005
No tabella
Indicatori analogici privi di valori di riferimento.
20-7
Compiere un’azione, data 1 azione da ricordare.
20-18
Si osservi che, non essendo state individuate dipendenze da altri compiti che compongono la procedura, le probabilit` a di successo ed errore, ottenute sulla base dell’HRA-ET di Fig. A1.10 e riportate nella Tab. A1.7, risultano essere quelle definitive nei riguardi dell’azione calibrazione dell’altimetro.
A1.4 Determinazione delle HEP
213
Tabella A1.7. Probabilit` a Azione
Probabilit`a dell’azione
CA
.996
CA
.004
A1.4.3 Attivazione della procedura di livellamento del volo Le modalit`a relative all’esecuzione del compito che consente al pilota di attivare la procedura di livellamento del volo (LV) risultano essere identiche a quelle appena descritte nei riguardi della calibrazione dell’altimetro. Il PNF, una volta verificato che l’indicazione dell’altimetro risulta essere inferiore ai 5000 ft, annuncia l’approssimarsi della quota alla quale deve essere livellato l’aeroplano ed il PF attiva il LV. Pertanto, la scomposizione del compito in due azioni d`a luogo all’HRA-ET di Fig. A1.11 dal quale si ricavano le identiche probabilit` a complessive di successo ed errore riportate nella Tab. A1.7 del precedente caso.
Figura A1.11. HRA-ET associato al compito “attivazione procedura di livellamento del volo”
Tuttavia, nei riguardi del LV `e ragionevole supporre che vi sia una dipendenza tra tale compito e quello relativo alla calibrazione dell’altimetro. In effetti, essendo le modalit`a d’esecuzione identiche in entrambe le situazioni, `e plausibile che, analogamente a quanto ipotizzato nell’analisi delle F1, F5 ed F10, le cause che hanno comportato il successo (fallimento) della calibrazione dell’altimetro possano altres`ı influire, in maniera positiva (negativa), anche nei riguardi dell’attivazione della procedura di livellamento del volo. In particolare, nel caso in cui l’altimetro sia stato calibrato, si pu` o supporre che sia il PNF che il PF stiano prestando la dovuta attenzione all’attivit`a che devono compiere. Pertanto, `e possibile ipotizzare un livello di dipendenza basso (DB) tra la corretta attivazione della procedura di livellamento e l’avvenuta calibrazione dell’altimetro. Analogamente, se l’altimetro non `e stato calibrato, sussiste un livello di dipendenza basso (DB) tra la mancata esecuzione del compito in esame e la mancata calibrazione dell’altimetro.
214
Appendice 1 Applicazione del metodo THERP
Tabella A1.8. Probabilit` a di Successo ed Errore Associate all’Azione “Attivazione della Procedura di Livellamento del volo”
Nella Tab. A1.8 sono quindi ricapitolati i livelli di dipendenza tra LV e CA e sono anche riportate le probabilit` a di successo e di errore ottenute, in funzione del livello di dipendenza, da quelle complessive fornite dalla Tab. A1.7. A1.4.4 Lettura dell’approach check list Rimane ora da determinare la probabilit` a di successo ed errore associata alla lettura dell’approach check list (CL). Si ricordi che mediante questa azione l’equipaggio ha la possibilit` a di verificare che l’altimetro sia correttamente calibrato sulla QNH ed, in caso contrario, di intervenire correggendo l’errore. Il compito in esame `e scomponibile nell’esecuzione di due azioni, come mostrato nella Fig. A1.12.
Figura A1.12. HRA-ET associato al compito “lettura dell’approach check list”
Inoltre, nel caso in cui venga rilevata l’errata calibrazione dell’altimetro, si suppone che quest’ultimo sar` a conseguentemente ricalibrato in maniera corretta. Il successo del compito sar`a pertanto raggiunto in seguito alla corretta esecuzione di entrambe le azioni H ed I. Le NHEP che sono state associate a tali azioni sono:
A1.4 Determinazione delle HEP
215
Nei riguardi delle possibili dipendenze dagli altri compiti che compongono la procedura della prima parte dell’avvicinamento, `e opportuno notare come la chiamata dell’approach check list (azione H) dipenda in maniera significativa dall’avvenuta attivazione della procedura di livellamento del volo (LV). Questo `e dovuto al fatto che l’azione H viene eseguita dal PF mentre egli sta applicando la procedura di livellamento del volo. Pertanto, `e ragionevole supporre che qualora LV non fosse avvenuta, non sarebbe stata neppure eseguita l’azione H. Al contrario, se LV fosse avvenuta, verrebbe quasi sicuramente eseguita anche H. Quindi `e possibile individuare un livello di dipendenza completo (DC) tra LV ed H, ed un livello di dipendenza alto (DA) tra LV ed H. Infine, l’Handbook prevede un livello di dipendenza alto (DA) tra l’avvenuta chiamata dell’approach check list (H) e la rilevazione di uno stato errato della calibrazione dell’altimetro (I). In base a queste considerazioni, le probabilit` a di successo ed errore associate alla azione in esame vengono modificate come riportato nella seguente Tab. A1.9. Tabella A1.9. Probabilit` a di Successo ed Errore Associate all’Azione “Lettura dell’Approach Check List”
Pertanto, qualora sia stata eseguita con successo l’attivazione della procedura di livellamento del volo, la probabilit` a di successo ed errore per il compito in esame `e data da: S =0.9995 · 0.995 ∼ = 0.9945 F =0.0005 + 0.9995 · 0.005 ∼ = 0.0055. Mentre, nel caso contrario, la probabilit` a di successo `e nulla. Tuttavia, come precedentemente osservato, il corretto svolgimento del compito lettura dell’approach check list risulta ininfluente ai fini del raggiungimento delle condizioni di successo nel caso in cui l’altimetro `e stato correttamente calibrato nel precedente compito associato all’attraversamento del livello di transizione. Si noti infine che negli HRA-ETs relativi all’intera procedura, le azioni I ed H sono implicitamente rappresentate nel compito CL, cio`e la lettura dell’approach check list.
216
Appendice 1 Applicazione del metodo THERP
A1.5 Probabilit` a di successo e fallimento della procedura Le probabilit` a d’errore umano (HEP) dedotte nei precedenti paragrafi devono ora essere opportunamente inserite negli alberi degli eventi dell’analisi dell’affidabilit` a umana (HRA-ETs) rappresentati in Fig. A1.7 e Fig. A1.8. Pertanto includendo le suddette HEP in questi alberi si ottengono la Fig. A1.13 e la Fig. A1.14, dalle quali si possono calcolare le probabilit`a di successo e di fallimento della procedura associata alla prima parte della fase dell’avvicinamento. Operando secondo le regole del THERP, la probabilit` a totale di successo (fallimento) della procedura sar` a data dalla somma delle probabilit` a finali delle sequenze che si sono concluse con un successo (fallimento). Quindi, nel primo caso, caratterizzato dalle condizioni iniziali normali di Tab. A1.2, delle 26 possibili sequenze, 12 terminano con il successo e 14 con il fallimento della procedura. La probabilit` a complessiva di successo e fallimento sono state calcolate: S∼ = 0.99487 F ∼ = 0.00513. Come era stato precedentemente puntualizzato, nel secondo caso si ottiene una probabilit` a complessiva di successo e fallimento identica al primo caso, nonostante sia diverso l’ordine delle azioni ed il numero di sequenze conclusesi con il fallimento (20). Si osservi che la differenza, nel numero totale di sequenze caratterizzate dal fallimento, `e dovuta alla diversa posizione che certi compiti, la cui omissione comporta il sicuro insuccesso della procedura, quali l’attivazione della procedura di livellamento del volo, si trovano ad occupare in seno agli HRA-ETs.
A1.6 Valutazione possibilit` a di recupero degli errori Nei riguardi della possibilit` a di recupero degli errori (recovery), `e importante notare come la stessa procedura che si sta analizzando e che `e relativa alla prima parte dell’avvicinamento, comprende implicitamente due recovery. Il primo recovery `e relativo alla lettura dell’approach check list: qualora l’altimetro non fosse stato calibrato sulla QNH all’attraversamento del livello di transizione, una corretta esecuzione della check list comporterebbe la correzione della calibrazione e, quindi, il recupero di tale errore. Il secondo recovery `e associato all’estensione degli ipersostentatori alla posizione 10. Infatti, una delle condizioni, che devono essere verificate per il successo della procedura, richiede che gli ipersostentatori siano estratti alla posizione 10. Conseguentemente, non `e rilevante, dal punto di vista del raggiungimento del successo, il fatto che gli ipersostentatori vengano estratti in una volta sola fino a 10 o che, al contrario, siano estesi in due o tre fasi successive: F1 & F5 & F10, F1 & F10, F5 & F10. Ci` o che conta ai fini del successo, individuato dal soddisfacimento delle condizioni riportate nella Tab. A1.4, `e che venga eseguita l’estensione degli ipersostentatori alla posizione 10. Pertanto, l’eventuale errore associato all’omissione
A1.6 Valutazione possibilit` a di recupero degli errori
217
di F1 e/o di F5 viene automaticamente recuperato qualora F10 venga effettuato correttamente. In effetti, anche l’errore dell’omissione dell’attivazione della procedura di livellamento del volo pu` o essere recuperato grazie all’interazione tra gli stessi membri dell’equipaggio, cos`ı come tra questi ed i controllori di terra, attraverso sistemi automatici d’allarme, quale il Ground Proximity Warning System (GPWS), ed anche con il riconoscimento, da parte dello stesso pilota, dell’omissione di compiti precedenti. Tuttavia, come `e stato gi`a osservato all’inizio del presente capitolo, l’implementazione di un’analisi THERP `e limitata in maniera significativa dal massimo numero di azioni, fondamentali ai fini della sicurezza ed affidabilit` a della procedura, che possono essere esaminate. Conseguentemente, `e necessario eseguire una selezione analoga a quella fatta nella scelta delle azioni, anche nei riguardi dei possibili recuperi degli errori. Nell’ottica di tale considerazione, non sono stati introdotti ulteriori tipi di recovery nei riguardi dell’omissione dell’attivazione della procedura di livellamento del volo. Inoltre, esiste un ulteriore problema insito nel recovery derivato sia dal riconoscimento, da parte dello stesso pilota, di un precedente errore, che dalla cooperazione tra gli stessi membri dell’equipaggio, cos`ı come tra questi ed i controllori di terra. Questo problema `e dovuto all’aspetto temporale e dinamico del sistema che, pertanto, non consente di determinare con precisione l’istante in cui avviene l’eventuale recupero degli errori e, quindi, neppure il conseguente effetto di tali recovery sul sistema.
218
Appendice 1 Applicazione del metodo THERP
Figura A1.13. HRA-ET relativo al caso studio con condizioni iniziali normali, completato con le HEPs
A1.6 Valutazione possibilit` a di recupero degli errori
219
Figura A1.14. HRA-ET relativo al caso studio con condizioni iniziali limiti, completato con le HEPs
Appendice 2 Studio retrospettivo e classificazione di incidente: l’incidente di Zurigo – volo AZ 404, 14 Novembre, 1990
Questa Appendice prende in esame un caso reale di incidente aereo cui si applica la metodologia di analisi retrospettiva di incidenti ed eventi di pericolo descritta in precedenza. Vengono applicati tutti e tre i metodi di classificazione formali descritti nei precedenti capitoli, cio`e ADREP, CREAM e ISAAC. L’incidente preso in considerazione `e la collisione con il terreno del volo AZ404 avvenuta il 14 Novembre 1990 nei pressi di Zurigo.
A2.1 Il caso studio Prima di incominciare lo studio retrospettivo di un evento reale e quindi l’applicazione di una metodologia che permetta l’identificazione delle cause primarie dell’incidente e la loro catalogazione, `e essenziale ricordare le motivazioni di base per cui si applica questo tipo di metodologia: Lo scopo di una metodologia di analisi retrospettiva di un incidente od inconveniente grave `e di fornire, ai tecnici ed esperti incaricati dell’analisi degli eventi, gli strumenti necessari per formalizzare e standardizzare la ricostruzione degli eventi, la definizione delle cause-effetti e delle conseguenze degli stessi, e la valutazione dei malfunzionamenti meccanici, delle manifestazioni e dei comportamenti delle persone coinvolte nella gestione e nel controllo del sistema. In sostanza, lo scopo delle metodologie di analisi retrospettiva `e quello di determinare le cause che stanno alla base di un incidente, e di conseguenza di contribuire ad evitare e prevenire il ripetersi di situazioni analoghe. Pertanto, da un lato le metodologie non hanno in alcun modo l’intenzione di identificare i “colpevoli” di un incidente ma bens`ı le cause che lo hanno generato, e, come si vedr`a nel prosieguo di questo capitolo, non sono mai univoche ed isolate, ma ben inserite in un contesto socio-tecnico ben preciso dal quale non `e possibile prescindere. Cacciabue P. Carlo: Sicurezza del Trasporto Aereo. c Springer-Verlag Italia 2010, Milano
222
Appendice 2 Studio retrospettivo e classificazione di incidente
D’altro canto come si `e visto, i modelli discussi e sviluppati per le analisi delle tecniche prospettiche di studio di sicurezza, sono elementi portanti anche per le metodologie retrospettive, in quanto ne garantiscono la congruenza in un quadro ` pertanto necessario tener conto degli elementi di analisi di sicurezza integrata. E specifici di un indagine retrospettiva, quali l’esistenza di dati, i contesti ambientali specifici e socio-tecnici nei quali si sono svolti gli eventi, e, soprattutto nel caso degli incidenti aerei, la disponibilit` a dei Flight Data Recorder (FDR) e Cockpit Voice Recorder (CVR). Questa premessa `e essenziale per distinguere fin dall’inizio, da un lato il ruolo ben preciso del “tecnico”, che si deve occupare dello studio di un evento, quale l’ingegnere, l’investigatore certificato di incidenti, il pilota, il controllore di volo, lo psicologo o quant’altro esperto del dominio specifico, e dall’altro il ruolo dell’autorit` a giudiziaria cui spettano compiti e finalit` a diversi. Si prender` a ora in esame un caso reale, e, come gi`a detto si applicher` a la metodologia di analisi retrospettiva di incidenti ed eventi di pericolo descritta in precedenza e riassunta qui di seguito per completezza in Fig. A2.1. Verranno applicati tutti e tre i metodi di classificazione formali descritti nei precedenti capitoli, cio`e ADREP, CREAM e ISAAC.
Figura A2.1. I passi della procedura di analisi di un’occorrenza (dal Cap. 3 Fig. 3.2)
A2.2 Resoconto dell’accaduto
223
Si deve tenere presente che questo esercizio ha un intento propedeutico nei confronti dell’apprendimento all’uso ed all’applicazione di metodi di analisi retrospettivi, e non si pone come obbiettivo la classificazione precisa dell’incidente e degli eventi che si sono succeduti. Infatti, questo lavoro richiederebbe un riscontro ancora pi` u profondo dei dati relativi all’incidente ed un’analisi estremamente accurata del rapporto della commissione di inchiesta, e tutto ci`o esula dagli scopi della presente applicazione pratica di metodi analitici. Per gli stessi motivi qui elencati, e per il fatto che l’incidente in questione `e stato dettagliatamente analizzato e studiato dalla Commissione di Inchiesta, non si effettuer`a il passo sette della metodologia (Sviluppo delle Raccomandazioni), in quanto gi` a ampiamente contemplato, discusso e riportato nel rapporto sull’incidente dalla Commissione stessa (BFU web-ref, 1995).
A2.2 Resoconto dell’accaduto Tratto da Volare, Maggio, 1992: “. . . Alle 19.02:12 (ora di Greenwhich; le 20.02 e 12 secondi locali), l’aereo appare ad una ventina di chilometri a ovest dell’aeroporto con rotta 340◦ a FL 90 (livello di volo 90: 9000 piedi, 2.750 metri, sul riferimento barometrico standard), che mezzo minuto dopo lascia per FL 60 con prua 320◦ , cio`e 20 gradi a sinistra, in modo di aggirare leggermente il punto “Ekron”, uno dei due “cancelli di ingresso” alla fase intermedia di avvicinamento. In condizioni di scarso traffico, non vi sarebbe bisogno di vettoramento. Le procedure sono standardizzate (STAR, Standard Arrival) e pubblicate. (. . . ) Il vettoramento `e un’azione di controllo del traffico aereo, e cio`e serve a guidare nelle tre dimensioni un determinato volo al di fuori delle rotte e procedure di navigazione strumentale pubblicate allo scopo di inserirlo nella sequenza degli altri voli con la giusta separazione di sicurezza, liberando lo spazio aereo necessario per fare affluire altri voli. Il vettoramento cessa quando l’aereo si ristabilizza su una rotta o procedura di navigazione standard pubblicata. (. . . ) La posizione del volo Alitalia 404 (questo `e anche il suo nominativo radio) appare sullo schermo del radar con un simbolo sintetico (+, ⊕, ×, ⊗, ∗, eccetera) collegato con una barretta di riferimento a una etichetta elettronica elaborata da un calcolatore. Alle 19.05:13, quando l’aereo sta per raggiungere FL 60 e viene istruito a “virare a destra, prua uno-uno-zero (110+gradi) fino ad intercettare e seguire il localizzatore” (il fascio d’onde VHF che materializza la rotta di avvicinamento sull’asse della pista), essa indica sulla prima riga l’identificazione AZA040 e sulla seconda il livello 062. Entrambi i dati costituiscono la trascrizione computerizzata dei segnali codificati emessi dal risponditore automatico di bordo, che il radar secondario “interroga” ad ogni rotazione con un periodo di circa 6 secondi. Mentre sta completando la virata, il DC 9 viene istruito a proseguire la discesa a 5000 piedi, che `e l’altitudine di transizione, alla quale il riferimento altimetrico passa dal riferimento standard (1013 millibar o hectopascal) al valore corrispondente al livello medio del mare, espresso in codice telegrafico dalla sigla QNH. Esso `e noto ai piloti, che hanno confermato al Controllo di Avvicinamento di conoscere i dati radiodiffusi dall’ATIS, il sistema automatico d’informazione aeroportuali. (. . . ).
224
Appendice 2 Studio retrospettivo e classificazione di incidente
` in atto una sequenza di avvicinamento: almeno tre aerei precedono il volo E Alitalia alle 20.07:26, quando i piloti, autorizzati a 4000 piedi, inseriscono il QNH nell’altimetro (sul tracciato radar, la lettura di quota passa da 051 a 052). La sequenza impone una serie di riduzioni di velocit`a: da 240 a 200 nodi, poi a 180, a 150; infine a 140 nodi. Alle 20.07:10, il DC 9 supera leggermente il localizzatore alla distanza di 14 miglia (26 chilometri) dalla pista; poi vira a destra con traiettoria dolce e progressiva tipica dell’aggancio automatico compiuto con l’autopilota inserito. Uno dei piloti comunica “Alitalia zero-quattro-zero, quattromila, stabilizzato”. Il controllore pu` o vedere l’aereo quasi perfettamente allineato. (. . . ). Gli aerei stabilizzati non sono pi` u vettorati: la responsabilit` a della navigazione `e ritornata nelle mani dei piloti, mentre il controllore si riferisce al regolare avanzamento dell’ultimo volo stabilizzato soltanto per posizionargli dietro l’aereo successivo alla distanza minima di 4 miglia e alla stessa velocit` a. Questo, confermer`a Swisscontrol – l’organizzazione di assistenza al volo svizzera – `e il compito prioritario del controllore, che non `e l`ı per verificare se i piloti seguono o no le procedure di navigazione strumentale, ma per mantenere le giuste separazioni fra i voli e fare scorrere il traffico aereo. Questa `e la fredda e impietosa spiegazione della ragione per la quale nessuno da terra si avvede che il DC 9 sta volando sotto il “sentiero di planata” dell’ILS. (. . . ). Il controllore non si avvede di nulla. Ma neppure i piloti, che hanno a disposizione, oltre ai due altimetri barometrici, anche due precisissimi radio altimetri che entrano in funzione al di sotto dei 2000 piedi sulla superficie. Ma essi, soprattutto, hanno davanti a s´e gli indicatori di deviazione orizzontale e verticale dell’ILS. (. . . ). A poco meno di 7 miglia, mentre il DC 9 attraversa 2300 piedi, quando `e ancora possibile una richiamata che gli faccia evitare la collina di 2.090 piedi indicata sulla cartina di avvicinamento a 4,7 miglia (8700 metri) dalla pista, il controllore radar istruisce il volo Alitalia 404 a passare sulla frequenza di Torre, 118.1 megahertz. Dodici secondi dopo, la lettura altimetrica della sua traccia radar si arresta a 2200 piedi e dopo altri dodici secondi scompare per effetto dell’ombra della collina. Ancora venti secondi, ed il DC 9 striscia su un costone boscoso a nord-ovest della cima della Stadelberg a 1690 piedi, abbattendosi rovesciato nella valletta sottostante. (. . . )”.
A2.3 Le conclusioni dell’inchiesta In apertura dell’udienza pubblica conclusiva dell’inchiesta preliminare sull’incidente del DC 9-30, l’ispettore capo dell’Ufficio inchieste sugli incidenti aerei, ha premesso un’amara considerazione: “La triplice rete di sicurezza che avrebbe potuto salvare l’aereo e i suoi occupanti ha fallito a tutti e tre i livelli: quello dell’impianto di navigazione del velivolo, che era guasto o comunque difettoso; quello dell’equipaggio, che
A2.3 Le conclusioni dell’inchiesta
225
non `e stato in grado di riconoscere il difetto e, di conseguenza, scegliere una diversa e sicura procedura di avvicinamento; e quello dell’ATC, il controllo del traffico aereo, che non si `e avveduto della discesa prematura del velivolo e della sua prosecuzione molto al di sotto del sentiero di discesa strumentale”. Si preannunciavano cos`ı le conclusioni della minuziosa analisi condotta in 14 mesi dagli esperti coordinati dal suo ufficio, che si sono succeduti in oltre otto ore di esposizione degli atti dell’inchiesta raccolti in un corposo dossier. Si riporta la sintesi di alcune “evidenze” (findings) e delle conclusioni della Commissione di inchiesta elvetica, cos`ı come contenute nella bozza di Relazione Finale, illustrata e distribuita alla stampa mondiale, nel dicembre 1991, dal presidente della Commissione stessa.
A2.3.1 Le evidenze I punti seguenti rappresentano le maggiori evidenze identificate dalla Commissione e dal rapporto finale sull’incidente. Su tali punti si svilupper` a l’analisi retrospettiva per la ricerca delle cause tecnico-scientifiche dell’incidente. • Il ricevitore NAV n. 1 che era in uso durante l’avvicinamento (tipo King KNR 6030) apparentemente non stava inviando un segnale di output. Tutte le quattro indicazioni NAV davano l’indicazione “On Glide” senza che la bandierina che segnala il guasto apparisse. • La possibilit` a che si verificasse una simile avaria sulla strumentazione NAV era conosciuta fin dal 1984. • L’Alitalia era stata informata dall’azienda costruttrice dell’aeromobile, del possibile verificarsi di questa avaria, nel 1984 e 1985. Questa potenziale avaria era sconosciuta all’equipaggio del volo AZ 404. • Gli altimetri in uso sull’aeromobile erano del tipo “Drum Pointer”. Il pericolo di una lettura errata della quota con questi altimetri `e molto elevata. • In questo volo, il Primo Ufficiale, comunemente detto Copilota, era il pilota ai comandi (“Pilot Flying”, PF), mentre il Comandante era il pilota non ai comandi (“Pilot Not Flying”, PNF). • Prima di intercettare l’ILS della pista 14, l’equipaggio selezion`o NAV n.1 (RADIO 1). • Il “Punto di Avvicinamento Finale” (Final Approach Point) si trova a 8 NM dalla pista (ILS-DME) a 4000 piedi. • Intercettando il LOC a circa 12 NM, l’aeromobile era sceso sotto l’altitudine autorizzata di 4000 piedi. • L’aeromobile ha seguito il LOC 14 con precisione ma rimanendo costantemente 1000 piedi sotto il “Glide Slope” fino al momento dell’impatto al suolo. • Durante la fase di avvicinamento, non c’`e mai stato nessun allarme di “Ground Proximity Warning System”. • L’equipaggio fece scendere l’aeromobile sotto la quota dello “Outer Marker” (1248 piedi) prima di passare lo “Outer Marker” stesso.
226
Appendice 2 Studio retrospettivo e classificazione di incidente
• L’ATC `e dotato di radar secondario che include la lettura dell’altezza. • L’ATC non diede mai all’equipaggio del volo AZ 404 informazioni relative alla posizione o alla distanza dalla pista 14. • Secondo gli altri piloti, l’illuminazione del sentiero di discesa e della pista non potevano essere visti durante la fase di avvicinamento strumentale. La Stadelberg era ricoperta da una cappa di nubi. • Dalla descrizione dell’incidente, la pista pu` o essere vista fino a 7 NM ILS-DME poi viene oscurata dalla Stadelberg, per un effetto di “buco nero”. • La Stadelberg non `e dotata di una illuminazione per avvicinamenti di precisione. • L’equipaggio del volo AZ 404 non ha comunicato “Established” una volta giunto sull’ILS. • La manovra di riattaccata (Go Around) `e stata iniziata poco prima dell’incidente dal Copilota. • Questa manovra `e stata immediatamente interrotta dal Comandante. • L’attivit` a svolta dall’equipaggio non `e sempre stata aderente al manuale operativo ALITALIA. A2.3.2 Le cause Si • • • • • •
pu` o fare risalire l’incidente alle seguenti cause: l’indicazione erronea dell’unit` a n. 1 del VHF NAV sull’aeromobile; l’inadeguata analisi di guasto dei piloti; la non conformit` a dei piloti alla procedura standard durante l’avvicinamento; la scarsa cooperazione tra i due piloti; la molto probabile errata lettura dell’altimetro da parte del Comandante; l’ignoranza dei piloti sulle possibili false indicazioni dell’apparecchiatura NAV in uso.
Fattori che possono aver contribuito all’incidente ma non in modo decisivo: • la mancanza di controllo da parte dell’ATC della perfetta aderenza dell’aeromobile con l’altitudine autorizzata di 4000 piedi prima del “Punto di Avvicinamento Finale” (Final Approach Point); • la mancanza di controllo da parte del controllore dell’allineamento verticale sull’ILS (cio`e sul “Glide Slope”).
A2.4 Ricostruzione delle ultime fasi del volo Viene riportata qui di seguito (Fig. A2.2) la ricostruzione della posizione dell’aeromobile negli ultimi cinque minuti precedenti l’impatto. La figura `e sufficientemente commentata; in essa sono riportate, oltre alla posizione rispetto alla testata della pista (altitudini e distanze), le comunicazioni tra i piloti e il controllore del traffico aereo, nonch´e le azioni che si sono succedute nella cabina di pilotaggio.
A2.4 Ricostruzione delle ultime fasi del volo
227
A2.4.1 La procedura di avvicinamento Verr` a qui di seguito riportata la descrizione dell’avvicinamento all’aeroporto di Zurigo cos`ı come `e stata eseguita dall’equipaggio del volo AZ 404. Questo paragrafo `e quasi interamente tratto da un articolo pubblicato sulla rivista di aviazione “Volare” nel maggio 1992. “L’impianto di radio navigazione del velivolo impiegava due ricevitori VHF che erano stati sostituiti all’aeroporto di partenza, dopo che lo stesso equipaggio ne aveva lamentato il cattivo funzionamento nelle due tratte precedenti. Il controllo tecnico dopo la sostituzione era stato positivo, ma l’operativit` a del velivolo era tuttavia declassata alla categoria 1 (600 metri di visibilit` a e altezza di decisione (“Decision Height”, DH) di 200 piedi). Per riqualificarla alle normali condizioni d’impiego sarebbe stato necessario provare l’effettiva rispondenza degli apparati, eseguendo un avvicinamento strumentale automatico in categoria 2 (visibilit` a 350 metri e DH 100 piedi) non appena le condizioni meteorologiche lo avessero consentito”. Mentre l’aereo si stava avvicinando all’aeroporto di Zurigo, il sistema di radiodiffusione ATIS (Automatic Terminal Information System), che trasmette automaticamente le informazioni sulle condizioni operative dell’aeroporto, aveva comunicato ai piloti visibilit` a, condizioni atmosferiche e presenza di nubi. Queste, secondo i piloti dei voli precedenti, erano localizzate proprio lungo la rotta di avvicinamento finale e distribuite su tre livelli degradanti. Ci` o non era per` o noto all’equipaggio del DC 9, che nella discesa iniziale da Sud poteva constatare l’ottima visibilit` a esistente sull’area di Zurigo. “Ma un’altra e pi` u importante informazione, ai fini della sicurezza, non era nota ai piloti. Nel 1984, tutte le compagnie aeree che impiegavano il DC 9 erano state avvisate dalla casa costruttrice con una All Operators Letter che, in certe situazioni, era possibile che sugli strumenti di navigazione gli indici di deviazione ILS fossero perfettamente centrati nonostante la completa assenza di segnale a valle del comparatore a causa di un guasto, e che tale assenza di segnale non fosse indicata dall’apposita bandierina rossa che in tal caso dovrebbe apparire sia sull’ADI (Attitude Director Indicator) sia sull’HSI (Horizontal Situation Indicator), i due principali strumenti del Flight Director, utilizzati rispettivamente per il controllo dell’assetto e della navigazione nel volo strumentale”. Come si `e detto nei paragrafi relativi alla strumentazione, nel DC 9, l’ADI e l’HSI ricevono i segnali di navigazione da una coppia di ricevitori, selezionabili in tre diversi modi sul quadretto “Radio” del pannello di controllo del Flight director. Quando l’interruttore `e sulla posizione 1/2, allora entrambe le coppie di strumenti (Comandante e Copilota) ricevono i segnali dal ricevitore numero l/2. Nella funzione – “Approach” – utilizzata in particolare per gli avvicinamenti in categoria 2, entrambi i ricevitori sono automaticamente sintonizzati sulla frequenza del ricevitore numero 1 (come appare nella finestrella dell’HSI), che invia i segnali all’HSI 1 (Comandante) e all’ADI 2 (Copilota), mentre il ricevitore numero 2 li invia all’HSI 2 e all’ADI 1. Questo incrocio di segnali consente l’intervento del comparatore, le cui indicazioni appaiono su un pannello luminoso davanti ad entrambi i piloti.
Appendice 2 Studio retrospettivo e classificazione di incidente
Figura A2.2. Diagramma dell’avvicinamento del volo AZ 404
228
A2.4 Ricostruzione delle ultime fasi del volo
229
“Quando sono stati sintonizzati sulla frequenza 108.3 MHz dell’ILS della pista 14 (IKL), i due apparati hanno subito rivelato una discordanza del segnale che indica il “sentiero” di discesa sulla pista (GP, Glide Path). Mentre sul pannello luminoso si accendeva la luce gialla “GP”, sulle scale verticali di destra nell’ADI 1 e nell’HSI 2 non appariva il triangolino bianco che indica la posizione del GP, mentre negli strumenti alterni esso appariva perfettamente al centro della scala”. Per il Comandante, che, come tutti i piloti della compagnia, non era al corrente della deficienza intrinseca dell’impianto ed era inoltre prevenuto a causa dei problemi all’apparato numero 2 nelle due tratte precedenti, `e stato quasi inevitabile decidere di posizionare il selettore sull’uno. “Nel momento in cui l’interruttore veniva girato tutto a sinistra, si inseriva la funzione di “cattura” automatica di un inesistente GP e l’aereo cominciava una discesa ininterrotta su una traiettoria di circa 1.000 piedi pi` u bassa del vero sentiero di discesa. Questa discesa prematura coincideva tragicamente con il degradare degli strati nuvolosi a nord dell’aeroporto. Ci` o non ha consentito ai piloti di confrontare le indicazioni strumentali erronee con la posizione della pista che sul GP reale era visibile gi` a da oltre 10 miglia, come testimoniato dai piloti degli altri aerei in avvicinamento”. Gli aerei in avvicinamento formavano due flussi convergenti da Est e da Ovest, che il controllore radar di avvicinamento faceva confluire, in discesa per 4.000 piedi (l’altitudine dalla quale ha inizio l’avvicinamento finale), alla distanza di 1214 miglia dalla testata, sulla rotta 138◦ del localizzatore dell’asse della pista 14. Gli aerei proseguivano poi lungo il GP che intercettavano alla distanza di 8 miglia dal DME accoppiato alla stessa stazione GP, che si trova circa 300 metri oltre la testata. “Davanti allo sfortunato DC 9 si trovava un aereo dello stesso tipo proveniente dall’altro ramo della sequenza di avvicinamento. Ci` o era noto ai piloti, poich´e a causa della sua vicinanza erano state loro richieste varie riduzioni di velocit`a che li avevano impegnati a riconfigurare pi` u volte l’aeroplano e ci` o unitamente ad un notevole “traffico” di comunicazioni sul canale radio, deve aver contribuito non poco ad assorbire l’attenzione del Comandante; “lasciando volare” un aeroplano che si dimostrava docile alle successive correzioni di assetto operate dall’autopilota che aveva regolarmente “catturato” il localizzatore e il glide, (come evidenziato sul pannello luminoso), riservando soltanto una parte dell’attenzione al controllo del volo di cui si occupava il Copilota, molto pi` u giovane e inesperto e quindi pi` u “allievo” che componente a pieno titolo dell’equipaggio di condotta. Mentre dunque i piloti si dimostravano preoccupati soprattutto della breve distanza dal velivolo precedente, temendo soprattutto di essere costretti a compiere una “riattaccata”, se non fossero stati in grado di mantenere la distanza minima imposta, anche il controllore era pi` u interessato a rilevare le distanze orizzontali fra i voli e a determinare prue e velocit` a per mantenerle entro i valori prescritti, che le rispettive quote, una volta che gli aerei erano stabilizzati sull’ILS. Ci`o avrebbe dovuto essere, di regola, annunciato dai piloti o richiesto per conferma dal controllore, il quale per` o poteva rilevarlo osservando sullo schermo radar la traiettoria orizzontale di ciascun aereo confondersi nella rotta finale di avvici-
230
Appendice 2 Studio retrospettivo e classificazione di incidente
namento. Ci` o non significava che esso era completamente stabilizzato sull’ILS (localizzatore e glide), ma se egli lo avesse richiesto al nostro DC 9, i piloti avrebbero risposto “Fully established” (come indicavano loro ben sei strumenti) a una distanza di 11–12 miglia, tale da insospettire con tutta probabilit` a il controllore che avrebbe letto accanto alla traccia dell’aereo un valore di altitudine troppo basso e avrebbe fatto una domanda-chiave, “What’s your altitude?”, che poteva salvare la situazione”. Per rispondere a tale richiesta, infatti, i piloti avrebbero probabilmente letto l’altimetro pi` u accuratamente di quanto non l’avessero fatto fino ad allora (e non possono non averlo letto, specialmente nella fase finale del volo). “La funzione principale del controllo del traffico aereo `e la prevenzione delle collisioni fra aeromobili. E il controllore aveva il suo bel da fare a inserire sull’ILS una sequenza di aeroplani mantenendone la separazione orizzontale. Inoltre, nonostante la prematura discesa del DC 9, esso non si `e mai trovato al di sopra della quota del velivolo che lo seguiva n´e `e mai disceso al di sotto della quota di quello che lo precedeva. Ci`o ha sicuramente contribuito a ridurre al minimo l’attenzione del controllore riguardo alla lettura della quota, espressa da un numero di tre cifre che “rotolano” ad ogni passaggio del fascio esploratore del radar. Dalla lettura del cockpit voice recorder si comprende che, se la sequenza di eventi che ha condotto all’incidente `e iniziata quando il Comandante ha deciso di “farlo sull’uno”, ci` o che ha definitivamente compromesso la situazione (ironia della sorte) `e stata la comunicazione del controllo di cambiare sul canale radio della torre di controllo. E ci` o perch´e il suo contenuto “liberatorio” (nessuna restrizione di velocit` a) ha interrotto il ragionamento del Comandante, assillato dal persistente dubbio di essere ancora troppo vicini all’aereo che li precedeva, che si basava sulla lettura della distanza DME (sette miglia). A complicare le cose aveva contribuito anche il ragionamento ad alta voce del Copilota che chiedeva se l’altro aereo non aveva ancora passato l’outer marker, che si trova a sole 3,8 miglia dalla pista. La risposta del Comandante, che pure “faceva la radio” fa pensare che non si fosse reso conto che chi li precedeva era stato effettivamente “cambiato” con la torre. L’unica spiegazione possibile `e che in quel momento il Comandante era impegnato a confrontare una situazione di volo automatico apparentemente perfetta con dati di distanza e altezza (QFE) sulla pista non congruenti con essa. Ci` o che pi` u gli preme, come dimostra il “no-no-no-no” alla “Riattaccata”, `e non “forare” la quota di passaggio sull’outer marker, che ha poco prima rammentato al copilota: 1.250 piedi. Eccola l`ı sull’altimetro . . . Mentre il copilota ha staccato l’autopilota e “regge” l’aereo con uno spunto di motore, l’indice delle centinaia di piedi, per la leggera turbolenza dell’aria, oscilla davanti alla finestrella del tamburo delle migliaia, scoprendo ora lo zero e ora l’uno”.
A2.5 Definizione logica analitica dell’incidente
231
A2.5 Definizione logica analitica dell’incidente A2.5.1 Individuazione degli Eventi e Event Time Line (ETL) Gli eventi che si possono identificare in questa sequenza incidentale sono molti e rispecchiano la definizione data in precedenza di essi, cio`e come dei fatti che hanno un impatto sul comportamento del sistema. Il caso particolare degli eventi umani si associa con l’esecuzione di azioni che determinano un cambiamento di stato del sistema. Nell’ottica di non formulare una lista troppo lunga di Eventi si rende necessario un lavoro di analisi e raggruppamento di una serie di azioni o cambiamenti di sistema in Macro-Eventi, i quali siano logicamente correlati. Sar` a compito dell’analista strutturarne adeguatamente le loro correlazioni tramite la tassonomia applicata.
Identificazione dei Macro-Eventi Nel caso dell’incidente in esame, `e possibile immediatamente osservare come due fatti siano fortemente correlati tra loro, anche se avvenuti in momenti assai diversi temporalmente: il fuori uso del ricevitore NAV n. 1, e la selezione del NAV n. 1 da parte dell’equipaggio come sistema attraverso il quale effettuare la manovra di avvicinamento. Questi due eventi verranno pertanto combinati nel primo Macro-Evento, che per semplicit`a verr` a identificato come: Macro-evento 1:
Selezione del NAV n. 1 da parte dell’equipaggio.
Esaminando poi l’insieme delle operazioni effettuate dall’equipaggio e dal controllo del traffico negli istanti successivi, fino al passaggio delle comunicazioni tra equipaggio e terra dal controllore del traffico alla torre, si possono osservare una serie assai articolata di “azioni” umane, cio`e di eventi, che hanno contribuito alla catastrofe finale. Questa serie di azioni correlate e dipendenti pu` o essere raggruppata in un unico evento, che verr` a definito come: Macro-evento 2:
Cattiva gestione della procedura di avvicinamento: azioni dei piloti e azioni del controllore radar.
Un’ulteriore suddivisione sarebbe pensabile a questo livello, suddividendo le azioni dei piloti da quelle del controllore. Tuttavia, questa suddivisione fine potr` a essere fatta a livello di implementazione di metodologia specifica. Infine, le ultime azioni dei piloti nei secondi immediatamente precedenti l’impatto con il terreno sono anche strettamente correlate tra loro e dipendenti da condizioni comuni. In particolare, la “riattaccata” iniziata dal primo ufficiale, che pilotava l’aeromobile, la successiva interruzione da parte del comandante, con il conseguente impatto con il terreno possono essere raggruppate in un unico evento definito come: Macro-evento 3:
Manovra di “riattaccata” e successivo impatto con il terreno.
232
Appendice 2 Studio retrospettivo e classificazione di incidente
Event Time Line Questi tre “Macro-Eventi” sono successivi e correlati tra di loro nella catena temporale di sviluppo dell’incidente. Pertanto, possono essere identificati sulla linea temporale, nota come Event Time Line (ETL), e verranno discussi e trattati in quest’ordine, nell’applicazione delle tre tassonomie: 1. Selezione del NAV n. 1 da parte dell’equipaggio. 2. Cattiva gestione della procedura di avvicinamento: – azioni dei piloti; – azioni del controllore radar. 3. Manovra di “riattaccata” e successivo impatto con il terreno. Data la scelta fatta di considerare solo tre Macro-Eventi e la loro intrinseca complessit`a, risulta difficile identificare il loro ruolo in termini di eventi scatenanti ed eventi conseguenza, ovvero associare a questi un attributo di positivit` a o negativit` a. Infatti, data la loro natura complessa ed articolata risultano tutti e tre come eventi negativi, all’interno dei quali tuttavia si possono distinguere dei fatti positivi che per`o sono stati vanificati dalla dinamica delle interazioni. Inoltre, mentre il primo evento `e chiaramente un Evento iniziatore, e quindi scatenante, della sequenza incidentale, gli altri due sono la conseguenza anche, ma non solo, di questo primo evento. In altre parole, esistono fattori rilevanti che hanno contribuito all’accadere degli eventi 2 e 3 che sono indipendenti dall’evento 1.
A2.6 Analisi dati e definizione cause a mezzo della tecnica ADREP La procedura di classificazione mediante la tecnica ADREP-2000 `e stata descritta in precedenza ed `e riassunta nei passi presentati in precedenza e ripetuta qui di seguito per completezza (Fig. A2.3).
Figura A2.3. Processo di classificazione utilizzando ADREP (da Cap. 3 Fig. 3.13)
A2.6 Analisi dati e definizione cause a mezzo della tecnica ADREP
233
A2.6.1 Occurence Severity Per la definizione della Severit` a dell’Occorrenza (“Occurrence Severity”) si deve fare riferimento alla tabella “Classi di Occorrenze” della tassonomia ADREP, che contempla 5 livelli di severit` a crescente ed una condizione di severit`a non determinata (Fig. 3.5). Data la gravit` a dell’incidente di Zurigo e le gravissime conseguenze che ne sono derivate in termini di effetti sui passeggeri ed equipaggio, sull’aeromobile e sull’ambiente, `e evidente che questa “occorrenza” presenta una severit` a massima e pertanto viene classificata, in termini di ADREP, come “100 Accident ”. • Occurrence Severity: Accident. A2.6.2 Occurrence Category La classificazione della categoria di appartenenza dell’occorrenza viene fatta attraverso una scelta di voci che non sono state definite in nessuna tabella ADREP. Come gi`a discusso in precedenza, la scelta della categoria pu` o essere fatta afferendosi ad una tabella di tipologie di occorrenze definita in Italia da un organismo che contiene l’autorit`a italiana dellaviazione civile (ENAC) e la maggior parte delle organizzazioni coinvolte nel trasporto aereo (compagnie, gestori aeroportuali, aziende di manutenzione, l’ente nazionale per il controllo del traffico, ecc.), noto come Comitato Italiano Sicurezza del Volo (“Italian Flight Safety Committee”, IFSC). La tabella attualmente in vigore `e stata presentata in precedenza. Per la classificazione dell’incidente di Zurigo viene selezionata la voce “CFIT” (Fig. A2.4): • Occurrence Category: CFIT (Controlled Flight into Terrain). A2.6.3 Classificazione degli Eventi Verranno ora analizzati e classificati in dettaglio i tre Macro-Eventi identificati in precedenza. Si far` a riferimento alle tabelle della tassonomia ADREP-2000 (http://www.icao.int/anb/aig/Taxonomy/). Queste tabelle vengono aggiornate regolarmente in modo da essere in grado di considerare le evoluzioni e gli sviluppi della tecnologia e dei contesti di lavoro del dominio del trasporto aereo civile. Le tabelle che sono state utilizzate per il presente esercizio di classificazione sono quelle che si trovavano sul sito web a Dicembre 2008. Pertanto, `e possibile che i risultati della presente classificazione differiscano, anche se di poco, da quanto classificato in precedenza, ovvero in confronto ad una eventuale futura ri-classificazione dell’incidente. La classificazione verr` a riportata attraverso la rappresentazione grafica generica presentata in precedenza. In questo caso, le varie voci della classificazione verranno ovviamente dettagliate in funzione dei loro valori e significati logici.
234
Appendice 2 Studio retrospettivo e classificazione di incidente
Figura A2.4. Categoria di Occorrenza relativa allincidente di Zurigo (da Cap. 3 Fig. 3.14)
Evento 1: Selezione del NAV n. 1 da parte dell’equipaggio Il Macro-Evento 1 `e descritto attraverso la classificazione riportata in Tab. A2.1. Per maggior chiarezza, e solo in questo caso, la classificazione viene riprodotta anche in Fig. A2.5.
A2.6 Analisi dati e definizione cause a mezzo della tecnica ADREP Tabella A2.1. Classificazione ADREP del Macro-Evento 1
235
236
Appendice 2 Studio retrospettivo e classificazione di incidente
Figura A2.5. Classificazione ADREP del Macro-Evento 1: Selezione del NAV n. 1 da parte dell’equipaggio
Evento 2: Cattiva gestione della procedura di avvicinamento: azioni dei piloti e azioni del controllore radar Il Macro-Evento 2 considera le azioni di due diverse categorie di persone: i due piloti ed il controllore del volo incaricato di gestire l’avvicinamento fino al passaggio del volo al controllore di torre. La classificazione di questo evento, anche se alla sua evoluzione contribuiscono le azioni di pi` u persone pu` o essere fatta attraverso un solo tipo di evento, distinguendo poi tra i vari attori con diversi “fattori descrittivi” ed i loro attributi. La rappresentazione grafica di questo Macro-Evento che copre un periodo abbastanza lungo della dinamica e sequenza di azioni, relativamente alla fase finale del volo, `e riportato qui di seguito in Fig. A2.6.
A2.6 Analisi dati e definizione cause a mezzo della tecnica ADREP
237
Figura A2.6. Classificazione ADREP del Macro-Evento 2: Cattiva gestione della procedura di avvicinamento: Azioni dei piloti e azioni del controllore radar
Evento 3: Cattiva gestione della “riattaccata” e successivo impatto con il terreno Il Macro-Evento 3 si concentra totalmente sulle ultime azioni dei due piloti, i quali hanno progressivamente realizzato che vi era una situazione insolita e non conforme alle normali condizioni del volo. Tuttavia, la perdita di “percezione della situazione”, soprattutto del Comandante, il quale evidentemente era convinto di trovarsi ad una quota molto superiore alla reale del velivolo, ha dato origine alla collisione finale con il terreno. La rappresentazione grafica di questo Macro-Evento che copre il periodo terminale della dinamica del volo, `e riportato qui di seguito in Fig. A2.7.
238
Appendice 2 Studio retrospettivo e classificazione di incidente
Figura A2.7. Classificazione ADREP del Macro-Evento 3: Cattiva gestione della riattaccata e successivo impatto con il terreno
A2.7 Analisi dati e definizione cause a mezzo della tecnica CREAM A2.7.1 Individuazione delle sequenze critiche L’applicazione del metodo CREAM porta a ricavare informazioni dettagliate e salienti relative alle manifestazioni ed alle cause di incidenti dovute a fattori umani. Dato che la tassonomia ed il metodo CREAM si concentrano sugli aspetti cognitivi e comportamentali dell’uomo, i precedenti Macro-Eventi definiti nello studio dell’incidente attraverso il metodo ADREP non sono pi` u sufficienti. Pertanto, partendo dalla ricostruzione dell’accaduto riportata nel paragrafo precedente `e possibile identificare il succedersi di cinque particolari Eventi o azioni errate, che hanno avuto come conseguenza finale l’impatto dell’aeromobile contro la collina (Pedrali, 1993). Queste azioni errate sono:
A2.7 Analisi dati e definizione cause a mezzo della tecnica CREAM
1. 2. 3. 4. 5.
239
Mancato annuncio dell’ILS stabilizzato da parte dei piloti. Omissione del briefing per la decisione di un avvicinamento in CAT I. Mancata regolazione della DH sul radar altimetro. GO AROUND interrotto. Manovra di LEVELLING.
La definizione di tali Eventi pu` o dunque essere considerato il primo passo della tecnica CREAM da applicare. Prima di cominciare l’applicazione della tassonomia CREAM, devono essere fatte alcune ipotesi di lavoro. Ipotesi di Lavoro 1 Gli eventi identificati sono, in pratica, dei fenotipi o manifestazioni che hanno avuto origine da una serie di cause interne ed esterne che si sono verificate nell’arco del processo decisionale. Il criterio seguito nell’applicazione della classificazione CREAM `e quello di partire dal fenotipo, e, con l’ausilio di tabelle, cercare di ricostruire il processo mentale che ha portato a quell’azione, tenendo sempre presente ci`o che `e avvenuto nel frattempo “all’esterno del pilota”. Ipotesi di Lavoro 2 Per poter seguire questo criterio `e quindi necessario fare riferimento anzitutto al modello, o paradigma, di comportamento umano, COCOM, ed in particolare al componente “Competence” del modello ed alle 4 funzioni cognitive, rappresentate nel modello SMoC (“Simple Model of Cognition”): Percezione/Osservazione, Interpretazione, Pianificazione/Scelta, Azione/Esecuzione. Il modello delle competenze `e praticamente simile al modello RMC gi`a discusso in relazione al paradigma “Information Processing System”. Ipotesi di Lavoro 3 ` quindi necessario sviluppare una tecnica che permetta di collegare i fenotipi con E il modello di comportamento umano e la classificazione degli elementi costituenti il comportamento (le funzioni cognitive) ed infine i dati reali ottenuti dai CVR e FDR. Si riporta molto schematicamente, in Fig. A2.8 il processo di uso della tassonomia CREAM e del modo in cui si percorrono le tabelle, quattro, quante sono le funzioni cognitive del modello umano, gi` a discusso in dettaglio nel capitolo 3. Si ricorda che il processo di classificazione inizia con un “fenotipo” e risale attraverso le funzioni cognitive del modello, arrestandosi solo quando vengono identificate unicamente cause esterne e cause specifiche relative ad una certa funzione cognitiva. Queste sono le cause iniziali e dunque i “genotipi” dell’errore in esame. Verranno ora riportati i risultati dell’applicazione del metodo, in cui i riferimenti a cause ed effetti generici sono da ritrovarsi nelle tabelle della tassonomia
240
Appendice 2 Studio retrospettivo e classificazione di incidente
Figura A2.8. Procedimento di applicazione del processo retrospettivo: Tassonomia CREAM
CREAM gi` a presentate, mentre cause ed effetti specifici sono identificati negli eventi stessi che sono avvenuti durante l’incidente. Azione errata 1: mancato annuncio dell’ILS stabilizzato da parte dei piloti Il primo errore viene ricostruito arrestandosi, per quanto riguarda le cause primarie, alla pianificazione. Infatti, dalla ricostruzione degli avvenimenti spaziotemporali di quanto acceduto in cabina di pilotaggio risulta chiaro che tutte le indicazione relative alla “cattura” dell’ILS sono state percepite ed interpretate correttamente dai due piloti. Pertanto la ricostruzione delle cause della prima azione errata si identifica con una causa specifica legata all’ambiente di lavoro, al malfunzionamento dello strumento ILS/VOR ed al sovraccarico di lavoro dovuto alla situazione del traffico aereo. La classificazione mediante CREAM di tale azione errata `e sviluppata in Tab. A2.2.
A2.7 Analisi dati e definizione cause a mezzo della tecnica CREAM
241
Tabella A2.2. “ILS ESTABLISHED” non comunicato
Azione errata 2: omissione del briefing per la decisione di un avvicinamento in CAT I Anche in questo caso, viene assunto che i piloti conoscano le procedure e che si siano resi conto delle informazioni trasmesse loro dalla strumentazione di bordo. Tuttavia, esistono condizioni ambientali che influiscono negativamente sulla pianificazione delle azioni da fare; in primo luogo la distanza spaziale con il velivolo che li precede nel vettoramento e la possibilit` a che, avvicinandosi troppo a questo, il controllore decida di chiedere loro una riattaccata e di togliersi dalla sequenza. Ci`o farebbe perdere tempo e la cosa infastidisce il comandante in maniera determinate, portandolo ad omettere la procedura appropriata per l’avvicinamento di questo volo, cos`ı come richiesto esplicitamente dalla manutenzione effettuata a Linate, al termine della tratta precedente, sui sistemi di gestione del posizionamento dell’aereo nei confronti dell’ILS. La classificazione CREAM di tale azione errata `e sviluppata in Tab. A2.3.
242
Appendice 2 Studio retrospettivo e classificazione di incidente Tabella A2.3. “Briefing CAT I” non eseguito
Azione errata 3: mancata regolazione della DH sul radar altimetro Le cause che portano i piloti, ed in particolare il comandante, a non regolare la DH (“Decision Height”) a 200 piedi per un atterraggio eseguito in CAT I sono del tutto identiche alle cause che hanno fatto s`ı che fosse commesso l’errore precedente. Pertanto, la classificazione mediante CREAM di tale azione errata `e del tutto simile alla predente (Tab. A2.4).
A2.7 Analisi dati e definizione cause a mezzo della tecnica CREAM
243
Tabella A2.4. “Reset DECISION HEIGHT” non eseguito
Azione errata 4: GO AROUND interrotto Le fasi finali del volo, con il “go around” interrotto ed il successivo livellamento, sono evidentemente da collegare ad una perdita di percezione della situazione, ancora una volta soprattutto da parte del comandante. Infatti, `e da escludere che egli, se si fosse accorto della posizione dell’aereo e della sua distanza dal terreno, avrebbe interrotto il “go around”. Anzi, `e certo che avrebbe iniziato egli stesso, e ancora prima, la manovra di riattaccata. Dunque, si tratta proprio di un caso in cui si sono manifestati degli errori durante le funzioni di percezione e possibilmente anche di interpretazione, i quali hanno dato origine ad una rappresentazione mentale della situazione totalmente inadeguata e differente dalla realt`a. A tutto ci` o hanno evidentemente contribuito una serie di fattori ambientali e personali, quali ad esempio: • la distrazione del comandate, la quale `e una delle prime sorgenti di perdita di percezione della situazione; • il comportamento ambiguo dell’altimetro del tipo “Drum-Pointer” che, come ben noto, induce ad una lettura errata della quota;
244
Appendice 2 Studio retrospettivo e classificazione di incidente
• la carenza di assertivit`a da parte del primo ufficiale, il quale si trova in una situazione di dubbio gi` a da parecchi momenti, prima che il comandante esprima il suo “disagio” nella verifica della situazione: “distanza dalla pista-altezza dell’aereo”. Tutti questi aspetti fanno s`ı che l’azione errata di interrompere il “go around” (riattaccata) chiamato dal primo ufficiale sia ricostruita attraverso un processo abbastanza articolato di cause generiche e specifiche e di effetti generici e specifici che risalgono fino ad un fenotipo fondamentale associato alla percezione della quota indicata dall’altimetro. Pertanto, la classificazione mediante CREAM di tale azione errata `e rappresentata in Tab. A2.5. Azione errata 5: Manovra di LEVELLING La “spiegazione” dell’errore nell’esecuzione di una manovra di livellamento `e completamente riconducibile all’errore precedente e quindi associato alle stesse cause, cos`ı come rappresentato in Tab. A2.6. A2.7.2 Diagrammi di flusso Vengono qui di seguito riportati i diagrammi di flusso, che sono limitati a quattro anzich´e cinque, in quanto quelli relativi all’omissione del briefing e all’omessa regolazione della DH sono del tutto identici: 1. Fig. A2.9. Diagramma di flusso relativo allo “ILS ESTABLISHED” non comunicato; 2. Fig. A2.10. Diagramma di flusso relativo al “Briefing CAT I” non eseguito e mancata regolazione della DH sul radar altimetro; 3. Fig. A2.11. Diagramma di flusso relativo al “GO AROUND” interrotto; 4. Fig. A2.12. Diagramma di flusso relativo al “LEVELLING” eseguito.
A2.7 Analisi dati e definizione cause a mezzo della tecnica CREAM Tabella A2.5. “GO AROUND” interrotto
245
246
Appendice 2 Studio retrospettivo e classificazione di incidente Tabella A2.6. LEVELLING eseguito
A2.7 Analisi dati e definizione cause a mezzo della tecnica CREAM
247
Figura A2.9. Diagramma di flusso relativo allo “ILS ESTABLISHED” non comunicato
Figura A2.10. Diagramma di flusso relativo al “Briefing CAT I” non eseguito
Figura A2.11. Diagramma di flusso relativo al “GO AROUND” interrotto
248
Appendice 2 Studio retrospettivo e classificazione di incidente
Figura A2.12. Diagramma di flusso relativo al “LEVELLING” eseguito
A2.7.3 Commento dei risultati Dopo aver applicato la tassonomia al caso studio, `e indispensabile l’analisi critica dei risultati ed ancor pi` u interessante risulta il confronto con le conclusioni a cui `e giunta la Commissione di inchiesta svizzera. Dalla ricostruzione dell’accaduto si `e ricavato che durante la fase di avvicinamento all’aeroporto, sono stati decisivi cinque eventi. Il verificarsi in sequenza di questi eventi, ciascuno di essi gi`a abbastanza critico ai fini dello svolgimento corretto dell’intera procedura, ha, per cos`ı dire, compromesso definitivamente l’esito della “missione”. Questi eventi sono stati esaminati con la tassonomia CREAM, la quale ha il pregio di consentire la ricerca delle cause di errore attraverso la ricostruzione del possibile processo mentale che ha condotto l’operatore, nella fattispecie i piloti, a compiere quella determinata azione, grazie all’analogia esistente tra la tassonomia ed il modello cognitivo (SMoC). Con l’ausilio della tassonomia `e stato possibile mettere in evidenza: • la concatenazione “causa-effetto” all’interno del processo cognitivo tra le varie cause interne; • la possibilit` a che una o pi` u cause interne, in differenti fasi del processo cognitivo, abbiano concorso in un’altra causa interna, in una fase ancora differente. Il primo aspetto riguarda tutti gli eventi presi in considerazione, mentre il secondo lo si ritrova nell’interruzione della riattaccata e nel successivo livellamento dell’aeromobile. Ci`o che emerge dal confronto con quanto riportato nei paragrafi relativi alle conclusioni dell’inchiesta, `e che l’applicazione della tassonomia ha identificato non solo le medesime cause che hanno determinato l’incidente, ma le ha messe anche in relazione tra loro. Inoltre `e stato possibile evidenziare, in alcuni degli eventi citati, delle ulteriori cause (interne ed esterne).
A2.8 Analisi dati e definizione cause a mezzo della tecnica ISAAC
249
Infatti `e emerso che fattori come l’alto carico di lavoro (“work overload”) e la pressione temporale (“time pressure”), tutte cause interne, sono stati i responsabili di una pianificazione poco lungimirante (“planning horizon too short”), o di un errore nella procedura (“use of wrong decision rule”). A loro volta, queste cause interne sono state attivate da un funzionamento inadeguato del sistema o da un conflitto di priorit` a esistente al momento della scelta della strategia. Anche il caso di una mancanza di attenzione da parte dei piloti (“failure of attention”), dovuta a chiss` a quale stato interiore, `e stato molto probabilmente la causa di una errata lettura di uno strumento, l’altimetro, che di per s´e gi`a si prestava ad una errata lettura. Tutto ci`o `e ben riassunto con la causa primaria di errore umano nota come perdita di percezione della situazione (“loss of situation awareness”), che `e una delle cause principali enunciate nella definizione della “Sporca Dozzina” e che `e quasi sempre presente in casi di incidenti catastrofici come l’elemento principale di errori commessi dagli “attori” di prima linea di un processo, come appunto i piloti, i controllori, gli operatori di impianto ecc. Si `e riscontrato dunque, in alcuni casi, un diretto collegamento tra cause interne ed esterne, che non dipendono dal pilota, mentre in altri ancora, le cause interne si sono innescate a causa di particolari fattori interni all’uomo che peraltro, `e difficile conoscere. Comunque, sia le cause interne che quelle esterne, in maniera dipendente o indipendente le prime, e sempre relazionate a quelle esterne le seconde, interagiscono all’interno del processo cognitivo che `e costituito da continue elaborazioni di obbiettivi, intenzioni tattiche che avvengono contemporaneamente a diversi fasi, secondo cicli diversi.
A2.8 Analisi dati e definizione cause a mezzo della tecnica ISAAC I tre Macro-Eventi identificati dall’analisi logica dell’incidente verranno analizzati suddividendo l’analisi del Macro-Evento 2 tra le azioni dell’equipaggio e quelle del controllore del volo. Pertanto sono stati classificati di fatto quattro Eventi: 1. Selezione del NAV n. 1 da parte dell’equipaggio. 2. Cattiva gestione della procedura di avvicinamento: 2a. Azioni dei piloti; 2b. Azioni del controllore radar. 3. Cattiva gestione della “riattaccata” e successivo impatto con il terreno. Questi eventi sono stati studiati e classificati in dettaglio seguendo la procedura e le rappresentazioni grafiche descritte in precedenza. Evento 1: Selezione del NAV n. 1 da parte dell’equipaggio L’evento in oggetto, gi`a ampiamente discusso, non verr` a ulteriormente commentato qui di seguito.
250
Appendice 2 Studio retrospettivo e classificazione di incidente
Similmente, le rappresentazioni tabellare (Tab. A2.7) e grafica (Fig. A2.13) dell’evento in oggetto sono l’applicazione specifica della teoria descritta in precedenza e quindi non verranno discusse in dettaglio, essendo il contenuto della tabella e della figura relative auto-chiarificatrici. Per ragioni analoghe per quanto concerne le analisi degli altri eventi, verranno riportate solo le rappresentazioni grafiche delle classificazioni in quanto non si ritiene necessaria una descrizione pi` u di dettaglio che potrebbe solo ripetere quanto gi` a ampiamente contenuto nelle figure relative. Tabella A2.7. Tabella riassuntiva classificazione ISAAC Evento 1: Selezione del NAV n. 1 da parte dell’equipaggio
A2.8 Analisi dati e definizione cause a mezzo della tecnica ISAAC
251
Figura A2.13. Rappresentazione grafica classificazione ISAAC Evento 1: Selezione del NAV n. 1 da parte dell’equipaggio
252
Appendice 2 Studio retrospettivo e classificazione di incidente
Evento 2a: Cattiva gestione della procedura di avvicinamento: Azioni dei piloti L’analisi e classificazione ISAAC dell’Evento 2a (Cattiva gestione della procedura di avvicinamento: Azioni dei piloti) `e riportata in Fig. A2.14.
Figura A2.14. Rappresentazione grafica classificazione ISAAC Evento 2a: Cattiva gestione della procedura di avvicinamento: Azioni dei piloti
A2.8 Analisi dati e definizione cause a mezzo della tecnica ISAAC
253
Evento 2b: Cattiva gestione della procedura di avvicinamento: Azioni del controllore radar L’analisi e classificazione ISAAC dell’Evento 2b (Cattiva gestione della procedura di avvicinamento: Azioni del controllore radar) `e riportata in Fig. A2.15.
Figura A2.15. Rappresentazione grafica classificazione ISAAC Evento 2b: Cattiva gestione della procedura di avvicinamento: Azioni del controllore radar
254
Appendice 2 Studio retrospettivo e classificazione di incidente
Evento 3:
Cattiva gestione della “riattaccata” e successivo impatto con il terreno L’analisi e classificazione ISAAC dell’Evento 3 (Cattiva gestione della “riattaccata” e successivo impatto con il terreno) `e riportata in Fig. A2.16.
Figura A2.16. Rappresentazione grafica classificazione ISAAC Evento 3: Cattiva gestione della riattaccata e successivo impatto con il terreno
Abbreviazioni
ADI AFCS AOP AOR APJ ATHEANA ATIS ATM CA CE CFIT COCOM CREAM CVR DBA DBS DH DME DSS DYLAM-HERA EASA EF ENAC EOAT EOP ET ETA ETL FAME
Attitude Director Indicator Automatic Flight Control System Abnormal Operating Procedures Allocazione delle Risorse Absolute Probability Judgement A Technique for Human Event Analysis Automatic Terminal Information System Air Traffic Management Consequence Analysis Commissione Europea Controlled Flight into Terrain Contextual Control Model Cognitive Reliability and Error Analysis method Cockpit Voice Recorder Design Basis Accident Difese Barriere Salvaguardie Decision Height Distance Measuring Equipment Decision Support Systems Dynamic Logical Analytical method for Human Error Risk Assessment European Aviation Safety Agency Error Factor Ente Nazionale Aviazione Civile Extended Operator Action Tree Emergency Operating Procedures Event Tree Event Tree Analysis Event Time Line Function Allocation Method
256
Abbreviazioni
FDM FDR FG FMEA FMECA FRP FS FT FTA FWM G/S GP GPWS HAZOP HCD HCR HEP HERMES HF HFE HMI HRA HRI HSI ICAO IEC IFSC ILS IPS ISA ISAAC KB KBB KPI MdR MOR MTBF MTTR NHEP OAT PC PFD PHA PIPE PSA
Flight Data Monitoring Flight Data Recorder Frequency Gambling Failure Mode and Effect Analysis Failure Mode Effect and Criticality Analysis Functional Restoration Procedures Functional Safety Fault Tree Fault Tree Analysis Focal Working Memory Glide Slope Glide Path – Sentiero di discesa Ground Proximity Warning System Hazard and operability study Human-Centred-Design Human Cognitive Reliability Human Error Probability Human Error Risk Management for Engineering Systems Human Factors Human Failure Events Human-Machine Interaction Human Reliability Analysis Hazard and Risk Indicator Horizontal Situation Indicator International Civil Aviation Organization International Electrotechnical Commission Italian Flight Safety Committee Instrument Landing System Information Processing System Instrument Society of America Integrated Systemic Approach for Accident Causation Knowledge Base Knowledge Based Behaviour Key Performance Indicators Matrice di Rischio Mandatory Occurrence Reporting Mean Time Between Failures Mean Time To Repair Nominal Human Error Probabilities Operator Action Tree Paired Comparison Probability to Fail on Demand Preliminary Hazard Analysis Percezione, Interpretazione, Pianificazione ed Esecuzione Probabilistic Safety Assessment
Abbreviazioni
PSF PWM QAT QRA RBB RBSA RMC SA SBB SFF SHA SHARP SHELL SIL SL SL SLIM SM SMoC SMS SRK TAR TCAS TESEO THERP THR TMR UA UE VOR WM
Performance Shaping Factors Peripheral Working Memory Quality Assurance and Training Quantitative Risk Assessment Rule Based Behaviour Risk Based Safety Analysis Reference Model of Cognition Situational Awareness Skill Based Behaviour Safe Failure Fraction System Hazard Analysis Systematic Human Action Reliability Procedure Software, Hardware, Environment and Liveware Safety Integrity Level Step Ladder Severity Level Success Likelihood Index Methodology Similarity Matching Simple Model of Cognition Safety Management System Skill, Rule, Knowledge Tolerable Accident Rate Traffic Collision Avoidance System Tecnica Empirica Stima Errori Operatori Technique for Human Error Rate Prediction Tolerable Hazard Rate Triple Modular Redundant Unsafe Acts Unione Europea VHF Omnidirectional Range Working Memory
257
Glossario
Ambiente di lavoro Le condizioni ambientali di lavoro (Ambiente di lavoro) sono rappresentate da tutti quei fattori che influenzano l’efficienza e l’affidabilit` a delle performance dell’uomo nell’ambito di un certo contesto lavorativo. Analisi prospettica L’analisi prospettica di sicurezza consiste in una valutazione capace di predire ed anticipare preventivamente le conseguenze di interazioni sistemiche, dati taluni eventi iniziatori e condizioni al contorno. Analisi retrospettiva L’analisi retrospettiva consiste nella valutazione di eventi che coinvolgono “incidenti”, “inconvenienti gravi”, o “quasi-incidenti”, ovvero circostanze di “non-conformit`a” operative, con l’obiettivo di trovare le ragioni fondamentali e le cause (“root causes”) che li hanno promossi. Approccio (vedi Metodo) Barriera Per barriera, difesa e salvaguardia si intende una misura sviluppata ed adottata da un’organizzazione con l’intento di creare percezione, comprensione, protezione, contenimento ed identificazione di possibili vie di recupero e/o di fuga di fronte a pericoli o situazioni incidentali. Barriera Causale Si definisce Barriera Causale (“Cause Barrier”) una specifica funzione, azione, o sistema che contribuisce a ridurre la possibilit` a di sviluppo di uno specifico pericolo (configurazione pericolosa) che si manifesta in una catena incidentale. Barriera Consequenziale Si definisce Barriera Consequenziale (“Consequence Barrier”) una funzione o azione protettiva che contribuisce a limitare i danni e proteggere dalle conseguenze derivanti da una configurazione pericolosa globale che si manifesta come risultato di un incidente. Configurazione Pericolosa Una Configurazione Pericolosa (“Boundary Hazard”) `e uno stato limite del sistema, che ha la potenzialit`a, direttamente o in combinazione con altri fattori (esterni al sistema), di dare luogo ad un incidente o occorrenza grave.
260
Glossario
Contesto Operativo Il Contesto Operativo (“Operational Contex”) `e definito attraverso una modalit` a operativa, una fase operativa ed un settore operativo, eventualmente associati ad alcune specifiche circostanze e condizioni socio-teciche. Cultura di un’organizzazione La cultura di un’organizzazione si pu` o definire come l’insieme delle norme, dei valori, dei comportamenti, ideologie, ed assunzioni fondamentali, per lo pi` u inconsci e raramente articolati, che un’organizzazione sviluppa su se stessa, sulla natura dei suoi componenti e sull’ambiente in cui opera. La cultura organizzativa `e costituita dall’insieme delle “regole non scritte” che governano i comportamenti accettabili all’interno ed all’esterno dell’organizzazione stessa. Deviazione standard La deviazione standard, o scarto quadratico medio, `e un indice di dispersione derivato direttamente dalla varianza, e misura la dispersione dei dati intorno al valore atteso. Errore umano L’errore umano `e definito come il fallimento nel raggiungere l’obbiettivo desiderato di azioni pianificate, senza l’intervento di eventi esterni imprevisti. Errori attivi Errori attivi (“Active Errors”) sono errori commessi da operatori in prima linea, cio`e dagli attori primari nel processo di controllo di un sistema, i quali risultano immediatamente visibili nell’evoluzione di un incidente. Errori latenti Errori latenti (“Latent Errors”) sono errori commessi ad alti livelli in seno ad un’organizzazione, ovvero in condizioni remote o distanti dal processo attivo di controllo, come, ad esempio, durante la manutenzione. Errori di omissione Azioni oppure insieme di passi correlati che vengono omessi durante l’esecuzione di una procedura. Errori di commissione Azioni errate, dovuta a carenze di conoscenza, del tipo: selezione (selezione errata di un controllo; posizionamento errato di un controllo) e/o sequenza (sequenza temporale, cio`e azione eseguita troppo presto o tardi; sequenza qualitativa, cio`e azione troppo o troppo poco accentuata). Event Time Line (ETL) Per Event Time Line si intende la strutturazione degli eventi di un’occorrenza in una sequenza temporale, che si genera identificando la dinamica con cui questi si sono succeduti e che fornisce il quadro generale della sequenzialit` a e dipendenza tra gli stessi. Evento Per evento si intende un fatto o un’azione determinanti un cambiamento di stato del sistema. Fattori esterni Fattori esterni possono essere considerati tutti gli eventi casuali fisici o sistemici che alterano o influenzano le condizioni di lavoro locali e le misure di sicurezza in maniera tale da promuovere performance inadeguate dell’impianto e comportamenti erronei da parte degli operatori.
Glossario
261
Fattori personali Fattori personali sono le condizioni individuali fisiche o mentali che influiscono sul comportamento, che sono specifiche di ogni persona e possono essere generalizzate solo quando vengono estese ad un gruppo particolare di persone in ambiti pi` u generici di categorie o classi di operatori. Funzione di Distribuzione Cumulativa Una Funzione di Distribuzione Cumulativa, F(t), `e definita come la probabilit` a che una variabile stocastica, T, assuma un valore inferiore od uguale ad un certo valore specifico t. Fattori Umani I Fattori Umani rappresentano la disciplina che si occupa dell’analisi e dell’ottimizzazione delle relazioni tra le persone e le loro attivit`a, integrando le scienze umane e l’ingegneria in applicazioni sistemiche, e prendendo in considerazione gli aspetti cognitivi e socio-tecnici dei contesti lavorativi. Gestione delle emergenze (“emergency management”) La Gestione delle emergenze `e l’insieme delle misure messe in atto per limitare i danni e supportare gli esseri umani, l’ambiente e l’organizzazione stessa, a seguito di situazioni incidentali serie ed eventi catastrofici. Gestione degli errori umani (“error management”) La Gestione degli errori umani (“error management”) in termini di sicurezza comprende la variet` a di metodi sviluppati per prevenire e ridurre gli errori umani, per recuperare la normalit` a e per controllare le conseguenze avverse degli errori, qualora questi venissero comunque commessi Instrument Landing System L’Instrument Landing System (in italiano Sistema di atterraggio strumentale), comunemente conosciuto come ILS, `e un sistema di terra e di bordo ideato per guidare gli aeromobili nella fase finale di un avvicinamento strumentale di precisione verso la pista di un aeroporto. Lapses (errori di carenza di memoria - dimenticanze) Sono errori cognitivi che coinvolgono una mancanza di memoria e risultano in manifestazioni di comportamento non appropriato. Media In statistica la media `e un indicatore di posizione normalmente associato al valore pi` u atteso di una distribuzione. Si hanno diversi tipi di medie, quali la media aritmetica, la media geometrica, la media armonica, la media di potenza, che a loro volta possono essere semplici o ponderate. Mediana In statistica descrittiva, data una distribuzione X di un carattere quantitativo oppure qualitativo ordinabile (ovvero le cui modalit` a possano essere ordinate in base a qualche criterio), si definisce la mediana come il valore/modalit` a assunto dalle unit` a statistiche che si trovano nel mezzo della distribuzione. Metodo/Tecnica/Approccio Per metodo (o tecnica o approccio) si intende un insieme di modelli e teorie atte a trattare un problema specifico e ben definito. Metodologia Per metodologia si intende un insieme strutturato di metodi e modelli, tali da permettere una visione d’insieme articolata e globale del problema che si intende affrontare.
262
Glossario
Mistakes (errori profondi) Sono errori commessi ad alto livello cognitivo, che coinvolgono un processo che dipende dalle informazioni percepite, dalla pianificazione, dal giudizio e dalla formulazione di intenzioni. Moda In statistica, la moda o norma di una distribuzione `e la modalit` a (o la classe di modalit` a) caratterizzata dalla massima frequenza. In altre parole, `e il valore che compare pi` u frequentemente. Modello Per modello si intende una rappresentazione teorica/logica capace di descrivere in maniera analitica ed esaustiva ci` o a cui si riferisce. Occorrenza Un’occorrenza in aviazione `e definita come un’interruzione di operazioni, difetto, fallimento, o altra circostanza non regolare che ha o pu`o avere influenza sulla sicurezza del volo, che non ha necessariamente dato origine ad un incidente severo, e che soddisfa la necessit`a di archiviare i fatti accaduti secondo una modalit` a standard in un sistema di raccolta dati, tale da permettere valutazioni di carattere retrospettivo e prospettico associate alla sicurezza stessa. Pericolo Il pericolo rappresenta una condizione del sistema che pu` o causare ferite o morte, rottura o distruzione di materiale, ovvero danno all’ambiente. Probabilit` a La probabilit` a di un evento `e una “misura scientifica” della sua possibilit` a di accadimento, in ogni tentativo o esperimento sviluppati in condizioni note. La probabilit` a si esprime mediante un numero compreso fra 0 ed 1: un evento con zero probabilit` a `e un evento impossibile, mentre un evento con probabilit` a uno `e un evento certo. QNH Pressione atmosferica esistente all’elevazione di una localit` a e riportata al livello medio del mare (“Mean Sea Level”, MSL) mediante tabelle di aria tipo. Il QNH `e pertanto il valore di pressione da inserire nella scala altimetrica affinch´e questo, all’atterraggio, indichi l’elevazione aeroportuale e al livello del mare segni zero. QFE Pressione atmosferica corrispondente al livello ufficiale dell’aerodromo. Se si inserisce il QFE, l’altimetro indica l’altezza assoluta dell’a/m in volo rispetto l’aeroporto e, quindi, indicher` a zero all’atterraggio. QNE Pressione atmosferica esistente al livello medio del mare (“Mean Sea Level”, MSL) in condizioni di aria tipo. In parole povere esso `e l’altezza che intercorre, in aria tipo, tra la pressione atmosferica di un dato luogo e la pressione standard di 1013.25 hPa. In pratica il QNE di un dato aeroporto corrisponde alla distanza verticale, in condizioni di aria tipo, tra il QFE dell’aeroporto e la pressione 1013.25 hPa. Rischio Il rischio rappresenta il prodotto delle conseguenze (C) di uno specifico incidente/pericolo e la probabilit`a/frequenza (φ) della sua occorrenza: R = C ∗ φ.
Glossario
263
Safety Integrity Level Per Safety Integrity Level, (SIL) si intende una misura del livello di sicurezza di un dato processo. In particolare i SIL offrono una possibile visione della misura e delle aspettative di funzionamento attese da parte di sistemi chiamati ad operare in condizioni di non-conformit` a od emergenza operativa. Safety Management System Il Safety Management System `e la forma pi` u completa ed integrata dell’approccio alla sicurezza messo in atto in un’organizzazione nei confronti della prevenzione, gestione e contenimento di occorrenze negative, eventi di pericolo e non-conformit` a e degli incidenti che si possono verificare nella vita e nei processi produttivi di un sistema. Security La “Security” `e l’insieme delle misure messe in atto per garantire e proteggere gli esseri umani, l’ambiente ed i sistemi tecnici da azioni malevole intenzionali indirizzate alla distruzione ed al danno degli stessi. Sicurezza sistemica La sicurezza dei sistemi `e l’insieme delle misure messe in atto per garantire e proteggere gli esseri umani, che lavorano negli impianti e a contatto con essi, l’ambiente ed i sistemi tecnici stessi. La sicurezza comporta tre fasi correlate di interventi: 1. la prevenzione di pericoli; 2. il controllo delle situazioni quando certi pericoli si manifestano comunque; e 3. il contenimento delle conseguenze, quando n´e prevenzione n´e controllo sono stati efficaci. Sistema Per sistema si intende l’insieme composto, a qualsiasi livello di complessit`a, da personale, procedure, materiali, strumenti, componenti, strutture e processi di controllo. Gli elementi di un sistema interagiscono sinergicamente nell’ambiente operativo o gestionale per l’implementazione di compiti definiti o per il raggiungimento di prodotti specifici, ovvero per supportare ed implementare i requisiti di una missione. (DOD-STD-882B). Sistema Uomo-Macchina Un Sistema Uomo-Macchina pu`o essere definito come l’insieme degli elementi costituiti dal personale, dalle procedure, materiali, strumenti, equipaggiamento, infrastrutture e software che fanno parte di un impianto. Tali elementi interagiscono e vengono utilizzati nell’ambiente operazionale per mettere in opera i compiti assegnati o per ottenere specifici risultati, ovvero per raggiungere gli obbiettivi prefissati da una missione specifica. Slips (errori superficiali di disattenzione) Sono errori associati a sviste, dimenticanze o disattenzioni dovuti a mancanze di attenzione o percezione, e risultano in azioni osservabili non appropriate. Tassonomia Una tassonomia `e una classificazione, vale a dire un insieme di categorie in cui vengono raccolti e strutturati in maniera formale dei dati e delle informazioni capaci di descrivere in maniera analitica ed esaustiva ci`o a cui si riferiscono. Tecnica (vedi Metodo)
264
Glossario
Varianza La varianza `e un indice di dispersione che serve per descrivere sinteticamente una distribuzione statistica quantitativa, e, in modo particolare, misura la media dei quadrati degli scostamenti dei dati rilevati rispetto al valor medio (media) della distribuzione. Violations (violazioni) Sono deviazioni intenzionali dalle pratiche operative, da standards e regole definite di comportamento e di sicurezza.
Bibliografia
AARQ – Transport Canada Civil Aviation (2006) Safety Management Systems (SMS): Basic Definition In: Canadian Aviation Regulations (CARs), Part I (Amendment 2-2006) http://wwwtcgcca/CivilAviation/SMS/basichtm. Visitato 15 Giugno, 2009 Aitkenhead AM, Slack JM (eds) (1990) Issues in Cognitive Modelling. LEA, Open University Set Book, London Alitalia (1991a) Route Manual. Alitalia, Roma Alitalia (1991b) Manuale Operativo. Alitalia, Roma Amalberti R, Bataille M, Deblon F, Guengant A, Paignay JM, Valot C, Menu JP (1989) Developpement d’aides intelligentes au pilotage: formalisation psychologique et informatique d’un modele de comportement du pilote de combat engage en mission de penetration. Rapport CERMA 89-09, Paris Andrews JD, Moss TR (1993) Reliability and Risk Assessment. Logman Scientific & Technical, Harlow, UK Bagnara S, Di Martino C, Lisanti B, Mancini G, Rizzo A (1989) A Human Error Taxonomy Based on Cognitive Engineering and on Social Occupational Psychology. EUR 12624 EN CEC-JRC, Ispra, Italy Baranzini, D (2009) Aircraft Maintenance Teams. PhD Thesis, School of Psychology, Trinity College Dublin Baron S, Muralidharan R, Lancraft R, Zacharias G (1980) PROCRU: a Model for Analysing Crew Procedures in Approach to Landing. Tec Rep NAS 2-10035, NASA-Ames, CA Barriere MT, Bley DC, Cooper SE, Forester J, Kolaczkowski A, Luckas WJ, Parry GW, Ramey-Smith A, Thompson C, Whitehead DW, Wreathall J (1998) Technical Basis and Implementation Guidelines for A Technique for Human Event Analysis (ATHEANA). NUREG - 1624, US-NRC, Washington DC Bell BJ, Swain AD (1983) A Procedure for Conducting a Human Reliability Analysis for Nuclear Power Plants. NUREG/CR-2254, SAND81-1655, USNRC, Washington, US Bello GC, Colombari V (1980) The Human Factors in Risk Analyses of Process Plants: The Control Room Operator Model, TESEO. RE&SS, 1:3-14
266
Bibliografia
BFU - B¨ uro f¨ ur Flugunfalluntersuchungen (1995) Final Report No 1457 by the Aircraft Accident Investigation Bureau, http://wwwbfuadminch/common/pdf/1457pdf. Visitato e scaricato 1 Dicembre 2008 Billings CE (1997) Aviation Automation: The Search for a Human-Centered Approach. Lawrence Erlbaum Associates, Mahwah, New Jersey Borgna, G (2009) Comunicazioni Personali - IFSC Byrom, NT (1994) The assessment of safety management systems using an auditing approach. In Cacciabue PC et al (eds), Safety Management Systems in the Process Industry. EUR 15743 EN, 150-156 Cacciabue PC (1992) Cognitive Modelling: a Fundamental Issue for Human Reliability Assessment Methodology? RE&SS 38:91-97 Cacciabue PC (1997) Human Reliability Assessment: Methods and Techniques. In Redmil F, Rajan J (eds) Human Factors in Safety-Critical Systems. Oxford University Press, Oxford, UK Cacciabue PC (1997) A Methodology for Human Factors Analysis for System Engineering: Theory and applications IEEE-System Man and Cybernetics. IEEE-SMC 273:325-339 Cacciabue PC (1998) Modelling and Simulation of Human Behaviour in System Control. Springer-Verlag, London, UK Cacciabue, PC (2004) Guide to Applying Human Factors Methods. Springer-Verlag, London, UK Cacciabue PC (ed) (2007) Modelling Driver Behaviour in Automotive Environments: Critical Issues in Driver Interactions with Intelligent Transport Systems. SpringerVerlag, London, UK Cacciabue PC, Cardani C, De Grandis E, Farina N, Rolando A (2007) Uno Strumento informatico per la raccolta delle segnalazioni volontario di pratiche di cattiva manutenzione Primi risultati e considerazioni. Proceeding XIX Congresso AIDAA, Forl`ı (FC), Italia, 17-21 settembre Cacciabue PC, et al (1992) COSIMO: A Cognitive Simulation Model of Human Decision Making and Behaviour in Accident Management of Complex Plants. IEEE-SMC 225:1058-1074 Cacciabue PC, Hollnagel E (1995) Simulation of Cognition: Applications In Hoc JM, Cacciabue PC, Hollnagel E (eds) Expertise and Technology: Cognition and HumanComputer Interaction. Lawrence Erlbaum Associates, Hillsdale, New Jersey, 55-73 Cacciabue PC, Lancia S, Toti F (2008) Methods for Retrospective Risk Assessment Part I: Analysis and exploitation of data collected from Mandatory Occurrence Report. Italian Flight Safety Committee, IFSC – Technical Report Cacciabue, PC, Mauri C, Owen D (2003) Development of a Model and Simulation of Aviation Maintenance Technician Task Performance. CTW 5-4:229–247 Carpignano A, Piccini M (1999) Cognitive Theories and Engineering Approaches for Safety Assessment and Design of Automated Systems: a Case Study of a Power Plant. CTW 1:47-61 CAST (2007): http://wwwcast-safetyorg/pdf/cictt occurrence-category0804pdf. Visitato e scaricato 1 Dicembre 2008
Bibliografia
267
Degani A, Wiener E L (1994) Philosophy, policies, procedures and practice: The four “P”s of flight deck operations. In Johnston N, McDonald N, Fuller R (eds) Aviation Psychology in Practice. Avebury Technical, Aldershot, UK, 68-87 De Grandis E (2003) Uno strumento di simulazione di un team per studi prospettici di sicurezza in campo aeronautico. Tesi di Laurea in Ingegneria Aerospaziale Politecnico di Milano, Italy Dismukes RK (ed.) (2009) Human Error in Aviation. Ashgate, Farnham, UK DOD - Department of Defense (1982) System Safety Program Requirements. MIL-STD882B Washington, DC 20301 Dougherty EM, Fragola JR (1988) Human Reliability Analysis A System Engineering Approach with Nuclear Power Plant Applications. J Wiley & Sons, New York Dupont G (1997) The Dirty Dozen Errors in Maintenance. In: proceedings of the 11th Symposium on Human Factors in Aviation Maintenance. http://hfskywayfaagov. Visitato 1 Dicembre 2008 EASA (2008) - European Aviation Safety Agency European Aviation Safety Iniziative – ESSI. http://wwweasaeuropaeu/essi/. Visitato 15 Giugno 2009 EC – European Commission (2003) Direttiva 2003/42/CE, Gazzetta Ufficiale dell’Unione Europea. http://eur-lexeuropaeu. Visitato 1 Dicembre, 2008 Edwards E (1972) Man and machine: Systems for safety In Proceedings of British Airline Pilots Association Technical Symposium British Airline Pilots Association, London pp 21-36 Edwards E (1988) Introductory overview In Wiener E L, Nagel DC (eds.) Human Factors in Aviation. Academic Press, San Diego, CA, 3–25 Embrey DE, Humphreys PC, Rosa EA, Kirwan B, Rea K (1984) SLIM-MAUD: An Approach to Assessing Human Error Probabilities Using Structured Expert Judgement. NUREG/CR-3518, USNRC, Washington, US ENAC - Ente Nazionale Aviazione Civile (2007) Segnalazione obbligatoria degli incidenti, inconvenienti gravi ed eventi aeronautici all’ENAC. Circolare 20112007 GEN-01 Gow HB, Otway H (eds.) (1990) Communicating with the public about major accident hazards. Elsevier Applied Science, London, UK Hannaman GW, Spurgin AJ (1984) Systematic Human Action Reliability Procedure (SHARP). EPRI NP-3583, Project 2170-3, Interim Report, NUS Corporation, San Diego, CA, US Hannaman GW, Spurgin AJ, Lukic YD (1984) Human Cognitive Reliability Model for PRA Analysis. NUS-4531, NUS Corporation, San Diego, CA, US Hawkins F H (1987) Human factors in flight. Gower, Aldershot, UK Henley EJ, Kumamoto H (1981) Reliability Engineering and Risk Assessment. PrenticeHall, Englewood Cliffs, NJ Hollnagel E (1993) Human Reliability Analysis: Context and Control. Academic Press, London Hollnagel E (1998) Cognitive Reliability and Error Analysis Method. Elsevier, London Humphreys P (ed) (1988) Human Reliability Assessors Guide. United Kingdom Atomic Energy Authority, RTS88/95Q
268
Bibliografia
Hudson P, Reason J, Wagenaar W, Bentley P, Primrose M, Visser J (1994) Tipod-Delta: proactive approach to enhance safety. Journal of Petroleum Technology 40:58-62 Kleinman DL, Baron S, Levison WH (1971) A Control Theoretic Approach to Mannedvehicle Systems Analysis. IEEE-TAC 16:824-832 Kok JJ, Stassen HG (1980) Human Operator Control of Slowly Responding Systems: Supervisor Control. J Cybern Info Sci (Special Issue on Man-Machine Syst) 3:123-174 IAEA - International Atomic Energy Agency (1989) Models and Data Requirements for Human Reliability Analysis. Report of consultants meeting, IAEA-TECDOC-499, Laxenburg, Austria IATA - International Air Transport Association (2006) Safety Report 2005. Reference No: 9049-06 IATA, Montreal Canada ICAO - International Civil Aviation Organisation (1984) Accident Prevention Manual. 1st Edition, Montreal, Canada ICAO - International Civil Aviation Organisation (1986) Manual of Aircraft Accident Investigation, 4th Edition, Montreal, Canada ICAO - International Civil Aviation Organisation (1987) Acciden/Incident Reporting Manual. Second edition - DOC 9156-AN/900, Montreal, Canada ICAO - International Civil Aviation Organisation (1988) International Standards and Recommended Practices on Aircraft Accident Investigation, Annex 13 of the Convention on International Civil Aviation, 7th Edition, International Civil Aviation Organisation, Montreal, Canada ICAO - International Civil Aviation Organisation (1991) Training Operational Personnel in Human Factors. Human Factors Digest, No 3, ICAO Circular 227-AN/136, Montreal, Canada ICAO - International Civil Aviation Organisation (1993) Investigation of Human Factors in Accidents and Incidents. Human Factors Digest, No 7, ICAO Circular 240-AN/144 Montreal, Canada ICAO - International Civil Aviation Organisation (1997) Accident/Incident Reporting Manual-ADREP 2000 draft. ICAO Report, Montreal, Canada ICAO - International Civil Aviation Organisation (2006) Safety Management Manual Doc 9859, AN/460, Montreal, Canada ICAO - International Civil Aviation Organisation (2006) Tassonomia-ADREP http://www.icaoint/anb/aig/Taxonomy/R4LDICAOpdf; http://wwwicaoint/anb/aig/Taxonomy/. Visitato e scaricato 1 Dicembre 2008 IEC - International Electrotechnical Commission (2000) Functional safety of electrical/ electronic/ programmable electronic safety related systems. IEC 61508 IEC - International Electrotechnical Commission (2003) Functional safety- Safety instrumented systems for the process industry sector. IEC 61511 IFSC - Italian Flight Safety Committee, (2007) http://wwwitafscorg/. Visitato 1 Dicembre 2008 IFSC - Italian Flight Safety Committee (2007) Comunicazioni private Lyons M, Woloshynowych M, Adams S, Vincent C (2005) Error Reduction in Medicine. Final Report to the Nuffield Trust UK
Bibliografia
269
Mancini S (1991) Applicazione di modelli per la valutazione dell’affidabilit` a umana al comportamento di un pilota di un velivolo civile. Tesi di Laurea in Ingegneria Aerospaziale Politecnico di Milano, Italy Maurino DE, Reason J, Johnston N, Lee RB (1995) Beyond Aviation Human Factors. Avebury Aviation Aldershot, UK McRuer DT, Jex HR (1967) A Review of Quasi-linear Pilot Models. IEEE-HFE 8:231-249 Neisser U (1967) Cognitive Psychology. Appleton-Century-Crofts, New York Newell A, Simon HA (1972) Human Problem Solving. Prentice-Hall, Englewood Cliffs, NY Papenhuijzen R, Stassen HG (1987) On the Modelling of the Behaviour of a Navigator. Proc of 8th Ship Control System Symposium, The Hague, The Netherlands Pedrali, M (1993) Modelli e tassonomie di errori umani per l’analisi di sicurezza nell’aviazione civile Il caso studio dell’incidente di Zurigo: ricerca delle cause e indagine prospettica. Tesi di Laurea in Ingegneria Aerospaziale Politecnico di Milano, Italy Rasmussen J (1983) Skills, Rules and Knowledge: signals, signs and symbols; and other distinctions in human performance model. IEEE-SMC 13-3:257-267 Rasmussen J (1986) Information processes and human-machine interaction An approach to cognitive engineering. North Holland Oxford Rasmussen J, Pedersen OM, Carnino C, Griffon M, Mancini G, Cagnolet P (1981) Classification System for Reporting Events Involving Human Malfunction. Risø-M-2240, EUR-7444EN, Risø National Laboratory, Roskilde, Denmark Rankin W, Krichbaum L (1998) Human Factors in Aircraft Maintenance Integration of Recent HRA Developments with Applications to Maintenance in Aircraft and Nuclear Settings. June 8-10, Seattle, Washington, USA Reason J (1990) Human Error. Cambridge University Press, Cambridge, UK Reason J (1997) Managing the risks of organisational accidents. Ashgate, Aldershot, UK Roland HE, Moriarty B (1990) System Safety Engineering and Management. J Wiley & Sons, New York Rouse WB (1980) Systems Engineering Models of Human-Machine Interaction. North Holland, Oxford Rubin KS, Jones PM, Mitchell CM (1988) OFMspert: Inference of Operator Intentions in Supervisory Control Using a Blackboard Architecture. IEEE-SMC 18-4 Seaver DA, Stillwell WG (1982) Procedures for using Expert Judgement to Estimate Human Error Probabilities in Nuclear Power Plant Operations. NUREG/CR-2743, USNRC Sheridan, T B (1992) Telerobotics, Automation and Human Supervisory Control. The MIT Press, Cambridge, MA Sheridan TB, Ferrel WR (1974) Man-Machine Systems: Information, Control and Decision Models of Human Performance. MIT Press, Cambridge, MA Stassen H G, Johannsen G, Moray N (1990) Internal representation, internal model, human performance model and mental workload. Automatica 26-4:811-820 Stephanopoulos G (1988) Artificial Intelligence – What will its contributions be to process control? Proc 2nd Shell Process Control Workshop, Butterworth, 591-646
270
Bibliografia
Swain AD (1964) Some problems of measurement of human performance in Man-Machine Systems. Human Factors, 6:687-700 Swain AD, Guttmann HE (1983) Handbook on Human Reliability Analysis with Emphasis on Nuclear Power Plant Application. Draft Report NUREG/CR-1278 SAND 80-0200 RX, AN Final Report Swain AD (1987) Accident sequence evaluation program: Human reliability analysis procedure. NUREG/CR-4772 Thurstone LL (1980) A Low of Comparative Judgement. Psychological Review 34:273-286 US-NRC (US Nuclear Regulatory Commission) (1975) Reactor Safety Study: An Assessment of Accident Risks in US Commercial Nuclear Power Plants WASH-1400 (NUREG-75/014), Washington, US US-NRC - US Nuclear Regulatory Commission (1983) Probabilistic Risk Assessment (PRA) Procedure Guide. NUREG/CR 2300, Washington, US Vosniadou S, Ortony A (eds) (1989) Similarity and Analogical Reasoning. Cambridge University Press, Cambridge Watson IA (1986) Human Factors in Reliability and Risk Assessment In Amendola A, Saiz de Bustamante A (eds) Reliability Engineering. Proceedings of the Ispra Course held at the Escuela Tecnica Superior de Ingenieros Navales, Madrid, 22-26 September 1986, D Reidel, Dordrecht, NL Wickens CD (1984) Engineering psychology and human performance. Charles Merrill, Columbus, OH Wickens CD, Flach JM (1988) Information Processing. In Wiener EL, Nagel DC (eds) Human Factors in Aviation. Academic Press, San Diego, CA, 111-155 Woods DD, Roth, EM, Pople, H (1987) Cognitive Environment Simulation An Artificial Intelligence System for Human Performance Assessment. NUREG/CR-4862, Washington, DC Wreathall JW (1982) Operator Action Tree, An Approach to Quantifying Operator Error Probability During Accident Sequences. NUS Report 4159, NUS Corporation, Gaithersberg, Maryland, US Zadeh LA (1965) Fuzzy Sets. Inf Control, 8:338-353
Indice Analitico
ADI 227, 229, 255 ADREP 119, 129-134, 143, 149-151, 173, 175-176, 180, 221, 222, 232-238 Alberi di Evento 1, 33-37, 60-62, 86, 93-95, 103, 105, 108, 111-115 Alberi di Guasto 1, 33-37, 38-41, 45-47, 60, 61, 86, 93 Algebra Booleana 28-30, 41 Ambiente di lavoro 7, 64, 67, 70, 79, 82, 83, 89, 90, 99, 101, 106, 124, 187, 189, 240 259 Analisi – del rischio 1, 15, 30, 32, 33-35, 57, 86, 87, 164, 167, 176 – delle conseguenze 32, 34 – funzionale di sicurezza 31-32, 61 – preliminare del rischio 33 – prospettica 6-7, 62, 152, 259 – retrospettiva 6-7, 62, 152, 259 AOP 87, 255 AOR 73, 255 APJ 93, 97-99, 255 Approccio vedi Metodo ATHEANA 93, 108-109, 255 ATIS 223, 227, 255 ATM 173, 255 Banche dati 62, 119, 121, 125-126, 132, 188 Barriera/e 1, 4, 15, 48, 49, 53, 56-58, 60-62, 65, 70, 71, 125, 148, 165, 168, 181, 182 – causale/i 4, 49, 50, 51, 60, 62, 65, 66, 148, 165, 181, 259
– consequenziale/i 4, 49, 54, 60-62, 66, 148, 165, 259 – fisica/che materiale/i 4, 182 – funzionale/i 4, 182 – simbolica/che 5, 182 – immateriale/i 5, 182 CA 34, 255 Caso studio 56, 185, 191-220, 221-254 CE 164, 173, 255 CFIT 233, 255 COCOM 73, 79-80, 90, 109, 135-136, 142, 152, 153, 239, 255 Configurazione pericolosa 4, 58, 59, 259 Contesto operativo 58, 109, 260 CREAM 93, 109-110, 129, 135-136, 143, 152-156, 221-222, 238-248, 255 Cultura di un’organizzazione 70, 260 Cultura di sicurezza 170, 179 CVR 222, 239, 255 DBA 2, 9, 255 DBS 125, 255 Deviazione standard 19, 22, 26, 27, 98, 260 DH 227, 239, 242, 244, 255 Distribuzione/i – binomiale 23-24 – di Poisson 24-25 – di Weibull 27-28 – discrete e continue 22-28 – esponenziale 25-26 – log-normale 27 – normale 26-28
272
Indice Analitico
DME 225-226, 229-230, 255 DSS 107, 255 DYLAM-HERA 93, 110, 255 EASA 10, 145, 149, 164, 173, 255 EF 116, 255 ENAC 149, 233, 255 EOAT 96, 255 EOP 87, 255 Errore/i – attivi 86-87, 142, 148, 157-158, 161, 260 – di commissione 88, 111, 114, 260 – di omissione 88, 111, 114, 260 – Lapses 88, 142, 159, 261 – latenti 86-87, 142, 148, 157-158, 260 – Mistakes 88, 142, 159, 262 – Slips 88, 142, 159, 263 – umano 15, 60, 65-66, 79, 85-86, 88-89, 99, 103, 106, 108, 110-111, 114-116, 142, 147-148, 203, 209, 216,249,260 ET 36, 93, 111, 114-118, 142, 198, 202, 207208, 210, 212-214, 218-219, 255 ETA 33-34, 255 Event Time Line - ETL 123, 127, 144, 146, 150, 178, 182, 231, 232, 255, 260 Evento/i 3, 16-18, 24-25, 33, 36, 38, 40-42, 44, 49, 60, 62, 81, 86-87, 90, 93, 95, 112, 121-124, 126, 132, 135, 137, 143, 145-147, 150, 152, 157-158, 161-162, 169, 171, 176-188, 202, 221-222, 231-232, 234-238, 249-254, 260, 262 – negativo/i 144, 147, 169, 171-172, 181, 232 – positivo/i 144, 147, 171-172, 181-182 FAME 109, 255 Fattori – ambientali 65, 136, 243 – esterni 59, 70, 71, 91, 154, 162, 260 – personali 71, 157-159, 162, 261 – umani 57-58, 63-67, 81, 88-90, 92, 94, 97, 103, 107, 111, 120-121, 123, 126, 130, 150, 152, 157-159, 163, 175, 190, 238, 261 FDM 170, 256 FDR 222, 239, 256 FG 78-79, 256 FMEA 35-35, 92, 256
FMECA 33-34, 256 FRP 87, 256 FS 31, 256 FT 36, 41, 93, 256 FTA 33, 34, 38, 256 Funzione di Distribuzione Cumulative 19, 26, 261 FWM 78, 256 Glide Slope - G/S 225-226, 261 Gestione – degli errori umani (“error management”) 66, 261 – delle emergenze (“emergency management”) 5, 163, 167, 169, 261 GP 229, 256 GPWS 4, 173, 217, 256 Hazard and operability study - HAZOP 34, 256 HCD 64, 256 HCR 93, 101-103, 107, 256 HEP 97, 99-101, 103, 114-116, 203, 209-216, 218-219, 256 HERMES 188-190, HF 64, 256 HFE 108, 256 HMI 67, 73, 256 HRA 91, 108, 111, 113-115, 118, 198-199, 202-208, 209-219, 256 HRI 14, 256 HSI 227, 256 ICAO 10, 13, 15, 90, 119, 120, 129-130, 132-134, 149-150, 164, 166-167, 176, 233, 256 IEC 43-45, 47, 256 IFSC 151, 233, 256 Instrument Landing System - ILS 192, 224-230, 239-241, 244, 247, 256 IPS 68, 72-73, 75, 79, 82,84, 90, 123, 256 ISA 43, 44, 256 ISAAC 157-162, 221-222, 249-254, 256 KB 73, 78, 256 KBB 85, 256 KPI 173-174, 256 Lapse(s)v 88, 142, 159, 261
Indice Analitico Matrice di Rischio - MdR 1, 14-15, 44, 48, 51-53, 61-62, 168, 170, 176-177, 180-186, 256 Media 19-23, 26-27, 46, 98, 261 Mediana 19-21, 26, 116, 261 Metodo/Tecnica/Approccio 3, 22, 33, 34, 36, 44, 46, 47, 51-54, 56-57, 261 Metodologia 3-4, 31, 57-58, 64-71, 261 Mistake(s) 88, 142, 159, 262 Moda 19-21, 26, 262 Modello 6, 67, 68, 69, 73-90, 187-188, 262 – Contextual Control 73, 79, 255 – di “Macchina” 67 – di “Macchina cognitiva fallibile” 78-79 – di “Uomo” 68 – organizzativo 147-149, 157 MOR 170, 174, 256 MTBF 45-47, 256 MTTR 45, 47, 256 NHEP 256
103, 114-116, 209-210, 212, 214,
OAT 93, 95-96, 103, 256 Occorrenza 2-3, 6, 10, 14, 16, 23, 24, 29, 49, 53-54, 59, 61, 62, 112, 121, 122, 126, 145, 150, 171, 172, 176-178, 181, 233-234, 262 PC 93, 98, 256 Pericolo(i) 1, 2, 4, 5, 8, 10-15, 30-33, 46-61, 80, 87, 90, 108, 124, 147, 163-169, 175-176, 178, 181182, 187, 221-222, 225, 262 PFD 45-47, 256 PHA 30, 32, 57, 58, 256 PIPE 73-75, 256 Probabilit` a 1-3, 10, 14-19, 22-30, 33-34, 36-38, 41-42, 45, 49-51, 53-54, 56-57, 60-62, 86-87, 9293, 95-105, 108-110, 112-118, 180, 191, 199, 203, 209-216, 230, 255, 262 PSA 31, 256 PSF 92, 100-103, 112-113, 116, 203, 209, 256 PWMv 78, 256
273
QAT 30, 57, 62, 257 QFE 192, 230, 262 QNE 204, 211, 262 QNH 192, 195, 198-200, 204, 209, 211, 214, 216, 223-224, 262 QRA 9, 31, 33, 35, 59, 91, 93-96, 102-103, 107109, 111-112, 118, 257 RBB 84, 257 RBSA 44, 257 Rischio 1-2, 10, 14-15, 30-36, 44-54, 57-62, 63, 66, 71, 86-88, 91, 93, 120, 124, 129, 134, 163170, 172, 176-178, 180-186, 188, 190, 256 RMC 73-75, 239, 257 SA 257 Safety Management System - SMS 144, 163-169, 257 SBB 84, 257 Security 5, 263 SFF 45, 357 SHA 30, 33, 36, 57, 60, 257 SHARP 92-94, 97, 118, 257 SHELL 73, 81-83, 90, 129-131, 134, 142, 149, 150, 257 SHELL-T 82-83 Sicurezza – funzionale 1, 43-55 – sistemica 2, 14, 49, 263 Safety Integrity Level - SIL 32, 43, 44-48, 51-58, 61, 257, 263 Sistema 1-3, 33, 263 – Uomo-Macchina 67-69, 81, 89, 127, 135, 189-190, 263 Severity Level - SL 10, 52, 257 Step Ladder - SL 73, 75, 257 SLIM 93, 100-101, 107, 257 Slips 88, 142, 159, 263 SM 78, 79, 257 SMoC 156, 239, 248, 257 SRK 73, 75-76, 84, 101, 257 TAR 61-62, 257 Tassonomia 90-91, 110, 123-125, 127, 129-136, 142144, 150, 152-156, 159, 175-176, 178-180, 231, 233, 238-240, 248, 263
274
Indice Analitico
TCAS 163, 257 Tecnica vedi Metodo TESEO 93, 99-100, 103, 257 THERP 63, 93, 95, 103-104, 111-118, 191, 198-204, 209, 216-217, 257 THR 15, 51-53, 56, 61, 257 TMR 45, 257
UA UE
108, 257 257
Varianza 19-23, 27, 98, 264 Violazione(i)/Violation(s) 88, 142, 147, 159, 264 VOR 192, 199, 201-202, 204, 240, 257 WM 78, 257
Indice Analitico Autori
AARQ 164 Aitkenhead AM 85 Alitalia 191-226 Amalberti R 85 Andrews JD 32 Bagnara S 90 Baranzini D 187 Baron S 84 Barriere MT 108 Bell BJ 103, 111 Bello GC 99 BFU 223 Billings CE 65 Borgna G 179 Byrom NT 120 Cacciabue PC 6-8, 73, 75, 85, 93, 105, 107, 110, 147, 157, 170, 189 Carpignano A 157 CAST 150, 151, 173 Degani A 124 De Grandis E 83 Dismukes RK 66 DOD 2, 67, 263 Dougherty EM 93 Dupont G 159 EASA 10, 145, 164, 173 EC 122, 145, 164, 171 Edwards E 64, 73, 81-82 Embrey DE 100 ENAC 145, 149, 171, 233
Gow HB
120
Hannaman GW 92-101 Hawkins FH 81-82 Henley EJ 32 Hollnagel E 65, 73, 79-81, 90, 105, 109, 129, 135 Humphreys P 92 Hudson P 90 Kleinman DL Kok JJ 96
84
IAEA 92 IATA 164 ICAO 90, 119, 120, 129, 130-135, 149, 150, 164, 166, 167, 176, IEC 43-47 IFSC 151, 233, Lyons M 92 Mancini S 191, 196, 197, 205, Maurino DE 66, 70, 142, 157 McRuer DT 72, 84 Neisser U 68, 72 Newell A 68, 72 Papenhuijzen R Pedrali M 238
85
Rasmussen J 68,73, 75-77, 84, 90, 97, 101 Rankin W 65 Reason J 70, 73, 78-79, 86, 88, 90, 129, 142, 144, 147, 157,
276
Indice Analitico Autori
Roland HE 10, 13, 14, 32, 33 Rouse WB 68, 72 Rubin KS 85
US-NRC
94, 97,
Vosniadou S
85
Seaver DA 97 Sheridan TB 73, 84 Stassen HG 72, 84, 85 Stephanopoulos G 85 Swain AD 88, 97, 103, 111, 114, 209,
Watson IA 92 Wickens CD 73 Woods DD 85 Wreathall JW 96
Thurstone LL
Zadeh LA
98
84