Elementi Di Probabilità e Statistica - Riganti [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

i

PARTE PRIMA

PROBABILITA’ CAPITOLO I - Gli assiomi della probabilit` a 1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . pag. 1 1.2 Definizione assiomatica di probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.1 Logica degli eventi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.2 Campo di Borel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2.3 Assiomi della probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3 Probabilit`a condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4 Eventi indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.5 Formula di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.6 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 CAPITOLO II - Variabili aleatorie 2.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.1.1 Funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .25 2.1.2 Densit`a di probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2 Momenti di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.3 Distribuzioni notevoli in Probabilit`a e Statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3.1 Distribuzione uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3.2 Distribuzione normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.3.3 Distribuzione Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3.4 Distribuzione esponenziale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.3.5 Distribuzione di Maxwell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.3.6 Distribuzione t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

ii

2.3.7 Distribuzione Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.3.8 Distribuzione F di Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .42 2.3.9 Distribuzione binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 2.3.10 Distribuzione di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 2.3.11 Distribuzione geometrica e ipergeometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.3.12 Distribuzione Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.3.13 Distribuzione di Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.4 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 CAPITOLO III - Variabili aleatorie multidimensionali 3.1 Coppie di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.1.1 Momenti congiunti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 3.1.2 Coppie di v.a. indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.1.3 Coppie di v.a. discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 3.2 Caso di n variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 3.3 Trasformate delle densit`a di probabilit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 3.3.1 Funzione caratteristica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 3.3.2 Funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 3.4 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 CAPITOLO IV - Trasformazioni di variabili aleatorie 4.1 Generalit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 4.2 Funzioni di una variabile casuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.2.1 Calcolo della funzione di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.2.2 Calcolo diretto della densit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 4.2.3 Trasformazioni invertibili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 4.2.4 Momenti di Y (ω) = g[X(ω)] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 4.2.5 Trasformazioni lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 4.3 Funzioni di due o pi` u variabili casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.4 Trasformazioni n-dimensionali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.5 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

iii

CAPITOLO V - Processi stocastici 5.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 5.1.1 Momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 5.1.2 Processi indipendenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 5.1.3 Processi senza memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 5.1.4 Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 5.2 Esempi notevoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .130 5.3 Processi di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 5.4 Catene di Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 5.4.1 Matrice di transizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5.4.2 Classificazione degli stati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .141 5.4.3 Probabilit`a invarianti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

***********************************************

PARTE SECONDA

STATISTICA CAPITOLO VI - Statistica descrittiva 6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 6.2 Distribuzioni di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 6.3 Indici di tendenza centrale e di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 6.3.1 Medie, moda, mediana, quantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 6.3.2 Indici di dispersione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 6.3.3 Stem-and-leaf e box-plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 6.4 Distribuzioni congiunte di frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 6.5 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 6.6 Regressione multipla . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 6.7 Regressione non lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

iv

6.8 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 CAPITOLO VII - Distribuzioni campionarie 7.1 Modelli statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 7.2 Teoria dei campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 7.3 Distribuzione campionaria delle medie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 7.3.1 Campionamento con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 7.3.2 Campionamento senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 7.4 Distribuzione campionaria delle varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 7.4.1 Campionamento con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 7.4.2 Campionamento senza ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 7.5 Distribuzione campionaria delle frequenze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 7.6 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 CAPITOLO VIII - Stime di parametri 8.1 Stima puntuale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 8.1.1 Stima puntuale di medie e varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 8.1.2 Stima di massima verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 8.1.3 Metodo dei momenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 8.2 Stima per intervalli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 8.2.1 Intervalli di confidenza per la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .212 8.2.1.1 Popolazione con varianza nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 8.2.1.2 Popolazione con varianza sconosciuta . . . . . . . . . . . . . . . . . . . . . . . . . 215 8.2.2 Intervalli di confidenza per la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 8.3 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 CAPITOLO IX - Test parametrici di ipotesi statistiche 9.1 Principi generali di un test statistico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 9.2 Test parametrici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 9.3 Test di Neyman-Pearson tra ipotesi semplici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 9.4 Test parametrici con ipotesi composte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245

v

9.4.1 Test sul valor medio per il modello normale . . . . . . . . . . . . . . . . . . . . . . . . . 246 9.4.1.1 Modello Normale-1: popolazione con varianza nota . . . . . . . . . . . 246 9.4.1.2 Modello Normale generale: varianza sconosciuta . . . . . . . . . . . . . . 249 9.4.1.3 Popolazione con distribuzione non Normale . . . . . . . . . . . . . . . . . . . 250 9.4.2 Test sulla varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 9.4.3 Test di Fisher per il rapporto tra varianze . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 9.4.4 Test di incorrelazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265 9.4.5 Ipotesi H0 e H1 composte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 9.4.6 Test del rapporto di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .268 9.5 Problemi risolti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 CAPITOLO X - Test non parametrici 10.1 Test sulla legge di distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 10.1.1 Test di Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280 10.1.2 Test Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282 10.2 Test di omogeneit`a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 10.2.1 Test dei segni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 10.2.2 Test dei ranghi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 10.2.3 Test di Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 10.2.4 Test Chi-quadrato di omogeneit`a per pi` u campioni . . . . . . . . . . . . . . . . . 298 10.3 Test di indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 10.3.1 Test Chi-quadrato di indipendenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 10.3.2 Test di Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 10.4 Test sulla casualit`a di un campione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307 10.4.1 Test di correlazione seriale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 10.4.2 Run test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310 BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 APPENDICE Tavole delle distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315 Normale standard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316

vi

t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 Chi-quadrato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320 Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322

vii

GLI ASSIOMI DELLA PROBABILITA’ 1.1

Introduzione

Nel Calcolo delle Probabilit`a si elaborano modelli matematici per la valutazione rigorosa del concetto primitivo di probabilit` a che un esperimento casuale si concretizzi in un determinato evento. Ma cos’`e la probabilit`a di un evento? Ne esistono almeno quattro definizioni principali, da cui si originano altrettante teorie matematiche, elaborate dalla seconda met`a del XXVII secolo fino ai giorni nostri. Esse sono: 1) Definizione classica: la probabilit`a P (A) di un evento A `e il rapporto tra il numero NA dei casi favorevoli e il numero N dei casi possibili: P (A) = NA /N. E’ questa una definizione aprioristica, nel senso che P (A) `e definita senza far ricorso ad alcuna effettiva prova sperimentale. La sua applicabilit`a `e limitata allo studio di quel fenomeni casuali in cui si pu`o assumere che il numero N dei casi possibili sia finito, e che questi siano tutti, a priori, egualmente probabili. 2) Definizione frequentista, ovvero basata sul concetto, particolarmente familiare ai fisici, di frequenza relativa di un evento: se un esperimento `e ripetuto n volte, e l’evento A si presenta nA volte, allora la sua probabilit`a `e il limite della frequenza relativa: P (A) = lim nA /n n→∞

quando il numero delle prove tende ad infinito. Questa definizione implica l’ipotesi preliminare che le prove ripetute si svolgano in condizioni identiche, il che, al pari della definizione classica, ne restringe l’applicabilit`a a una classe piuttosto ristretta di fenomeni casuali. 3) Definizione soggettivista, come misura di un’opinione personale: la probabilit`a di un evento `e il grado di fiducia che si ha nel verificarsi di esso. Per esempio: 1

2

ASSIOMI DELLA PROBABILITA’

la probabilit`a che in un processo giudiziario l’imputato sia giudicato colpevole `e una misura della nostra conoscenza dei fatti e della nostra abilit`a deduttiva. Tale definizione si formalizza adottando lo schema tipico delle scommesse regolate da condizioni di equit`a: la probabilit`a dell’evento `e misurata dal prezzo che un individuo ritiene equo pagare per ricevere ”1” se l’evento si realizza, e ”0” se non si verifica. 4) Definizione assiomatica, la cui formalizzazione matematica (che `e quella che seguiremo) risale ad A. N. Kolmogorov (1933). Essa consiste nell’introdurre un opportuno insieme di assiomi, verificando a posteriori il significato fisico e la validit` a della teoria matematica cos´ı precisata.

1.2

Definizione assiomatica di probabilit` a

Oggetto della teoria matematica sviluppata nel Calcolo delle Probabilit`a `e un generico esperimento casuale, la cui singola esecuzione `e chiamata prova dell’esperimento. Il risultato (o esito) della prova si indica con ω. L’insieme di tutti i possibili esiti costituisce lo spazio campione Ω associato all’esperimento casuale. Un evento A relativo al medesimo esperimento `e un certo insieme di risultati ω, ovvero un sottoinsieme dello spazio campione Ω . Se un risultato ω ∈ A, si dice che esso realizza l’evento A. Se l’insieme A ⊂ Ω `e costituito da un solo elemento ω, allora quest’ultimo prende il nome di evento elementare; altrimenti A `e un evento composto.

1.2.1

Logica degli eventi

Le definizioni che seguono riguardano operazioni sugli eventi, e si possono formalmente rappresentare come indicato nello schema riassuntivo di Fig.1.1. • Dati due eventi A, B ⊆ Ω, si dice che A implica B se `e A ⊂ B. • I due eventi sono incompatibili se non esiste alcun risultato ω che realizzi sia A che B, ovvero se `e A ∩ B = ®, dove ® `e l’insieme vuoto. • Al contrario, se A e B non sono incompatibili, l’insieme non vuoto (A ∩ B) `e costituito da tutti i risultati ω che realizzano sia A che B. • L’insieme (A∪B) indica invece la realizzazione dell’evento A, oppure dell’evento B, oppure di entrambi. • Se non si realizza un evento A, allora si realizza il suo complementare in A = Ω \ A in Ω, negazione dell’evento A. Ne segue subito che Ω `e l’evento certo e ® `e l’evento impossibile.

1.2 – Definizione assiomatica di probabilit` a

3

Figura 1.1

1.2.2

Campo di Borel

Gli eventi Ai , i = 1, 2, . . . relativi ad un determinato esperimento casuale sono sottoinsiemi dello spazio campione Ω, sui quali effettuiamo operazioni di unione, intersezione, differenza come indicato in Fig.1. Al fine di attribuire a ciascun evento una misura di probabilit`a, si richiede a tali eventi di soddisfare il seguente requisito fondamentale: qualunque operazione su di essi deve essere a sua volta un evento definito in Ω. Questa propriet`a si formalizza dicendo che gli eventi devono costituire un campo C, ovvero una classe additiva di insiemi Ai , non vuota e chiusa rispetto alla negazione e all’unione. Se esiste un insieme numerabile1 di infiniti eventi Ai , questi devono formare un campo di Borel (o σ-algebra) cos´ı definito: Definizione 1. Un campo di Borel B ` e la classe costituita da una infinit`a numerabile 1 Ricordiamo che un insieme di infiniti elementi `e numerabile se esiste una corrispondenza unoa-uno tra gli elementi dell’insieme e tutti gli interi positivi. Ad esempio: l’insieme IR dei numeri reali non `e numerabile; l’insieme {1, 2, 3, ..} `e numerabile.

4

ASSIOMI DELLA PROBABILITA’

di insiemi Ai ∈ Ω, tale che: 1)

Ai ∈ B



2)

Ai ∈ B



Ai = Ω\Ai ∈ B ∞ [ i=1

3)

® ∈ B;

Ai ∈ B;

∞ \

Ai ∈ B

i=1

Ω ∈ B.

Dunque, un campo di Borel `e caratterizzato dalla propriet`a che qualsiasi operazione sugli insiemi che lo formano d`a luogo ad un insieme nello stesso campo, anche se gli insiemi sono una infinit`a numerabile. Esempio 1.1: lancio di un dado

Consideriamo come singola prova di un esperimento casuale il classico esempio del lancio di un dado, che ha come risultati (eventi) possibili ω l’uscita di un numero intero, compreso tra 1 e 6. Lo spazio campione `e Ω = {1, 2, 3, 4, 5, 6}, ovvero `e costituito da un numero finito di elementi ω, cui si attribuisce il significato di eventi elementari. Essi formano un insieme di eventi necessari e a due a due incompatibili, poich´e {i} ∩ {j} = ® per ogni i 6= j = 1, .., 6. Ma esistono molti altri eventi in questo esperimento casuale: ad esempio, l’uscita di un numero pari, che `e costituita dall’evento E = {2, 4, 6} composto dai tre eventi elementari che lo realizzano; oppure l’uscita di un numero ”basso” definita dall’evento E 0 = {1, 2}; ecc. Inoltre: l’intersezione {2, 4, 6} ∩ {1, 2}, che coincide con l’evento elementare {2}, indica l’evento: ”uscita di un numero pari e basso”. L’evento: {1, 3, 5} ∪ {5, 6} indica l’uscita di un numero dispari, oppure di un numero maggiore di 4, oppure di un numero dispari e maggiore di 4” (ovvero dell’intersezione dei due eventi, costituita dall’evento elementare {5}). Il complementare dell’insieme A = {1, 2, 3, 5} composto dai numeri primi minori di 7, ovvero l’evento Ω\A = {4, 6}, indica l’uscita di un numero che non sia primo (negazione di A). Tutti i possibili eventi si presentano in questo esperimento come sottoinsiemi di Ω , ed `e facile verificare che il loro numero complessivo `e la somma delle combinazioni di classe k di sei elementi: Ã ! 6 X 6 = 26 = 64, k k=0 compresi l’insieme vuoto (per k = 0) e l’insieme Ω (per k = 6). Essi costituiscono un campo C, perch`e soddisfano tutte le condizioni di additivit`a sopra precisate. Se per`o siamo interessati solo ad alcuni eventi relativi a questo esperimento, `e preferibile definire una diversa classe additiva, che costituisca un campo C 0 contenente il minor numero possibile di eventi, compresi quelli che interessano. Si pu`o costruire questo campo C 0 con successive operazioni di unione e negazione che, a partire dagli insiemi dati, coinvolgano tutti gli eventi che via via si aggiungono. Ad esempio, se

1.2 – Definizione assiomatica di probabilit` a

5

siamo interessati all’evento: ”uscita di un numero pari”, il campo C 0 da considerare `e composto dai quattro insiemi: C0 :

®, {2, 4, 6}, {1, 3, 5}, Ω

che costituiscono rispettivamente: la ”negazione” {1, 3, 5} dell’evento ”numero pari”; l’unione Ω degli eventi ”pari” e ”dispari”, e la negazione dell’evento unione Ω . C’ `e un campo, perch´e qualsiasi operazione sugli insiemi che lo compongono d`a luogo a un insieme anch’esso contenuto in C 0 . Al contrario, la classe: C” :

®, {2, 4, 6}, {1, 3, 5}, {1, 2}, Ω

non `e un campo, perch´e {2, 4, 6} ∪ {1, 2} = {1, 2, 4, 6} 6∈ C”. / Esempio 1.2: misura di una grandezza

Il valore teorico di una generica grandezza fisica `e espresso da un numero reale, e in tal senso alla sua misura sperimentale associamo uno spazio campione Ω costituito dall’asse reale (o da un suo intervallo, se siamo in grado di precisarlo a priori). Per definire una classe additiva di eventi che sia compatibile con l’esperimento della misurazione, suddividiamo l’asse reale in intervalli di ampiezza assegnata (ad esempio: gli intervalli aperti a sinistra e chiusi a destra, di ampiezza unitaria e aventi per centro tutti i numeri interi), in modo che qualsiasi risultato della misurazione possa appartenere ad uno di tali intervalli. Quindi, con operazioni successive di unione e negazione, aggiungiamo altrettanti insiemi agli intervalli inizialmente considerati. Il limite a cui tende la classe degli eventi cos´ı definiti `e il campo di Borel B associato alla misura sperimentale che effettuiamo. Si pu`o dimostrare che tale campo di Borel si genera anche a partire da tutti gli intervalli (−∞, x1 ] con x1 reale qualsiasi; esso contiene anche tutti gli intervalli [x1 , x2 ], (x1 , x2 ), i punti x = x1 e l’infinit`a numerabile delle loro unioni e intersezioni. /

1.2.3

Assiomi della probabilit` a

Siamo ora in grado di attribuire una misura di probabilit`a a ciascun evento Ai la cui collezione, come si `e appena visto, forma nel caso pi` u generale un campo di Borel B. Definizione 2. La probabilit` a `e un funzionale P : B → [0, 1] che verifica i seguenti

assiomi: I. II.

P (Ω) = 1 i 6= j,

Ai ∩ Aj = ®

⇐⇒

P (Ai ∪ Aj ) = P (Ai ) + P (Aj ).

La formulazione matematica del modello probabilistico `e cos´ı completa: essa consiste nell’insieme (Ω, B, P ) chiamato spazio di probabilit` a, e permette di assegnare un

6

ASSIOMI DELLA PROBABILITA’

numero reale non negativo P (Ai ) che chiamiamo probabilit` a di Ai , agli eventi che formano un campo di Borel B, costituito da sottoinsiemi di uno spazio campione Ω associato all’esperimento casuale. L’assioma I attribuisce probabilit`a 1 all’evento certo Ω, senza tuttavia escludere a priori che esistano altri eventi, diversi da Ω, con probabilit`a 1. Se `e teoricamente possibile un evento A 6= Ω tale che P (A) = 1, si dice che questo evento `e quasi certo. L’assioma II esprime la propriet`a additiva del funzionale P tra due eventi fra loro incompatibili. Tale propriet`a si generalizza subito a un insieme finito o infinito di eventi a due a due incompatibili, con una delle due relazioni seguenti: 0

II ) rII”)

i 6= j, Ai ∩ Aj = ® i 6= j, Ai ∩ Aj = ®

⇐⇒ ⇐⇒

P P

à n [

!

Ai

i=1 ̰ [

=

ni=1 Ai

n X

P (Ai )

i=1

!

=

∞ X

P (Ai )

i=1

l’ultima delle quali esprime la additivit` a infinita, o σ-additivit` a, dell’insieme {Ai , i = 1, 2, . . .} di eventi a due a due incompatibili. Dagli assiomi I), II) della probabilit`a si deducono svariate propriet`a di P . Le pi` u significative sono le seguenti: • C1. P (Ai ) = 1 − P (Ai ) • C2. P (®) = 0 • C3. Ai ⊂ Aj :

P (Ai ) ≤ P (Aj )

• C4. ∀Ai ∈ B :

0 ≤ P (Ai ) ≤ 1

• C5. Ai ∩ Aj 6= ® :

P (Ai ∪ Aj ) = P (Ai ) + P (Aj ) − P (Ai ∩ Aj ).

La propriet`a C1 si dimostra considerando che per l’assioma I si ha P (Ω) = P (Ai ∪ Ai ) = 1, e poich`e Ai e il suo complementare sono incompatibili, si ricava per l’assioma II: P (Ai ) + P (Ai ) = 1. La C2 si deduce dalla C1 perch`e l’insieme vuoto `e il complementare di Ω e quindi P (®) = 1 − P (Ω) = 0. La C3 afferma che P `e un funzionale crescente di B in [0, 1], e si dimostra applicando l’assioma II agli eventi (incompatibili) Ai e (Aj \Ai ). Si trova: P (Aj ) = P (Ai ∪ (Aj \Ai )) = P (Ai ) + P (Aj \Ai ) e poiche’ l’insieme (Aj \Ai ) non `e vuoto per ipotesi, risulta P (Aj \Ai ) ≥ 0. La C4 si prova osservando che se Ai ⊂ Ω non `e vuoto, `e anche ® = Ω ⊂ Ai e per la C3 valgono entrambe le diseguaglianze: P (Ai ) ≥ P (®) = 0 e P (Ai ) ≤ P (Ω) = 1.

1.2 – Definizione assiomatica di probabilit` a

W

Ai

Aj

7

Ai

Aj

Aj

Ai Figura 1.2

La C5 `e la generalizzazione dell’assioma II per eventi non incompatibili, e si dimostra come segue. Consideriamo l’evento Ai ∪ Aj = Ai ∪ (Ai ∩ Aj ) che si pu`o esprimere (v. Fig. 1.2) mediante l’unione dei due eventi incompatibili Ai e (Ai ∩Aj ). Per l’assioma II si ha allora P (Ai ∪ Aj ) = P (Ai ) + P (Ai ∩ Aj ). Ma anche Aj `e esprimibile con l’unione: (Ai ∩ Aj ) ∪ (Ai ∪ Aj ) di due eventi incompatibili, e per esso l’assioma II fornisce: P (Aj ) = P (Ai ∩ Aj ) + P (Ai ∩ Aj ). Eliminando P (Ai ∩ Aj ) dalle due precedenti eguaglianze, si ricava la C5. Esempio 1.3: eventi elementari equiprobabili

Si `e visto (Esempio 1.1) che nel lancio di un dado sei eventi elementari, a due a due incompatibili, costituiscono lo spazio campione Ω = {1, 2, 3, 4, 5, 6}. Per gli P assiomi I e II’ si ha subito: P (Ω) = P ({1} ∪ {2} ∪ . . . ∪ {6}) = i P {i} = 1 e se ammettiamo che ciascun evento elementare abbia uguale probabilit`a di realizzarsi (ovvero se operiamo con un dado ”non truccato”), la probabilit`a di ciascuno vale: ∀i = 1, .., 6 : P (i) = 1/6. Sempre per l’assioma II’, l’evento composto: ”esce un numero pari” ha probabilit`a P (2, 4, 6) = P (2) + P (4) + P (6) = 1/2 mentre l’uscita di un ”numero che non sia primo” ha probabilit`a P (4, 6) = P (4) + P (6) = 2/6 = 1/3. Se si effettua per due volte il lancio dello stesso dado non truccato, gli eventi elementari sono 62 = 36, e la probabilit`a che esca due volte lo stesso numero vale P (11, 22, 33, 44, 55, 66) =

X i

P (ii) = 6/36 = 1/6. /

8

ASSIOMI DELLA PROBABILITA’

Questo esempio esprime il seguente risultato di carattere generale: Se lo spazio campione consiste di un numero finito N di eventi elementari equiprobabili, la probabilit`a di un evento Ai composto da NA eventi elementari vale P (Ai ) = NA /N

(1.1)

e coincide con la definizione ”classica” di probabilit`a, citata nella Introduzione. Esempio 1.4

Nel lancio di una moneta, i possibili eventi elementari sono soltanto due: T = {esce ”testa”} e C = {esce ”croce”}. Lo spazio campione associato ad una singola prova `e Ω = {T C}; se la moneta `e lanciata due volte si ha Ω = {T T, T C, CT, CC} e per n prove ripetute Ω `e formato da 2n eventi elementari equiprobabili, con probabilit`a 1/2n . Sulla base del risultato espresso dalla (1.1), si verifica subito che nei lanci ripetuti della moneta si ha: P {C nel secondo di due lanci } = 1/2 P {C nei primi due di tre lanci } = 1/4 P {T in due qualsiasi di quattro lanci } = 3/8 P {T per la prima volta all’n-esimo lancio } = 1/2n .

/

Esempio 1.5: distribuzione uniforme in [0, T ]

Estendiamo al caso continuo il risultato dell’Esempio 1.3. Supponiamo che lo spazio campione sia l’intervallo [0, T ] ∈ IR e che gli eventi Ai relativi ad un esperimento casuale siano una infinit`a numerabile di intervalli in [0, T ]. Supponiamo inoltre che si richieda di assegnare uguali probabilit` a ad eventi definiti da intervalli di uguale ampiezza. Questa ipotesi implica la definizione di una distribuzione uniforme di probabilit`a in [0, T ], e determina univocamente P (Ai ). Infatti, se pensiamo di suddividere Ω in n intervalli I di eguale ampiezza T /n e senza elementi comuni, per l’assioma II’ la loro probabilit`a vale P (I) = 1/n. Un evento A definito dalla unione di k intervalli I ha probabilit`a P (A) =

kT L(A) k = = , n nT L(Ω)

uguale al rapporto tra le ampiezze L(A), L(Ω) degli intervalli A ed Ω. In particolare, se Ω `e l’intervallo unitario, P (A) coincide con la misura di Lebesgue di A. E poich´e la misura di Lebesgue `e una funzione continua degli intervalli, se ne deduce il seguente risultato.

1.3 – Probabilit` a condizionata

9

In una distribuzione uniforme di probabilit`a nell’intervallo [O, T ], la probabilit`a del generico evento Ai di ampiezza L(Ai ) vale: L(Ai ) . T

P (Ai ) =

Ne segue, tra l’altro, che ogni punto t di Ω ha probabilit`a nulla: P (t) = 0, ∀t ∈ [0, T ] poich´e t `e un insieme di misura nulla.

1.3

Probabilit` a condizionata

Assegnato un evento Aj ∈ B con probabilit`a non nulla, la probabilit`a di un altro evento Ai ∈ B, condizionata da Aj si indica con P (Ai | Aj ) e vale: P (Ai | Aj ) =

P (Ai ∩ Aj ) . P (Aj )

(1.2)

Essa indica la probabilit`a che che si realizzi Ai sapendo che Aj si `e verificato; oppure: la probabilit`a di Ai in una prova valida solo se si verifica anche Aj . Le probabilit`a condizionate soddisfano tutte le propriet`a che discendono dagli assiomi I, II. In particolare: • Se Ai ⊂ Aj , allora Ai ∩ Aj = Ai e quindi: Ai ⊂ Aj

=⇒

P (Ai | Aj ) = P (Ai )/P (Aj ) > P (Ai ).

• Se Ai ⊃ Aj , allora Ai ∩ Aj = Aj e quindi: Ai ⊃ Aj

=⇒

P (Ai | Aj ) = 1.

• Se Ai e Aj sono incompatibili, allora Ai ∩ Aj = ® e quindi: Ai ∩ Aj = ®

=⇒

P (Ai | Aj ) = 0.

La definizione (1.2) si pu`o anche scrivere: P(Ai ∩ Aj ) = P(Aj )P(Ai | Aj )

(1.3)

e si estende al caso di n eventi A1 , .., An ∈ B nella forma seguente P(A1 ∩ A2 ∩ ... ∩ An ) = P(A1 )P(A2 | A1 )P(A3 | A1 ∩ A2 ) · · · · · · P(An | A1 ∩ A2 ∩ · · · ∩ An−1 )

(1.4)

che esprime la legge delle probabilit` a composte, molto utile in svariate applicazioni, come mostra l’esempio che segue.

10

ASSIOMI DELLA PROBABILITA’

Esempio 1.6: estrazione senza reimbussolamento

Da un’urna contenente 6 palline bianche e 4 nere si estrae una pallina per volta, senza reintrodurla nell’urna. Indichiamo con Bi l’evento: ”esce una pallina bianca alla i-esima estrazione” e con Ni l’estrazione di una pallina nera. L’evento: ”escono due palline bianche nelle prime due estrazioni” `e rappresentato dalla intersezione {B1 ∩ B2 }, e la sua probabilit`a vale, per la (1.3): P (B1 ∩ B2 ) = P (B1 )P (B2 | B1 ). Ora, P (B1 ) vale 6/10, perch´e nella prima estrazione Ω `e costituito da 10 elementi: 6 palline bianche e 4 nere. La probabilit`a condizionata P (B2 | B1 ) vale 5/9, perch`e nella seconda estrazione se `e verificato l’evento B1 lo spazio campione consiste di 5 palline bianche e 4 nere. Si ricava pertanto: P (B1 ∩ B2 ) = 1/3. In modo analogo si ha che P (N1 ∩ N2 ) = P (N1 )P (N2 | N1 ) = (4/10) · (3/9) = 4/30. Se l’esperimento consiste nell’estrazione successiva di 3 palline, la probabilit`a che queste siano tutte bianche vale, per la (1.4): P (B1 ∩ B2 ∩ B3 ) = P (B1 )P (B2 | B1 )P (B3 | B1 ∩ B2 ) dove la probabilit`a P (B3 | B1 ∩B2 ) si calcola supponendo che si sia verificato l’evento condizionante {B1 ∩ B2 }. Lo spazio campione per questa probabilit`a condizionata `e allora costituito da 4 palline bianche e 4 nere, per cui P (B3 | B1 ∩ B2 ) = 1/2 e quindi: P (B1 ∩ B2 ∩ B3 ) = (1/3) · (1/2) = 1/6. La probabilit`a dell’estrazione di tre palline nere `e invece: P (N1 ∩ N2 ∩ N3 ) = P (N1 )P (N2 | N1 )P (N3 | N1 ∩ N2 ) =

1.4

1 4 3 2 · · = . / 10 9 8 30

Eventi indipendenti

Due eventi Ai , Aj si dicono statisticamente indipendenti se e solo se: P (Ai ∩ Aj ) = P (Ai )P (Aj ) .

(1.5)

Tale definizione esprime il concetto intuitivo di indipendenza di un evento da un altro, nel senso che il verificarsi di Ai non influisce sulla probabilit` a del verificarsi di Aj , ovvero non la condiziona. Infatti, per la definizione (1.2) di probabilit`a condizionata, si ha che se vale la (1.5) risulta: P (Ai | Aj ) = P (Ai )P (Aj )/P (Aj ) = P (Ai ).

1.4 – Eventi indipendenti

11

e dunque la conoscenza del verificarsi di Aj non modifica la valutazione della probabilit`a dell’evento Ai da esso statisticamente indipendente. Si noti bene che il concetto di indipendenza `e del tutto differente da quello di incompatibilit` a. In effetti, due eventi incompatibili (per i quali si ha Ai ∩ Aj = ®) sono strettamente dipendenti statisticamente, poich`e il verificarsi dell’uno esclude il verificarsi dell’altro. Per la propriet`a C2 del §1.2.3, la probabilit`a della loro intersezione `e nulla: P (Ai ∩ Aj ) = 0 e di conseguenza, per confronto con la (1.5), due eventi incompatibili possono essere anche statisticamente indipendenti solo nel caso banale in cui almeno uno di essi abbia probabilit`a nulla, ovvero sia quasi impossibile. Se due eventi con probabilit`a non nulla sono statisticamente indipendenti, la legge delle probabilit`a totali espressa dalla propriet`a C5 del §1.2.3 si modifica nella relazione seguente: P (Ai ∪ Aj ) = P (Ai ) + P (Aj ) − P (Ai )P (Aj ). La definizione di indipendenza si estende al caso di un insieme finito o infinito di eventi Ai , i quali si dicono statisticamente indipendenti se e solo se, per qualunque sottoinsieme {A1 , . . . , An } di n eventi, si verifica la condizione: P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 )P (A2 ) · · · P (An ).

(1.6)

Ci`o significa, in particolare, che tre eventi A, B, C sono statisticamente indipendenti se lo sono a due a due, e se inoltre: P (A ∩ B ∩ C) = P (A)P (B)P (C). Esempio 1.7

Nel lancio di un dado non truccato, si considerino gli eventi: A = {esce un numero minore di 3} e B = {esce un numero pari}. Questi due eventi sono statisticamente indipendenti. Infatti, le loro probabilit`a valgono: P (A) = P (1, 2) = 1/3; P (B) = P (2, 4, 6) = 1/2 e la probabilit`a della loro intersezione vale: P {(1, 2) ∩ (2, 4, 6)} = P (2) = 1/6 ≡ P (A)P (B). Come verifica, si pu`o osservare che la probabilit`a dell’evento A condizionata da B coincide con la sua probabilit`a non condizionata: P {(1, 2) | (2, 4, 6)} =

P {(1, 2) ∩ (2, 4, 6)} 1/6 = = 1/3 ≡ P (1, 2) P (2, 4, 6) 1/2

Nel lancio ripetuto di una moneta (cfr. l’Esempio 1.4) in cui lo spazio campione `e Ω = {T T, T C, CT, CC}, si considerino gli eventi composti: A1 = {T T, T C}, A2 =

12

ASSIOMI DELLA PROBABILITA’

{T C, CT } e A3 = {T T, CT }, ciascuno con probabilit`a 1/2. I tre eventi non sono statisticamente indipendenti, anche se lo sono a due a due. Infatti: P (A1 ∩ A2 ) = P {T C} = 1/4 = P (A1 )P (A2 ) P (A1 ∩ A3 ) = P {T T } = 1/4 = P (A1 )P (A3 ) P (A2 ∩ A3 ) = P {CT } = 1/4 = P (A2 )P (A3 ), ma si ha anche: P (A1 ∩ A2 ∩ A3 ) = P (®) = 0 6= P (A1 )P (A2 )P (A3 ) e dunque non `e verificata la condizione (1.6) per n = 3.

/

Esempio 1.8: componenti in serie e in parallelo

Si abbia un generico sistema (ad es. una macchina, un dispositivo di controllo, un circuito, una rete di comunicazione tra centri abitati, ecc.) costituito da n componenti con funzionamento statisticamente indipendente, che sono operativi ciascuno con probabilit`a Pi , i = 1, . . . , n. Il collegamento `e in serie se tutti i componenti devono essere operativi perch´e lo sia il sistema; `e in parallelo se `e sufficiente il funzionamento di un solo componente per rendere operativo il sistema. Indichiamo con Ai l’evento: ”`e operativo l’i-esimo componente” e con B l’evento: ”il sistema `e operativo”. L’intersezione degli eventi Ai , i = 1, . . . , n indica l’evento: ”tutti i componenti sono operativi”, e l’intersezione delle loro negazioni Ai = Ω\Ai `e l’evento: ”nessun componente `e operativo”. Poich`e Ai sono indipendenti, le loro probabilit`a soddisfano la (1.6), per cui nel collegamento in serie si ha subito: P (B) = P (A1 ∩ A2 ∩ .. ∩ An ) = P (A1 )P (A2 )..P (An ) =

n Y

Pi .

i=1

Nel collegamento in parallelo, P (B) `e invece eguale alla probabilit`a che almeno un componente sia operativo, e perci´o vale P (B) = 1 − P (A1 ∩ A2 ∩ .. ∩ An ) = 1 −

n Y

(1 − Pi ).

/

i=1

1.5

Formula di Bayes

Si abbia una sequenza finita o numerabile di eventi Ai ∈ B ⊂ Ω con probabilit`a non nulle, e soddisfacente alle seguenti ipotesi:

1.5 – Formula di Bayes

13

1) i 6= j : Ai ∩ Aj = ® 2)

S∞

i=1 Ai

= Ω.

La prima condizione stabilisce che gli eventi devono essere a due a due incompatibili; la seconda impone che il loro insieme sia esaustivo, ossia tale che in ogni prova dell’esperimento casuale si realizza uno e uno solo tra gli eventi Ai (v. Fig. 1.3).

W

A2 A3 E

A1

A4 A5 Figura 1.3

Definito un arbitrario evento E ⊂ Ω con probabilit`a non nulla, `e chiaro per le ipotesi fatte che se si verifica E, deve anche essersi verificato almeno uno degli eventi Ai , che in tal senso si possono considerare come possibili ”cause” dell’evento E che `e stato registrato. La probabilit`a condizionata P (Ai | E), detta probabilit` a a posteriori, `e’ quella che attribuiamo ad Ai sapendo che si `e verificato E, ed `e legata alla probabilit`a a priori P (Ai ) dalla seguente formula di Bayes: P (Ai )P (E | Ai ) P (Ai | E) = X . P (Aj )P (E | Aj )

(1.7)

j

Essa mostra che la conoscenza del verificarsi di E modifica la probabilit`a che ”a priori” siamo portati ad attribuire all’evento Ai . Per dimostrare la (1.7), si osservi che ricorrendo due volte alla definizione di probabilit`a condizionata, si ha anzitutto: P (Ai ∩ E) P (E ∩ Ai ) P (Ai )P (E | Ai ) = = . P (E) P (E) P (E) Inoltre, per l’ipotesi 2) e tenendo conto che E ⊂ Ω, si pu`o scrivere: P (Ai | E) =

[

E =E∩Ω=E∩(

j

Aj ) =

[ j

(E ∩ Aj ).

(1.8)

14

ASSIOMI DELLA PROBABILITA’

Ma per l’ipotesi 1) anche gli eventi (E∩Aj ) ed (E∩Ak ), con j 6= k, sono incompatibili a due a due. Quindi per l’assioma II” si ha:   [ X X P (E) = P  (E ∩ Aj ) = P (E ∩ Aj ) = P (Aj )P (E | Aj ) j

j

(1.9)

j

che, sostituita nella (1.8), prova la (1.7). La (1.9) `e detta Formula delle probabilit` a totali, ed `e assai utile in molte applicazioni perch`e permette di valutare la probabilit`a dell’evento E se `e nota la sua probabilit`a condizionata dalla sequenza degli eventi Ai di cui si conoscono le probabilit`a a priori. ` Esempio 1.9: Controllo statistico della qualita

Al montaggio di 200 apparecchiature uguali contribuiscono tre tecnici con abilit`a differenti. Il primo tecnico monta 50 apparecchiature, che al collaudo risultano perfette nel 90% dei casi; il secondo ne monta 85, perfette all’80%, e il terzo ne monta 65, perfette nel 70% dei casi. Si vuole determinare la probabilit`a che un apparecchio di buona qualit`a, scelto a caso, sia stato montato del terzo tecnico. Indichiamo con E l’evento rappresentato dalla buona qualit`a del montaggio, e con A1 , A2 , A3 il montaggio effettuato da ciascuno dei tre tecnici. I tre eventi Ai sono esaustivi (la loro unione `e lo spazio campione dei 200 apparecchi montati) ed incompatibili (il montaggio da parte di un tecnico esclude quello di un altro). Le probabilit`a a priori di questi tre eventi sono note: 85 65 50 = 0.25, P (A2 ) = = 0.425, P (A3 ) = = 0.325. 200 200 200 La probabilit`a dell’evento E nella ipotesi che l’apparecchio scelto sia stato montato dal primo tecnico, `e la probabilit`a condizionata: P (E | A1 ) = 0.90 che `e nota dal collaudo; e cos´ı pure risulta: P (E | A2 ) = 0.80, P (E | A3 ) = 0.70. La probabilit`a da determinare `e quella relativa al montaggio effettuato dal terzo tecnico, sapendo che `e stata scelta una apparecchiatura perfetta. Essa si ricava applicando la (1.7) e vale: P (A1 ) =

P (A3 | E) =

P (A3 )P (E | A3 ) = 0.287. P (A1 )P (E | A1 ) + P (A2 )P (E | A2 ) + P (A3 )P (E | A3 )

/

Esempio 1.10: trasmissione di un segnale binario

In un sistema di comunicazione digitale, un segnale binario X `e trasmesso nella forma ”0” oppure ”1”, con probabilit`a di trasmissione di ciascuna delle due forme che indichiamo rispettivamente con P (X0 ) e P (X1 ). La trasmissione `e affetta da disturbi aleatori (rumore), per cui esiste una probabilit`a non nulla che il segnale ricevuto, che indichiamo con Y , sia diverso da quello emesso X (v. Fig. 1.4).

1.5 – Formula di Bayes

15

Figura 1.4

Canale simmetrico Supponiamo dapprima che i due eventi (esaustivi) X0 = {X = 0} e X1 = {X = 1} si realizzino con probabilit`a P (X0 ) = 0.4 e P (X1 ) = 0.6; e inoltre che la probabilit`a di errore nella trasmissione del segnale ”0” sia uguale alla probabilit`a di errore nella trasmissione del segnale ”1”, e valga P ∗ = 0.25. Si vuole determinare le probabilit`a di ricevere ”1” e di ricevere ”0”. Indichiamo con Y0 ed Y1 la ricezione del segnale nelle forme ”0” ed”1”. Se il segnale trasmesso `e ”0” esso ha, per ipotesi, probabilit`a P ∗ di essere distorto in ”1”. Quindi P (Y1 | X0 ) = P ∗ = 0.25. Se invece il segnale trasmesso `e ”1”, ha probabilit`a (1 − P ∗ ) di essere ricevuto inalterato: P (Y1 | X1 ) = 0.75. Applicando la (1.9) si ricava pertanto P (Y1 ) = P (Y1 | X0 )P (X0 ) + P (Y1 | X1 )P (X1 ) = 0.25 · 0.4 + 0.75 · 0.6 = 0.55. La probabili`a di ricezione del segnale nella forma ”0” si calcola invece come segue: P (Y0 ) = P (Y0 | X0 )P (X0 ) + P (Y0 | X1 )P (X1 ) = 0.75 · 0.4 + 0.25 · 0.6 = 0.45 o meglio, se gi`a si conosce P (Y1 ), come probabilit`a della negazione dell’evento Y1 : P (Y0 ) = P (Ω) − P (Y1 ) = 1 − 0.55. Canale non simmetrico Supponiamo ora che la probabilit`a di trasmissione del segnale in forma non distorta vari a seconda della forma del segnale trasmesso, e precisamente: P (X0 non distorto) = 0.8,

P (X1 non distorto) = 0.9

essendo P (X0 ) = 1/3. Si vuole determinare la probabilit`a P (E) che il segnale ricevuto sia errato. Essa si calcola applicando ancora la (1.9) e vale: P (E) = P (Y0 | X1 )P (X1 ) + P (Y1 | X0 )P (X0 ) = 0.1 ·

1 2 + 0.2 · = 0.13. 3 3

/

16

1.6

ASSIOMI DELLA PROBABILITA’

Problemi risolti

1.1. Da un mazzo di 52 carte se ne sceglie una a caso. Quanto vale la probabilit`a di estrarre una figura o una carta di fiori? E quella di estrarre una figura e un fiori? Soluzione. L’evento {estrazione di una figura} non influisce sulla probabilit`a dell’evento {estrazione di un fiori}, per cui essi sono statisticamente indipendenti. Ne segue: P {figura ∪ fiori} = P {figura} + P {fiori} − P {figura ∩ fiori}= P {figura ∩ fiori} = P {figura} · IP{fiori} =

3 11 12 13 + − = 52 52 52 26

12 13 3 · = . 52 52 52

1.2. Se A e C sono eventi incompatibili con B, allora P (A ∪ B|C) = P (A|C). Vero o falso? Risposta: Vero , perch´e:

¿'$ '$

A

C

B

ÁÀ &% &%

P (A ∪ B|C) =

P [(A ∪ B) ∩ C] P (A ∩ C) = = P (A|C). P (C) P (C)

1.3. Nel lancio ripetuto di due dadi non truccati, la somma dei risultati `e un numero pari. Quanto vale la probabilit`a di aver totalizzato 8 ? Risposta: La probabilit`a che la somma sia 8 `e P {8} = P {(6 + 2) ∪ (5 + 3) ∪ (4 + 4) ∪ (3 + 5) ∪ (2 + 6)} =

5 . 36

Sapendo che `e uscito un numero pari, si ha invece P {8|pari} =

P {8 ∩ pari} P {8} 5 = = . P {pari} 0.5 18

1.4. Gli eventi A1 , A2 sono incompatibili, esaustivi e con uguale probabilit`a. Se un terzo evento C ⊂ Ω ha probabilit`a condizionate P (C|A1 ) = P (C|A2 ) = 0.5, allora P (A1 |C) = 1/4. Vero o falso?

1.6 – Problemi risolti

17

Risposta: Falso , perch´e P (A1 ) = P (A2 ) = 0.5 e se si applica la formula di Bayes si ricava: P (A1 |C) =

P (A1 )P (C|A1 ) 0, 5 · 0.5 1 = = . P (A1 )P (C|A1 ) + P (A2 )P (C|A2 ) 0.5(0.5 + 0.5) 2

1.5. Se gli eventi A, B sono incompatibili, allora P (A) ≤ P (B). Vero o falso? Risposta: Vero , perch´e se sono incompatibili allora A ⊆ B = Ω − B da cui si deduce, per gli assiomi della probabilit`a, che P (A) ≤ P (B). 1.6. L’urna A contiene 2 palline bianche e 3 nere; l’urna B ne contiene 4 bianche e 1 nera; l’urna C ne contiene 3 bianche e 4 nere. Si sceglie a caso un’urna, e si estrae una pallina bianca. Calcolare la probabilit`a che essa provenga dall’urna C. Soluzione. Le probabilit`a di scegliere a caso una delle tre urne sono uguali: P (A) = P (B) = P (C) = 1/3. Indichiamo con E l’evento {estrazione di una pallina bianca}. Le probabilit`a che essa sia estratta dall’urna A, oppure B o C sono: P (E|A) = 2/5;

P (E|B) = 4/5;

P (E|C) = 3/7

e la probabilit`a totale di estrarre una pallina bianca da una qualsiasi delle tre urne vale µ ¶ 57 1 2 4 3 + + = . P (E) = 3 5 5 7 105 La probabilit`a di averla estratta dall’urna C `e data dalla formula di Bayes: P (C|E) =

5 P (C)P (E|C) (1/3)(3/7) = = . P (E) 57/105 19

1.7. Due ditte forniscono il medesimo prodotto. Se esso proviene dalla ditta A, la probabilit`a che si guasti prima dell’istante t vale 1 − e−t ; se invece proviene dalla ditta B questa probabilit`a vale 1−e−2t . Il prodotto pu`o essere acquistato con uguale probabilit`a da A o da B, e non `e nota la ditta fornitrice. Tuttavia, `e stato osservato che il prodotto si guasta in un intervallo di tempo 1 ≤ t ≤ 2. Determinare la probabilit`a che esso sia stato acquistato dalla ditta A. Soluzione. Indichiamo con E l’evento: {guasto in 1 ≤ t ≤ 2} e con P (A) = P (B) = 0.5 le probabilit`a che il prodotto provenga da A o da B. La probabilit`a di guasto del prodotto A nell’intervallo di tempo 1 ≤ t ≤ 2 vale P (E|A) = 1 − e−2 − [1 − e−1 ] = e−1 − e−2 e quella del prodotto B nello stesso intervallo `e P (E|B) = 1 − e−2·2 − [1 − e−2·1 ] = e−2 − e−4 .

18

ASSIOMI DELLA PROBABILITA’

La probabilit`a a posteriori P (A|E) `e data dalla formula di Bayes: P (A|E) = =

P (A)P (E|A) P (A)P (E|A) + P (B)P (E|B) e2 (e − 1) e−1 − e−2 = ' 0.6652 . e−1 − e−2 + e−2 − e−4 e3 − 1

1.8. Abbiamo sul tavolo 9 carte coperte: due di esse sono di cuori, tre di fiori e quattro di picche. Calcolare la probabilit`a che, scelte simultaneamente due carte a caso, siano di seme diverso. Soluzione. Indichiamo con {QQ}, {F F }, {P P } gli eventi: “estrazione di due¡ cuori”, ¢ oppure “due fiori”, o “due picche”. Lo spazio campione Ω `e costituito da 92 = 36 eventi possibili (numero di combinazioni di 9 elementi a 2 a 2). Tra essi, esistono: Ã !

2 2

à !

= 1 evento {QQ};

3 2

à !

4 2

= 3 eventi {F F };

= 6 eventi {P P }.

La probabilit`a di estrarre due carte dello stesso seme vale: P [{QQ} ∪ {F F } ∪ {P P }] = P {QQ} + P {F F } + P {P P } =

1 3 6 5 + + = . 36 36 36 18

La probabilit`a di estrarre due carte di seme diverso `e : P {seme diverso} = 1 − P [{QQ} ∪ {F F } ∪ {P P }] =

13 . 18

1.9. Una sorgente emette una sequenza di tre segnali binari equiprobabili nella forma “0” e “1”. Sapendo che almeno due segnali sono stati emessi nella forma “1”, calcolare la probabilit`a che sia stato emesso “0” nella prima emissione. Soluzione. Lo spazio campione contiene 23 = 8 eventi (= numero delle disposizioni con ripetizione di 2 elementi a 3 a 3). Questi sono: (000) (001) (011) (100) (010) (101) (110) (111) e la probabilit`a che sia stato emesso “1” almeno due volte vale P (E) ≡ P ( “1” per due o tre volte) =

4 = 0.5. 8

La probabilit`a di emissione di un primo “0” condizionata da E vale: P (primo “0”|E) =

P [(primo “0”) ∩ E] 1/8 = = 0.25 . P (E) 0.5

1.6 – Problemi risolti

19

1.10. In un primo turno elettorale il polo A ha avuto il 45% dei voti, e il polo B ha vinto con il 55% dei suffragi. Si ripetono le elezioni con i medesimi votanti, e dagli exit-poll risulta che: 1) il 10% di colori che avevano votato A hanno spostato il voto su B; 2) il 20% dei vecchi elettori di B hanno votato A. Chi ha vinto (secondo gli exit-poll) il secondo turno? Soluzione. Definiamo i seguenti eventi e le loro probabilit`a: A1 = {voto per A al primo turno} :

P (A1 ) = 0.45

B1 = {voto per B al primo turno} :

P (B1 ) = 0.55

E = {voto cambiato} :

P (E|A1 ) = 0.10,

P (E|B1 ) = 0.20.

La probabilit`a che gli elettori abbiano votato A al secondo turno `e P (A2 ) = P (A1 )[1 − P (E|A1 )] + P (B1 )P (E|B1 ) = 0.45 · 0.9 + 0.55 · 0.20 = 0.515. Poich´e gli eventi A2 e B2 sono esaustivi, ha vinto A con il 51.5% contro B che ha avuto il 48.5% . 1.11. Sul tavolo ci sono due mazzi di carte. Il mazzo A `e completo ed ha 52 carte (ossia tredici per ognuno dei quattro semi). Dal mazzo B sono state tolte tutte le figure. Si estrae una carta a caso da uno dei due mazzi, ed `e un asso. Qual’`e la probabilit`a che l’asso sia stato estratto dal mazzo B ? Soluzione. Le probabilit`a a priori di scegliere uno dei due mazzi sono uguali: P (A) = P (B) = 0.5. Se E `e l’evento “estrazione di un asso”, le probabilit`a di estrarlo da A o da B sono: 4 1 4 1 P (E|A) = = , P (E|B) = = . 52 13 40 10 La probabilit`a a posteriori che l’asso sia stato estratto dal mazzo B vale, per la formula di Bayes: P (B|E) =

P (B)P (E|B) 0.5 · 0.1 13 = = ' 0.5652 . P (A)P (E|A) + P (B)P (E|B) 0.5(0.1 + 1/13) 23

1.12. Si utilizza un prodotto fornito in percentuali uguali da due ditte A e B. E’ stato calcolato che, scelto a caso un esemplare difettoso, la probabilit`a che esso sia stato fornito dalla ditta A vale IP(A|difettoso ) = 0.25. Se la produzione del prodotto da parte della ditta A ha un difetto di qualit`a del 5%, qual’`e il difetto di qualit`a nella produzione della ditta B ? Soluzione. Le probabilit`a a priori che la ditta fornitrice sia A oppure B sono uguali: P (A) = P (B) = 0.5. Se D `e l’evento: “prodotto difettoso”, si sa che P (D|A) = 0.05. Inoltre `e stato calcolato che 0.5 · 0.05 P (A|D) = = 0.25. 0.5 · 0.05 + 0.5 · P (D|B)

20

ASSIOMI DELLA PROBABILITA’

Dunque risolvendo rispetto alla probabilit`a richiesta: P (D|B) =

0.05 − 0.05 = 0.15 = 15% . 0.25

1.13. Tre macchine A, B, C producono, rispettivamente, il 60%, il 30% e il 10% del numero totale dei pezzi prodotti da una fabbrica. Le percentuali di produzione difettosa di queste macchine sono, rispettivamente, del 2%, 3% e 4%. Viene estratto a caso un pezzo che risulta difettoso. Determinare la probabilit`a che quel pezzo sia stato prodotto dalla macchina C. Soluzione. Le probabilit`a che i pezzi siano prodotti dalla macchina A, B oppure C sono: P (A) = 0.6, P (B) = 0.3, P (C) = 0.1. Se D `e l’evento: {pezzo difettoso}, si sa che P (D|A) = 0.02,

P (D|B) = 0.03,

P (D|C) = 0.04

e dunque la probabilit`a totale che il pezzo sia difettoso vale P (D) = 0.6 · 0.02 + 0.3 · 0.03 + 0.1 · 0.04 = 0.025. Per la formula di Bayes la probabilit`a richiesta `e P (C|D) =

P (C)P (D|C) 0.1 · 0.04 = = 0.16 . P (D) 0.025

1.14.Un’urna contiene 1 pallina nera (N) e 2 palline bianche (B). Si estrae casualmente una pallina dall’urna e, dopo averne osservato il colore, la si rimette nell’urna aggiungendo altre 2 palline del colore estratto e 3 palline del colore non estratto. Calcolare la probabilit`a che in 4 estrazioni successive, effettuate secondo la regola sopra stabilita, si ottenga la stringa (ordinata) BNNB. Soluzione. Indichiamo con Bi , Ni (i = 1, . . . , 4) gli eventi: {si ha una pallina Bianca (Nera) alla i-esima estrazione}. Dopo ogni estrazione cambia lo spazio campione, e se gli esiti delle prime tre estrazioni seguono la sequenza voluta: B1 N2 N3 il numero delle palline presenti nell’urna quando avviene la i-esima estrazione si modifica come segue: i 1 2 3 4

Nere 1 4 6 8

Bianche 2 4 7 10

1.6 – Problemi risolti

21

Allora si ha 2 P (B1 ) = , 3

P (N2 |B1 ) =

P (N3 |N2 ∩ B1 ) =

6 , 13

4 1 = , 8 2 P (B4 |N3 ∩ N2 ∩ B1 ) =

10 5 = 18 9

e di conseguenza la probabilit`a che si verifichi la sequenza BN N B vale: P (B1 ∩ N2 ∩ N3 ∩ B4 ) =

2 1 6 5 10 · · · = ' 0.08547 . 3 2 13 9 117

1.15. Un segnale binario X, emesso nella forma ” 1 ” con probabilit`a P (X1 ) = 0, 75, `e inviato su un canale di trasmissione non simmetrico nel quale la probabilit`a di errore nella trasmissione di X1 vale p = 0, 08. Il segnale X `e ricevuto nella forma Y = 1 con probabilit`a P (Y1 ) = 0, 70. Calcolare: a) la probabilit`a P (Y1 |X0 ) che il segnale ” 0 ” sia ricevuto nella forma ” 1 ”; b) la probabilit`a totale di errore nella ricezione del segnale. Soluzione. a) La probabilit`a che X sia emesso nella forma “0” `e P (X0 ) = 1−P (X1 ) = 0.25, e la probabilit`a di una trasmissione corretta del segnale “1” `e P (Y1 |X1 ) = 1−0.08 = 0.92. Per la formula delle probabilit`a totali, la probabilit`a (nota) che il segnale sia ricevuto nella forma “1” si pu`o scrivere: P (Y1 ) = 0.70 = P (X0 )P (Y1 |X0 ) + P (X1 )P (Y1 |X1 ) = 0.25P (Y1 |X0 ) + 0.75 · 0.92 e risolvendo rispetto a P (Y1 |X0 ): P (Y1 |X0 ) =

0.70 − 0.75 · 0.92 = 0.04 . 0.25

b) La probabilit`a di errore nella ricezione del segnale risulta: P {errore} = P (X0 )P (Y1 |X0 ) + P (X1 )P (Y0 |X1 ) = = 0.25 · 0.04 + 0.75 · 0.08 = 0.07 . 1.16. Due urne contengono palline bianche e nere in proporzioni diverse. Siano p1 e p2 le probabilit`a di estrarre una pallina bianca rispettivamente dall’urna U1 e dall’urna U2 . Luca vince se estraendo due palline almeno una `e bianca. Egli pu`o scegliere tra due modalit`a di estrazione: A) Sceglie a caso una delle due urne, estrae una pallina, la rimette nell’urna da cui `e stata estratta, quindi sceglie di nuovo a caso un’urna ed estrae la seconda pallina.

22

ASSIOMI DELLA PROBABILITA’

B) Sceglie a caso una delle due urne, estrae una pallina, la rimette nell’urna da cui `e stata estratta, e sempre dalla stessa urna estrae una seconda pallina. Quale tra le due procedure `e pi` u conveniente per la vittoria di Luca? Soluzione. Indichiamo con Ui la scelta di una delle due urne, con Ni l’evento: {pallina nera alla i-esima estrazione} e con E l’evento {estrazione di almeno una pallina bianca}. Si ha anzitutto: IP(Ui ) = 0.5 ;

IP(E) = 1 − IP(N1 ∩ N2 ).

Con la procedura A le due estrazioni sono statisticamente indipendenti, con IP(N1 ) = IP(N2 ) : IP(N1 ∩ N2 ) = IP(N1 )IP(N2 ) = {IP(U1 )IP(N1 |U1 ) + IP(U2 )IP(N1 |U2 )} × × {IP(U1 )IP(N2 |U1 ) + IP(U2 )IP(N2 |U2 )} = {0.5(1 − p1 ) + 0.5(1 − p2 )}2 . In tale ipotesi si ricava: µ

IPA (E) = 1 −

1 − p1 1 − p2 + 2 2

¶2

= p1 + p2 −

(p1 + p2 )2 . 4

Con la procedura B, la probabilit`a di estrarre due Nere dalla medesima urna vale: i = 1, 2 :

IP(N1 ∩ N2 |Ui ) = IP(N1 |Ui )IP(N2 |Ui ) = (1 − pi )2 .

Quindi: IP(N1 ∩ N2 ) = IP(U1 )IP(N1 ∩ N2 |U1 ) + IP(U2 )IP(N1 ∩ N2 |U2 ) = 0.5(1 − p1 )2 + 0.5(1 − p2 )2 e si ottiene: "

(1 − p1 )2 (1 − p2 )2 IPB (E) = 1 − + 2 2

#2

= p1 + p2 −

p21 + p22 . 2

La differenza tra le due probabilit`a `e IPA (E) − IPB (E) = − e quindi IPA (E) > IPB (E) .

(p1 + p2 )2 p21 + p22 (p1 − p2 )2 + = >0 4 2 4

VARIABILI ALEATORIE 2.1

Definizioni

Il risultato di una prova di un generico esperimento casuale non `e sempre esprimibile direttamente in termini di numeri reali (si pensi per esempio al lancio di una moneta, o all’estrazione da un’urna di palline con colori diversi). Tuttavia, nello sviluppo del Calcolo delle probabilit`a siamo interessati ad associare un numero reale x = X(ω) a qualsiasi risultato ω di ogni prova dell’esperimento casuale. Il funzionale X : Ω → IR che cos´ı si viene a definire `e chiamato variabile aleatoria o casuale (abbreviata nel seguito con v.a.) se soddisfa a queste due condizioni: 1. X `e una funzione a valori reali definita sullo spazio di probabilita’ (Ω, B, P ) e misurabile, nel senso che le immagini inverse di intervalli Bi ⊆ IR appartengono al campo di Borel degli eventi Ai : X −1 (Bi ) = Ai ∈ B. 2. Per ogni numero reale x, l’insieme {ω : X(ω) ≤ x} `e ancora un evento in B. La v.a. X(ω) `e dunque una funzione che fa corrispondere a ciascun risultato ω dell’esperimento casuale un elemento x di IR, e ad ogni evento Ai ∈ B ⊆ Ω un intervallo Bi ⊆ IR come `e illustrato in Fig. 2.1. L’intervallo Bi appartiene a una infinit`a numerabile di insiemi che costituiscono un campo di Borel B ∗ su X(Ω) ⊆ IR. In particolare, all’evento impossibile ® ∈ Ω `e associato l’insieme vuoto dei numeri reali, e all’evento certo Ω `e associato l’intervallo X(Ω) ⊆ IR. Inoltre, poich´e il funzionale X `e definito su uno spazio di probabilit`a, la v.a. associa alla probabilit`a P (Ai ) = P [X −1 (Bi )], definita su Ω, una eguale probabilit`a immagine P ∗ (Bi ), definita su X(Ω). Quest’ultima misura la probabilit`a che la v.a. X(ω) assuma valori reali x ∈ Bi , ed `e tale che P ∗ (Bi ) = P [X −1 (Bi )] = P (Ai ).

23

24

VARIABILI ALEATORIE

R

x = X(w )

X W

w Ai

B i = X(A i )

X P* P

0

P(A i ) = P*(B i )

1

R

Figura 2.1

Nel seguito indicheremo una v.a. con la lettera maiuscola (per es. X), mentre il generico valore reale che essa pu`o assumere sar`a indicato con la lettera minuscola corrispondente. La v.a. X(ω) assume un valore x ∈ IR con una ben definita probabilit`a, che `e indotta in X(Ω) ⊆ IR dalla probabilit`a P (ω) che si verifichi ω ∈ Ω. In conclusione, una variabile aleatoria `e la trasformazione X

(Ω, B, P ) −→ (IR, B∗ , P ∗ ) che associa ad ogni elemento ω ∈ Ω una coppia di numeri reali (x, P ∗ (x)) = (X(ω), P (ω)) con P ∗ (x) = P (ω) ∈ [0, 1]. Esempio 2.1

Nel lancio di una moneta per due volte, in cui Ω = {T T, T C, CT, CC}, definiamo la v.a. X(ω) che a ciascuno dei 4 possibili eventi elementari associa un ”guadagno” 1 se esce T , e una ”perdita” di una unit`a se esce C. La v.a. X(ω) assume allora tre valori discreti: x1 = X(ω = CC) = −2 x2 = X(ω = T C) = X(ω = CT ) = 0 x3 = X(ω = T T ) = 2 e l’immagine di Ω `e il sottoinsieme: X(Ω) = {−2, 0, 2} ⊂ IR. Poich´e i quattro eventi elementari sono equiprobabili con probabilit`a P (ω) = 1/4, si ha che la probabilit`a immagine, indotta in X(Ω) per ciascuno dei tre valori di X, vale rispettivamente: P ∗ (−2) = P (T T ) = 1/4 P ∗ (0) = P (T C ∪ CT ) = 1/2 P ∗ (2) = P (CC) = 1/4. /

2.1 – Definizioni

2.1.1

25

Funzione di distribuzione

Per la propriet`a 2 di X(ω), l’insieme {ω : X ≤ x} `e un evento in B, che d’ora in poi scriveremo pi` u sinteticamente con (X ≤ x). Ad esso `e possibile assegnare una probabilit`a P (X ≤ x) = P {X −1 (−∞, x)} che al variare di x ∈ IR definisce la funzione ordinaria di variabile reale: FX (x) = P (X ≤ x). Questa funzione `e chiamata funzione di distribuzione (cumulata), o funzione di ripartizione di X(ω). Dunque, FX (x) definisce la distribuzione delle probabilit`a di eventi in un esperimento casuale e, con riferimento alla v.a. X(ω) che associamo a tale esperimento, misura la probabilit`a che X(ω) assuma valori minori o uguali al reale x. Sulla base degli assiomi del Calcolo delle probabilit`a, `e sempre non negativa, monotona non decrescente tra 0 e 1, tale che: lim FX (x) ≡ FX (−∞) = 0,

x→−∞

lim FX (x) ≡ FX (+∞) = 1

x→+∞

ed `e continua a destra: lim FX (ξ) ≡ FX (x+ ) = FX (x).

ξ→x+

Se X(ω) assume un numero finito o una infinit`a numerabile di valori reali xi , i = 1, .., n,.. con probabilit`a Pi , allora `e chiamata v.a. discreta. La sua funzione di distribuzione, illustrata in Fig. 2.2a), `e una funzione costante a tratti con punti di discontinuit`a in xi : xi ≤ x < xi+1 :

FX (x) =

i X r=1

Pr ,

con

X

Pi = 1.

i

Al contrario, se FX (x) `e continua e derivabile ovunque tranne al pi` u in un insieme numerabile di punti, allora X(ω) `e una v.a. continua, definita in un insieme continuo X(Ω) ⊆ IR come illustrato in Fig. 2.2b). Se infine l’immagine di Ω attraverso X `e un insieme continuo X(Ω) ⊆ IR, ma FX (x) ha un insieme numerabile di punti di discontinuit` a, allora la v.a. si definisce di tipo misto (v. Fig. 2.2c). La probabilit`a che una v.a. X(ω) assuma valori in un intervallo (x1 , x2 ] aperto a sinistra, `e data da: P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ).

(2.1)

Infatti si ha: (−∞, x2 ] = (−∞, x1 ] ∪ (x1 , x2 ] e poich`e gli intervalli a secondo membro rappresentano eventi incompatibili ne segue che P (X ≤ x2 ) = FX (x2 ) = P (X ≤ x1 ) + P (x1 < X ≤ x2 ) = FX (x1 ) + P (x1 < X ≤ x2 )

26

VARIABILI ALEATORIE F (x)

F (x)

F (x)

X

X

X

1

1

1

.75

.25 -2

0

2

x

1

0

a) v.a. discreta

x

0

b) v.a. continua

.25

.75

1

x

c) v.a. mista

Figura 2.2

da cui la (2.1). Se se per`o X(ω) `e continua, la probabilit`a che assuma un valore assegnato x1 `e nulla, perch`e x1 `e un insieme di misura nulla (cfr. l’Esempio 1.5). Ne segue, tenuto conto della incompatibilit`a degli eventi (X = x1 ) e (x1 < X ≤ x2 ), che per v.a. continue la (2.1) vale anche con il doppio segno di uguaglianza: P (x1 ≤ X ≤ x2 ) = P (X = x1 ) + P (x1 < X ≤ x2 ) = FX (x2 ) − FX (x1 ). Esempio 2.2

La v.a. definita nell’Esempio 2.1 a proposito del lancio ripetuto di una moneta `e discreta perch´e pu`o assumere solo i tre valori x1 = −2, x2 = 0, x3 = 2. La sua funzione di distribuzione vale:  0    1/4

per per FX (x) = P (X ≤ x) =   3/4 per  1 per

x < −2 x ∈ [−2, 0) x ∈ [0, 2) x≥2

(2.2)

ed il suo grafico `e riportato in Fig. 2.2a). Un modo pi` u espressivo per scrivere questa funzione costante a tratti consiste nel far uso della funzione scalino unitario o di Heaviside, cos`ı definita: ½ ∗

U (x − x ) =

1 per ogni x ≥ x∗ 0 per ogni x < x∗ .

(2.3)

Con essa, la (2.2) diventa FX (x) = 14 U (x + 2) + 12 U (x) + 41 U (x − 2)

(2.20 )

ed ha il vantaggio di mostrare sia i punti di discontinuit` a di FX (x), sia l’ampiezza del gradino in ognuno di tali punti. Esempio 2.3

2.1 – Definizioni

27

La funzione di variabile reale:

 0

FX (x) = 3x2 − 2x3  1

per x < 0 per x ∈ [0, 1] per x > 1

(2.4)

`e tale che FX (0) = 0; FX (1) = 1 e la sua derivata FX0 (x) = 6x(1 − x) `e non negativa per ogni x ∈ [0, 1]. Essa pu`o dunque essere riguardata come la funzione di distribuzione di una v.a. X(ω) continua nell’intervallo [0, 1], il cui grafico `e riportato in Fig. 2.2b). / Esempio 2.4

L’esperimento consiste nell’estrazione a caso di un numero x compreso tra 0 e 1. Definiti i tre eventi composti: A1 = {ω : x ∈ [0, 14 ] },

A2 = {ω : x ∈ ( 14 , 34 ] },

A3 = {ω : x ∈ ( 34 , 1] }

aventi probabilit`a P (A1 ) = P (A3 ) = 14 ; P (A2 ) = 12 , associamo ad essi la v.a.  0

se ω ∈ A1 X(ω) = x se ω ∈ A2  1 se ω ∈ A3 . La sua funzione di distribuzione si calcola come segue: x b

(x − a)/(b − a)  1

fX( x )

FX ( x ) 1

1 b-a

a

b

x

0

a

Figura 2.5 - Distribuzione uniforme

b

x

34

VARIABILI ALEATORIE

ed i momenti valgono E{X q } =

Z b a

xq bq+1 − aq+1 dx = . b−a (b − a)(q + 1)

In particolare, si ha subito che il valor medio di X(ω) `e ovviamente: mX = e la varianza vale: 2 σX =

2.3.2

a+b 2

(b − a)2 a2 + ab + b2 − m2X = . 3 12

Distribuzione normale

Una v.a. reale X(ω) ha una distribuzione normale o gaussiana se la sua densit`a vale "

#

(x − mX )2 1 exp − , fX (x) = √ 2 2σX 2πσX

x ∈ IR

(2.19)

2 > 0 sono rispettivamente il valor medio e la varianza dove i parametri mX ∈ IR e σX 2 ), ha di X(ω). La distribuzione normale, che si indica con la notazione N (mX , σX la seguente funzione di distribuzione:

1 FX (x) = √ 2πσX

Z x

"

#

µ

x − mX (x − mX )2 1 exp − dx = + erf 2 2 σX 2σX −∞



(2.20)

dove erf (z) `e la funzione degli errori: 1 erf (z) = √ 2π

Z z 0

t2

e− 2 dt,

soddisfacente tra l’altro le propriet`a: erf (−z) = −erf (z) ;

lim erf (z) = 1/2

z→∞

e nota quantitativamente attraverso i suoi valori tabulati. Ne segue che FX (x) `e monotona crescente tra 0 e 1, e vale 1/2 per x = mX perch´e la densit`a (2.19) `e simmetrica rispetto al suo valor medio (v. Fig. 2.6). La v.a. Z(ω) che `e distribuita con legge normale N (0, 1), ovvero ha media nulla e varianza unitaria, prende il nome di normale standard. Si pu`o facilmente provare (con i metodi che saranno esposti nel Capitolo 4) che la sua densit`a si ricava dalla (2.19) mediante il cambiamento di variabile: z=

x − mX , σX

(2.21)

2.3 – Distribuzioni notevoli in Probabilit` a e Statistica

35

1 f ( x) X

FX ( x)

sX2 = 0.05

sX2 = 0.05

0.1 0.2

0.1

0.5

0.2

0.3

0.3

0

mX

mX

Figura 2.6 - Distribuzioni normali

il che significa che la densit`a e la funzione di distribuzione di Z(ω) sono: z2 1 fZ (z) = √ e− 2 , 2π

FZ (z) =

1 + erf (z). 2

(2.22)

Si noti che nella (2.21) σX `e la deviazione standard di X(ω), e quindi z `e un numero puro. Poich´e erf (z) si ricava direttamente dalla tabella dei valori della funzione degli errori, nel calcolo di misure di probabilit`a riguardanti distribuzioni normali con media e varianza note, `e spesso assai pi` u comodo effettuare la trasformazione (2.21) e operare sulla variabile standardizzata Z(ω) che ha legge N (0, 1). Questa procedura `e usuale nei metodi statistici che saranno esposti in un prossimo Capitolo. Ad esempio, dalla tabella di erf (z) che `e riportata in Appendice si ricava subito: P (|X − mX | ≤ σX ) = P (|Z| ≤ 1) = FZ (1) − FZ (−1) = 2 erf (1) ' 0.6826 P (|X − mX | ≤ 2.15 σX ) = P (|Z| ≤ 2.15) = 2 erf (2.15) ' 2 · 0.4842 = 0.9684 P (|X − mX | ≤ 3σX ) = P (|Z| ≤ 3) = FZ (3) − FZ (−3) = 2 erf (3) ' 0.9974. 2 ) assume Da questo calcolo si deduce, tra l’altro, che ogni v.a. normale N (mX , σX valori compresi tra mX −σX e mX +σX con probabilit`a che `e circa uguale a 0.6826, e la probabilit`a sale a 0.9974 (avvicinandosi a quella dell’evento certo) se si considera l’intervallo [mX − 3σX , mX + 3σX ].

La grande importanza che la legge di distribuzione normale riveste nei metodi della Statistica matematica `e dovuta al seguente Teorema, che trover` a svariate applicazioni nelle stime campionarie di cui ci occuperemo nei Capitoli 7,8 e 9.

36

VARIABILI ALEATORIE

Teorema Limite Centrale Si abbia una successione {Xi (ω)}, i ∈ IN+ di variabili aleatorie statisticamente indipendenti, con uguali densit`a di probabilit`a fi (xi ) aventi valor medio E{Xi } = µ e varianza σi2 = σ 2 finite. Allora la densit`a di probabilit`a della loro somma: Sn (ω) =

n X

Xi (ω)

i=1

converge, per n → +∞, alla distribuzione normale N (nµ, nσ 2 ). Sulla base di questo Teorema, `e possibile usare la legge normale per descrivere in termini probabilistici tutti quei fenomeni fisici che si possono considerare come prodotti dalla sovrapposizione di un elevato numero di cause statisticamente indipendenti ed aventi la medesima natura aleatoria. Nella Statistica, il teorema `e indispensabile per definire le propriet`a aleatorie dei valori medi di campioni estratti casualmente da una popolazione.

2.3.3

Distribuzione Gamma

Una v.a. che assume valori in IR+ `e distribuita con legge Gamma di parametri λ e α > 0 se ha densit`a di probabilit`a fX (x) =

λα −λx α−1 e x , Γ(α)

x ≥ 0.

(2.23)

Γ(α) `e la funzione speciale cos`ı definita: Γ(α) =

Z ∞ 0

e−t tα−1 dt,

(2.24)

le cui propriet`a sono definite nei testi che riportano i suoi valori tabulati. Ricordiamo in particolare che √ Γ( 12 ) = π Γ(α + 1) = αΓ(α) = α! per √ α ∈ IN+ Γ(α + 12 ) = 1 · 3 · 5 · · · (2α − 1) π/2α . Questa distribuzione ha valor medio e varianza che valgono: mX =

α , λ

2 σX =

α , λ2

e se α ≥ 1 ha un massimo per x = (α − 1)/λ (v Fig. 2.7).

2.3 – Distribuzioni notevoli in Probabilit` a e Statistica

37

f ( x) X

l =4 a = 0.5

4

a = 1 : esponenziale 2

a=2 a=3

0

x

Figura 2.7 - Distribuzioni Gamma ed esponenziale (per

2.3.4

α = 1)

Distribuzione esponenziale

Per α = 1, la distribuzione Gamma si riduce a quella esponenziale definita dalla densit`a fX (x) = λe−λx , λ > 0; x ≥ 0. (2.25) La sua funzione di distribuzione cumulata `e FX (x) = 1 − e−λx ,

x≥0

(2.26)

ed ha momenti finiti di qualsiasi ordine, che valgono q = 1, 2, . . . :

E{X q } = λ

Z ∞ 0

xq e−λx dx =

1 λq

Z ∞ 0

tq e−t dt =

q! λq

poich´e l’ultimo integrale `e la funzione Gamma Γ(q + 1) = q! definita con la (2.34). In particolare, valor medio e varianza valgono mX =

1 , λ

2 σX = E{X 2 } − m2X =

1 . λ2

Si noti che la successione dei momenti di X(ω) definisce univocamente la densit`a esponenziale: infatti essi soddisfano la condizione (2.17) per ogni reale k ∈ (0, λ): k 2q 2q)! k 2q E{X } · = 2q · = (2q)! λ (2q)! 2q

µ ¶2q

k λ

→ 0 per q → 0 : 0 < k < λ.

La distribuzione esponenziale `e assai utilizzata negli studi di affidabilit`a (di un dispositivo o di un materiale) con tasso di guasto costante λ. Se X(ω) `e il tempo

38

VARIABILI ALEATORIE

di attesa perch´e si verifichi il guasto, l’affidabilit`a del dispositivo, definita come la probabilit`a di non subire guasti nell’intervallo di tempo (0, t), `e data da R(t) = 1 − FX (t) = e−λt =

1 fX (t). λ

La distribuzione esponenziale dei tempi di attesa ha una notevole propriet`a: per ogni t, s ∈ IR la probabilit`a di attendere un evento per un tempo t + s, sapendo di aver gi`a atteso il tempo s, `e uguale alla probabilit`a di attendere l’evento per una durata di tempo t. Infatti, ricordando la definizione (1.2) di probabilit`a condizionata, si ha P (X > t + s | X > s) =

P ({X > t + s} ∩ {X > s}) P (X > t + s) = = P (X > s) P (X > s) 1 − FX (t + s) = = e−λt = 1 − FX (t) = P (X > t). 1 − FX (s)

Si dice perci`o che la legge esponenziale `e “senza memoria”, nel senso che il tempo s gi`a trascorso non influenza la probabilit`a che l’evento si verifichi in qualunque istante successivo all’istante s in cui `e iniziata l’osservazione.

2.3.5

Distribuzione di Maxwell

Si dimostrer`a nel Capitolo IV che il vettore V (ω) avente come componenti cartesiane ortogonali tre variabili aleatorie statisticamente indipendenti e con uguale distribuzione normale N (0, σ 2 ), `e una v.a. con densit`a di probabilit`a r

fV (v) =

Ã

2 v2 v2 exp − π σ3 2σ 2

!

,

v ≥ 0.

(2.27)

La densit`a (2.27) definisce la distribuzione di Maxwell, che ha valor medio e varianza uguali a q E{V } = 2σ 2/π ;

σV2 = σ 2 (3 − 8/π)

(2.28)

dove σ 2 `e, come detto, la varianza delle componenti di V (ω). Si osservi anche che fV (v) √ non `e simmetrica rispetto al suo valor medio: infatti ha un massimo per v = 2σ 6= E{V }. La distribuzione di Maxwell `e di grande importanza nella Meccanica statistica, perch´e `e il modello probabilistico della velocit`a di agitazione termica delle molecole di un gas in equilibrio termodinamico. Se indichiamo con m la massa molecolare, con T la sua temperatura e con k la costante di Boltzmann, allora risulta σ2 =

kT , m

2.3 – Distribuzioni notevoli in Probabilit` a e Statistica

39

e il valor medio dell’energia cinetica T della molecola del gas in equilibrio `e uguale a E{T } = 21 mE{V 2 }. Ma sostituendo il valore di σ 2 nelle (2.28) si ottiene: kT E{V } = m

µ

2

8 3− π





8kT 3kT = , mπ m

da cui segue il noto risultato che nel modello maxwelliano le molecole di gas in equilibrio possiedono una energia cinetica media che vale 3 E{T } = kT. 2

f V (v ) s =1

s=2

s =3 0

v

Figura 2.8 - Distribuzioni di Maxwell

Assai simile alla maxwelliana `e la distribuzione di Rayleigh, riguardante le propriet`a probabilistiche di un vettore bidimensionale q

V (ω) =

X12 (ω) + X22 (ω)

le cui componenti, statisticamente indipendenti, hanno legge normale N (0, σ 2 ). La sua densit`a di probabilit`a `e la funzione Ã

v v2 fV (v) = 2 exp − 2 σ 2σ

!

,

v ≥ 0,

con valor medio e varianza che valgono: q

E{V } = σ π/2,

2.3.6

σV2 = σ 2 (2 − π/2).

Distribuzione t-Student

La v.a. X(ω) che pu`o assumere qualsiasi valore x ∈ IR ha una distribuzione chiamata t-Student con n gradi di libert`a, n = 1, 2, 3, . . . (dallo pseudonimo dello statistico

40

VARIABILI ALEATORIE

britannico W.S. Gosset) se la sua densit`a di probabilit`a vale: µ



n+1 Ã !− n+1 Γ 2 x2 2µ ¶ fX (x) = 1+ √ n n nπ · Γ 2

(2.29)

dove Γ(·) `e la funzione Gamma (2.24). Il suo valor medio `e nullo: E{X} = 0 per ogni n e la sua varianza, che `e definita solo per n > 2, vale n 2 σX = . n−2 f (x ) X

N (0, 1)

n=6 n=4

n=2

x 0 Figura 2.9 - Confronto tra distribuzioni t-Student e Normale standard

Per n = 1, la distribuzione t-Student si riduce alla distribuzione di Cauchy: fX (x) =

1 , π(1 + x2 )

che ha valor medio nullo ma `e priva dei momenti di ordine superiore, perch´e l’integrale (2.13) che li definisce diverge per q ≥ 2. Poich´e n `e intero, il coefficiente di normalizzazione nella (2.29) si determina facilmente utilizzando le propriet`a della funzione Gamma, in modo che per n pari: n = 2k, k = 1, 2, . . . la densit`a t-Student si pu`o riscrivere nella forma: !−(k+ 1 ) √ Ã 2 1 · 3 · 5 · · · (2k − 1) π x2 √ fX (x) = 1+ 2k 2k 2kπ(k − 1)!

(2.290 )

e per n dispari: n = 2k + 1, k = 1, 2, . . . si ha: Ã

x2 2k · k! √ 1+ fX (x) = 2k + 1 1 · 3 · 5 · · · (2k − 1)π 2k + 1

!−(k+1)

.

(2.2900 )

2.3 – Distribuzioni notevoli in Probabilit` a e Statistica

41

La distribuzione t-Student ha questa interessante propriet`a: per n → ∞ essa tende alla distribuzione normale standard N (0, 1), ma ha una dispersione pi` u elevata per piccoli valori di n > 2. Per questo motivo, essa trova frequenti applicazioni in Statistica, quando la stima dei valori medi di una popolazione `e da effettuare su piccoli campioni (v. Capitolo 8).

2.3.7

Distribuzione Chi-quadrato

Una v.a. che assume valori x ∈ IR+ ha una distribuzione Chi-quadrato con n gradi di libert`a, che si indica con il simbolo χ2n , se la sua densit`a di probabilit`a `e la funzione n

x

x 2 −1 e− 2 fX (x) = n/2 , 2 · Γ(n/2)

x≥0

(2.30)

0.25 n=4

fX ( x )

n=6 n = 10

0

x

20

Figura 2.10 - Distribuzioni Chi-quadrato

Essa si ricava anche come un caso particolare della distribuzione Gamma, ponendo nella (2.23) α = n/2, λ = 1/2. Ha valor medio e varianza che valgono E{X} = n,

2 σX = 2n,

e si pu`o dimostrare che `e la distribuzione di una v.a. definita come la somma dei quadrati di n variabili aleatorie indipendenti Xi (ω) aventi distribuzioni normali standard: n χ2n (ω) =

X

Xi2 (ω),

E{Xi } = 0,

2 σX = 1. i

i=1

Per questo motivo, `e assai utile in Statistica per la valutazione delle varianze di campioni estratti da una popolazione (v. Capitolo 8). Per una sua notevole propriet`a asintotica, al crescere di n la distribuzione Chiquadrato tende ad assumere una forma “a campana” simmetrica rispetto al suo

42

VARIABILI ALEATORIE

valor medio, e si pu`o dimostrare che per n >> 1 `e ben approssimata da una legge normale N (n, 2n) con media n e varianza 2n.

2.3.8

Distribuzione F di Fisher

Un’altra distribuzione di frequente uso nei test statistici (v. Capitolo 9) `e quella di una v.a. X(ω) definita come il rapporto: X(ω) =

nχ2m (ω) mχ2n (ω)

tra due variabili aleatorie con distribuzione Chi-quadrato ad m e n gradi di libert`a (e divise per il loro grado di libert`a). Questa distribuzione, che si indica con la notazione F (m, n) ed `e anche chiamata di Snedecor, ha densit`a di probabilit`a µ

µ

fX (x) =

m n

¶m 2



m+n m Γ x( 2 −1) 2 · µ ¶ µ ¶·· ¸ m+m , n m 2 mx Γ Γ 1+ 2 2 n

x≥0

(2.31)

1

f X( x )

n = 4, m = 2 n = 6, m = 4 n = 8, m = 6

0

2

1

Figura 2.11 - Distribuzioni

3

x

4

F (m, n) di Fisher

dove Γ(·) `e sempre la funzione Gamma (2.24). Il suo valor medio dipende solo dal parametro n, vale n E{X} = se n > 2 n−2 e quindi tende a 1 per n → ∞; la varianza vale invece s2X =

2n2 (m + n − 2) m(n − 2)2 (n − 4)

se n > 4.

2.3 – Distribuzioni notevoli in Probabilit` a e Statistica

2.3.9

43

Distribuzione binomiale

Proseguiamo l’illustrazione delle leggi probabilistiche pi` u note, considerando ora due importanti distribuzioni discrete, la binomiale e quella di Poisson, il cui interesse `e strettamente legato allo studio degli esiti di una successione di prove ripetute ed indipendenti di un esperimento casuale, la cui formulazione probabilistica `e dovuta a Bernoulli. Ne esaminiamo ora i risultati fondamentali. Consideriamo un esperimento casuale i cui esiti siano rappresentati da due soli eventi, che definiremo con successo (S) o fallimento (F) della prova effettuata. Supponiamo inoltre che n prove di tale esperimento siano ripetute ”in modo indipendente”, vale a dire in modo tale che l’esito di una prova sia indipendente da qualsiasi prefissata sequenza di esiti nelle prove precedenti. Indichiamo con p la probabilit`a di successo e con q = 1 − p la probabilit`a del fallimento. Poich`e le prove sono statisticamente indipendenti, la probabilit`a di una assegnata sequenza di successi e fallimenti `e data dal prodotto delle probabilit`a degli eventi S ed F . Ne segue che una sequenza di n prove, contenente k successi e n − k fallimenti, ha probabilit`a pk q n−k . D’altra parte, il numero di sequenze costituite da n esiti e contenenti k successi `e uguale al numero di combinazioni di classe k di n elementi, dato dal coefficiente binomiale ¡n¢ e statisticamente indipendente dalle altre, per cui k . Inoltre, ciascuna sequenza ` la probabilit`a Pn,k di ottenere, in n prove, k successi e n-k fallimenti `e data dalla formula di Bernoulli: Ã ! n k n−k Pn,k = p q (2.32) k Se poi il successo e il fallimento sono equiprobabili, allora si ha p = q = formula diventa: Ã ! n 1 Pn,k = , k 2n

1 2,

e la 2.420

in cui la probabilit`a in oggetto `e il rapporto tra i casi favorevoli e i casi possibili definiti in uno spazio campione costituito da 2n eventi equiprobabili. In modo analogo, la probabilit`a Pn (k1 ≤ k ≤ k2 ) che in n prove il numero di successi sia compreso tra k1 e k2 si valuta considerando l’unione degli eventi: Ek = {S si presenta k volte} con k1 ≤ k ≤ k2 , ciascuno dei quali ha probabilit`a espressa dalla (2.42). Poich`e gli eventi Ek sono incompatibili a due a due, la probabilit`a della loro unione vale, per il secondo assioma: Pn (k1 ≤ k ≤ k2 ) =

k2 X k=k1

P (Ek ) =

k2 X k=k1

à !

n k n−k p q . k

(2.33)

44

VARIABILI ALEATORIE

Esempio 2.7

1) Si lancia per dieci volte una moneta. In ogni lancio l’evento ”testa” e l’evento ”croce” sono equiprobabili, per cui la probabilit`a che esca ”testa” per cinque volte vale, per la (2.42’): µ

P10,5 =

10 5



(1/210 ) =

10! = 0.246. 5!(10 − 5)! · 210

Per determinare la probabilit`a che ”testa” esca non pi` u di cinque volte, bisogna invece considerare come ”successi” anche tutte le sequenze che contengono k = 0, 1, .., 4 volte ”testa”. Ne segue che la probabilit`a totale `e data dalla (2.33) e vale 10

P10,k≤5 = (1/2 )

5 X k=0

Ã

!

10 k

5 10! X 1 = 10 = 0.623. / 2 k=0 k!(10 − k)!

2) Da un’urna contenente 5 palline bianche e 15 nere si fanno n estrazioni, con reimbussolamento della pallina estratta in ogni prova. La probabilit`a di estrarre tutte le palline bianche si determina considerando che in ogni prova, la probabilit`a di estrarre una pallina bianca vale p = 1/4, e quella di estrarre una pallina nera `e q = 3/4. Applicando la (2.32) si ottiene: µ

Pn,5 =

n 5



µ

· (1/4)5 (3/4)n−5 =

n 5

¶ n−5 3

4n

.

Dunque, dopo n = 5 estrazioni la probabilit`a cercata vale 1/45 = 9.76 · 10−4 ; dopo 6 estrazioni cresce al valore 6 · 3/46 = 4.39 · 10−3 , ecc. / Primo principio delle prove ripetute. Per la formula di Bernoulli la probabilit`a di non avere alcun successo dopo n prove di un esperimento casuale in cui p > 0 vale à !

Pn,0 =

n 0 n−0 p q = qn 0

e quella di ottenere almeno un successo `e Pn,k>0 = 1 − q n . Poich`e 0 < q < 1, ripetendo all’infinito le prove si ottiene lim Pn,k>0 = 1

n→∞

ovvero: continuando le prove all’infinito, prima o poi si avr` a certamente almeno un successo.

2.3 – Distribuzioni notevoli in Probabilit` a e Statistica

45

Secondo principio delle prove ripetute. Chiediamoci ora quale `e il numero medio delle prove che si dovranno eseguire per ottenere il primo successo. Definiamo a tale scopo il tempo di attesa T (ω), o numero d’ordine delle prima prova in cui si verifica il successo. T (ω) `e una variabile aleatoria discreta, che assume valori interi positivi k = 1, 2, .., n,.. aventi ciascuno la probabilit`a Pk = pq k−1 con cui si realizza una sequenza di (k − 1) fallimenti seguiti dal primo successo. Se si ripetono le prove all’infinito, e se p > 0, si sa per il Primo P principio che le Pk soddisfano la condizione k Pk = 1. Dalla definizione di valor medio di T (ω) si ricava allora

E{T } =

∞ X k=1

kPk =

∞ X

∞ X

kpqk−1 = p +

k=1

=p+q

kpqk−1 = p + q ·

k=2 ̰ X

∞ X

(r + 1)pq r−1 =

r=1 r−1

rpq

+

r=1

∞ X

!

Pr

= p + q(E{T } + 1).

r=1

Da questa si ottiene: p E{T } = p + q = 1, e quindi 1 E{T } = . p

(2.34)

Resta cos´ı provato il seguente risultato: il numero medio delle prove che occorre eseguire per ottenere il primo successo `e il reciproco della probabilit´a di successo. La variabile aleatoria discreta X(ω) che assume un numero finito di valori x = k = 0, 1, 2.., n con una probabilit´a data dalla (2.32) si dice dotata di distribuzione binomiale ed `e indicata con la notazione B(n, p). La sua densit`a di probabilit`a `e la successione di n + 1 impulsi:

fX (x) =

n X k=0

à !

n k n−k p q δ(x − k), k

p+q =1

e la corrispondente funzione di distribuzione `e la funzione a gradini

FX (x) =

n X k=0

à !

n k n−k p q U (x − k) k

(2.35)

46

VARIABILI ALEATORIE

fX ( x )

N (10, 6)

0.1

0

5

10

20

15

Figura 2.12 - Approssimazione di una distribuzione binomiale con

x

n = 25, p = 0.4.

dove U (x − k) `e la funzione di Heaviside (2.3), primitiva della funzione impulsiva. Il valor medio della distribuzione binomiale vale: Z

E{x} =

x

n X k=0

à !

à !

n X n k n−k n k n−k p q δ(x − k)dx = k p q = k k k=0

Ã

n X

!

n−1 X n−1 k(n − 1)! k−1 n−k = np p q = np pr q n−1−r = np(p + q)n−1 = np k!(n − k)! r r=0 k=1 2 = npq. e in modo analogo si pu`o calcolare che la sua varianza `e σX

Se n = 1, la (2.45) si riduce alla distribuzione di Bernoulli, la cui densit`a fX (x) = qδx + pδ(x − 1) `e semplicemente la somma di due impulsi che rappresentano la probabilit`a di avere un fallimento o un successo in una singola prova dell’esperimento casuale. L’applicazione delle formule (2.32),(2.33) pu`o comportare difficolt`a pratiche per valori elevati di n e di k. Esistono per`o formule asintotiche che permettono un rapido calcolo approssimato di Pn,k e Pn (k1 ≤ k ≤ k2 ), con una accuratezza che cresce con il numero n delle prove. Queste formule approssimate si basano su due teoremi, che ora enunciamo senza dimostrazione. Teorema locale di asintoticit`a (di Moivre - Laplace) Se p > 0 `e la probabilit`a di un successo, la probabilit`a che in n prove indipendenti si abbiano k successi `e tale che: "

lim Pn,k

n→∞

1 (k − np)2 =√ exp − 2πnpq 2npq

#

(2.36)

2.3 – Distribuzioni notevoli in Probabilit` a e Statistica

47

uniformemente per tutti gli interi k per i quali il rapporto z = (k − np)/npq assume valori in un intervallo finito. Il secondo membro della (2.36) `e la densit`a di una v.a. normale N (np, npq) con media np e varianza npq. Dunque il Teorema ci assicura che se n e npq sono sufficientemente grandi, la distribuzione binomiale `e approssimabile nel continuo dalla legge normale: B(n, p) ∼ N (np, npq)

(2.360 )

n, npq >> 1.

e a parit`a di n l’approssimazione `e migliore quando p = q = 0.5. La Fig. 2.12 mostra il confronto tra la distribuzione binomiale con n = 25, p = 0.4 e quella normale definita dalla densit`a (2.19) con mX = np = 10, σx2 = npq = 6. La binomiale B(25, 0.4) non `e simmetrica rispetto al suo valor medio, perch´e ci`o si verifica solo se p = q = 12 . Inoltre, n `e ben lontano dai valori elevati che garantiscono una buona approssimazione della probabilit`a Pn,k . Tuttavia, un controllo numerico mostra che il massimo valore assoluto della differenza tra Pn,k e i valori fX (k) della densit`a normale per x = k (che si verifica per k = 11) rimane comunque inferiore a 3.34 · 10−3 . Teorema integrale di asintoticit`a Se p > 0 `e la probabilit`a di un successo, la probabilit`a che in n prove indipendenti il numero dei successi sia compreso tra k1 e k2 soddisfa la condizione 1 lim Pn (k1 ≤ k ≤ k2 ) = √ n→∞ 2πnpq

Z k2 k1

#

"

(x − np)2 dx exp − 2npq

(2.37)

uniformemente in [k1 , k2 ]. Usando la funzione degli errori erf (z) per il calcolo dell’integrale definito, la (2.37) mostra che se n `e grande e npq >> 1 la probabilit`a in oggetto si pu`o calcolare con buona approssimazione mediante la formula asintotica: "

#

"

#

k2 − np k1 − np Pn (k1 ≤ k ≤ k2 ) ∼ − erf √ . = erf √ npq npq

(2.38)

Applichiamo quest’ultimo teorema per calcolare la probabilit`a che, dato un ² > 0 piccolo a piacere, sia verificata la diseguaglianza: |k/n − p| ≤ ². Per la (2.38) con n grande si ha P {|k/n − p| ≤ ²} = Pn [n(p q− ²) ≤ k ≤ n(p + q ²)] q ∼ = erf (² n/pq) − erf (−² n/pq) = 2erf (² n/pq) (2.39) e passando al limite per n → ∞ : q

lim P {|k/n − p| ≤ ²} = 2 lim erf (² n/pq) = 1.

n→∞

n→∞

48

VARIABILI ALEATORIE

Il risultato ottenuto esprime l’importante Legge dei grandi numeri (o Teorema di Bernoulli) : Dato un ² > 0 piccolo a piacere, la probabilit`a dell’evento {|k/n − p| ≤ ²} tende ad 1 col crescere del numero delle prove indipendenti. In altre parole, se il numero delle prove `e sufficientemente grande, allora il rapporto tra il numero dei successi e quello delle prove `e ”quasi certamente” prossimo alla probabilit`a p che si attribuisce al singolo successo. Allo stesso tempo, bisogna anche tenere conto che se X(ω) ha una distribuzione binomiale, lo scarto assoluto V (ω) = X − np tra il valore di X e il suo valore atteso `e una variabile casuale che al crescere di n tende alla Normale con media nulla e varianza 2 σV2 = E{(V − 0)2 } = E{(X − np)2 } = σX = npq. Dunque, a parit`a di p la dispersione degli esiti delle prove rispetto al loro valore atteso cresce con il numero delle prove effettuate. E’ questa circostanza che pu`o causare la “rovina del giocatore” che dopo ogni perdita decide di ripetere la stessa scommessa nella speranza che, prima o poi, il prossimo esito gli sia favorevole. Esempio 2.8

1. Sapendo che la probabilit`a che un certo prodotto sia difettoso `e p = 0.005, si vuole calcolare la probabilit`a che tra 10.000 esemplari di questo prodotto, scelti a caso, ve ne siano 40 difettosi. Essa `e data dalla (2.32) con n = 10.000, k = 40, e il suo valore `e ben approssimato dalla formula asintotica (2.36). Tenuto conto che np = 50, npq = 49.75 si ottiene: "

Pn,k

#

(40 − 50)2 1 ∼ exp − = 0.0207. =√ 2 · 49.75 49.75 · 2π

Il valore esatto alla quarta cifra decimale, calcolato con la (2.32), `e invece: Pn.k = 0.0197. Per calcolare la probabilit`a che tra i 10.000 esemplari scelti a caso ve ne siano non pi` u di 70 che risultano difettosi, bisogna valutare Pn (k ≤ 70) e per ottenerne una buona approssimazione basta applicare la (2.38) assumendo k1 = 0 e k2 = 70. Si ricava: Ã

P (k ≤ 70) ∼ = erf

!

70 − np − erf √ npq

Ã

−np √ npq

!

= erf (2.84) − erf (−7.09) = 0.9975.

/

2. Si lancia n volte una moneta. Come sappiamo, l’evento ”testa” ha probabilit`a p = 1/2. Definiamo ora l’evento: E = {|k/n − 1/2| ≤ 0.05}

2.3 – Distribuzioni notevoli in Probabilit` a e Statistica

49

il quale indica che il numero k di ”teste” risultante da n prove `e compreso tra 0.45n e 0.55n. Si chiede: quante volte dobbiamo lanciare la moneta affinch´e la probabilit`a di E non sia inferiore a 0.997? Dobbiamo valutare n in modo che sia verificata la diseguaglianza: P (E) ≥ 0.997. Applicando la (2.39) con ² = 0.05 si ha: q √ P (E) ∼ = 2erf (0.05 n/pq) = 2erf (0.05 4n) ≥ 0.997

√ per cui n deve soddisfare la condizione: erf (0.05 4n) ≥ 0.4985. Dai valori tabulati della funzione degli errori si desume che, arrotondando per eccesso, deve essere: √ 0.05 4n > 2.95, da cui: n > 871. /

f ( x) X

l =5 l = 1.5 0.2

0.2

0 1 2 3 4 5 6

x

0

5

10

x

Figura 2.13 - Distribuzioni di Poisson

2.3.10

Distribuzione di Poisson

Si `e detto che l’approssimazione di Pn,k fornita dalla formula asintotica (2.36’) peggiora al descescere del prodotto npq. Se allora p `e molto piccolo, bisogna che n sia comunque cos´ı grande da rendere soddisfatta la condizione: npq ∼ = np >> 1. Ci`o si verifica per l’appunto nel caso dell’Esempio 2.8 in cui, pur essendo p = 0.005, si ha np = 50 e npq = 49.75. Se invece si ha: n >> 1, p > 1 di particelle nel tempo T . La probabilit`a di emissione di una singola particella nell’intervallo di tempo [0, t0 ) `e p = t0 /T . Se l’intervallo [0, t0 ) che si considera `e molto minore di T , risulta: p P (B), il giocatore A ha la maggior probabilit`a di vittoria. 2.10. Da un’urna con 4 palline bianche e 12 nere si effettuano estrazioni ripetute con reimbussolamento. Qual’`e in media il numero di prove necessarie per estrarre la prima pallina bianca? Risposta. La probabilit`a di estrarre una pallina bianca vale p = 4/16 = 1/4. Per il Secondo Principio delle prove ripetute e indipendenti, il valor medio del “tempo di attesa” T (ω) del primo successo (estrazione di una pallina bianca) `e E(T ) = 1/p = 4 . 2.11. Dieci simboli binari sono trasmessi su un canale simmetrico avente probabilit`a di errore p = 0.01. Calcolare la probabilit`a di ricevere almeno un simbolo errato. Soluzione. La probabilit`a di ricezione corretta `e q = 0.99. In n = 10 prove ripetute e indipendenti (emissione di un simbolo), la probabilit`a di ricevere correttamente tutti i 10 simboli vale P10,0 = q 10 = (0.99)10 ' 0.9044 e dunque la probabilit`a di ricevere almeno 1 simbolo errato `e P10,k≥1 = 1 − P10,0 = 1 − (0.99)10 ' 0.0956 . 2.12. Al giocatore di basket Joe `e attribuita una percentuale di realizzazione di canestri del 60%, e al giocatore Nick del 45%. Joe deve effettuare 5 tiri al canestro, e Nick ne effettua 3. Supera la prova chi fallisce non pi` u di un canestro. Chi fra i due ha la pi` u alta probabilit`a di vincere?

62

VARIABILI ALEATORIE

Soluzione. Ogni tiro al canestro effettuato da Joe ha probabilit`a di successo p = 0.6. Se k `e il numero di canestri effettuati in n tiri, la probabilit`a che Joe superi la prova `e à !

P5 (4 ≤ k ≤ 5) =

à !

5 5 (0.6)4 · 0.4 + (0.6)5 = (0.6)4 (2 + 0.6) ' 0.337 . 4 5

Per Nick che effettua 3 tiri, ciascuno con probabilit`a di successo p = 0.45, la probablit`a di superare la prova `e à !

P3 (2 ≤ k ≤ 3) =

à !

3 3 (0.45)2 · 0.55 + (0.45)3 = (0.45)2 (3 · 0.55 + 0.45) ' 0.425 . 2 3

Quindi la pi` u alta probabilit`a di vittoria spetta a Nick . 2.13. La ricezione casuale di un numero k di telefonate nell’intervallo di tempo [0, t0 ] ha legge di Poisson con parametro λ = t0 . Calcolare la probabilit`a IP(2 ≤ k ≤ 4) di ricevere da due a quattro telefonate (2 incluso) entro l’istante t0 = 1. Soluzione. La funzione di distribuzione cumulata della legge di Poisson con parametro λ = t0 = 1 `e ∞ 1X 1 F (x; λ = 1) = U (x − k) e k=0 k! ed esprime la probabilit`a di ricevere x telefonate entro l’istante t0 = 1. La probabilit`a richiesta vale: 1 IP{1 < x ≤ 4} = F (4; λ = 1) − F (1; λ = 1) = e

µ

1 1 1 + + 2 3! 4!



=

17 ' 0.26 . 24e

2.14. Si effettuano 600 lanci di un dado non truccato. Calcolare un valore approssimato della probabilit`a che il “5” esca un numero di volte compreso tra 94 e 106. Soluzione. La probabilit`a di successo (“esce il 5”) in ogni prova vale p = 1/6. Per il Teorema integrale di asintoticit`a delle prove bernoulliane, in n = 600 prove la probabilit`a richiesta si approssima con "

#

"

#

94 − 100 106 − 100 − erf p = P600 (94 ≤ k ≤ 106) ' erf p 600 · (1/6)(5/6) 600 · (1/6)(5/6) · ¸ 6 = 2 erf = 2 erf(0.657) ' 0.4844 . 9.1287 2.15. Un messaggio di 1200 simboli binari viene trasmesso su un canale simmetrico con probabilit`a di errore p = 0.25. Determinare una approssimazione valida della probabilit`a di ricevere da 250 a 320 simboli errati.

2.4 – Problemi risolti

63

Soluzione. In n = 1200 prove bernoulliane per le quali si ha np = 300 e np(1 − p) = 225, la probabilit`a richiesta si approssima con µ



µ

320 − 300 250 − 300 √ √ − erf 225 225 ' 0.4082 + 0.4996 = 0.9078 .

Pn (250 ≤ k ≤ 320) ' erf



µ ¶

= erf

4 3

µ

+ erf

10 3



2.16. L’esperimento consiste nel lancio, effettuato per due volte, di un dado non truccato. Se si effettuano tre prove di questo esperimento, qual’`e la probabilit`a che in una delle tre prove esca due volte lo stesso numero ? Risposta. Indichiamo con E = {11, 22, 33, 44, 55, 66} l’evento: “esce due volte lo stesso numero”. Lo spazio campione `e costituito da 62 = 36 eventi (= numero di disposizioni con ripetizione di 6 elementi a 2 a 2). Quindi la probabilit`a che si realizzi l’evento E vale P (E) = 6/36 = 1/6 ≡ p. Per la formula di Bernoulli con n = 3, k = 1 si trova: Ã !

P3,1 =

3 1 · · 6 1

µ ¶2

5 6

=

25 = 0.34722 . 72

2.17. Si sa che la probabilit`a di errore in ricezione di una sequenza di 150 segnali trasmessi con modalit`a statisticamente indipendenti `e p = 0.01. Determinare la probabilit`a che due dei segnali ricevuti siano errati. Soluzione. Nella trasmissione di n = 150 segnali con probabilit`a di errore p = 0.01, si ha np = 1.5. Per la formula di Bernoulli il valore esatto della probabilit`a richiesta `e à ! 150 P150,2 = (0.01)2 (0.99)148 . 2 Poich´e np `e prossimo all’unit`a, questa si approssima con la legge di Poisson degli eventi rari: 9 (1.5)2 −1.5 ·e = e−3/2 ' 0.251 . P150,2 ' 2 8 2.18. Calcolare il valore atteso della variabile aleatoria Y = 1 + X 2 dove X(ω) ha una distribuzione binomiale B(n, p) con n = 10, p = 0.5. Soluzione. Si deve calcolare E{1 + X 2 } = 1 + E{X 2 }, dove X(ω) ∼ B(10, 0.5) ha valor medio e varianza che valgono: E{X} = np = 5 ;

2 σX = np(1 − p) = 5/2.

64

VARIABILI ALEATORIE

Poich´e il momento del secondo ordine di X vale 2 E{X 2 } = σX + E 2 {x} = 5/2 + 25 = 55/2 ,

si ricava: E{1 + X 2 } = 1 + 55/2 = 57/2 . 2.19. Si effettua per 5 volte il lancio simultaneo di due dadi non truccati. Calcolare: 1) la probabilit`a che la somma dei numeri usciti sia minore di 6 in tutti i 5 lanci; 2) la probabilit`a che la somma sia compresa tra 6 e 7 in non pi` u di due lanci. Soluzione. Indichiamo con E1 = {11, 12, 13, 14, 22, 23} l’evento: { la somma `e minore ¡7¢ di 6 }. Lo spazio campione `e costituito da 2 = 21 eventi (= numero di combinazioni con ripetizione di 6 elementi a 2 a 2). Quindi la probabilit`a che si realizzi l’evento E1 vale 2 6 = ≡ p. P (E1 ) = 21 7 1) Per la formula di Bernoulli con n = 5, k = 5 si trova: µ ¶5

2 7

P5,5 =

' 0.002 .

2) Anche l’evento E2 = {15, 24, 33, 16, 25, 34} = { la somma `e compresa tra 6 e 7 } `e costituito da 6 eventi semplici, per cui ha una probabilit`a ancora uguale a 2/7. La probabilit`a che E2 si realizzi 0, 1 o al massimo 2 volte su 5 lanci `e allora P5 (0 ≤ k ≤ 2) =

2 X k=0

à !µ ¶ µ ¶ k 5−k

5 k

µ ¶5

=

5 7

5 7

2 7

2 +5· 7

=

µ ¶4

5 7

µ ¶2 µ ¶3

+ 10 ·

2 7

5 7

µ ¶3

=

5 7

·

115 ' 0.855 . 49

2.20. Nella successione di prove indipendenti di un esperimento casuale, la probabilit`a di successo `e p = 0.35. Applicando la legge dei grandi numeri, calcolare il numero delle prove che `e necessario effettuare perch´e con probabilit`a non inferiore a 0.90 si abbia un numero di successi compreso tra 0.3n e 0.4n. Soluzione. Se p = 0.35, per il Teorema integrale di asintoticit` a al crescere di n la probabilit`a che il numero k di successi sia compreso tra 0.3n e 0.4n si avvicina a: Ã

0.4n − 0.35n IP{0.3n ≤ k ≤ 0.4n} = erf p 0.35(1 − 0.35)n √ ' 2 erf(0.1048 n).

!

Ã

0.3n − 0.35n − erf p 0.35(1 − 0.35)n

!

2.4 – Problemi risolti

65

√ Se si vuole che questa probabilit`a sia non inferiore a 0.90, occorre che erf(0.1048 n) ≥ 0.45. Dalla tabella della funzione degli errori si ricava: √ z = 0.1048 n ≥ 1.65

µ



n≥

1.65 0.1048

¶2

= 248

ottenuto arrotondando per eccesso alle unit`a. 2.21. Nella nostra dotazione di 1200 utensili, 500 unit`a sono fornite dalla ditta A e 700 dalla ditta B. Da controlli di qualit`a risulta che la produzione della ditta A `e difettosa con probabilit`a pA = 0.005 e quella della ditta B con probabilit`a pB = 0.002. Quante estrazioni casuali di utensili dalla dotazione potremo effettuare, in media, prima di trovarne uno difettoso ? Risposta. Calcoliamo le probabilit`a degli eventi: A = { estrazione di un utensile prodotto da A}; B = { estrazione di un utensile prodotto da B}; E = { estrazione di un utensile difettoso. Esse valgono: P (A) = P (B) =

500 5 nA = = n 1200 12 nB 700 7 = = n 1200 12

P (E) = P (A)P (E|A) + P (B)P (E|B) =

7 5 0.005 + 0.002 ' 0.00325 . 12 12

Per il Secondo Principio delle prove ripetute, il numero medio di estrazioni che si effettuano prima di trovare un elemento difettoso `e l’inverso di P (E): E{“tempo di attesa”} = 1/0.00325 = 308 arrotondato per eccesso alle unit`a. 2.22. Un evento ha una probabilit`a costante p = 0, 01 di verificarsi in ogni prova di un certo esperimento. Calcolare la probabilit`a che esso si verifichi almeno 3 volte su 100 prove indipendenti dell’esperimento in questione: a) facendone una valutazione esatta; b) facendone una valutazione approssimata con l’uso della distribuzione di Poisson. Soluzione a) Per ottenere una valutazione esatta si applica la formula di Bernoulli: P100 (k ≥ 3) = 1 − P100 (0 ≤ k ≤ 2) = "

100

= 1 − (0.99)

Ã

99

+ 100 · 0.01(0.99)

!

#

100 + (0.01)2 (0.99)98 = 2

= 1 − (0.99)98 · 2.4651 = 1 − 0.9206268 = 0.0793732 .

66

VARIABILI ALEATORIE

b) Utilizzando la legge di Poisson degli eventi rari con np = 100 · 0.01 = 1, si ricava P (k ≤ 2) '

2 X e−1 k=0

k!

=

5 −1 e = 0.9196986 2

e di conseguenza: P (k ≥ 3) = 1 − P (k ≤ 2) ' 0.080 . 2.23. Si effettuano tre tiri verso un medesimo bersaglio. Le probabilit`a di colpirlo al primo, al secondo e al terzo colpo sono, rispettivamente, uguali a p1 = 0.4, p2 = 0.5 e p3 = 0.7. a) Qual `e la probabilit`a di aver colpito il bersaglio una sola volta dopo i tre tiri? b) Qual `e la probabilit`a di aver colpito il bersaglio almeno una volta dopo i tre tiri? Soluzione. Indichiamo con Sk = {successo: bersaglio colpito al k-esimo tiro} oppure Fk = {fallimento: bersaglio mancato al k-esimo tiro} i possibili esiti di ognuno dei tre tiri. Questi eventi hanno probabilit`a: P (Sk ) = pk ,

P (Fk ) = 1 − pk ,

k = 1, 2, 3,

a) Nella sequenza dei tre tiri (con esiti statisticamente indipendenti), gli eventi in cui si verifica un solo successo sono tre, e le rispettive probabilit`a sono le seguenti: P {S1 ∩ F2 ∩ F3 } = p1 (1 − p2 )(1 − p3 ) = 0.4 · 0.5 · 0.3 = 0.06 P {F1 ∩ S2 ∩ F3 } = (1 − p1 )p2 (1 − p3 ) = 0.6 · 0.5 · 0.3 = 0.09 P {F1 ∩ F2 ∩ S3 } = (1 − p1 )(1 − p2 )p3 = 0.6 · 0.5 · 0.7 = 0.21 . La probabilit`a di aver colpito il bersaglio una sola volta `e la somma di queste: P {(S1 ∩ F2 ∩ F3 ) ∪ (F1 ∩ S2 ∩ F3 ) ∪ (F1 ∩ F2 ∩ S3 )} = 0.06 + 0.09 + 0.21 = 0.36 . b) La probabilit`a di avere avuto almeno un successo vale: 1 − P {F1 ∩ F2 ∩ F3 } = 1 − (1 − p1 )(1 − p2 )(1 − p3 ) = 1 − 0.6 · 0.5 · 0.3 = 0.91 . 2.24. Da una recente indagine della polizia stradale risulta che il 45% degli automobilisti guida ancora in citt`a senza allacciare le cinture di sicurezza. Se un agente controlla a caso 10 vetture in circolazione, qual’`e la probabilit`a che egli riscontri questa infrazione almeno 8 volte ?

2.4 – Problemi risolti

67

Risposta. Il successo S in ognuno degli n = 10 controlli consiste nel riscontro della infrazione, ed ha probabilit`a teorica p = 0.45. Per la formula di Bernoulli, la probabilit`a che si verifichino almeno 8 successi vale P10 (8 ≤ k ≤ 10) =

10 X k=8

Ã

=

Ã

!

10 k p (1 − p)10−k = k

!

10 (0.45)8 (0.55)2 + 10 · (0.45)9 · 0.55 + (0.45)10 = 8 h

i

= (0.45)8 45 · (0.55)2 + 4.5 · 0.55 + (0.45)2 ' 0.0274 .

68

VARIABILI ALEATORIE

VARIABILI ALEATORIE MULTIDIMENSIONALI L’insieme {X1 (ω), X2 (ω), . . . , Xn (ω)} di n variabili aleatorie, definite su un medesimo spazio di probabilit`a (Ω, B, P ), costituisce le n componenti di un vettore aleatorio X(ω) n−dimensionale che opera la trasformazione (Ω, B, P ) → (IRn , B ∗ , P ∗ ) associando ad ω l’ennupla (x1 , . . . , xn ) ∈ IRn , e all’evento A ∈ B l’insieme B = X−1 (A) ⊆ IRn con probabilit`a P ∗ (B) = P (X−1 (B)) = P (A). In questo Capitolo esamineremo le principali propriet`a del vettore aleatorio X(ω) generalizzando le definizioni ed i risultati gi`a esposti nel precedente Capitolo a proposito di una v.a. unidimensionale. Per comprendere le novit` a che questa analisi comporta, conviene iniziare a trattare il caso n = 2.

3.1

Coppie di variabili aleatorie

Consideriamo due variabili aleatorie reali X(ω) e Y (ω), componenti di un vettore aleatorio bidimensionale X(ω) = {X1 = X(ω), X2 = Y (ω)}, che ad ogni evento elementare ω di un esperimento casuale associano rispettivamente i numeri reali x ∈ Dx ⊆ IR ed y ∈ Dy ⊆ IR come illustrato nello schema di Fig. 3.1. L’intersezione B 0 dei due eventi: (X ≤ x) e (Y ≤ y), cio`e l’area ombreggiata in figura, `e ancora un evento in B, la cui probabilit`a `e una funzione FXY (x, y) delle due variabili reali: FXY (x, y) = P {(X ≤ x) ∩ (Y ≤ y)} (3.1) che si chiama funzione di distribuzione congiunta (o mista) della coppia di variabili aleatorie. Essa misura la probabilit`a che si verifichino entrambi gli eventi: (X ≤ x) e (Y ≤ y); `e sempre positiva con valori compresi tra 0 e 1, non decrescente e continua a destra rispetto a ciascuna delle variabili x, y. Le sue propriet`a sono: FXY (−∞, −∞) = FXY (−∞, y) = FXY (x, −∞) = 0; 69

70

VARIABILI ALEATORIE MULTIDIMENSIONALI

FXY (+∞, +∞) = 1.

y W

X B'

(x,y) = X(w )

w x

B

A X

Figura 3.1

Se esiste la derivata mista di FXY (x, y), si chiama densit` a di probabilit`a congiunta della coppia (X(ω), Y (ω)) la funzione fXY (x, y) = soddisfacente le condizioni:

∂ 2 FXY (x, y) ∂x∂y

Z Z ∞

fXY (x, y) ≥ 0 ,

−∞

(3.2)

fXY (x, y)dxdy = 1.

La Fig. 3.2 mostra il grafico qualitativo della densit`a congiunta di una coppia di v.a. che assumono valori reali in X(Ω) = Dx (y) · Dy (x) ⊂ IR2 . La probabilit`a che esse abbiano valori in un insieme B `e data dall’integrale doppio: Z Z

P (X ∈ B) =

B

fXY (x, y)dxdy.

(3.3)

In particolare, se questo insieme `e l’intersezione B 0 = (X ≤ x) ∩ (Y ≤ y), la probabilit`a P (B 0 ) `e data dal volume indicato in figura, che vale P (B 0 ) =

Z x −∞

dx0

Z y −∞

fXY (x0 , y 0 )dy 0 = FXY (x, y).

Il volume che nella stessa figura `e compreso tra due piani paralleli a distanza infinitesima dy, misura la probabilit`a dell’evento E = {(X ∈ Dx ) ∩ (Y ∈ [y, y + dy])} e vale: Z P (E) = dy · fXY (x, y)dx. (3.4) Dx (y)

Ma poich´e (X ∈ Dx ) = (X ≤ +∞) `e l’evento certo, risulta anche P (E) = P {Y ∈ [y, y + dy]} = FY (y + dy) − FY (y) = dFY (y)

(3.40 )

3.1 – Coppie di variabili aleatorie

71

f ( x,y ) XY

dF ( y ) Y

B'

P(B') = FXY( x,y )

dy

y

X( W ) x

Figura 3.2

dove FY (y) = FXY (+∞, y) `e la funzione di distribuzione della v.a. Y (ω), che ora prende il nome di funzione di distribuzione marginale di Y (ω). Confrontando la (3.4) con la (3.4’) risulta pertanto: Z Dx (y)

fXY (x, y)dx =

dFY (y) = fY (y). dy

(3.5)

L’integrale a primo membro ha il significato di densit`a di probabilit`a relativa alla sola v.a. Y (ω), e individua la densit`a di probabilit`a marginale di Y (ω). Essa si ottiene integrando la densit`a mista su tutti i valori che pu`o assumere l’altra v.a. con cui fa coppia. In modo analogo si definiscono: la funzione di distribuzione marginale di X(ω): FX (x) = FXY (x, +∞) ≡ P {(X ≤ x) ∩ (Y ≤ y)} e la sua densit`a di probabilit`a marginale: Z

fX (x) =

3.1.1

Dy (x)

fXY (x, y)dy.

Momenti congiunti

Data una coppia di v.a. X(ω), Y (ω) entrambe definite in (−∞, +∞), si chiama momento congiunto (o misto) di ordine (p + q) l’integrale doppio: E{X p Y q } =

Z ∞ Z ∞ −∞ −∞

xp y q fXY (x, y)dxdy

(p,q interi positivi.)

Il momento centrale congiunto di ordine (p + q) della coppia `e definito dall’integrale doppio: E{(X − mX )p (Y − mY )q } =

Z ∞ Z ∞ −∞ −∞

(x − mX )p (y − mY )q fXY (x, y)dxdy

72

VARIABILI ALEATORIE MULTIDIMENSIONALI

in cui le realizzazioni di X ed Y sono valutate rispetto ai valori medi delle loro distribuzioni marginali. I momenti centrali con p = 2, q = 0 e p = 0, q = 2 si identificano rispettivamente con le varianze di X(ω) ed Y (ω). Il momento centrale congiunto del secondo ordine si chiama covarianza di X(ω) ed Y (ω): Cov (X, Y ) =

Z ∞ Z ∞ −∞ −∞

(x − mX )(y − mY )fXY (x, y)dxdy

(3.6)

ed `e sicuramente il pi` u importante dal punto di vista applicativo. Sviluppando l’integrale a secondo membro si ricava subito l’importante relazione: Cov(X, Y ) = E{XY } − mY E{X} − mX E{Y } + mX mY = E{XY } − mX mY (3.7) la quale mostra che la covarianza `e la differenza tra il momento misto del secondo ordine e il prodotto delle medie marginali. Se queste due quantit` a sono uguali, ovvero se la covarianza `e nulla, le v.a. si dicono non correlate. La covarianza interviene sempre nella espressione della varianza di una combinazione lineare di due o pi` u variabili aleatorie. Infatti, per la propriet`a di linearit`a del valor medio, la varianza di Z(ω) = aX(ω) + bY (ω) vale: σZ2

= E{(Z − mZ )2 } = E{[(aX + bY ) − E{aX + bY }]2 } = E{[a(X − E{X}) + b(Y − E{Y })]2 } = E{a2 (X − E{X})2 + b2 (Y − E{Y })2 + 2ab(X − E{X})(Y − E{Y })} 2 = a2 σX + b2 σY2 + 2ab Cov(X, Y ).

(3.8)

Se poi X(ω) e Y (ω) sono non correlate, allora la (3.8) si riduce alla seguente: (X, Y ) non correlate

=⇒

2 σZ2 = a2 σX + b2 σY2

e dunque la varianza di una loro combinazione lineare `e la somma delle varianze, moltiplicate per il quadrato dei rispettivi coefficienti. La (3.8) si estende al caso di una combinazione lineare Z(ω) = a1 X1 (ω) + . . . + an Xn (ω) di n variabili aleatorie, per la quale si ricava: σZ2 =

n X

2 a2i σX +2 i

i=1

n−1 X

n X

ai aj Cov(Xi Xj )

i=1 j=i+1

che si riduce alla prima sommatoria se ciascuna coppia (Xi Yj ) `e non correlata. Pur essendo un momento di ordine pari, la covarianza pu`o anche essere negativa, come si verifica facilmente dalla definizione (3.6). Si chiama coefficiente di correlazione tra X ed Y il rapporto ρ(X, Y ) =

Cov(X, Y ) , σX σY

|ρ(X, Y )| ≤ 1

(3.9)

3.1 – Coppie di variabili aleatorie

73

tra la covarianza e il prodotto degli scarti quadratici medi di X(ω) ed Y (ω). Vedremo in un prossimo Capitolo, nell’ambito del metodi regressivi di previsione relativi all’analisi statistica di campioni estratti da due popolazioni, che questo coefficiente adimensionale `e una misura della interdipendenza lineare tra le due v.a., nel senso che d`a una indicazione sulla accuratezza con cui una variabile aleatoria pu`o essere approssimata come funzione lineare di un’altra. Se X(ω) e Y (ω) sono non correlate (linearmente), si ha ρ(x, y) = 0; se invece il modulo del coefficiente di correlazione `e prossimo all’unit`a, allora `e giustificata l’approssimazione: X(ω) ' aY (ω) + b che le lega mediante una legge lineare.

3.1.2

Coppie di v.a. indipendenti

Come diretta conseguenza del concetto di indipendenza di due eventi, X(ω) e Y (ω) sono dette statisticamente indipendenti se lo sono gli eventi (X ≤ x) e (Y ≤ y), in modo che P {(X ≤ x) ∩ (Y ≤ y)} = P (X ≤ x) · P (Y ≤ y). (3.10) In tale ipotesi, la funzione di distribuzione congiunta `e il prodotto delle funzioni di distribuzione marginali: FXY (x, y) = FX (x)FY (y) (3.11) da cui discende subito una analoga propriet`a per la loro densit`a mista: fXY (x, y) = fX (x)fY (y).

(3.12)

Se X(ω) e Y (ω) sono statisticamente indipendenti, tenuto conto della (3.12) si ha che il loro momento congiunto si identifica con il prodotto dei rispettivi momenti di ordine p e q: (X, Y ) indipendenti E{X p Y q } =

Z ∞

−∞

xp fX (x)dx

Z ∞

−∞

=⇒

(3.13)

y q fY (y)dy = E{X p }E{Y q }.

Ne segue, tenuto conto della (3.7), che due v.a. indipendenti sono anche non correlate: (X, Y ) indipendenti

=⇒

E{XY } = mX mY

=⇒

Cov(X, Y ) = 0.

Si badi per`o che non `e vero il contrario: infatti l’indipendenza `e una condizione sufficiente ma non necessaria per la non correlazione. Due v.a. possono avere covarianza nulla, anche se non sono statisticamente indipendenti. Dunque, l’indipendenza statistica `e una condizione pi` u restrittiva della non correlazione. OSSERVAZIONE

74

VARIABILI ALEATORIE MULTIDIMENSIONALI

La statistica congiunta di una coppia di v.a. `e completamente nota solo se si conosce la loro densit`a mista fXY (x, y), ovvero anche la funzione di ripartizione congiunta FXY (x, y). Da essa, infatti, `e possibile dedurre le distribuzioni marginali ed i momenti di ogni ordine, semprech`e esistano. Se per`o le v.a. sono statisticamente indipendenti, per quanto si `e visto in questo paragrafo la conoscenza delle singole distribuzioni marginali `e sufficiente a descrivere compiutamente la loro statistica congiunta. Esempio 3.1

Si assuma che la traccia di un oggetto su uno schermo radar circolare, di raggio a, si possa trovare con eguale probabilit`a in qualsiasi punto P dello schermo. All’esperimento consistente nella ricezione casuale di una traccia sullo schermo, `e naturale associare le variabili aleatorie R(ω), Θ(ω), coordinate polari del punto P. Si vuole determinare la loro densit`a di probabilit`a congiunta fRΘ (r, θ), le due densit`a marginali ed i momenti misti. fXY ( x,y )

1/ p a

R 0

Q a

2p

y

a x

Figura 3.3

La probabilit`a che la traccia P si trovi nell’elemento di superficie dσ = rdrdθ vale: dP (ω) = P {(R, Θ) ∈ dσ} =

dσ r = drdθ 2 πa πa2

e ricordando la (3.3) si pu`o scrivere dP (ω) = fRΘ (r, θ)drdθ. Eguagliando si ricava la densit`a mista: ½

fRΘ (r, θ) =

r/(πa2 ), 0 ≤ r ≤ a; 0, altrove

il cui grafico `e mostrato in Fig. 3.3.

0 ≤ θ ≤ 2π;

(3.14)

3.1 – Coppie di variabili aleatorie

75

Le densit`a marginali si ricavano applicando la (3.5): fR (r) = fΘ (θ) =

Z 2π r Z0 a 0

2r , a2 1 r dr = , 2 πa 2π πa2

dθ =

0≤r≤a 0 ≤ θ ≤ 2π

e sono nulle al di fuori dei rispettivi intervalli. Dunque, la densit`a di probabilit`a di R(ω) per 0 ≤ r ≤ a `e un segmento di retta, e quella di Θ(ω) `e uniforme in [0, 2π]. Il prodotto delle due densit`a marginali `e uguale alla densit`a mista: fR (r)fΘ (θ) = fRΘ (r, θ), per cui si pu`o concludere che le due v.a. sono statisticamente indipendenti. Il loro momento del secondo ordine `e uguale al prodotto dei rispettivi valori medi: E{RΘ} =

Z a Z 2π 0

0



r 2 drdθ = a · π = mR · mΘ , πa2 3

e ovviamente la covarianza tra R e Θ `e nulla, perch´e essendo indipendenti sono anche non correlate. La probabilit`a che la traccia si trovi nel centro dello schermo in un cerchio di raggio r0 0, x ∈ IR+ vale µX (u) =

Z ∞ 0

eux · λe−λx dx = λ

Z ∞ 0

e−(λ−u)x dx =

−λ h −(λ−u)x i∞ λ e = 0 λ−u λ−u

ed `e mostrata in Fig. 3.8. L’esistenza di µX (u) finita in un intorno |u| ≤ uo < λ di u = 0 garantisce l’esistenza dei momenti di fX (x). Utilizzando la (3.28), si possono calcolare questi momenti verificando un risultato gi`a ottenuto per altra via nel §2.3.4.

l

m ( u) X

1

f (x) X

0

l

Figura 3.8 Generatrice dei momenti di una distribuzione esponenziale

Infatti: q = 1, 2, 3, . . . :

(q) µX (u)

dq = q du

µ

λ λ−u

e queste derivate, calcolate per u = 0, forniscono: (q)

µX (0) = E{X q } =

q! . λq



=

q!λ (λ − u)q+1

3.4 – Problemi risolti

91

Al contrario, a partire dalla conoscenza dei momenti si pu`o determinare univocamente la legge di X(ω). Infatti, `e soddisfatta la condizione (2.17) per l’unicit`a di fX (x): k 2q (2q)! k 2q E{X } · = 2q · = (2q)! λ (2q)! 2q

µ ¶2q k

λ

→0

per q → +∞, 0 < k < λ.

La serie (3.29) determina la funzione generatrice dei momenti: ∞ X uq q=0

µ ¶q

∞ X u q! · q = q! λ λ q=0

=

1 λ = = µX (u) 1 − u/λ λ−u

perch`e la serie geometrica di ragione u/λ converge per |u| < λ. Una volta ricavata µX (u), da questa si ottiene, con una antitrasformata, la densit`a esponenziale fX (x).

3.4

Problemi risolti

3.1. La variabile aleatoria Z = 3X − Y con X e Y non correlate ha varianza 2 − σ 2 . Vero o falso? σZ2 = 9σX Y 2 + σ2 . Risposta: E’ Falso perch´e σZ2 = 9σX Y

3.2. Una coppia di variabili aleatorie discrete X, Y con valori xi = 0, 1 e yj = 0, 1, 2 ha probabilit`a congiunte Pij che valgono: P00 = P02 = 1/12;

P01 = P10 = P11 = 1/6;

P12 = 1/3.

Determinare: le densit`a marginali, i loro valori medi e la covarianza della coppia. Soluzione: fX (0) =

2 X

P0j = 1/12+1/6+1/12 = 1/3

fX (1) =

j=0

fY (0) = fY (2) =

2 X

P1j = 1/6+1/6+1/3 = 2/3

j=0

1 X i=0 1 X

Pi0 = 1/12 + 1/6 = 1/4

fY (1) =

1 X

Pi1 = 1/6 + 1/6 = 1/3

i=0

Pi2 = 1/12 + 1/3 = 5/12

i=0

E{X} = 1 · (2/3) = 2/3

E{Y } = 1 · (1/3) + 2 · (5/12) = 7/6

92

VARIABILI ALEATORIE MULTIDIMENSIONALI

sxy =

1 X 2 X

Pij xi yj −E{X}E{Y } = 1/6+(1/3)·2−(2/3)(7/6) = 5/6−7/9 = 1/18

i=0 j=0

3.3. Una coppia (X, Y ) di variabili aleatorie ha densit`a congiunta f (x, y) = 8xy,

0 ≤ x ≤ 1; 0 ≤ y ≤ x

e nulla altrove. a) Determinare le densit`a marginali di X e Y ; b) dire se sono statisticamente indipendenti giustificando la risposta; c) calcolare il momento congiunto E{XY }. Soluzione. a) Il supporto della densit`a congiunta `e il triangolo del piano (x, y) delimitato dalle rette y = x; y = 0 e x = 1. La densit`a marginale di X si ottiene integrando f (x, y) rispetto ad y sull’intervallo Dy (x) = [0, x] ; quella di Y integrando f (x, y) rispetto ad x sull’intervallo Dx (y) = [y, 1] : fX (x) = 8x fY (y) = 8y

Z x 0 Z 1 y

ydy = 4x3 ,

0≤x≤1

xdx = 4y(1 − y 2 ) ,

0 ≤ y ≤ 1.

b) X e Y non sono indipendenti perch´e fX (x)fY (y) = 16x3 y(1 − y 2 ) 6= f (x, y). c) Il momento congiunto vale Z Z

E{XY } =

xyf (x, y)dxdy = 8

Z 1 0

2

x dx

Z x 0

8 y dy = 3 2

Z 1 0

x5 dx =

4 . 9

3.4. Calcolare la covarianza della coppia (X, Y ) di variabili casuali discrete che hanno valori xi = 0, 1 e 2 ed yj = 0 e 2 con probabilit`a congiunte P00 = P20 = P22 = 1/6; P10 = 1/3; P02 = P12 = 1/12. Soluzione. Occorre dapprima calcolare le densit`a marginali e i valori medi di X e Y: fX (0) =

2 X j=0

fX (2) =

2 X j=0

P0j

1 1 1 = + = , 6 2 4

P2j =

1 1 1 + = 6 6 3

fX (1) =

2 X j=0

P1j =

1 1 5 + = 3 12 12

3.4 – Problemi risolti

fY (0) =

2 X i=0

E{X} =

Pi0 =

93

1 1 1 2 + + = , 6 3 6 3

1 13 5 +2· = , 12 3 12

fY (2) =

2 X i=0

Pi2 =

1 1 1 1 + + = 12 12 6 3

1 2 E{Y } = 2 · = 3 3

da cui si ottiene: sxy =

2 X 2 X i=0 j=0

Pij xi yj − E{X}E{Y } = 2 ·

1 13 2 5 13 1 1 +4· − · = − == 12 6 12 3 6 18 9

94

VARIABILI ALEATORIE MULTIDIMENSIONALI

3.5. Date due variabili aleatorie X, Y e due costanti non nulle a, b, vale l’identit` a: Cov(aX, bY ) = (a + b)Cov(X, Y ). Vero o Falso, e perch`e ? Risposta: `e Falso , perch`e vale a · b · Cov(X, Y ). 3.6. X e Y sono due variabili aleatorie indipendenti aventi distribuzione di Poisson con parametri rispettivamente λX = 2 e λY = 3. Calcolare la probabilit`a IP[(X ≤ 1) ∩ (Y ≤ 1)] e il momento E{XY }. Soluzione. Le densit`a di probabilit`a marginali di X e Y sono: fX (x) = e−2

∞ k X 2 k=0

k!

fY (y) = e−3

δ(x − k) ;

∞ X 3h h=0

h!

δ(y − h)

dove δ(·) sono funzioni impulsive nei punti xi , yj = 0, 1, 2, . . . Poich´e X e Y sono indipendenti, la loro densit`a congiunta `e il prodotto delle densit`a marginali, e cos`ı per la loro funzione di distribuzione congiunta che vale: F (x, y) = FX (x)FY (y) = e−5

∞ X ∞ i j X 23 i=0 j=0

i!j!

U (x − xi )U (y − yj )

dove U (·) `e la funzione a gradino unitario nei punti xi e yj . La probabilit`a richiesta `e uguale a F (1, 1) e perci`o vale: IP[(X ≤ 1) ∩ (Y ≤ 1)] = e−5

1 X 1 X 2i 3j i=0 j=0

Ã

= e

−5

i!j!

=

20 30 20 · 3 2 · 30 2 · 3 + + + 0!0! 0!1! 1!0! 1!1!

!

= 12e−5 ' 0.0808 .

I valori medi marginali coincidono con i ripettivi parametri di Poisson λX , λY , e sempre per la loro indipendenza statistica si ricava subito che E{XY } = mX mY = 2 · 3 = 6 . 3.7. Due variabili aleatorie X, Y sono distribuite con legge normale, rispettivamente N (−2, 2) e N (1, 4) e hanno momento congiunto E{XY } = 0.6. Calcolare il loro coefficiente di correlazione. Soluzione. La covarianza della coppia `e sxy = E{XY } − mX mY = 0.6 + 1 · 2 = 6.2 e quindi il coefficiente di correlazione vale ρ(X, Y ) =

sxy 2.6 = √ ' 0.9192 . σX σY 2 2

TRASFORMAZIONI DI VARIABILI ALEATORIE 4.1

Generalit` a

Si presenta di frequente il problema di determinare le propriet`a statistiche di una variabile casuale Y (ω) che `e il risultato della trasformazione subita da un’ altra variabile casuale X(ω) con distribuzione nota. Ad esempio, Y (ω) pu`o essere l’uscita di un sistema con caratteristica di funzionamento nota ed espressa matematicamente dalla funzione di variabile reale g(x), al quale sia stato applicato un ingresso casuale X(ω) secondo lo schema indicato in Fig. 4.1. La variabile casuale X(ω) associa ad ogni evento ω di un esperimento casuale il numero reale x ∈ Dx , realizzazione dell’ingresso aleatorio. Questo ingresso `e trasformato dal sistema secondo la legge deterministica g(x), ed in uscita si presenta nella forma y = g(x). Dunque la funzione g(x), definita in Dx , fa corrispondere all’evento ω il numero reale y ∈ DY , generica realizzazione della funzione di variabile aleatoria: Y (ω) = g[X(ω)].

(4.1)

L’aleatoriet`a di Y (ω) pu`o anche essere dovuta a disturbi aleatori nella trasformazione di un ingresso deterministico X, oppure ad imperfezioni nelle componenti costitutive del sistema stesso. In tal caso, il modello prababilistico della funzione di trasferimento che caratterizza il sistema `e del tipo: g(α(ω); x) dove α(ω) `e una variabile casuale reale con statistica nota, e l’uscita del sistema sar`a la funzione Y (ω; x) = g[α(ω); x] della variabile casuale α(ω), che `e ora definita da una trasformazione in cui x ha il ruolo di un parametro deterministico. Le due forme di aleatoriet`a possono anche essere presenti simultaneamente. Si consideri un ingresso aleatorio X(ω) che `e trasformato da un sistema con caratteristica di funzionamento g(x, α(ω)). L’uscita Y (ω) sar`a allora aleatoria per l’effetto combinato di X(ω) e di α(ω), ossia una funzione di due variabili casuali: Y (ω) = g[Z(ω)],

Z(ω) = {X(ω), α(ω)} : Ω → IR2 95

96

TRASFORMAZIONI DI VARIABILI ALEATORIE

g(x) W

X( w)

g(x)

Y( w)

Y( w) w

y

X( w) x

Figura 4.1

che sono le componenti di un vettore aleatorio bidimensionale con statistica che si suppone conosciuta. Generalizzando la formulazione di queste trasformazioni a sistemi pi` u complessi, si pu`o infine definire un vettore aleatorio m-dimensionale Y(ω) = g[Z(ω)], che con legge definita dalla funzione vettoriale g si pu`o esprimere come funzione di un vettore aleatorio n-dimensionale Z(ω) avente densit`a di probabilit`a nota. Nel paragrafo che segue studieremo anzitutto la trasformazione (4.1), e mostreremo come si determina la legge probabilistica della funzione di variabile casuale Y (ω), se sono note: la funzione caratteristica g(x) e la densit`a di probabilit`a fX (x) dell’ingresso aleatorio.

4.2

Funzioni di una variabile casuale

4.2.1

Calcolo della funzione di distribuzione

Un metodo generale per ottenere la statistica della funzione di variabile casuale definita nella (4.1), per il quale non si richiedono ipotesi restrittive sulla funzione caratteristica g(x), consiste nel determinare la sua funzione di distribuzione FY (y) mediante una opportuna integrazione della densit`a in ingresso fX (x), che per ipotesi `e nota e definita sul supporto Dx . Per la definizione di funzione di distribuzione di una variabile casuale, e tenuto conto della (4.1), si ha: FY (y) = P (Y ≤ y) = P [g(X) ≤ y]. Se ora indichiamo con Ex (y) = {x ∈ Dx : g(x) ≤ y} l’insieme dei valori di x appartenenti a Dx e tali da verificare la condizione: g(x) ≤ y, si pu`o dire che P [g(X) ≤ y] `e la probabilit`a che X(ω) assuma valori in Ex (y). Dunque, per la

4.2 – Funzioni di una variabile casuale

97

definizione di densit`a di probabilit`a risulta Z

FY (y) = P [X ∈ Ex (y)] =

Ex (y)

fX (x)dx.

(4.2)

g(x) fY (y)

y

a

y

-y

f X (x)

x

0

1

g(x) f Y (y) y

b f X (x) y

0

x

f Y (0) 0

Figura 4.2 - Casi

1

a,b

La densit`a di probabilit`a fY (y) si ottiene quindi, come ci `e noto, per derivazione: fY (y) = dF (y)/dy. Esempio 4.1: dispositivi elettronici

a) Un dispositivo raddrizzatore a doppia semionda con funzione di trasferimento: g(x) = |x| `e sottoposto a un ingresso aleatorio X(ω) con distribuzione normale N (1, 1/2). Per valutare la funzione di distribuzione FY (y) in uscita, osserviamo che ½

Ex (y) =

{x ∈ IR : |x| < y} = [−y, y], se y > 0, 0 se y ≤ 0.

Pertanto la (4.2) fornisce: FY (y) = dove

Z y −y

fX (x)dx = FX (y) − FX (−y),

1 2 fX (x) = √ e−(x−1) , π

y>0

√ FX (x) = 1/2 + erf [ 2(x − 1)]

sono la densit`a e la funzione di distribuzione dell’ingresso normale con media 1 e varianza 1/2. Per y ≤ 0 si ha invece FY (y) = 0.

98

TRASFORMAZIONI DI VARIABILI ALEATORIE

La densit`a in uscita si ricava per derivazione: fY (y) =

i dFX (y) dFX (−y) 1 h 2 2 − = fX (y) + fX (−y) = √ e−(y−1) + e−(y+1) dy dy π

se y > 0, mentre fY (y) = 0 per y ≤ 0. Il dispositivo trasforma i segnali negativi restituendoli, con una eguale misura di probabilit`a, in valori positivi nel segnale di uscita (v. Fig. 4.2a). b) Il raddrizzatore a semionda con caratteristica: x + |x| g(x) = = 2

½

x se x ≥ 0, 0 se x < 0

e ingresso con la medesima legge normale N (1, 12 ), sopprime invece i segnali negativi e trasmette inalterati quelli positivi. Infatti il dominio di integrazione nella (4.2) vale: y0

che ha un ingresso aleatorio con distribuzione normale N (1, 1), lo trasforma in una variabile casuale discreta con valori ±1. Infatti la funzione di distribuzione in uscita FY (y) si determina come segue: y < −1 :

Ex (y) = 0

=⇒

FY (y) = 0

4.2 – Funzioni di una variabile casuale

−1 ≤ y < 1 :

Ex (y) = (−∞, 0]

y≥1:

Ex (y) = IR

=⇒

99

=⇒

Z 0

FY (y) =

FY (y) =

Z +∞ −∞

fX (x)dx = FX (0)

fX (x)dx = 1.

−∞

Dunque FY (y) `e la funzione costante a tratti: FY (y) = FX (0)U (y + 1) + [1 − FX (0)]U (y − 1) g(x) 1

fY (y)

x

0

f X (x)

c

-1 0

-1

1

2

1

g(x) 1

F (x) X

-1 0

1

x

f Y (y)

d

FY (y)

f X (x)

-1

-1 Figura 4.2 - Casi

0

1

c,d

dove FX (0) `e la funzione di distribuzione della normale in ingresso, calcolata per x = 0: FX (0) = 0.5 + erf[(0 − mx )/σ] = 0.5 − erf(1) ' 0.16. La distribuzione in uscita ha pertanto due “gradini”, di altezza rispettivamente 0.16 per y = −1 ed 1 − 0.16 = 0.84 per y = 1. Per derivazione rispetto ad y si ricava subito la densit`a in uscita: fY (y) = FX (0)δ(y + 1) + [1 − FX (0)]δ(y − 1) che `e quella di una v.a. discreta (v. Fig. 4.2c) che assume valori ±1 con probabilit`a p(1) = 0.84 e p(−1) = 0.16. d) Un ingresso normale standard N (0, 1) `e applicato a un limitatore di segnale la cui caratteristica:  x < −1  −1, −1 ≤ x ≤ 1 g(x) = x,  +1, x>1

100

TRASFORMAZIONI DI VARIABILI ALEATORIE

`e mostrata in Fig. 4.2d). Calcoliamo la distribuzione in uscita FY (y) suddividendo DY = IR in tre intervalli: y < −1 : −1 ≤ y < 1 : y≥1:

Ex (y) = 0

=⇒

FY (y) = 0

Ex (y) = (−∞, y]

=⇒

Ex (y) = IR

FY (y) =

=⇒

Z y

FY (y) =

Z +∞ −∞ −∞

fX (x)dx = FX (y)

fX (x)dx = 1.

Pertanto FY (y) `e la funzione FY (y) = FX (y)U (y + 1) + [1 − FX (y)]U (y − 1), dove FX (y) = 0.5+ erf(y) `e la distribuzione normale in ingresso, calcolata per x = y. Nell’intervallo −1 ≤ y < +1 la distribuzione in uscita riproduce quella in ingresso ed ha due discontinuit`a agli estremi di questo intervallo, con “gradini” di ampiezza FX (−1) = 0.5 + erf(−1) = 0.1587 (v. Fig. 4.2d). Per derivazione di FY (y) – che in questo caso deve essere effettuata derivando opportunamente i prodotti di due funzioni di y – si ottiene la seguente densit`a di probabilit`a: fY (y) = fX (y)U (y + 1) + FX (−1)δ(y + 1) − fX (y)U (y − 1)+ ·

+[1 − FX (1)]δ(y − 1) = ¸

1 1 2 + erf(−1) [δ(y + 1) + δ(y − 1)]. = √ e−y /2 [U (y + 1) − U (y − 1)] + 2 2π Questa `e una densit`a mista che ha ancora legge normale standard per y ∈ [−1, 1], `e nulla all’esterno di tale intervallo, e presenta due impulsi uguali per y = ±1 di intensit`a p(±1) = 0.1587, che `e uguale alla massa di probabilit`a contenuta in ciascuna delle due “code” della distribuzione di ingresso che sono state eliminate nella risposta del sistema (v. Fig. 4.2d).

4.2.2

Calcolo diretto della densit` a

Se `e nota fX (x) e se g(x) `e continua e derivabile in Dx , si pu`o ottenere direttamente la densit`a di probabilit`a fY (y) applicando il seguente TEOREMA Se {x(j) (y)}, j = 1, .., N `e l’insieme numerabile delle radici reali dell’equazione g(x) − y = 0

4.2 – Funzioni di una variabile casuale

101

nella variabile x, allora la densit`a di probabilit`a della variabile casuale Y (ω) definita dalla (4.1) vale: N X fX (x(j) (y)) fY (y) = (4.3) |g 0 (x(j) (y))| j=1 dove con g 0 (x(j) (y)) si indica la derivata di g, calcolata per x = x(j) (y). Qualora esistano valori y per cui l’equazione: g(x) − y = 0 non ammette soluzioni reali, si ha fY (y) = 0.

g(x) dy y dx 1

dx 2

E x (y) x(1)

x ( 2)

x

Figura 4.3

Dimostrazione. Con riferimento alla Fig. 4.3, la probabilit`a elementare dP che Y (ω) assuma valori compresi tra y e y + dy vale fY (y)dy = P (y < Y ≤ y + dy) = P [y < g(X) ≤ y + dy] = = P [x(1) − |dx1 | < X ≤ x(1) ]+ +P [x(2) < X ≤ x(2) + dx2 ] = fX (x(1) )|dx1 | + fX (x(2) )dx2 dove x(1,2) sono le due radici reali che si ricavano dall’equazione g(x) − y = 0, e inoltre: dy dxj = 0 (j) , j = 1, 2 g (x ) sono gli incrementi elementari subiti dalla variabile reale x a seguito di un incremento positivo dy della variabile dipendente. Pertanto: (

fY (y)dy =

fX (x(1) ) fX (x(2) ) + |g 0 (x(1) )| |g 0 (x(2) )|

che, dividendo per dy, dimostra la (4.3) con N = 2. Esempio 4.2: Caratteristica con legge quadratica

)

dy

102

TRASFORMAZIONI DI VARIABILI ALEATORIE

Un dispositivo trasforma un ingresso casuale che ha distribuzione uniforme in Dx = [−1, 1], con la legge quadratica: g(x) = x2 . Scelto un generico y ∈ IR, i valori di x ∈ Dx che soddisfano la condizione: x2 ≤ y √ √ appartengono al dominio Ex (y) = [− y, y] se 0 ≤ y ≤ 1, e per la formula (4.2) si ricava Z √y √ √ FY (y) = √ fX (x)dx = FX ( y) − FX (− y). − y

Se la distribuzione in ingresso `e uniforme in −1 ≤ x ≤ 1, si ha in tale intervallo: fX (x) = 1/2; FX (x) = (x + 1)/2 e quindi: √ √ y+1 − y+1 √ FY (y) = − = y, 0 ≤ y ≤ 1. (4.4) 2 2

g( x)

f ( y) Y f X (x )

y

0.5

E x ( y) 0

- y

y

x

-1

0

1

Figura 4.4 - Trasformazione con legge quadratica

La densit`a fY (y) si pu`o calcolare per derivazione, oppure applicando direttamente la (4.3) come segue. Assegnato y ∈ IR, le radici dell’equazione g(x) − y = x2 − y = 0 sono: √ √ x(1) (y) = − y; x(2) (y) = y e sono reali solo se y ≥ 0. Poich`e Dx = [−1, 1], si hanno due soluzioni distinte per 0 ≤ y ≤ 1. Dunque il dominio Dy `e l’intervallo [0, 1] e in esso, tenuto conto che √ √ g 0 (x(1) ) = 2x(1) = −2 y; g 0 (x(2) ) = 2x(2) = 2 y, la densit`a incognita vale: 1 1 √ √ fY (y) = √ [fX (− y) + fX ( y)] = √ 2 y 2 y che coincide con la derivata della (4.4).

µ

1 1 + 2 2



1 = √ 2 y

4.2 – Funzioni di una variabile casuale

4.2.3

103

Trasformazioni invertibili

La (4.3) si modifica in una formula assai notevole quando la caratteristica del sistema `e una funzione g(x) che, oltre ad essere continua e derivabile, `e anche invertibile in Dx . In tale ipotesi, l’equazione g(x) − y = 0 ha al pi` u una sola radice reale x(1) = g −1 (y) coincidente con la funzione inversa di g(x). Per il teorema di derivazione delle funzioni inverse, vale l’identit` a 1 g 0 (x(1) (y))

=

dg −1 (y) dy

che, sostituita nella (4.3) con N = 1, porta alla formula seguente: fY (y) = fX [x = g

−1

¯ ¯ ¯ dg −1 (y) ¯ ¯ ¯ (y)] ¯ ¯. ¯ dy ¯

(4.5)

che prende il nome di Teorema del cambio di variabile. Anche la determinazione diretta della funzione di distribuzione FY (y) si risolve, nel caso di trasformazioni invertibili, applicando formule notevoli. Per la loro deduzione `e per`o necessario distinguere i due casi seguenti. • g(x) invertibile e crescente in Dx : il dominio Ex (y) `e l’intervallo aperto a sinistra: Ex (y) = {x ∈ Dx : g(x) ≤ y} = (−∞, g −1 (y)] per cui si ricava FY (y) =

Z g−1 (y) −∞

fX (x)dx = FX [g −1 (y)].

(4.6)

• g(x) invertibile e decrescente in Dx : il dominio Ex (y) `e l’aperto a destra Ex (y) = {x ∈ Dx : g(x) ≤ y} = [g −1 (y), +∞) e di conseguenza: FY (y) =

Z ∞ g −1 (y)

fX (x)dx = 1 − FX [g −1 (y)].

(4.60 )

Esempio 4.3: Generazione di numeri casuali

Applicando la teoria delle trasformazioni invertibili, `e possibile determinare la caratteristica che deve avere un dispositivo da utilizzare per trasformare un ingresso casuale in una uscita avente prescritte propriet`a statistiche. Si assuma che l’ingresso sia dotato di densit`a continua in DX ⊆ IR. La sua funzione di distribuzione FX (x) `e allora una funzione continua, monotona crescente in IR. Se la funzione caratteristica

104

TRASFORMAZIONI DI VARIABILI ALEATORIE

g(x) del dispositivo in cui `e immesso il segnale coincide con FX (x), in uscita si ricava per la (4.6): FY (y) =

Z g−1 (y) −∞

fX (x)dx = FX [g −1 (y)] = FX [F −1 (y)] = y

con y ∈ [0, 1]. Inoltre, si constata subito che per y < 0 `e FY (y) = 0, e per y > 1 si ha FY (y) = 1. Dunque, la funzione di distribuzione in uscita `e quella di una variabile casuale con distribuzione uniforme in DY = [0, 1], per cui il dispositivo genera numeri casuali equiprobabili in tale intervallo. Inversamente, proponiamoci di generare una uscita casuale continua Y (ω) con una assegnata funzione di distribuzione FY (y) anch’essa, ovviamente, monotona crescente e quindi invertibile in DY ⊆ IR. Allo scopo, `e sufficiente trasformare un ingresso uniformemente distribuito in DX = [0, 1] con un dispositivo avente caratteristica g(x) = FY−1 (x) uguale alla inversa della funzione caratteristica richiesta in uscita. Infatti per tale trasformazione si ha: Ex (y) = {x ∈ [0, 1] : g −1 (x) < y} = [0, FY (y)]. Quindi, tenuto conto che fX (x) = 1 in [0, 1], la funzione di distribuzione in uscita, che si calcola ancora con la (4.6), vale: Z FY (y) 0

1 · dx = FY (y)

fX( x )

g( x )

f Y( y ) 1

1

y

FX ( x )

x

E ( y)

0

X

g( x )

F -1 (y) X

x

0

1

y

F -1 ( x ) Y

fX( x )

f Y( y )

y

1

E ( y) X

0

1

x

F ( y) Y

0

1

x

y

4.2 – Funzioni di una variabile casuale

105

Figura 4.5 - Generazione di numeri casuali

che `e la distribuzione desiderata. Ad esempio, per generare numeri casuali distribuiti con continuit`a nell’intervallo DY = [0, 2] con densit`a fY (y) = y/2, si calcola anzitutto la corrispondente funzione di distribuzione FY (y) = y 2 /4, e si determina la caratteristica √ g(x) = FY−1 (x) = 2 x. Il dispositivo che trasforma un segnale uniformemente distribuito in [0,1] secondo √ la legge g(x) = 2 x ha in uscita segnali casuali con la distribuzione probabilistica richiesta. Infatti g

4.2.4

−1

y2 (y) = ; 4

FY (y) =

Z g−1 (y)

dx =

0

y2 ; 4

fY (y) =

dFY (y) y = . dy 2

Momenti di Y (ω) = g[X(ω)]

Una volta determinata la densit`a della funzione di variabile aleatoria, i suoi momenti di ordine q = 1, 2, . . . si possono calcolare mediante la loro definizione: Z q

E{Y } =

DY

y q fY (y)dy.

(4.7)

Tuttavia, qualora non interessi calcolare esplicitamente la densit`a fY (y) ma solo alcuni suoi momenti, `e possibile determinarli direttamente utilizzando la conoscenza della densit`a del segnale di ingresso. A tal fine si utilizza la formula seguente: Z q

E{Y } =

Dx

g q (x)fX (x)dx

(4.8)

che definisce il momento di ordine q di una generica funzione g della variabile casuale dotata di densit`a fX (x). Si pu`o facilmente dimostrare la (4.8) nell’ipotesi che g(x) sia invertibile. Infatti, utilizzando infatti la (4.5) e integrando per sostituzione si ha: ¯ ¯ ¯ dg −1 (y) ¯ ¯ ¯ E{Y q }) = y q fY (y)dy = y q fX (x = g −1 (y)) ¯ ¯ dy = ¯ dy ¯ Dy Dy ¯ ¯ Z Z ¯ dg −1 ¯ ¯¯ dy ¯¯ ¯ ¯ ¯ ¯ q g q (x)fX (x)dx. = g (x)fX (x) ¯ ¯ · ¯ ¯ dx = ¯ ¯ dy dx Dx Dx Z

Z

In particolare, il valor medio mY si pu`o calcolare come segue: Z

mY = E{Y } =

DX

g(x)fX (x)dx

e la varianza con la nota formula: σY2 = E{Y 2 } − m2Y

(4.9)

106

TRASFORMAZIONI DI VARIABILI ALEATORIE

dove il momento di ordine q = 2 `e dato da Z

E{Y 2 } =

4.2.5

Dx

g 2 (x)fX (x)dx.

Trasformazioni lineari

Un sistema lineare opera la trasformazione dell’ingresso X(ω) con legge: g(x) = ax + b dove a, b ∈ IR sono costanti ed a 6= 0. Si tratta dunque di una particolare trasformazione invertibile in DX (−∞, +∞), in cui g −1 (y) =

dg −1 (y) 1 = = cost. dy a

y−b ; a

Per la (4.5) la densit`a di probabilit`a in uscita vale: µ

fY (y) = fX

y−b x= a



·

1 |a|

(4.10)

e, a meno di un fattore costante, ha la medesima legge probabilistica dell’ingresso X(ω). Questo risultato mostra una rilevante propriet`a dei sistemi lineari: essi non alterano la legge probabilistica del segnale di ingresso: Se ad esempio X(ω) `e un segnale gaussiano, essi restituiscono in uscita un segnale che `e ancora gaussiano, sebbene con momenti diversi. Il valor medio del segnale di uscita da un sistema lineare vale, per la (4.9): Z

mY =

Dx

(ax + b)fX (x)dx = a · mX + b

ed `e perci`o calcolabile immediatamente, come funzione lineare del valor medio mX della variabile aleatoria di ingresso. Il momento del secondo ordine risulta: Z

E{Y 2 } =

DX

(a2 x2 + 2abx + b2 )fX (x)dx = a2 E{X 2 } + 2abmX + b2 ,

per cui la varianza di Y (ω) vale: 2 σY2 = E{Y 2 } − m2Y = a2 [E{X 2 } − m2X ] = a2 σX .

(4.11)

Essa `e uguale alla varianza del segnale di ingresso nel sistema lineare, moltiplicata per a2 . Esempio 4.4: Distribuzione parabolica in [a, b].

Si `e visto nel §2.3.12 che la distribuzione parabolica sul supporto {x ∈ [0, 1]} `e una particolare distribuzione Beta con densit`a fX (x) = 6x(1 − x). Per determinare una

4.2 – Funzioni di una variabile casuale

107

densit`a di probabilit`a parabolica FY (y) su un supporto limitato generico [a, b], `e sufficiente operare la trasformazione lineare: y = g(x) = a + (b − a)x,

y ∈ [a, b]

la cui inversa vale x = g −1 (y) =

dg −1 (y) 1 = . dy b−a

y−a , b−a

Applichiamo quindi la (4.10) per ottenere:  

fY (y) =



f [x = g −1 (y)] 0

altrove.

1 6 = (y − a)(b − y), y ∈ [a, b] |b − a| (b − a)3

f d (d)

v q 0

Dd

d

0

d

3A 2

Figura 4.6 - Moto aleatorio di un grave

Esempio 4.5: traiettoria di un grave

Si consideri la traiettoria parabolica di un grave, lanciato (in assenza di resistenza dell’aria) con una velocit`a iniziale v nella direzione individuata dall’angolo ϑ indicato in Fig. 4.6. Se ϑ(ω) `e una variabile aleatoria uniformemente distribuita in Dϑ = [π/6, π/3], la distanza d del punto di caduta `e la funzione di variabile aleatoria d(ω) = g[ϑ(ω)] = A sin 2ϑ(ω) con A = v 2 /g, dove g `e l’accelerazione di gravit` a. Poich´e g(ϑ) non `e invertibile in Dϑ , cerchiamo le radici dell’equazione: A sin 2ϑ − d = 0 appartenenti a Dϑ . Esse sono: 1 d π 1 d ϑ(1) (d) = arcsin ; ϑ(2) (d) = − arcsin 2 A 2 2 A

A

108

TRASFORMAZIONI DI VARIABILI ALEATORIE

e sono reali, non coincidenti, se

√ 3A/2 ≤ d < A. In tale intervallo si ha p

g 0 (ϑ(1) ) = 2A cos 2ϑ(1) = 2 A2 − d2 ;

g 0 (ϑ(2) ) = −g 0 (ϑ(1) )

e quindi, per la (4.3): 1 fd (d) = √ [fϑ (ϑ(1) (d)) + fϑ (ϑ(2) (d))]. 2 2 A − d2 Poich´e fϑ (ϑ) = 6/π = cost, si ottiene 6 fd (d) = √ , π A2 − d2

√ 3 ≤d y, per cui la (4.14’) si pu`o riscrivere nella forma: fY (y) =

Z ∞ 0

f1 (y − x2 )f2 (x2 )dx2 =

Z y 0

f1 (y − x2 )f2 (x2 )dx2 .

(4.16)

x2 1

y = x1 + x 2 C22 C1

0

1

2

x1

Figura 4.8

Supponiamo ad esempio che le variabili casuali X1 (ω), X2 (ω) siano indipendenti e uniformemente distribuite nell’intervallo fondamentale [0, 1]. Le loro densit`a valgono: f1 (x1 ) = f2 (x2 ) = 1 in tale intervallo, e sono nulle altrove. Per determinare la funzione di distribuzione della loro somma, basta osservare che per la (4.14) essa `e uguale all’area del dominio di integrazione E12 (y) da definirsi come segue (v. Fig. 4.8):  per y < 0  0,  C , per 0 ≤ y < 1 1 E12 (y) = C , per 1 ≤ y < 2    2 [0, 1] × [0, 1], per y ≥ 2. Pertanto, indicando con m(Ci ) la misura degli insiemi Ci , si ricava:  0,   

per y < 0 m(C1 ) = y 2 /2, per 0 ≤ y < 1 FY (y) =  m(C2 ) = 2y − 1 − y 2 /2, per 1 ≤ y < 2   1, per y ≥ 2

112

TRASFORMAZIONI DI VARIABILI ALEATORIE

e per derivazione nei vari intervalli di DY = [0, 2]: ½

fY (y) =

y, per 0 ≤ y < 1 2 − y, per 1 ≤ y < 2.

Dunque la v.a. Y (ω) = X1 (ω) + X2 (ω) somma di distribuzioni uniformi indipendenti, ha la distribuzione triangolare di Fig. 4.9. Essa si poteva anche calcolare direttamente usando il Teorema di convoluzione. Dalla (4.16), tenuto conto che f1 ed f2 sono nulle al di fuori dell’intervallo [0,1], si ricava infatti: 0≤y T . Dunque anche il rumore binario `e un processo debolmente stazionario. Per come `e stato costruito, esso `e il modello probabilistico che si associa a prove ripetute ed indipendenti di un esperimento casuale, che avvengono con eguale probabilit`a di successo o di fallimento, ad uguali intervalli di tempo T. 5.5. Rumore bianco

E’ uno speciale caso limite del rumore binario, che si definisce quando T → 0 e σ 2 → ∞ in modo che il prodotto σ 2 T tende a un valore finito. Per le sue particolari propriet`a e per la semplicit`a della sua descrizione in termini matematici, `e ampiamente usato per approssimare un gran numero di fenomeni fisici aleatori. 5.6. Passeggiate a caso

Consideriamo ancora le successioni di infinite prove ripetute a intervalli uguali di tempo T di un generico esperimento casuale con eguale probabilit`a di successo o di fallimento. Associamo alla successione una funzione del tempo a gradino che in corrispondenza di ciascuna prova ha un incremento della quantit` a s se l’esito `e un successo e decresce della quantit` a −s se `e un fallimento. Questa funzione a gradino (v. Fig. 5.2) `e una realizzazione di un processo stocastico X(ω, t) chiamato passeggiate a caso. Se nelle prime n prove si sono avuti k successi, il valore della generica realizzazione del processo al tempo t = nT `e x(nT ) = ks − (n − k)s = (2k − n)s.

134

PROCESSI STOCASTICI

Per la formula di Bernoulli (2.42), la probabilit`a dell’evento {X(nT ) = (2k − n)s} vale: Ã ! n 1 P [X(nT ) = (2k − n)s] = k 2n e il valor medio del processo X(ω, t) per (n − 1)T < t ≤ nT risulta: E(X) =

n X

à !

k=0

n (2k − n)s = 0. k 2n

La varianza `e uguale al momento del secondo ordine del processo al tempo t, e nell’istante t = nT vale: 2

2

σ (t) = s

n X k=0

à !

n (2k − n)2 ts2 = ns2 = . n 2 T k

Se n `e sufficientemente grande, per il Teorema di asintoticit` a di Moivre–Laplace (2.46) la probabilit`a dell’evento {X(nT ) = (2k−n)s} `e approssimata dalla gaussiana: r

P [X(nT ) = (2k − n)s] '

"

#

(2k − n)2 2 exp − . nπ 2n

X(t)

s 0

T

t

Figura 5.2 - Passeggiate a caso

Se infine a t costante effettuiamo un passaggio al limite per s, T → 0, e se s tende √ a zero come T , si ottiene un nuovo processo stocastico chiamato moto browniano o processo di Wiener–Levy, che rappresenta il modello matematico del moto irregolare di particelle libere di muoversi in un mezzo fluido.

5.2 – Esempi notevoli

135

5.7. Processo di Poisson

Consideriamo una scelta casuale di istanti ti in IR+ , e definiamo il processo X(ω, t) tale che X(ω, 0) = 0 e la differenza X(ω, t2 ) − X(ω, t1 ) sia uguale al numero di punti ti in [t1 , t2 ]. La famiglia di funzioni cos´ı definita si chiama processo di Poisson. Ogni sua realizzazione `e una funzione a scala con gradino unitario nei punti casuali ti , come indicato in Fig. 5.3. Se invece fissiamo l’istante t, allora X(ω, t) `e una variabile aleatoria il cui valore coincide con il numero k di punti nell’intervallo [0, t]. Per la legge degli eventi rari (2.51) la probabilit`a dell’evento E = {k punti in [0, t]} `e approssimata da (λt)k −λt Pk,t ' e , k! per cui X(ω, t) per ogni fissato t `e distribuita con legge di Poisson con parametro λt.

10 X(t) 5

1 0

t

ti Figura 5.3 - Processo di Poisson

La statistica del primo ordine del processo `e quella della distribuzione di Poisson: 2 σX (t) = λt.

mX (t) = λt,

Scelti poi due istanti generici t1 , t2 > 0, si pu`o calcolare che ½

R(t1 , t2 ) = E(X1 X2 ) =

λt2 + λ2 t1 t2 λt1 + λ2 t1 t2

se t1 ≥ t2 se t1 ≤ t2

e quindi C(t1 , t2 ) = R(t1 , t2 ) − mX (t1 )mX (t2 ) = λ · min(t1 , t2 ). Il processo di Poisson non `e stazionario; `e per`o un processo con incrementi stazionari in senso lato. Si definisce incremento di Poisson il processo Y (ω, t) =

X(ω, t + ²) − X(ω, t) ²

(5.11)

136

PROCESSI STOCASTICI

che per ogni t fissato ha valori uguali al rapporto k/², dove k `e il numero di punti nell’intervallo [t, t + ²]. Il valor medio degli incrementi di Poisson `e costante e vale: E(Y ) =

E(X(t + ²)) − E(X(t)) = λ, ²

e l’autocorrelazione risulta: (

R(t1 , t2 ) =

λ2 λ2 +

λ ²



λ|τ | ²2

se se

|τ | > ² |τ | < ²

dove τ = t2 − t1 . Facendo tendere ² a zero, si ottiene un nuovo processo stocastico debolmente stazionario Z(ω, t), che definisce gli impulsi di Poisson: Z(ω, t) = lim Y (ω, t) = ²→0

dX(ω, t) X = δ(t − ti ). dt i

(5.13)

Questo processo consiste nella successione di infiniti impulsi unitari negli istanti casuali ti , ed `e facile verificare che ha media ed autocorrelazione date da E(Z) = λ R(t1 , t2 ) = λ2 + λδ(t1 − t2 ) = λ[λ + δ(τ )].

5.3

Processi di Markov

X(ω, t) `e chiamato ”processo di Markov” se per ogni n e per t1 < t2 < ... < tn ∈ IR+ si ha: P [X(ω, tn ) ≤ xn |xn−1 , tn−1 , . . . , x1 , t1 ] = P [X(ω, tn ) ≤ xn |xn−1 , tn−1 ]. In tale processo la distribuzione in probabilit`a all’istante tn `e condizionata soltanto dalle propriet`a statistiche che ha avuto nell’istante immediatamente precedente tn−1 , e ha ”perso la memoria” della sua storia prima di tn−1 . Ne segue che la densit`a di probabilit`a di ordine n del processo vale: fn (x1 , t1 , . . . , xn , tn ) = f1 (x1 , t1 )f (x2 , t2 |x1 , t1 ) · · · f (xn , tn |xn−1 , tn−1 ) e per la definizione di probabilit`a condizionata si pu`o calcolare come: fn (x1 , t1 , . . . , xn , tn ) =

f2 (x1 , t1 ; x2 , t2 ) · · · f2 (xn , tn ; xn−1 , tn−1 ) . f1 (x1 , t1 ) . . . f1 (xn−1 , tn−1 )

5.4 – Catene di Markov

137

Quest’ultima formula mostra che le propriet`a di un processo di Markov sono note se si conosce la sua statistica fino al secondo ordine, che `e definita dalle densit`a congiunte delle coppie (xi , xj ), i, j = 1, . . . n. Fissati tre istanti t1 < t2 < t3 (e tralasciando di indicarli tra gli argomenti delle varie densit`a, per semplicit`a di scrittura), si ha in particolare che: f (x1 , x2 , x3 ) =

f2 (x1 , x2 )f2 (x2 , x3 ) f1 (x2 )

e poich´e per definizione di probabiit`a condizionata si ha f2 (x1 , x2 ) = f (x1 |x2 )f1 (x2 ), f2 (x2 , x3 ) = f (x3 |x2 )f1 (x2 ), sostituendo si ricava: f (x1 , x2 , x3 ) = f (x1 |x2 )f (x3 |x2 )f1 (x2 ). Se ora interessa valutare la probabilit`a condizionata: f (x1 , x3 |x2 ) =

f (x1 , x2 , x3 ) , f1 (x2 )

quest’ultima per la formula precedente risulta uguale a: f (x1 , x3 |x2 ) = f (x1 |x2 )f (x3 |x2 ). Il risultato mostra che le variabili casuali X1 , X3 , condizionate da X2 , sono indipendenti. Questo significa che sotto la condizione che sia noto lo stato presente X2 , il passato del processo markoviano `e indipendente dal suo futuro. In questo senso si pu`o affermare che l’ipotesi markoviana `e l’analogo probabilistico dei problemi ai valori iniziali della Meccanica, che sono descritti da equazioni differenziali la cui soluzione al tempo t2 > t1 `e univocamente determinata se si assegna lo stato iniziale x(t1 ) del sistema dinamico, e tale soluzione non dipende dal valore che essa assume in qualche istante t3 > t2 .

5.4

Catene di Markov

Di solito nel processo di Markov il tempo t varia in un insieme continuo T ∈ IR+ . Se l’insieme dei tempi `e discreto, ossia T ⊆ IN dove IN `e l’insieme dei numeri naturali, il processo discreto che ne risulta si chiama catena di Markov. Precisamente, si ha la seguente DEFINIZIONE. Si chiama catena di Markov il processo stocastico tale che:

138

PROCESSI STOCASTICI

• t ∈ T ⊆ IN; • le variabili casuali Xn assumono tutte valori nello stesso insieme numerabile discreto E ⊂ IN, chiamato spazio degli stati; • esistono reali non negativi pij (n) con i, j ∈ E, n ∈ N tali da soddisfare la propriet`a di Markov: pij (n)=P (Xn+1 = j|Xn = i, Xn−1 = in−1 , . . . , X1 = i1 ) = P (Xn+1 = j|Xn = i). Se pij non dipendono da n, la catena `e omogenea.

5.4.1

Matrice di transizione

Se l’insieme E degli stati `e finito, i numeri pij sono gli elementi di una matrice quadrata P il cui ordine `e uguale alla cardinalit`a di E. Questa matrice si chiama matrice di transizione ed ha le seguenti propriet`a: • pij ≥ 0; • la somma degli elementi di ogni sua riga vale 1. Infatti, in conseguenza degli assiomi della probabilit`a per ogni i si deve avere: X j

pij =

X

P (Xn+1 = j|Xn = i) = P (Xn+1 ∈ E|Xn = i) = 1.

j

La matrice di transizione definisce univocamente gli stati j di Xn+1 qualora siano noti gli stati i di Xn . Inoltre, la sua conoscenza permette di determinare anche probabilit`a congiunte del tipo: (m)

Pij

(m)

= P (Xn+m = j|Xn = i) = pij ,

cio`e la probabilit`a che dopo m passi successivi all’istante t = n (nel quale la catena si (m) trova nello stato i) essa si trovi nello stato j. Infatti, se definiamo con Pm = [pij ] la matrice di transizione dopo m passi successivi all’n–esimo, sfruttando la definizione (m) di pij si ricava che essa `e il risultato del prodotto matriciale Pm = Pm−1 P da cui ponendo m = 2, 3, . . . si ottiene: P2 = PP = P2 , P3 = P2 P = P3 , . . . e per ricorrenza: Pm = Pm .

5.4 – Catene di Markov

139

Poich´e la variabile aleatoria Xn assume valori in E, la sua legge probabilistica `e descritta da un vettore riga con dimensioni uguali alla cardinalit`a di E, che indichiamo con w = (w1 , w2 , . . . , wk , . . .); wk = P (Xn = k) e tale da soddisfare per ogni valore intero dell’indice k: X

wk ≥ 0;

wk = 1

k

in modo che w sia una densit`a discreta su E. Indichiamo in particolare con v = (v1 , v2 , . . . , vh , . . .),

vh = P (X0 = h)

lo stato probabilistico della catena nell’istante iniziale t0 . Dopo n passi della catena, la legge degli stati `e definita dal vettore w avente le componenti: wk =

X

P (Xn = k|X0 = h)P (X0 = h) =

h

X (n)

phk vh .

h

Pertanto le leggi dei due stati (quello iniziale e quello della catena dopo n passi) sono legate dalla relazione: w = vPn . Se ne conclude che le leggi congiunte degli stati n = 1, 2, . . . sono determinate univocamente dalla matrice di transizione P e dalla legge iniziale v. Infatti, si pu`o dimostrare che data una matrice di transizione P e una legge su E, esiste sempre una catena di Markov associata a P e con legge iniziale v. Esempio 5.8

2 0.8 0.3 0.4

0.5 0.3 0.2

3

1 0.5 Figura 5.4

Consideriamo tre nodi (i, j = 1, 2, 3) di un generico grafo i quali – per esempio a seguito di indagini statistiche effettuate su determinati campioni rappresentativi degli stati di un sistema – risultano collegati fra loro con le probabilit`a di transizione indicate in Fig. 54.

140

PROCESSI STOCASTICI

Supponiamo di dover studiare una successione di transizioni tra questi stati, che avviene in successivi istanti t1 , t2 , . . . tn , . . . sempre con le medesime probabilit`a di transizione, e a partire dall’istante t0 nel quale lo stato del sistema si trova nel nodo 2 con probabilit`a 1. Si ha un problema di questo tipo, per esempio, quando si studia il flusso di abitanti tra centri urbani limitrofi, oppure le variazioni della concentrazione di un elemento inquinante in ambienti collegati, ecc. Il suo modello matematico naturale `e una catena di Markov omogenea definita sullo spazio degli stati E = (1, 2, 3) in cui le variabili casuali Xn = X(tn ) possono assumere i valori di E con probabilit`a da determinare. E’ nota la legge iniziale perch´e per t = t0 si ha P (X0 = 1) = 0, P (X0 = 2) = 1, P (X0 = 3) = 0, e quindi v = (v1 , v2 , v3 ) = (0, 1, 0). Se pij `e la probabilit`a di transizione dallo stato i allo stato j, essa si trova sulla i–esima riga e j–esima colonna della matrice di transizione della catena, che vale 

0

   P =  0.4  

0.8 0.2 0.3

0.5 0.5



   0.3  .  

0

Se vogliamo conoscere la legge w(1) dello stato X1 = X(t1 ) basta applicare a v questa matrice di transizione. Si scrive allora (1)

(1)

(1)

(w1 , w2 , w3 ) = (0, 1, 0)P e si ottiene: w(1) = (0.4, 0.3, 0.3) ossia: dopo un passo della catena il sistema si trova nello stato 1 con probabilit`a 0.4 e negli stati 2 o 3 con probabilit`a 0.3. Si noti che il risultato `e conforme agli assiomi della probabilit`a totale, perch´e in t = t1 la somma delle probabilit`a degli stati deve essere uguale all’unit`a. Se ora vogliamo conoscere la legge dello stato X2 = X(t2 ) si pu`o applicare la matrice di transizione al vettore riga w(1) appena trovato; ma `e anche possibile calcolare subito w(2) a partire dallo stato iniziale, scrivendo: (2)

(2)

(2)

(w1 , w2 , w3 ) = (0, 1, 0)P2 dove



0.42 0.34

0.24



   P = PP =  0.27  

0.56

   0.17  .  

0.2

0.55

0.25

2

5.4 – Catene di Markov

141

Si ricava in ogni caso: w(2) = (0.27, 0.56, 0.17) che definisce univocamente la legge della catena dopo due passi, e cos´ı si pu`o proseguire per n = 3, 4, . . . . /

5.4.2

Classificazione degli stati

Nella teoria delle catene di Markov, dati due stati i, j ∈ E si dice che i comunica (n) con j se esiste un intero n > 0 tale che pij > 0, e si scrive in tal caso: i → j. Ci`o significa che nella catena `e possibile passare dallo stato i allo stato j in n passi. Si badi che i → j non implica necessariamente l’inverso: j → i; si pu`o tutt’al pi` u affermare che: i → j, j → h ⇒i→h (n)

(m)

perch´e se esistono n, m tali che pij > 0, pjh > 0, allora (n+m)

pih

=

X (n) (m)

(n) (m)

pik pkh ≥ pij pjh > 0

k

e quindi i comunica con h (attraverso j). • Due stati (i, j) comunicano se esistono due interi n, m (anche diversi) tali che (n) (m) pij > 0 e pji > 0, ovvero se `e possibile passare da i a j in n passi e la j ad i in m passi. • Un sottoinsieme C ⊂ E `e una classe chiusa se gli stati di C non comunicano con gli stati appartenenti all’insieme complementare di C in E. Se Xk ∈ C, allora per qualsiasi n ≥ k si avr`a Xn ∈ C, e pertanto se la catena raggiunge una classe chiusa vi rester`a per sempre. • Una classe chiusa C `e irriducibile se e solo se tutte le coppie dei suoi stati comunicano fra loro. Se l’unica classe irriducibile `e E, allora la stessa catena di Markov si dice irriducibile, perch´e tutti i suoi stati comunicano. • Se invece uno stato costituisce da solo una classe irriducibile, questo stato si chiama assorbente. (m)

• Se esiste un intero m > 0 tale che pij > 0 per ogni coppia (i, j), la matrice di transizione P si dice regolare e tale `e la catena di Markov associata a tale matrice regolare. Una catena regolare `e irriducibile, ma non vale sempre l’inverso: esistono catene irriducibili che non sono regolari. Un criterio sufficiente per la regolarit`a della catena `e il seguente: • Se la catena `e irriducibile e inoltre esiste un h ∈ E tale che phh > 0, allora la catena `e regolare.

142

PROCESSI STOCASTICI

• Stati transitori e ricorrenti. Indichiamo con τj (ω) = min[n : Xn (ω) = j] la variabile aleatoria che definisce il primo istante in cui la catena di Markov visita lo stato j. Il numero ρij = P (τj < +∞|Xn = i) `e la probabilit`a che la catena visiti prima o poi lo stato j partendo dallo stato i. Uno stato si dice transitorio se ρii < 1, vale a dire se con probabilit`a maggiore di zero la catena che parte dallo stato i non vi ritorna pi` u. Si dice ricorrente (o anche persistente) se ρii = 1, ovvero prima o poi vi ritorna con probabilit`a 1. • In una catena irriducibile tutti gli stati sono ricorrenti. Se l’insieme E degli stati `e finito, uno stato i `e transitorio se e solo se esiste uno stato j tale che i → j ma j non comunica con i. Nella catena dell’Esempio 5.8 (e illustrata dal grafo di Fig. 5.4) tutti gli stati comunicano, perch´e P2 ha elementi che sono tutti > 0. Quindi la catena `e irriducibile e non ci sono stati assorbenti. Inoltre, poich´e nella matrice di transizione esiste un h = 2 tale che p22 > 0, `e soddisfatta la condizione sufficiente per affermare che la catena `e anche regolare. Tutti gli stati sono ricorrenti perch´e prima o poi la catena ritorna in ciascuno di essi; non esistono stati transitori. Esempio 5.9

Consideriamo il grafo di Fig. 5.5 nel quale cinque nodi, numerati progressivamente, sono tra loro variamente collegati e supponiamo che il passaggio tra i nodi avvenga nel verso indicato e con le probabilit`a indicate. 0.5

1 0.5

1 0.5

2 0.25

1

0.25

5 3

4 1 Figura 5.5

A questo grafo si pu`o associare una catena di Markov costituita da cinque stati, identificati dal vettore E = {1, 2, 3, 4, 5} con matrice di transizione

5.4 – Catene di Markov

143 

1/2  1/2   P= 0   1 0

0 0 0 1/4 0 1 0 0 1 0

1/2 0 0 0 0



0 1/4    0   0  0

i cui elementi pij coincidono con le probabilit`a di transizione assegnate in figura. Si noti anzitutto che la somma degli elementi su ogni riga vale 1 (probabilit`a dell’evento certo). Inoltre: • Poich`e p3,3 = 1, una volta che la catena entra nello stato 3 non vi esce pi` u. Lo stato 3 `e assorbente e quindi ricorrente. • Gli stati 1 e 4 comunicano tra loro ma non con gli altri stati. La classe {1, 4} `e chiusa e irriducibile. • Gli stati 2 e 5 sono transitori poich´e la catena che parte da uno di essi, con probabilit`a maggiore di zero non vi ritorner`a pi` u andando a finire o nella classe irriducibile {1, 4} o nello stato assorbente. In conclusione la catena `e l’unione di due classi irriducibili I1 = {3}, I2 = {1, 4} e di un insieme T = {2, 5} di stati transitori: E = I1 ∪ I2 ∪ T.

5.4.3

Probabilit` a invarianti

Supponiamo che l’insieme E degli stati sia finito, con cardinalit`a N . Una probabilit`a v = (v1 , v2 , . . . , vN ) si dice invariante o stazionaria se v = vP ,

(5.12)

ovvero se la transizione da uno stato con legge v riproduce uno stato con la medesima legge. Se gli stati iniziali di X0 hanno una legge stazionaria, allora Xn ha legge w = vPn = vPPn−1 = vPn−1 = . . . = v, per cui se la legge iniziale `e stazionaria, tutte le Xn hanno la stessa legge. Si pu`o dimostrare (Teorema di Markov–Kakutani) che una matrice di transizione su un insieme finito di stati ha sempre almeno una probabilit`a invariante. Per la sua unicit` a `e per`o necessario che la matrice di transizione sia anche regolare nel senso definito nel paragrafo precedente. Vale infatti a tale proposito il

144

PROCESSI STOCASTICI

TEOREMA DI MARKOV. Se P `e una matrice di transizione regolare si ha (n) lim p n→∞ ij

= πj

dove π = (π1 , . . . , πN ) `e l’unica probabilit`a invariante di P. Una importante conseguenza del Teorema di Markov `e la seguente. Se v `e la legge iniziale degli stati della catena, sappiamo che la legge di Xn `e w = vPn . La probabilit`a che Xn assuma il valore j si pu`o scrivere P (Xn = j) =

X

(n)

vi pij

i∈E

che per n → ∞ tende a lim P (Xn = j) =

n→∞

X

vi πj = πj .

i∈E

Questo mostra che qualunque sia la legge iniziale degli stati della catena, la legge di Xn converge alla distribuzione invariante π. Per la definizione espressa con la (5.13), questa distribuzione invariante soddisfa l’equazione matriciale: π[P − I] = 0 dove I `e la matrice identica. Perch´e essa abbia soluzioni non banali occorre che det[P − I] = 0, ovvero che λ = 1 sia un autovalore di P. Dunque π `e l’autovettore riga associato all’autovalore unitario della matrice regolare di transizione, e le sue componenti πj si possono ricavare risolvendo il seguente sistema lineare di N equazioni: j = 1, . . . , N :

πj =

N X

pij πi

(5.13)

i=1

in modo che siano soddisfatte le condizioni πj ≥ 0;

N X

πj = 1

(5.140 )

j=1

stabilite dagli assiomi della probabilit`a. La catena dell’Esempio 5.8 `e regolare: quindi per il Teorema di Markov i suoi stati convergono ad un’unica probabilit`a invariante che si pu`o determinare applicando le (5.13) le quali richiedono unicamente la conoscenza della matrice di transizione. Si ha cos´ı il sistema lineare: π1 = 0.4π2 + 0.5π3

5.4 – Catene di Markov

145

π2 = 0.8π1 + 0.3π2 + 0.5π3 π3 = 0.2π1 + 0.3π2 il quale, tenuto conto della condizione (5.14’), ha questa unica soluzione: π = (0.30054, 0.4918, 0.20766).

(5.14)

Si pu`o dunque affermare che la catena, con il trascorrere del tempo (ovvero in una successione di infinite transizioni che avvengono con le probabilit`a indicate) cadr`a in uno dei tre stati rispettivamente con le probabilit`a invarianti date dalla (ref5e15). Esempio 5.10

Nel grafo di Fig. 5.6 sia E = {1, 2, 3, 4, 5} l’insieme dei suoi nodi. Assumiamo che dal nodo i = 1, 2, . . . , 5 avvengano transizioni casuali ad un nodo adiacente, con eguale probabilit`a di passaggio a tutti i nodi contigui. Se indichiamo con ki il numero dei

2

1

5 3

4 Figura 5.6

nodi adiacenti all’i–esimo, con questa ipotesi si definisce su E una catena di Markov con le seguenti probabilit`a di transizione: ½

pij =

1/ki 0

se j `e adiacente a i altrimenti.

Pertanto la matrice di transizione della catena vale 



0 1/3 0 1/3 1/3  1/3 0 1/3 0 1/3      P =  0 1/3 0 1/3 1/3  .    1/3 0 1/3 0 1/3  1/4 1/4 1/4 1/4 0 Questa `e una matrice regolare: infatti, qualunque sia lo stato iniziale della catena, dopo un passo il processo si pu`o trovare con probabilit`a non nulla in ciascuno degli altri stati. Ci`o ci assicura che P2 `e composta da elementi tutti positivi, e soddisfa la definizione di regolarit`a con m = 2. Per il Teorema di Markov esiste dunque una unica probabilit`a invariante π = {π1 , . . . , π5 } per gli stati della catena. Questa si determina cercando la soluzione del sistema (5.13) che nel nostro caso si scrive: π1 =

1 1 (π2 + π4 ) + π5 3 4

146

PROCESSI STOCASTICI

1 1 (π1 + π3 ) + π5 3 4 1 1 (π2 + π4 ) + π5 3 4 1 1 (π1 + π3 ) + π5 3 4 1 (π1 + π2 + π3 + π4 ). 3

π2 = π3 = π4 = π5 =

La sua soluzione soddisfacente la (5.14’) `e: ½

π=

¾

3 3 3 3 1 , , , , . 16 16 16 16 4

Qualunque sia la legge iniziale degli stati della catena, per n → ∞ essa tende alla legge π ora calcolata. Ad esempio, se supponiamo di partire dal centro del grafo, assumeremo la legge iniziale v = {0, 0, 0, 0, 1}. Dopo un passo gli stati della catena hanno legge: ½ ¾ 1 1 1 1 w(1) = vP = , , , ,0 ; 4 4 4 4 dopo due passi:

½

w

(2)

=w

(1)

P=

1 1 1 1 1 , , , , 6 6 6 6 3

¾

e al crescere del numero n di passi le componenti di w(n) tendono a πj , j = 1, 2, . . . , 5.

STATISTICA DESCRITTIVA 6.1

Introduzione

Una valutazione approssimata della misura di probabilit`a da assegnare a un evento casuale si pu`o effettuare in modo empirico se, sulla base della definizione frequentista di probabilit`a gi`a accennata nella Introduzione del Capitolo I, si determina la frequenza degli esiti favorevoli di un esperimento casuale ripetuto n volte. Se l’esperimento ripetuto consiste nella rilevazione di certe caratteristiche di una popolazione (o universo), ovvero di un generico insieme di N oggetti o individui (con N che pu`o anche essere infinito), il risultato di n prove `e una serie di dati, la cui analisi porta a determinare una legge di probabilit` a empirica per la caratteristica della popolazione che vogliamo studiare. E’ bene precisare subito che le serie di dati da esaminare statisticamente sono quelle che si deducono dalla osservazione di un campione della popolazione, ossia di un numero n limitato (e possibilmente piccolo) dei suoi N elementi. Per ottenere risultati attendibili sulle caratteristiche dell’intera popolazione, occorre perci`o che i campioni siano adeguatamente scelti in modo da essere effettivamente rappresentativi dell’universo dal quale sono stati estratti. In secondo luogo, occorre sviluppare i metodi che attraverso l’analisi dei campioni consentano di stimare in modo attendibile le caratteristiche o parametri della popolazione che si intende esaminare. Il campionamento e i metodi di stima dei parametri sono oggetto della Statistica inferenziale, di cui ci occuperemo nei Capitoli che seguono. In questo Capitolo ci limiteremo, in via preliminare, ad esporre le tecniche in uso per l’organizzazione degli n dati raccolti, e per la rappresentazione delle probabilit`a empiriche che da essi si deducono. Le n osservazioni effettuate possono avere come obiettivo la definizione di caratteri qualitativi della popolazione, consistenti in certe caratteristiche di natura non numerica (come ad esempio il colore, il grado di istruzione, l’attivit`a professionale, la preferenza per un candidato,...) oppure di caratteri quantitativi (ad es. il peso, la lunghezza, il reddito,...) che si riferiscono invece a qualsiasi grandezza misurabile. A loro volta, i caratteri quantitativi possono essere discreti se assumono solo un 147

148

STATISTICA DESCRITTIVA

numero limitato di valori, oppure continui con valori in un assegnato intervallo di IR. Nei riguardi dei possibili risultati dell’esame di un carattere qualitativo, che sono chiamati modalit`a, osserviamo che in certi casi essi sono comunque suscettibili di un ordinamento (come ad esempio il grado di istruzione sopra citato), mentre spesso non hanno alcun ordinamento rispetto alle altre modalit`a (il colore, il sesso,...). In entrambi i casi, `e sempre possibile associare a ciascuna modalit`a un numero reale, in modo che la serie di dati risultante dalle osservazioni sia ancora riconducibile ad un insieme di numeri reali, definito su un sottoinsieme (discreto) di IR. Nel seguito illustreremo le tecniche che si utilizzano per descrivere serie di dati relativi a tutti quei caratteri di una popolazione che siano comunque rappresentabili con punti discreti dell’asse reale, oppure appartenenti ad uno o pi` u intervalli di IR.

6.2

Distribuzioni di frequenze

Consideriamo dunque una serie di n dati numerici {x1 , x2 , . . . , xn } ricavati da altrettante osservazioni fatte sugli elementi di una popolazione, e relativi ad un suo carattere quantitativo X continuo, oppure discreto ma con un numero elevato di modalit`a. Questi dati si chiamano determinazioni di X oppure realizzazioni o valori empirici. Indicato con ∆ ⊆ IR l’insieme delle modalit`a del carattere, definiamone una partizione {∆i }, i = 1, . . . , m in m classi tra loro disgiunte, tale che la loro unione coincida con ∆, e con intervalli ∆i aperti a destra: ∆i = [ai , bi ),

∆=

[

∆i ,

∆i ∩ ∆j = ®,

i 6= j = 1, 2, .., m.

i

Ad ogni classe ∆i , avente ai e bi come confini inferiore e superiore, si associa poi la sua ampiezza bi − ai (non necessariamente uguale per ogni indice i) e il suo valore centrale xi che `e la semisomma dei suoi confini. La scelta delle classi ∆i `e arbitraria, ma deve essere fatta in modo da ottenere una rappresentazione significativa dei dati raccolti sul carattere da studiare: `e preferibile che il loro numero sia elevato, ma nello stesso tempo occorre evitare di definire intervalli parziali che contengano pochi dati della serie. Di regola, `e bene che i dati in ciascuna classe siano maggiori o uguali a 5, e si sceglie un numero di classi che non si scosti troppo dalla parte intera di m0 = 1 + (10/3) log10 n. Se la serie si riferisce a un carattere discreto con modalit`a appartenenti all’insieme IN dei numeri naturali, si pu`o assumere queste modalit`a come valori centrali di altrettante classi di ampiezza uguale e unitaria. Poich´e per definizione ogni dato raccolto appartiene ad una ed una sola classe ∆i della partizione, si pu`o procedere al calcolo delle seguenti quantit` a:

6.2 – Distribuzioni di frequenze

149

• la frequenza assoluta ni di ciascuna classe (a volte chiamata anche “incidenza”) che `e il numero di elementi della serie che appartengono alla classe ∆i . Si noti che si avr`a: n1 + n2 + . . . + nm = n; • la frequenza relativa fi = ni /n di ciascuna classe, detta anche probabilit`a empirica, e tale che f1 + f2 + . . . + fm = 1. • la frequenza cumulata Ni , somma delle prime i frequenze assolute: Ni = n1 + n2 + .. + ni =

i X

nj ;

j=1

• la frequenza cumulata relativa Fi , somma delle prime i probabilit`a empiriche: Fi = f1 + f2 + . . . + fi =

i Ni 1X = nj . n n j=1

Con i dati raccolti si pu`o costruire un istogramma che rappresenta la distribuzione delle frequenze per ciascuna classe del campione. Questa si ottiene riportando sulle ascisse le varie classi ∆i , e sulle ordinate i valori della funzione costante a tratti: ni , x ∈ ∆i , i = 1, .., m ϕn (x) = ∆i che misura la frequenza assoluta per unit`a di ampiezza della classe ∆i . Per semplicit`a di scrittura, in questa formula e in quelle che seguono indichiamo con il simbolo ∆i sia la i-esima classe, sia la misura della sua ampiezza bi − ai . In tal modo ciascun rettangolo dell’istogramma ha un’area proporzionale alla frequenza assoluta ni , e la sua area totale `e proporzionale alla numerosit` a n della serie di dati. In modo analogo si pu`o costruire l’istogramma delle frequenze relative, chiamato anche distribuzione delle probabilit`a empiriche. Esso si ottiene riportando la funzione costante a tratti: fi ni fn (x) = ≡ , x ∈ ∆i , i = 1, .., m n∆i ∆i e la sua area complessiva `e uguale ad 1 (ovvero alla probabilit`a dell’evento certo). Una distribuzione di frequenze relative, riguardante il campione esaminato nell’Esempio 6.1 che segue, `e mostrata in Fig. 6.1. Al crescere della numerosit` a n del campione e per intervalli parziali ∆i sufficientemente piccoli, la funzione fn (x) sar`a una buona approssimazione della densit`a di probabilit`a fX (x) di quel particolare carattere X della popolazione da cui `e stato estratto il campione. Se la popolazione `e composta da infiniti elementi, nel passaggio al limite si ha: Z ni lim ≡ lim fi = IP(X ∈ ∆i ) = fX (x)dx. n→∞ n n→∞ ∆i Agli istogrammi delle frequenze si possono associare:

150

STATISTICA DESCRITTIVA

• il poligono delle frequenze relative, che unisce le ordinate fn (xi ) calcolate in corrispondenza dei valori centrali xi delle singole classi (v. Fig. 6.1). Se si effettua il doppio passaggio al limite di fn (xi ) per n → ∞ e ∆i → 0, ∀ i, il poligono delle frequenze relative tende al grafico della densit`a fX (x) del carattere X dell’intera popolazione; • il grafico delle frequenze cumulate Ni e delle frequenze cumulate relative Fi . Un esempio di quest’ultimo `e mostrato in Fig. 6.2. Al crescere di n e per ∆i sufficientemente piccoli, esso approssima il grafico della funzione di distribuzione cumulata FX (x) della variabile casuale X(ω) che rappresenta il carattere della popolazione oggetto di studio. • Alla distribuzione delle frequenze cumulate si associa spesso un grafico chiamato ogiva, il quale `e la spezzata che unisce i punti (sup ∆i , Ni ) di ogni classe, a partire dal punto (a1 , 0) coincidente con l’estremo inferiore della prima classe. Con lo stesso criterio, si costruisce anche l’ogiva percentuale che unisce i punti (sup ∆i , Fi ) nella distribuzione delle frequenze cumulate relative. L’ogiva percentuale (v. Fig. 6.2) fornisce una immediata valutazione approssimata (per difetto) della percentuale di elementi del campione che hanno un valore minore o uguale a una quantit`a prefissata.

6.3

Indici di tendenza centrale e di dispersione

6.3.1

Medie, moda, mediana, quantili

Cos´ı come nel calcolo delle probabilit`a si usano i momenti per individuare alcune propriet`a rappresentative della distribuzione probabilistica di una variabile aleatoria, nella Statistica descrittiva si definiscono i seguenti parametri di posizione per le distribuzioni di frequenze. • La media pesata x=

m 1X ni xi n i=1

(6.1)

dove xi `e il valore centrale delle classi. Se la serie di dati non `e raggruppata in classi, in modo che m ≡ n e ni = 1 per ogni i, allora x `e la media aritmetica, che in generale non `e uguale alla media pesata. • La media spuntata xt (trimmed mean), che `e la media dei dati calcolata considerando solo il 90% (o qualche altra percentuale) dei dati centrali. Essa si determina ordinando anzitutto la serie dei dati secondo la sequenza crescente: x1 ≤ x2 ≤ x3 ≤ . . . ≤ xn

(6.2)

6.3 – Indici di tendenza centrale e di dispersione

151

Si eliminano il primo 5% e l’ultimo 5% dei dati della serie cos´ı ordinata, e si effettua la media (6.1) dei rimanenti. • La moda (Mo), che `e il valore centrale della classe con la frequenza pi` u elevata. Se esiste pi` u di una classe con un valore massimo delle frequenze, la distribuzione `e detta multimodale e questo parametro perde il suo significato di indice di posizione centrale. • La mediana x ˜, che si pu`o definire come il valore di x che divide in parti uguali la superficie coperta dall’istogramma delle frequenze relative. Se i dati xi sono n determinazioni del carattere X(ω), la mediana `e tale che IP(X ≤ x ˜) = IP(X > x ˜) = 1/2. Per calcolare la mediana bisogna fare riferimento alla serie di dati ordinata come nella (6.2), e si determina la classe ∆k = [ak , bk ) con indice k = 1, 2, . . . , m alla quale appartiene l’(n/2)-esimo dato nella serie cos´ı ordinata, se n `e pari, oppure l’(n + 1)/2-esimo dato della serie, se n `e dispari. Se nk , fk sono la frequenza assoluta e relativa di questa classe e Nk−1 , Fk−1 sono le frequenze cumulate della classe che la precede, allora per la definizione di mediana deve essere: Z x˜ Nk−1 nk Nk−1 nk 1 = + dx = + (˜ x − ak ) 2 n n n∆k ak n∆k per cui il valore delle mediana risulta: ∆k x ˜ = ak + nk

µ



n ∆k − Nk−1 = ak + 2 fk

µ



1 − Fk−1 . 2

(6.3)

Quando la serie di dati non `e raggruppata in classi, allora si procede some segue. − se n `e dispari, la mediana x ˜ coincide con il dato che occupa la (n + 1)/2-esima posizione nella serie ordinata; − se n `e pari, la mediana `e la media aritmetica tra i due dati della serie ordinata che occupano la (n/2)-esima posizione e quella successiva. Per distribuzioni unimodali (in cui l’istogramma delle frequenze ha un solo massimo) e simmetriche, i quattro parametri di posizione ora definiti coincidono, ma in generale ci`o non avviene. • Quantile. In modo analogo alla mediana, si definiscono in Statistica altri indici di posizione chiamati quantili o frattili, i quali suddividono l’asse reale (sul quale si riportano le modalit`a del carattere) in due intervalli con probabilit`a

152

STATISTICA DESCRITTIVA

assegnata. Precisamente, dato il reale q ∈ [0, 1], si chiama quantile q-esimo del carattere X(ω) il valore xq ∈ IR tale che IP(X ≤ xq ) = FX (xq ) = q ovvero: `e il valore massimo delle modalit`a per cui la frequenza cumulata relativa non supera il valore q. Se la funzione di distribuzione cumulata FX (x) di X(ω) `e continua e invertibile, allora si deduce subito che xq = FX−1 (q). Se espressi in percentuale, i quantili vengono chiamati percentili, e inoltre in casi particolari assumono anche nomi affini. Ad esempio: il decimo quantile x0,1 `e chiamato primo decile; il quantile x0,25 `e il primo quartile; il quinto decile x0,5 non `e altro che la mediana x ˜, e cos´ı via. Quando i dati della serie ordinata sono raggruppati in classi, il suo quantile di ordine q si determina come per la mediana. Precisamente, indicata con ∆k la classe cui appartiene l’(n · q)-esimo dato, se n `e pari, oppure l’(n + 1) · q-esimo dato, se n `e dispari, allora ripetendo il calcolo gi`a fatto per la mediana risulta: xq = ak +

∆k ∆k (nq − Nk−1 ) = ak + (q − Fk−1 ) nk fk

(6.30 )

che si riduce alla (6.3) per q = 0.5. Quando invece i dati non sono raggruppati in classi, il suo quantile di ordine q si definisce come quel dato che `e preceduto da (n · q) dati della serie ordinata. Quindi si trova nella (n + 1) · q-esima posizione della sequenza x1 < x2 < . . . < xk < . . . xn , e si calcola come segue. - se (n + 1)q `e un numero intero, allora xq coincide con l’(n + 1)q-esimo dato xk con k = (n + 1)q; - se (n + 1)q non `e intero ed `e compreso tra gli interi k e k + 1, si assume come quantile xq la media aritmetica tra i dati xk e xk+1 della serie ordinata. • Media mobile. Si usa di frequente per analizzare le serie temporali che si ottengono nel rilevamento di dati su fenomeni caratterizzati da una qualche periodicit`a (settimanale, mensile o stagionale, come ad esempio il traffico urbano o aeroportuale, la vendita di quotidiani,...) per evitare che le fluttuazioni periodiche dei dati raccolti impediscano di mettere in evidenza le tendenze a medio e lungo termine che interessa rilevare. Data la serie temporale {x1 , x2 , . . . , xn }, la sua media mobile x ¯t+h su ogni sequenza di k dati consecutivi `e definita da x ¯M (t + h) =

k X j=1

pj xt+j ,

con t = 0, 1, 2, . . . , n − k ;

X j

pj = 1

6.3”

6.3 – Indici di tendenza centrale e di dispersione

153

serie temporale 15 media mobile

10

5

1

7

28

21

14

Figura 6.0

dove: k indica la periodicit`a delle rilevazioni; h (compreso tra 1 e k) `e un indice che determina la collocazione delle medie mobili all’interno dell’intervallo di k dati della serie (di solito: h = 1; h = (k + 1)/2 se k `e dispari; oppure h = k); e infine pj sono pesi che di solito si scelgono costanti (pj = 1/k, ∀j) ma che possono anche essere scelti arbitrariamente per rappresentare nel modo pi` u adeguato il particolare fenomeno rilevato con la serie statistica. Ad esempio, si abbia la serie temporale raccolta in quattro settimane di osservazioni giornaliere xi che `e riportata nella seconda colonna della Tabella che segue. i

xi

1 2 3 4 5 6 7 8 9 10 11 12 13 14

4 5 3 6 8 12 10 5 7 6 9 12 13 11

t

0 1 2 3 4 5 6 7 8 9 10

media mobile

6,43 7,00 7,28 7,71 8,14 8,71 8,86 9,00 9,43 9,14 8,57

i

xi

t

media mobile

15 16 17 18 19 20 21 22 23 24 25 26 27 28

8 5 2 7 8 11 14 8 5 9 12 16 14 13

11 12 13 14 15 16 17 18 19 20 21

8,28 7,71 7,43 7,86 7,51 7,86 8,86 9,57 10,71 11,14 11,00

La media mobile settimanale (k = 7) dei dati, calcolata in modo che ogni valore sia collocato al centro dell’intervallo di dati di riferimento (h = (k + 1)/2 = 4), e assumendo pesi costanti pj = 1/7, ha il valore indicato nella quarta colonna e il suo grafico `e mostrato in Figura 6.0.

154

6.3.2

STATISTICA DESCRITTIVA

Indici di dispersione

Quando i dati sono raggruppati in classi, l’indice di dispersione centrale della distribuzione di frequenze `e la varianza: σ2 =

m 1X ni (xi − x)2 n i=1

(6.4)

ovvero la somma dei quadrati degli scarti xi − x tra ogni valore centrale e la media pesata della distribuzione. La sua radice quadrata positiva σ `e lo scarto quadratico medio o deviazione standard della distribuzione. Si chiama inoltre coefficiente di variazione il numero puro Cv = σ/x, rapporto tra la deviazione standard e la media dei dati. Se gli n dati xi non sono raggruppati in classi, la loro varianza `e diversa dalla (6.4), e vale: n 1X σ2 = (xi − x)2 . (6.40 ) n i=1 Una interessante propriet`a di quest’ultima varianza (6.4’) `e la seguente. Supponiamo che i dati osservati si riferiscano a un miscuglio di m gruppi Ai , i = 1, . . . , m (come caso molto speciale, questo miscuglio pu`o anche identificarsi con l’insieme delle classi ∆i prima definite). Se ogni gruppo contiene ni dati xri con ri = 1, . . . , ni , la media aritmetica e la varianza dei dati appartenenti a ciascun gruppo sono rispettivamente: xAi

ni 1 X = xr , ni r =1 i

σi2

fi 1 X = (xr − xAi )2 . fi r =1 i

(6.4”)

i

i

Il parametro: 2 σW =

m 1X ni σi2 n i=1

`e la media pesata delle varianze calcolate all’interno (“within”) dei singoli gruppi, e si avvicina alla varianza (6.4’) se tutti i gruppi riproducono in modo omogeneo la dispersione che caratterizza gli n dati osservati. Il parametro: 2 σB =

m 1X ni (xAi − x)2 n i=1

`e la varianza delle singole medie rispetto alla media aritmetica, ed `e un indice della eterogeneit`a tra (“between”) i vari gruppi. Con alcuni calcoli si pu`o dimostrare che la varianza (6.4’) si pu`o scomporre nella somma delle due precedenti: 2 2 σ 2 = σW + σB ,

6.3 – Indici di tendenza centrale e di dispersione

155

per cui si pu`o sinteticamente esprimere come la somma tra la media delle varianze 2 e σ 2 pu` e la varianza delle medie. Il confronto tra i valori di σW o essere utile per B effettuare una scelta corretta di un campione della popolazione, secondo le procedure che verranno illustrate nel prossimo Capitolo. Il momento centrale di ordine 3 di una distribuzione `e, per definizione:

m3 =

m 1X ni (xi − x)3 . n i=1

(6.5)

Quest’ultimo `e utile per calcolare il coefficiente di asimmetria della distribuzione di frequenze, il quale `e il numero puro:

α3 =

m3 σ3

(6.6)

dove σ `e lo scarto quadratico medio della distribuzione. Questo coefficiente `e nullo se la distribuzione `e simmetrica; `e negativo se `e asimmetrica “a sinistra” (ci`o si verifica quando la moda `e minore della mediana e della media); ed `e positivo se la distribuzione di frequenze `e asimmetrica “a destra”. Esempio 6.1

Si misura il peso X, espresso in Kg, di un campione di 100 individui estratti a caso da una popolazione. La sequenza degli n = 100 valori osservati xi , ordinata come nella (6.2), `e la seguente: 59.6, 59.8, 60.2, 60.3, 61.8, 62.5, 62.7, 62.95, 63.3, 64.1, 64.15, 64.3, 64.4, 64.9, 65.02, 65.1, 65.15, 65.25, 65.28, 65.3, 65.35, 65.4, 65.45, 65.55, 65.6, 65.6, 65.66, 65.75, 65.9, 66, 66.1, 66.24, 66.35, 66.55, 66.6, 66.65, 66.76, 66.78, 66.9, 67, 67.1, 67.24, 67.35, 67.55, 67.6, 67.6, 67.66, 67.75, 67.79, 67.8, 67.81, 67.82, 67.85, 67.95, 68, 68.1, 68.17, 68.2, 68.29, 68.3, 68.31, 68.34, 68.35, 68.4, 68.48, 68.55, 68.6, 68.65, 68.76, 68.78, 68.9, 69, 69.1, 69.2, 69.3, 69.55, 69.6, 69.6, 69.66, 69.75, 69.79, 69.8, 69.8, 69.8, 70.8, 70.9, 71, 71.1, 71.17, 71.2, 71.29, 71.3, 71.5, 71.8, 72, 72.2, 73, 73.2, 73.8, 74.2. Poich`e il minimo vale 59.6 Kg e il massimo `e 74.2 Kg, scegliamo un intervallo ∆ = [59.5, 74.5) che contenga tutti i valori registrati, e suddividiamolo in 5 classi di eguale ampiezza ∆i = 3 (sebbene per la regola citata in precedenza il numero di classi pi` u 0 adeguato sarebbe 8 perch`e m = 1 + (10/3) · 2 = 7.6). Utilizzando le osservazioni fatte si pu`o costruire la seguente tabella di contingenza:

156

STATISTICA DESCRITTIVA

i

classe D i

xi

ni

fi

Ni

Fi

fi Di

1

[59.5 , 62.5)

61

5

0,05

5

0,05

0,0166

2

[62.5 , 65.5)

64

18

0,18

23

0,23

0,06

3

[65.5 , 68.5)

67

42

0,42

65

0,65

0,14

4

[68.5 , 71.5)

70

27

0,27

92

0,92

0,09

5

[71.5 , 74.5)

73

8

0,08

100

1,00

0,0266

la quale riporta: i valori centrali, le frequenze assolute e relative e quelle cumulate, P per ognuna delle classi scelte. Dalla tabella si pu`o notare subito che i ni = 100 = n P e i fi = 1. L’ultima colonna serve per costruire l’istogramma delle frequenze relative che `e mostrato in Fig. 6.1. L’ogiva percentuale `e invece mostrata in Fig. 6.2. Valutando la sua ordinata per x = 70, si ricava che almeno l’80% degli individui del campione ha un peso non superiore a 70 Kg (il dato esatto, rilevato dalla serie ordinata, `e 84%). La moda della distribuzione di frequenze `e x ˜ = 67 (il valore centrale della classe in cui ni `e massima). La media pesata vale: x=

1 (61 · 5 + 64 · 18 + 67 · 42 + 70 · 27 + 73 · 8) = 67.45, 100

mentre la media aritmetica dei dati `e 67.5275. La media spuntata `e pi` u vicina alla media aritmetica: si calcola su 90 dati raggruppati nelle quattro classi superiori, perch´e si ottiene “tagliando le code” della serie, ossia sopprimendo i primi 5 dati e gli ultimi 5 dati della serie ordinata secondo valori crescenti. Essa vale: xt =

1 [64 · 18 + 67 · 42 + 70 · 27 + 73 · (8 − 5)] = 67.50. 90

La mediana cade nella terza classe, e applicando la (6.3) con k = 3 si ricava: x ˆ = 65.5 +

3 (50 − 23) = 67.42. 42

La varianza definita dalla (6.4) vale: σ2 =

5 1 X ni (xi − 67.45)2 = 8.5275, 100 i=1

6.3 – Indici di tendenza centrale e di dispersione

157

0.15

fi Di 0.10

Di 0.05

xx 0

61

64

67

70

73

Kg

Figura 6.1

1

Fi 0.75 ogiva percentuale 0.50 0.25

0

61

64

67

70

73

Kg

Figura 6.2

mentre quella relativa ai 100 dati non raggruppati, definita dalla (6.4’), vale 8.7092. Se ora consideriamo separatamente i gruppi di dati appartenenti a ciascuna classe ∆i , le loro medie aritmetiche e varianze, fornite dalla (6.4”), valgono: x∆1 = 60.34 σ12 = 0.5984

x∆2 = 64.477 σ22 = 0.9364

x∆3 = 67.233 σ32 = 0.85716

x∆4 = 69.831 σ42 = 0.8446

x∆5 = 72.71 σ52 = 0.8486.

Si noti, in particolare, che le medie x∆i non sono i valori centrali xi delle classi. Si ricavano le seguenti varianze “parziali” del miscuglio: 2 σW = 0.8547,

2 σB = 7.8545

la cui somma: 0.8547 + 7.8545 = 8.7092 `e appunto uguale alla varianza dei dati 2 >> σ 2 si deduce, come d’altra parte ` e ovvio, che le non raggruppati. Poich´e σB W

158

STATISTICA DESCRITTIVA

cinque classi sono molto eterogenee, ossia che non `e possibile assumerne una sola per rappresentare adeguatamente la sequenza dei dati osservati. Il momento centrale di ordine 3 si calcola applicando la (6.5): m3 =

5 1 X ni (xi − 67.45)3 = −2.6932, 100 i=1

per cui il coefficiente di asimmetria (6.6) della distribuzione di frequenze vale: 2.6932 = −0.14. (8.5275)3

α3 = − p

Esso indica che la frequenza dei dati nelle classi inferiori alla terza (contenente la moda) `e minore della frequenza dei dati nelle classi superiori (la quarta e la quinta). /

6.3.3

Stem-and-leaf e box-plot

Ci sono altri modi per avere una rappresentazione sbrigativa, anche se grossolana, dei dati di una serie statistica. Uno di essi `e il diagramma stem-and-leaf (“a ramo e foglia”) il quale si basa, come per gli istogrammi, su una preventiva suddivisione in m classi di uguale ampiezza delle modalit`a di un carattere quantitativo. Si dispongono su una colonna (il “ramo”) le prime cifre significative (le centinaia, o le decine o le unit`a,...) dell’estremo inferiore di ogni classe, e alla destra di ogni numero incolonnato si riportano le “foglie”, ovvero la cifra successiva (le decine, o le unit`a, o i decimi,...) di ciascun dato xi che appartiene a quella classe. Ne risulta un diagramma di m righe si completa scrivendo in una prima colonna, posta a sinistra del “ramo”, le frequenze cumulate a partire dalle due classi estreme, in modo che risultino incolonnati i seguenti valori: N1 , N2 , . . . , 1 − Nm−2 , 1 − Nm−1 . Fa eccezione la riga della classe che contiene la mediana, nella quale si scrive (tra parentesi) la sua frequenza assoluta anzich`e quella cumulata. Ad esempio, data la serie statistica degli n = 11 dati seguenti: 1.7 1.9 1.95

2.11

2.2 2.25

2.4 2.52 2.85 3.1 3.35

e suddiviso l’insieme dei dati in m = 3 classi di ampiezza unitaria, questo risulta rappresentato dal seguente diagramma stem-and-leaf: unit` a decimi

3

1

799

(6)

2

122458

2

3

13.

6.3 – Indici di tendenza centrale e di dispersione

159

Ovviamente si pu`o costruire pi` u di un diagramma per ciascuna serie di dati, e la scelta pi` u conveniente `e quella che meglio illustra la disposizione dei dati nella serie ordinata, in modo che il diagramma si presenti come una struttura a barre la cui lunghezza ricorda, almeno grossolanamente, l’istogramma delle frequenze che si ricava con le modalit`a precisate nel §6.2. Se, come ulteriore esempio, riconsideriamo le serie di 100 dati esaminata nell’Esempio 6.1, suddivisa in m = 8 classi di ampiezza 0.2, il suo diagramma stem-and-leaf che ha come ramo le decine `e il seguente: decine unit` a

2

5

99

5 9 29 (25) 46 16

6 6 6 6 6 7

001 2223 44444555555555555555 6666666666777777777777777 888888888888888889999999999999 0011111111

6

7

223334.

Se per`o costruiamo il diagramma a partire da un “ramo” che rappresenti le unit`a, allora si deve considerare un numero doppio di classi (m = 16) e si ottiene uno stem-and-leaf plot molto pi` u dettagliato, ma anche pi` u complicato da determinare: unit` a decimi

2

59

68

4 5 8 9 14 29 39 (15) 46 29 16 14 6 4

60 61 62 63 64 65 66 67 68 69 70 71 72 73

23 8 579 3 11349 011223344566679 0123566779 012356667788889 01122333344566779 0123566677888 89 01122358 02 028

1

74

2.

160

STATISTICA DESCRITTIVA

Entrambi i diagrammi rappresentano con efficacia l’addensarsi dei dati nell’intervallo (65, 70) Kg. e la loro scarsa dispersione rispetto al valore centrale. • Box-plot. Un altro grafico di semplice esecuzione che si traccia per avere una sommaria indicazione sulla distribuzione dei dati di una serie statistica `e il box-plot o diagramma a scatola. In una cornice, con base graduata sui valori del carattere rappresentato, si disegna una “scatola” rettangolare che si estende dal primo quartile x0.25 al terzo quartile x0.75 . La differenza x0.75 − x0.25 `e chiamata escursione interquartile. Si suddivide poi la scatola in due rettangoli riportando anche il valore della mediana x0.5 , e si tracciano due segmenti esterni che collegano le parti laterali della “scatola” ai valori estremi x1 ed xn della serie statistica ordinata (v. Fig. 6.3). Il grafico che ne risulta indica in modo efficace la dislocazione della met`a centrale dei dati della serie (cio´e di quel 50% dei dati che sono contenuti nella “scatola”) e la eventuale asimmetria della loro distribuzione, che si riconosce subito nel caso in cui la posizione della mediana suddivida la scatola in due parti fortemente disuguali. a

1.5

b

2.0

2.5

3.0

3.5

58 60 62 64 66 68 70 72 74 76

Figura 6.3 - Esempi di diagrammi a scatola

La Fig. 6.3a) mostra il box-plot che rappresenta gli 11 dati della serie statistica sopra introdotta. Poich´e (n + 1)/4 = 12/4 = 3 `e intero, il suo primo quartile `e il terzo dato della serie ordinata, e il terzo quartile `e il nono dato: x0.25 = 1.95 ;

x0.75 = 2.85.

Quindi la scatola ha una ampiezza uguale all’escursione interquartile 2.85−1.95 = 0.9 ed `e suddivisa in due parti disuguali dal valore della mediana x0.5 = 2.25, che `e il sesto dato della serie ordinata. La Fig. 6.3b) riporta invece il box-plot relativo alla serie di 100 dati dell’Esempio 6.1. Poich´e (n + 1)/2 non `e intero, il suo primo quartile `e la media aritmetica tra il 25-esimo e il 26-esimo dato della serie, ovvero x0.25 = 65.6 (questi due dati sono addirittura uguali); e il terzo quartile `e la media aritmetica tra il 75-esimo e il 76-esimo: 69.55 + 69.6 = 69.575. x0.75 = 2 La mediana della serie di dati non raggruppati, che `e diversa da quella prima calco-

6.4 – Distribuzioni congiunte di frequenze

161

lata applicando la (6.3), `e la media aritmetica tra il 50-esimo dato e il 51-esimo: 67.8 + 67.81 = 67.805. 2 Il diagramma a scatola che ne risulta rivela con buona evidenza una bassa escursione interquartile e una moderata asimmetria della distribuzione dei dati. x0.5 =

6.4

Distribuzioni congiunte di frequenze

I metodi di analisi dei dati raccolti che sono stati illustrati nei paragrafi precedenti si possono impiegare anche quando il campione `e la collezione di n dati riguardanti due caratteri differenti di una medesima popolazione, che indichiamo con X e Y . In tal caso il campione si presenta come un insieme di n coppie (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )

(6.7)

in cui i numeri reali xk e yk , k = 1, . . . , n, sono le determinazioni di X e di Y . Indicati con ∆x , ∆y ⊆ IR gli insiemi delle modalit`a dei due caratteri, suddividiamo ∆x in m intervalli, ∆y in ` intervalli, e definiamo una arbitraria partizione di ∆ = ∆x × ∆y ⊆ IR2 in m · ` classi disgiunte, costituite dai rettangoli ∆ij = [ai , bi ) × [cj , dj ),

i = 1, 2, . . . , m;

j = 1, 2, . . . , `

aventi come valore centrale il punto (xi , y j ) = ((ai + bi )/2, (cj + dj )/2). L‘analisi delle coppie di dati (6.7) porta allora alla valutazione empirica approssimata delle quantit`a gi`a definite nel Capitolo 3. Precisamente, si pu`o determinare: • il numero nij di coppie in cui la modalit`a di X appartiene all’intervallo [ai , bi ) e quella di Y appartiene all’intervallo [cj , dj ). Questo numero nij `e la frequenza assoluta congiunta della classe ∆ij ; • la frequenza relativa congiunta fij = nij /n che, se divisa per l’area della classe ∆ij , porta alla costruzione di un istogramma tridimensionale rappresentante la distribuzione delle probabilit`a empiriche congiunte; • la frequenza cumulata congiunta Nij , che `e la somma delle frequenze assolute congiunte delle classi ∆rs con r ≤ i ed s ≤ j ; • la frequenza cumulata relativa congiunta Fij = Nij /n, che `e la somma delle probabilit`a empiriche congiunte frs con r ≤ i, s ≤ j ; • le probabilit`a empiriche marginali dei caratteri X e Y , che sono rispettivamente: i = 1, . . . , m :

` 1X fi = nij ; n j=1

j = 1, . . . , ` :

m 1X fj = nij . n i=1

162

STATISTICA DESCRITTIVA

L’organizzazione dei dati raccolti nel campione (6.7) si pu`o effettuare costruendo tabelle a doppia entrata analoghe a quella di Fig. 3.5. che riportano per ogni classe ∆ij i valori di una delle grandezze sopra elencate. Covarianza Il pi` u importante momento centrale di una distribuzione empirica congiunta `e la covarianza dei dati su X e Y rilevati nel campione. In Statistica si usa indicarla con sxy e, in analogia con le (3.19), (3.7) vale: sxy

m X ` m X ` 1X 1X = nij (xi − x)(y j − y) ≡ nij xi y j − x · y n i=1 j=1 n i=1 j=1

(6.8)

dove xi , y j sono i valori centrali di X e Y nella classe ∆ij , e x, y sono le medie delle distribuzioni empiriche marginali di X e Y , definite come nella (6.1). Se le modalit`a delle n coppie di dati (xk , yk ) non sono state raggruppate in classi, allora la covarianza dei dati si pu`o calcolare con la somma: sxy =

n n 1X 1X (xk − x)(yk − y) = xk yk − x · y, n k=1 n k=1

(6.80 )

dove x, y sono le medie aritmetiche dei dati xk e yk . Nel paragrafo che segue vedremo come, insieme con le varianze marginali di X e Y , la covarianza (6.8) sia di fondamentale importanza per definire, attraverso l’analisi del campione (6.7), il grado di correlazione lineare esistente tra le modalit`a dei due caratteri della popolazione che sono stati esaminati. Contingenza e indice di connessione Supponiamo ora che i due caratteri X, Y siano statisticamente indipendenti. In tale ipotesi, ogni realizzazione di X non `e condizionata dalle realizzazioni di Y o viceversa, e ricordando la propriet`a (3.12) del Capitolo 3 le frequenze relative congiunte fij = nij /n rilevate dal campione dovrebbero teoricamente essere uguali al prodotto: fi fj = (ni /n)(nj /n) delle probabilit`a empiriche marginali, per ogni i = 1, . . . , m e j = 1, . . . , `. E’ assai raro che ci`o si verifichi in una generica coppia del campione esaminato, e per valutare in che misura sia rispettata nel campione questa legge di indipendenza si pu`o determinare la differenza tra queste due quantit` a, moltiplicate per n. Il parametro statistico che ne risulta `e cij = nij −

ni nj n

e si chiama contingenza della coppia (i, j). Poich`e coinvolge unicamente le frequenze assolute (miste e marginali) delle varie classi, essa si pu`o impiegare anche quando si `e in presenza di caratteri qualitativi di una popolazione (mentre invece la covarianza si riferisce esclusivamente a caratteri quantitativi). Pi` u utile ai fini pratici `e un indice che si basa sulla media quadratica delle contingenze rilevate per ogni coppia del campione, che prende il nome di indice di connessione

6.5 – Regressione lineare

163

χ2 di Pearson ed `e cos´ı definito: χ2 = n

m X ` X (nij − ni nj /n)2

ni nj

i=1 j=1

  m X ` X n2ij = n − 1 . i=1 j=1

ni nj

Questo indice, che `e nullo solo quando tutti i dati del campione soddisfano rigorosamente la gi`a citata legge di indipendenza (3.12), `e usato nei tests che saranno trattati nel §10.3 del Capitolo 10, atti a verificare ipotesi di indipendenza statistica tra due caratteri qualsiasi di una popolazione.

6.5

Regressione lineare

Supponiamo di essere interessati a scoprire se e come il carattere Y della popolazione `e in qualche modo legato al carattere X. Se riportiamo sul piano (x, y) i punti con coordinate (xk , yk ) forniti dal campione (6.7), si ottiene un cosiddetto diagramma di dispersione (del tipo che verr` a mostrato in Fig. 6.4), dal quale si pu`o in certi casi intuire che il carattere X influenza il carattere Y . Una valutazione statistica quantitativa di come ci`o avviene si ha solo se si ipotizza una relazione analitica y = f (x) in cui le modalit`a di Y sono espresse in funzione di quelle del carattere X, pensato come una variabile indipendente. La stima di questa funzione `e chiamata regressione di Y su X. La scelta della legge f dipende ovviamente da caso a caso, ma quella che si usa di solito `e anche la pi` u semplice: la funzione lineare. In altre parole, si effettua una regressione lineare quando si ipotizza che i dati yk forniti dal campione (6.1) siano deducibili dai dati xk secondo la legge: y = f (x) = a + bx

(6.9)

e si determinano i coefficienti a, b in modo che la stessa descriva “nel miglior modo possibile” il legame tra i dati osservati nel campione. La determinazione di a, b viene fatta minimizzando lo scarto quadratico medio tra tutti i valori yk osservati e quelli che si ottengono in funzione di xk dalla relazione lineare (6.9). Questo scarto quadratico medio vale: S(a, b) =

n n 1X 1X [yk − f (xk )]2 = (yk − a − bxk )2 n k=1 n k=1

(6.10)

e, interpretato come funzione dei coefficienti incogniti a, b, ha derivate parziali ∂S ∂a

=

∂S ∂b

=

n 2X (a − yk + bxk ) n k=1

n 2X (bx2 − xk yk + axk ) n k=1 k

164

STATISTICA DESCRITTIVA

le quali si annullano per bX 1X yk + xk = 0 n k n k bX 2 1X aX xk − xk yk + xk = 0. n k n k n k

a−

(6.11)

Ricerchiamo i punti di stazionariet`a di S(a, b). Dal sistema (6.11) si ricava: bX 1X yk − xk = y − bx n k n k bX 2 1X x − xk yk + x(y − bx) = 0 n k k n k

a=

dove x, y sono i valori medi di X, Y . Usando ora l’espressione (6.8’) della covarianza dei dati, si ottiene: sxy sxy a = y − 2 x, b= 2 (6.12) σx σx dove σx2 `e la varianza della distribuzione marginale di X. Il punto di stazionariet`a (6.12) `e un minimo per S(a, b). Infatti, sia le derivate seconde di S(a, b) che il determinante della matrice Hessiana sono positivi: ∂2S ∂a2

= 2;

det(H) =

∂2S 2X 2 x > 0; = 2 ∂b n k k

∂2S ∂2S − ∂a2 ∂b2

Ã

∂2S ∂a∂b

!2

Ã

∂2S = 2x ∂a∂b

1X 2 =4 x − x2 n k k

!

= 4σx2 > 0.

Se ne conclude che la stima migliore dei valori del carattere Y , fatta sulla base delle osservazioni del carattere X secondo la legge lineare (6.9), `e fornita dalla retta di regressione: sxy y = y + 2 (x − x) (6.13) σx il cui coefficiente angolare `e direttamente proporzionale alla covarianza dei dati (xk , yk ). Se indichiamo con ξ = x − x,

η =y−y

(6.14)

gli scarti delle due modalit`a rispetto alle loro medie aritmetiche, la (6.13) si scrive pi` u semplicemente: η = bξ (6.130 ) che nel piano traslato (ξ, η) con origine in (x, y) `e l’equazione della retta di regressione per gli scarti (di Y su X) rispetto alle loro medie. Il coefficiente b, definito nella (6.12), si chiama coefficiente di regressione lineare di Y su X, ed `e il parametro pi` u

6.5 – Regressione lineare

165

importante nella stima della regressione che abbiamo effettuato: esso `e una misura della variazione del carattere Y per una assegnata variazione del carattere X. La legge lineare (6.13) non `e esatta: esiste una differenza tra f (xk ) = a + bxk e i dati yk effettivamente osservati. Questa differenza si chiama residuo: rk = yk − f (xk ) = yk − a − bxk ed in generale `e diversa da zero per ogni k. Tuttavia, la somma dei residui `e nulla: infatti ricordando il risultato (6.12) si ha sempre: X

rk =

X

k

(yk − a − bxk ) = n(y − a − bx) = 0.

k

Se valutiamo l’errore commesso, calcolando il minimo dello scarto quadratico medio S(a, b), che si ha per a, b definiti dalla (6.12), questo errore minimo fornisce una indicazione quantitativa sulla validit` a della ipotesi fatta sulla dipendenza lineare di Y da X. Sostituiamo nella (6.10) le espressioni (6.12) di a, b, usando le definizioni (??) degli scarti ξ, η. Si trova che l’errore quadratico medio di cui sono affette le (6.13), (6.13’) vale: µ

²=

1X sxy ηk − 2 ξk n k σx

¶2

=

s2xy X 2 2sxy X 1X 2 ηk + ξ − ξ k ηk = n k nσx4 k k nσx2 k

σy2

s2xy s2xy s2xy + 2 − 2 2 = σy2 1 − 2 2 σx σx σx σy

Ã

= dove:

ρ(X, Y ) =

!

= σy2 [1 − ρ2 (X, Y )]

sxy ∈ [−1, 1] σx σy

`e il coefficiente di correlazione tra i dati delle coppie (cfr. la 3.9), detto anche ”coefficiente di determinazione lineare”. Dunque, la stima effettuata mediante la relazione lineare (6.13) `e esatta se |ρ| = 1 e in tal caso si dice che esiste una perfetta correlazione tra X ed Y . La stima `e valida se |ρ| `e molto prossimo a 1, e non `e efficace per piccoli valori di |ρ|, perch´e allora i caratteri X e Y sono scarsamente correlati e l’errore quadratico medio ² cresce, avvicinandosi al valore σy2 della varianza dei dati yk , che pu`o anche essere elevata. Al limite per ρ → 0, la covarianza sxy e il coefficiente di regressione b tendono a zero, con la conseguenza che i valori stimati di yk tendono alla loro media aritmetica y. In questo caso limite i caratteri X e Y sono non correlati, nel senso che non si pu`o dire che esista una relazione lineare che lega le loro realizzazioni. Dobbiamo per`o anche osservare che la non correlazione non esclude la possibilit`a di una loro dipendenza con legge diversa da quella lineare (per esempio: quadratica, come descritto nel §6.7 che segue). A conferma di questa affermazione basta ricordare che la non correlazione `e una propriet`a pi` u debole della indipendenza statistica (§3.1.1, 3.1.2).

166

STATISTICA DESCRITTIVA

La radice quadrata positiva dell’errore ² sopra calcolato si chiama errore standard σxy della regressione lineare, e vale: q

σxy = σy 1 − ρ2 (X, Y ).

(6.14)

Esempio 6.2

Da n = 12 osservazioni dei caratteri X e Y di una popolazione si ricavano le seguente coppie di dati (xk , yk ): (65, 68) (68, 69) (68, 71)

(63, 66) (62, 66) (67, 67)

(67, 68) (70, 68) (69, 68)

(64, 65) (66, 65) (71, 70)

che in Fig. 6.4 sono rappresentate da 12 punti del piano (x, y). Si vuole verificare se, e con quale errore standard, si pu`o affermare che le modalit`a di Y dipendono da quelle di X con una legge di regressione lineare del tipo (6.13). y

h

sxy

72

.

70 68

.

y

.

. .

. .

x

. .

66

.

.

64 62

y = a + bx

.

x 60

62

64

66

68

70

72

74

x

Figura 6.4 - Regressione lineare

Le medie aritmetiche e le varianze marginali valgono: x = y = σx2 = σy2 =

1 X 800 xk = = 66.6 12 k 12 1 X 811 yk = = 67.583 12 k 12 1 X 2 53418 − 4444.44 = 7.056 x − x2 = 12 k k 12 54849 1 X 2 − 4567.5 = 3.243. y − y2 = 12 k k 12

La covarianza della coppie di dati, da calcolare applicando la (6.8’), vale: sxy =

1 X 54107 − 4505.55 = 4508.916 − 4505.55 = 3.36117. xk yk − 66.6 · 67.583 = 12 k 12

6.6 – Regressione multipla

167

Ne segue, applicando la (6.12), che i coefficienti a, b della retta di regressione di Y su X valgono: 3.36117 = 0.4763 7.056 a = 67.583 − 0.4763 · 66.6 = 35.826. b =

Sulla base dei valori osservati, la migliore stima dei valori di Y `e dunque fornita dalla retta di regressione: y = 35.826 + 0.4763 · x che `e indicata in Fig. 6.4, e nel piano traslato degli scarti (ξ, η) con origine nel punto (x = 66.6, y = 67.583) ha equazione η = 0.4763 · ξ. Per valutare l’errore quadratico medio ² della regressione effettuata, `e sufficiente calcolare ancora il coefficiente di correlazione delle coppie di dati, che vale: ρ(X, Y ) =

3.36117 sxy = = 0.7027. σx σy 2.656 · 1.8

Il suo valore “ragionevolmente” vicino all’unit`a indica che la legge di dipendenza lineare di Y da X pu`o essere sostenuta, almeno in un modello di previsione statistica di prima approssimazione. Da questo calcolo si ricava: ² = σy2 [1 − ρ2 (X, Y )] = 3.243(1 − 0.49378) = 1.6416 la cui radice quadrata `e l’errore standard della regressione lineare: √ σxy = ² = 1.28125. Se si riportano in Fig. 6.4 le rette di equazione y = a + bx ± σxy , si pu`o osservare che nella regione compresa tra queste due rette cadono 8 dei 12 punti campionari: dunque internamente alle due rette si trova il 66.6% delle osservazioni registrate nel campione con numerosit`a n = 12. Questo risultato percentuale d`a una indicazione approssimata sulla significativit`a della regressione effettuata. Nell’ambito della teoria dei campioni, che sar`a sviluppata nei prossimi Capitoli, si vedr` a che al crescere di n le distribuzioni dei dati xk e yk tendono teoricamente a leggi normali con medie rispettivamente uguali a x e y. Ci`o significa che al crescere di n anche la distribuzione dei punti del piano (x, y) attorno alla retta di regressione tende alla legge normale, e in tale circostanza il calcolo delle probabilit`a per leggi normali (cfr. §2.3.2) prevede che il 68.27% (anzich`e il 66.6%) dei punti campionari siano interni alle rette y = a + bx ± σxy /.

6.6

Regressione multipla

Il metodo di regressione lineare visto nel precedente paragrafo si pu`o estendere allo studio della dipendenza di un carattere Y da pi` u caratteri X, Z, . . . della medesima

168

STATISTICA DESCRITTIVA

popolazione. Consideriamo in particolare il caso in cui, avendo a disposizione una serie di n terne (xk , yk , zk ) riguardanti tre caratteri X, Y, Z della popolazione, si voglia studiare la regressione lineare di Y sui due regressori X e Z, che si suppone non siano linearmente dipendenti l’uno dall’altro. Introdotti allora gli scarti dei dati rispetto alle loro medie aritmetiche: ξ = x − x,

η = y − y,

ζ = z − z,

si pone η = f (ξ, ζ) = b1 ξ + b2 ζ

(6.15)

che generalizza la (6.13’) e si determinano i coefficienti di regressione parziale b1 , b2 che rendono minima la media dei quadrati delle differenze tra ηk e f (ξk , ζk ): S(b1 , b2 ) =

1X (ηk − b1 ξk − b2 ηk )2 . n k

(6.16)

Annullando le derivate parziali di S(b1 , b2 ), che valgono: ∂S ∂b1

=

∂S ∂b2

=

n 2X (b1 ξk2 + b2 ξk ζk − ξk ηk ) n k=1

n 2X (b2 ζk2 + b1 ξk ζk − ηk ζk ), n k=1

si ottiene il sistema b1 n b2 n

X

b2 X 1X ξk ζk = ξk ηk n k n k k X b1 X 1X ζk2 + ξk ζk = ζk ηk . n n k k k ξk2 +

(6.17)

Se teniamo conto che per definizione le varianze marginali e le covarianze tra i dati delle coppie (xk , yk ), (xk , zk ), (yk , zk ) sono rispettivamente: σx2 = sxy =

1X 2 ξ , n k k 1X ξk ηk , n k

1X 2 1X 2 ηk , σz2 = ζ n k n k k 1X 1X sxz = ξk ζk , syz = ηk ζk , n k n k

σy2 =

si ottiene la seguente soluzione del sistema (6.17): b1 =

sxy σz2 − sxz syz σx2 σz2 − s2xz

b2 =

syz σx2 − sxz sxy . σx2 σz2 − s2xz

(6.18)

Questi sono i valori dei coefficienti parziali di regressione che, introdotti nella (6.15), determinano l’equazione del piano di regressione di Y sui due caratteri X e Z, stimata in modo da rendere minimo l’errore quadratico medio (6.16).

6.7 – Regressione non lineare

169

Questa regressione multipla perde significato se i caratteri X, Z sono legati da una relazione rigorosamente lineare, in modo che per ogni k risulti xk = c1 +c2 zk . Infatti, si noti che i denominatori comuni ai due coefficienti (6.18) si possono anche scrivere: σx2 σz2 − s2xz = σx2 σz2 [1 − ρ2 (X, Z)], e si annullano per |ρ(X, Z)| = 1, ossia quando X e Z sono legati da una relazione lineare. Al contrario, quando X e Z sono completamente scorrelati si ha ρ(X, Z) = 0, e in tal caso b1 e b2 si identificano con i coefficienti delle regressioni semplici di Y , effettuate separatamente su X e su Z. Ripristinando nella (6.15) le variabili originarie al posto degli scarti, si ricava subito che l’equazione di questa regressione multipla nel sistema di riferimento (x, y, z) `e y = f (x, z) = a + b1 x + b2 z

(6.160 )

con a = y − b1 x − b2 z , e b1 , b2 dati dalle (6.18).

6.7

Regressione non lineare

Se la regressione semplice lineare di Y su X, trattata nel §6.5, non ha un esito soddisfacente perch´e il suo errore standard (6.14) `e troppo elevato, si deve cercare una legge f (x), non pi` u lineare, che meglio approssimi la relazione esistente tra i dati del campione (semprech´e, naturalmente, questa relazione esista). Si pu`o per esempio effettuare una regressione quadratica: η = f (ξ) = b1 ξ + b2 ξ 2

(6.19)

per scarti tra i dati di Y su X, oppure scegliere altre leggi (esponenziale, logaritmica, iperbolica,..) che pensiamo siano pi` u adatte a rappresentare la relazione cercata. Nel caso della regressione (6.19), i coefficienti b1 , b2 si possono ancora calcolare minimizzando lo scarto quadratico medio tra ηk e f (ξk ), ma `e pi` u comodo determinarli utilizzando i risultati della regressione multipla appena effettuata nel paragrafo precedente. A tal fine, si introduce la definizione di un carattere fittizio Z = X 2 e si sostituisce il suo scarto ζ = z − z al posto di ξ 2 nella (6.19). Con tale posizione, la regressione quadratica (6.19) `e equivalente alla regressione lineare multipla (6.15), che `e certamente non singolare perch´e ζ, pur essendo una funzione di ξ, non dipende linearmente da quest’ultima. I coefficienti parziali di questa regressione multipla, gi`a determinati nella (6.18), sono anche quelli che rendono minimo l‘errore quadratico medio nella regressione (6.19). Pertanto, in termini delle variabili originarie x, y, la regressione quadratica di Y su X risulta definita da y = f (x) = a + b1 x + b2 x2

(6.200 )

con b1 , b2 dati ancora dalle (6.18), e inoltre a = y − b1 x − b2 z = y − b1 x −

b2 X 2 x . n k k

(6.20)

170

STATISTICA DESCRITTIVA

Il medesimo artificio, consistente nell’introdurre uno o pi` u caratteri fittizi, `e generalmente usato, in Statistica, per effettuare altre speciali regressioni non lineari che si possono rendere formalmente equivalenti a regressioni lineari multiple. Esempio 6.3

Si ha motivo di ritenere che le modalit`a del carattere Y di una popolazione abbiano un minimo per un certo valore (incognito) di un secondo carattere X della medesima popolazione. Si vuole ricercare questo minimo mediante l’analisi di 10 coppie di dati (xk , yk ), ricavate da osservazioni fatte ad intervalli costanti di X. Dalla serie di dati, che `e la seguente: (10, 37) (35, 44)

(15, 27) (40, 45)

(20, 31) (45, 51)

(25, 27) (50, 62)

(30, 36) (55, 66) ,

80 y

.

.

60

.

. . .

40

.

.

.

y = 39.209 - 0.9433 x + 0.0269 x 2

.

20 0

x

10 20 30 40 50 60 70 Figura 6.5 - Regressione quadratica

si ricava che x = 32.5, y = 42.6. Calcolati gli scarti di xk e yk rispetto a queste medie, effettuiamo la regressione quadratica (6.19) di Y su X, ricavando dapprima le modalit`a zk del carattere fittizio Z = X 2 . Esse sono: 100,

225,

400,

625,

900,

1225,

1600,

2025,

2500,

3025

ed hanno media aritmetica z = 1262.5. Calcolando quindi anche gli scarti ζk = zk − z, siamo in grado di effettuare la regressione lineare multipla (6.61) di Y sui due regressori X e Z = X 2 . Procedendo con i seguenti calcoli: σx2 = σz2 = sxz =

1 X 2 1 X 2 ξk = 206.25 σy2 = η = 169.84 10 k 10 k k 1 X 2 1 X ζk = 904406.30 sxy = ξk ηk = 167 10 k 10 k 1 X 1 X ξk ζk = 13406.25 syz = ηk ζk = 11745 10 k 10 k

si ricava dalle (6.18): b1 = −0.9433 ,

b2 = 0.0269

6.8 – Problemi risolti

171

e dalla (6.20): a = 39.209. La parabola che rende minimo l’errore quadratico medio della regressione (6.20’) `e pertanto: y = 39.209 − 0.9433x + 0.0269x2 e il suo grafico `e mostrato in Fig. 6.5. Il minimo della parabola di regressione si trova nel punto ! Ã b21 − 4ab2 b1 ,− = (17.4887, 30.96) − 2b2 4b2 del piano (x, y) e fornisce una risposta al nostro problema, che ovviamente non sarebbe stato possibile ottenere attraverso una regressione lineare. /

6.8

Problemi risolti

6.1. Da un campione con numerosit` a n = 16 si estrae la seguente serie statistica di dati (non raggruppati in classi): 10, 14, 8, 11, 11, 15, 12, 9, 12, 17, 10, 5, 6, 14, 12, 13. Calcolare: la media aritmetica, la media pesata, la media spuntata, la moda e la mediana della serie. Soluzione: La serie ordinata per valori crescenti `e 5, 6, 8, 9, 10, 10, 11, 11, 12, 12, 12, 13, 14, 14, 15, 17. La media aritmetica `e uguale alla media pesata e vale x=

179 1 [5 + 6 + 8 + 9 + 2 · 10 + 2 · 11 + 3 · 12 + 13 + 2 · 14 + 15 + 17] = = 11.1875 . 16 16

La media spuntata vale xt =

1 157 [6 + 8 + 9 + 2 · 10 + 2 · 11 + 3 · 12 + 13 + 2 · 14 + 15] = = 11.214286 . 14 14

La moda `e la determinazione che ha la maggiore frequenza, ossia 12 . La mediana `e la media aritmetica tra l’ottavo e il nono dato della serie ordinata: x ˜=

x8 + x9 11 + 12 = = 11.5 . 2 2

6.2. Da 10 osservazioni del carattere di una popolazione si ricavano questi valori:

172

STATISTICA DESCRITTIVA

5.8, 7, 4.7, 5, 5.2, 6.1, 6.5, 7.6, 4.1, 6.3. Rappruppati questi dati in 4 classi di ampiezza unitaria, calcolare: la media delle 2 , la varianza delle medie σ 2 e la varianza delle osservazioni effettuate. varianze σW B Soluzione: Dai dati della serie ordinata: 4.1, 4.7, 5, 5.2, 5.8, 6.1, 6.3, 6.5, 7, 7.6 si ricava questa tabella per le frequenze e le varianze dei dati in ciacuna classe: classe [4, 5) [5, 6) [6, 7) [7, 8)

xAi 4.4 5.3 6.3 7.3

ni 2 3 3 2

σi2 0.09 0.115 0.02666 0.09

La media aritmetica dei dati non raggruppati vale x=

1 [4.1 + 4.7 + 5 + 5.2 + 5.8 + 6.1 + 6.3 + 6.5 + 7 + 7.6] = 5.83. 10

La media delle varianze σi2 vale: 2 σW =

4 1 X ni σi2 = 0.0787 10 i=1

e la varianza delle medie `e 2 σB =

4 1 X ni (xAi − 5.83)2 = 0.9814 . 10 i=1

La loro somma `e uguale alla varianza dei dati non raggruppati: σ2 =

10 1 X 2 2 (xk − 5.83)2 = σW + σB = 0.0787 + 0.9814 = 1.0601 . 10 k=1

6.3. Dalle osservazioni effettuate su due caratteri X, Y di una popolazione si ricavano questi campioni: A : (5, 124) (9, 300) (4, 112) (7, 160)

B : (4, 112) (5, 124) (5, 120) (4, 124).

Quale dei due mostra un maggior grado di dipendenza statistica tra i caratteri osservati?

6.8 – Problemi risolti

173

Soluzione. Indichiamo con (xi , yj ), i, j = 1, . . . , 4 i dati delle quattro coppie campionarie. Nel campione A nessun dato si ripete, per cui la frequenza congiunta di ciascuna coppia e quelle marginali valgono: n11 = n22 = n33 = n44 = 1, ni = nj = 1.

nij = 0 per i 6= j

Con queste frequenze si calcola l’indice di connessione di Pearson per il campione A: 

χ2A = n 

 X

1 − 1 = 4(4 − 1) = 12.

i=j

Nel campione B i dati sono: x1 = 4, x2 = 5 y1 = 112, y2 = 120, y3 = 124 e le relative frequenze si possono disporre nella seguente tabella a doppia entrata: nij 4 5 ni

112 1 0 1

120 0 1 1

124 1 1 2

nj 2 2 4

Ne segue che l’indice di connessione per il campione B vale: µ

χ2B



1 1 1 1 =4 + + + − 1 = 2. 2·1 2·2 2·1 2·2

Quindi i due caratteri hanno il maggior grado di dipendenza statistica nel campione A , perch`e il suo indice χ2 `e maggiore di quello di B. 6.4. Determinare la mediana dei seguenti insiemi di dati campionari, non raggruppati in classi: A = {10 5

3

11

9}

B = {11 8

8

17

9 11

C = {12

11

10

4

12

7}

15

8}

174

STATISTICA DESCRITTIVA

Soluzione. Ordiniamo i dati dei campioni per valori crescenti: A = {3 5 9 10 11} (n = 5) B = {8 8 8 9 11 11 15 17} (n = 8) C = {4 7 10 11 12 12} (n = 6). Nel campione A (n dispari) la mediana `e il terzo dato: x ˜(A) = 9 . Nei campioni B e C (n pari) le mediane sono la media aritmetica dei due valori centrali: x ˜(B) = (9 + 11)/2 = 10 ;

x ˜(C) = (10 + 11)/2 = 10.5 .

6.5. Determinare la retta di regressione per i seguenti dati sperimentali (xk , yk ): (10, 121) (20, 98) (30, 75) (40, 59)

(50, 38)

ricavati in 5 prove sui caratteri X e Y di una popolazione, e calcolare l’errore standard della regressione effettuata. Soluzione. x = y = σx2 = σy2 = sxy = a =

1 (10 + 20 + . . . + 50) = 30 5 1 (121 + 98 + . . . + 38) = 78.2 5 1 [(10 − 30)2 + . . . + (50 − 30)2 ] = 200 5 1 [(121 − 78.2)2 + . . . + (38 − 78.2)2 ] = 843.76 5 1 [(10 − 30)(121 − 78.2) + . . . + (50 − 30)(38 − 78.2)] = −410 5 410 410 78.2 + · 30 = 139.7 ; b=− = −2.05. 200 200

La retta di regressione `e quindi: y = 139.7 − 2.05x . Il coefficiente di correlazione tra i dati delle coppie vale: −410 ρ(X, Y ) = √ = −0.99807, 200 · 843.76 per cui l’errore standard della regressione risulta: q

σxy =

843.76[1 − (0.99807)2 ] ' 1.80 .

6.6. Calcolare la mediana, il secondo decile e il terzo quartile di questi due insiemi di dati campionari non raggruppati: A = {8 22 23 12 29 15 11 7 31 8};

B = {18 15 6 21 19.}

6.8 – Problemi risolti

175

Soluzione. Nel campione A in cui n = 10, ordinato per valori crescenti {xk } con k = 1, . . . , 10: 7 8 8 11 12 15 22 23 29 31, la mediana x ˜, il secondo decile x0.2 e il terzo quartile x0.75 valgono: x ˜ = (x5 + x6 )/2 = (12 + 15)/2 = 13.5 (n + 1) · 0.2 = 2.2 (n + 1) · 0.75 = 8.25



x0.2 = (x2 + x3 )/2 = (8 + 8)/2 = 8



x0.75 = (x8 + x9 )/2 = (23 + 29)/2 = 26 .

Nel campione B in cui n = 5, ordinato per valori crescenti {xk } con k = 1, . . . , 5: 6

15

18

19 21,

la mediana x ˜ e i quantili x0.2 , x0.75 valgono: x ˜ ≡ x3 = 18 (n + 1) · 0.2 = 1.2 (n + 1) · 0.75 = 4.5

⇒ ⇒

x0.2 = (x1 + x2 )/2 = (6 + 15)/2 = 10.5 x0.75 = (x4 + x5 )/2 = (19 + 21)/2 = 20 .

6.7. E’ dato il campione (−2, 5) (5, 31)

(2, 22) (−1, 12) (6, 45)

ricavato da 5 osservazioni (xk , yk ) dei caratteri (X, Y ). Dopo aver operato la regressione lineare di Y su X determinando la stima yˆ, calcolare i residui rk = yk − yˆk . Soluzione. Con lo stesso procedimento seguito nel Problema 6.5 si calcola anzitutto: x = 2;

y = 23;

σx2 = 10;

sxy = 43.4

da cui si ottiene: a = 23 −

43.4 · 2 = 14, 32; 10

b=

43.4 = 4.34. 10

Dunque la regressione lineare di Y su X consiste nella stima: yˆ = 14.32 + 4.34x . I residui valgono: r1 = 5 − (14.32 − 4.34 · 2) = -0.64 r2 = 31 − (14.32 + 4.34 · 5) = -5.02 r3 = 22 − (14.32 + 4.34 · 2) = -1 r4 = 12 − (14.32 − 4.34) = 2.02 r5 = 45 − (14.32 + 4.34 · 6) = 4.64 . Verifica: la somma dei residui `e zero.

176

STATISTICA DESCRITTIVA

6.8. Le frequenze assolute n(i) dei voti riportati da 50 studenti in una prova scritta d’esame sono le seguenti: n(< 18) = 15, n(18) = 4, n(19) = 1, n(20) = 4, n(21) = 2, n(23) = 3, n(24) = 4, n(25) = 5, n(26) = 1, n(27) = 5, n(28) = 2, n(29) = 1, n(30) = 3 e la media aritmetica dei voti `e 20.98. Si vuole costruire un istogramma delle frequenze dei voti, composto da 7 classi (aperte a destra): la prima comprendente le insufficienze, e le altre sei di ampiezza ∆x = 2, centrate sui voti 19, 21, . . . , 29. Quale deve essere l’ampiezza della prima classe (insufficienze) perch´e la media pesata che ne risulta sia uguale a quella aritmetica? Soluzione. Con i dati del problema si costruisce la seguente tabella di contingenza: i 1 2 3 4 5 6 7

classe ∆i ? [18,20) [20,22) [22,24) [24,26) [26,28) [28,30]

xi ? 19 21 23 25 27 29

ni 15 5 6 3 9 6 6

Se la media ponderata `e uguale a quella aritmetica nota, deve essere 20.98 =

1 (15x1 + 5 · 19 + 6 · 21 + 3 · 23 + 9 · 25 + 6 · 27 + 6 · 29) 50

da cui si ricava:

198 = 13.2. 15 Poich´e x1 `e il valore centrale della classe ∆1 , questa deve avere ampiezza uguale a x1 =

2(18 − 13.2) = 9.6



∆1 = [8.4, 18).

6.9. Calcolare l’altezza di ciascuna barra dell’istogramma delle frequenze relative f (i) dei voti nel Problema 6.8, in modo che la sua area complessiva sia uguale ad 1. Soluzione. Se indichiamo con ∆i l’ampiezza delle 7 classi del Problema 6.8 e con hi le altezze delle barre dell’istogramma, deve essere h1 =

n1 ; 50∆1

i = 2, . . . , 7 :

hi =

ni ni = = 0.01 · ni 50∆i 50 · 2

per cui si ricava h1 = h2 =

15 = 0.03125 50 · 9.6 0.05 h3 = 0.06 h4 = 0.03

h5 = 0.09

h6 = 0.06

h7 = 0.06 .

6.8 – Problemi risolti

177

Verifica: 7 X

∆i hi = 9.6 · 0.03125 + 2(0.05 + 3 · 0.06 + 0.03 + 0.09) = 0.3 + 0.7 = 1.

i=1

6.10. (a) Determinare la retta di regressione di Y su X per la seguente serie statistica di 5 coppie (xk , yk ) di osservazioni: (1, 8) (2, 12) (3, 22) (4, 28) (5, 30). (b) Calcolare il coefficiente di correlazione ρ(X, Y ). (c) Si pu`o affermare che la stima lineare `e valida? Perch´e? (d) Calcolare l’errore standard σxy della regressione effettuata. Soluzione. (a) Con calcoli analoghi a quelli del Problema 6.5 si ricava: x = 15/5 = 3 ; y = 100/5 = 20 1 σx2 = (1 + 4 + 9 + 16 + 25) − 9 = 2 5 1 σy2 = (64 + 144 + 484 + 784 + 900) − 400 = 75.2 5 1 (8 + 2 · 12 + 3 · 22 + 4 · 28 + 5 · 30) − 3 · 20 = 12 sxy = 5 da cui: b = 12/2 = 6 ;

a = 20 − 6 · 3 = 2 .

Dunque la retta di regressione `e: y = 2 + 6x . 12 (b) coefficiente di correlazione: ρ(X, Y ) = √ ' 0.9785 . 2 · 75.2 (c) SI , perch´e il coefficiente di correlazione `e molto prossimo ad 1. (d) errore standard: σxy =

p

75.2[1 − (0.9785)2 ] ' 1.7888 .

6.11. In una indagine su 180 famiglie si rileva la spesa annuale X sostenuta per l’acquisto di quotidiani e quella annuale Y effettuata per l’acquisto di CD musicali. L’importo delle spese `e espresso in migliaia di lire e raggruppato in 3 classi ∆xi per i quotidiani e 4 classi ∆yj per i CD. La tabella riporta il numero nij di famiglie che hanno sostenuto spese appartenenti alle classi ∆xi e ∆yj .

X ∈ [50 − 250) [250 − 450) [450 − 650)

Y ∈ [0 − 200) 15 12 6

[200 − 400) 35 22 12

[400 − 600) 26 10 24

[600 − 800) 10 8 0

178

STATISTICA DESCRITTIVA

(a) Calcolare la media pesata della spesa totale Z = X + Y ; (b) dire se i caratteri X e Y sono correlati, giustificando la risposta; (c) calcolare la deviazione standard di Z. Soluzione. (a) La media pesata di Z `e la somma delle medie pesate di X e Y . I valori centrali e le frequenze marginali di X nelle tre classi sono: x1 = 150, n1· = 86;

x2 = 350, n2· = 52;

x3 = 550, n3· = 42.

Per le spese Y , suddivise in 4 classi, si ha: y 1 = 100, n·1 = 33;

y 2 = 300, n·2 = 69;

y 3 = 500, n·3 = 60;

y 4 = 700, n·4 = 18.

Quindi le medie pesate di X e Y valgono: X = y =

1 (150 · 86 + 350 · 52 + 550 · 42) = 301.1 180 1 (3300 + 20700 + 30000 + 12600) = 370 180

da cui si ottiene Z = 301.1 + 370 = 671.1 . (b) La covarianza dei due caratteri vale 1 (15 · 150 · 100 + 35 · 150 · 300 + 180 + . . . + 24 · 550 · 700) − 301.1 · 370 = 114694.44 − 111407 = 3287.44

sxy = E(XY ) − X · Y =

e poich´e `e diversa da zero, i due caratteri sono correlati . q

(c) La deviazione standard di Z vale σZ = 2 σX σY2

2 + σ 2 + 2s σX xy dove: Y

= (1502 + 3502 + 5502 )/180 − (301.1)2 = 26061.01 = (1002 + 3002 + 5002 + 7002 )/180 − 3702 = 31766.67

e sostituendo si ottiene: σZ =

√ 64402.56 = 253.776 .

6.12. (a) Determinare la retta di regressione y = f (x) per la seguente serie statistica di 5 coppie (xk , yk ) di osservazioni: (−2, −2) (1, 0) (2, 2) (3, 1) (6, 4). (b) Calcolare la varianza dei residui rk = yk − f (xk ). Soluzione (a):

6.8 – Problemi risolti

x = 2;

179

σx2 =

y = 1;

sxy = b=5·

4 + 1 + 9 + 4 + 36 34 −4= 5 5

4 + 3 + 4 + 24 −x·y =7−2=5 5

5 25 = ; 34 34

a=1−

25 25 ·2=1− . 34 17

La retta di regressione `e: y =1−

25 25 + x ' -0.47 + 0.7353 x . 17 34

(b) La varianza dei residui `e uguale al valore minimo dello scarto quadratico medio, ovvero al quadrato dell’errore standard σxy . Infatti, poich´e la variabile residuo r = yk − (a + bxk ),

k = 1, . . . , 5

ha media nulla, si ha σr2 = E{[r − E{r}]2 } = E{r2 } =

5 s2xy 1X [yk − a − bxk ]2 = σy2 − 2 = (σxy )2 . 5 k=1 σx

Allora `e sufficiente calcolare ancora σy2 =

4 + 1 + 4 + 16 −1=4 5

per ottenere: σr2 = 4 − 52 ·

5 11 = ' 0.3235 . 34 34

180

STATISTICA DESCRITTIVA

DISTRIBUZIONI CAMPIONARIE 7.1

Modelli statistici

I primi tre Capitoli di questo libro hanno trattato la formulazione matematica di un modello probabilistico per un generico esperimento casuale. Si `e visto che un modello probabilistico `e definito in modo completo quando si precisa lo spazio di probabilit`a (Ω, B, P ) da associare all’esperimento in studio, ovvero lo spazio campione Ω dei possibili esiti, il campo di Borel B degli eventi Ai , e il funzionale P : B → [0, 1]. In tale modello la probabilit`a P che si assegna al generico evento Ai ∈ B `e univocamente definita, e si calcola sulla base della distribuzione probabilistica che si assume nota, ed adeguata a descrivere il fenomeno aleatorio oggetto di studio. Tuttavia, nell’analisi di un fenomeno reale cui si attribuisce natura casuale, o di una popolazione di individui o di oggetti dotati di caratteri aventi anch’essi natura casuale, la legge di probabilit`a cui questi obbediscono `e raramente nota in forma completa. Pi´ u spesso si pu`o soltanto affermare a priori che P appartiene a una famiglia P di leggi probabilistiche (per esempio: alla famiglia delle leggi normali, o binomiali, ....) che `e la collezione delle leggi di probabilit`a ammissibili nella descrizione matematica di quel particolare carattere aleatorio. Ci si trova cos´ı di fronte a un problema che per certi aspetti `e l’inverso di quello affrontato nel Calcolo delle probabilit`a, ovvero: determinare la legge P ∈ P del carattere, sulla base di informazioni relative a probabilit`a empiriche ricavate da un campione estratto dalla popolazione. Di questo problema si occupa la Statistica inferenziale la quale, attraverso l’analisi dei dati forniti dal campione, ha lo scopo di definire univocamente, e “nel miglior modo possibile”, la legge probabilistica incognita P che descrive la natura aleatoria di quel particolare carattere della popolazione. Una volta assegnata la famiglia delle leggi probabilistiche che riteniamo ammissibili, l’insieme (Ω, B, P) costituisce il modello statistico per il fenomeno casuale (o per il carattere della popolazione) che si sta studiando. Nel seguito supporremo di esaminare un carattere quantitativo di una popolazione o, al pi´ u, un carattere in qualche modo suscettibile di un ordinamento. In tal caso, ogni elemento P ∈ P dipender`a in generale da un insieme di parametri incogniti θi ∈ Θ ⊆ IR, che varia a seconda 181

182

DISTRIBUZIONI CAMPIONARIE

della famiglia P che caratterizza il modello statistico. I modelli che pi` u frequentemente si adottano nella Statistica inferenziale fanno riferimento a note leggi di distribuzione di probabilit`a, tra cui quelle citate nel §2.3. Se ad esempio stiamo studiando un carattere che pu`o assumere casualmente qualsiasi modalit`a in un intervallo limitato ma incognito, il modello statistico pi` u pertinente `e quello uniforme con due parametri, che si indica con R(θ1 , θ2 ) ed `e definito dalla famiglia di densit`a: 1 , x ∈ [θ1 , θ2 ], f (x, θ1 , θ2 ) = θ2 − θ1 i cui parametri incogniti sono da ricercarsi nel dominio Θ = {(θ1 , θ2 ) : −∞ < θ1 < θ2 < +∞}. Se si suppone che il carattere sia distribuito normalmente, con valor medio da determinarsi, si ricorre al seguente modello Normale-1: "

2

N (θ, σ ) :

θ ∈ Θ = IR,

#

1 (x − θ)2 f (x, θ) = exp − . 2σ 2 (2πσ)1/2

Se invece della distribuzione normale teorica si conosce il valor medio e si vuole determinare la varianza, si definisce il modello Normale-2: #

"

N (µ, θ) :

θ ∈ Θ = IR+ ,

1 (x − µ)2 f (x, θ) = , exp − 2θ (2πθ)1/2

e se si vuole determinare sia il valor medio che la varianza, il modello statistico di riferimento `e quello Normale generale: "

N (θ1 , θ2 ) :

1 (x − θ1 )2 f (x, θ1 , θ2 ) = exp 2θ2 (2πθ2 )1/2

#

nel quale i due parametri incogniti sono da ricercare nel dominio Θ = {(θ1 , θ2 ) : −∞ < θ1 < +∞, θ2 > 0}. Il modello che si assume per effettuare la statistica dei dati risultanti da una sequenza di n prove ripetute e indipendenti, con probabilit`a di successo incognita, `e quello Binomiale: Bi(n, θ) :

θ ∈ Θ = (0, 1),

f (x, θ) =

n X k=0

à !

n k θ (1 − θ)n−k δ(x − k), k

e se la probabilit`a di successo teorica `e molto piccola si usa, come prescritto dalla legge degli eventi rari, il modello di Poisson: Π(θ) :

θ ∈ Θ = IR+ ,

f (x, θ) = e−θ

∞ k X θ k=0

k!

δ(x − k).

Infine, negli studi di affidabilit`a e per la previsione statistica dei guasti si pu`o ricorrere al modello esponenziale: E(θ) :

θ ∈ Θ = IR+ ,

f (x, θ) = θeθx ,

x ≥ 0.

7.2 – Teoria dei campioni

7.2

183

Teoria dei campioni

La valutazione dei parametri incogniti che sono presenti in un modello statistico del tipo, per esempio, di quelli appena citati, si effettua con l’esame di una piccola parte della popolazione, opportunamente scelta con criteri di casualit`a mediante estrazione di n elementi della popolazione. Questa parte della popolazione, sulla quale si concentrano le osservazioni atte a fornire le informazioni mancanti al modello statistico, `e il campione di grandezza (o numerosit` a) n. La scelta degli elementi di popolazione che vanno a costituire il campione pu`o essere effettuata in molti modi diversi, ma deve comunque seguire regole precise con l’obiettivo di riprodurre nel miglior modo possibile tutte le propriet`a di quel carattere della popolazione che si vuole studiare. I metodi di campionamento pi` u noti sono: • il campionamento casuale, che si ottiene effettuando estrazioni statisticamente indipendenti da un insieme di individui che hanno tutti la medesima probabilit`a di essere estratti ; • il campionamento stratificato, nel quale la popolazione `e anzitutto suddivisa in gruppi di individui con caratteristiche omogenee. Da ciascuno di questi strati di popolazione si estrae quindi un numero di individui che `e proporzionale alla numerosit`a del gruppo stesso; • il campionamento a grappoli, il cui metodo consiste invece nella suddivisione della popolazione in tanti gruppi di individui eterogenei, ognuno dei quali sia rappresentativo delle caratteristiche dell’intera popolazione. Il campione da esaminare `e in tal caso uno qualsiasi di questi gruppi, che pu`o essere scelto per estrazione o per comodit`a di elaborazione dei dati. Si utilizzano anche metodi di campionamento pi` u raffinati, che con tecniche diverse combinano tra loro quelli ora citati. Tuttavia, nel seguito ci limiteremo a trattare unicamente le tecniche da sviluppare quando si effettua un campionamento casuale. In questo contesto, la condizione di equiprobabilit`a delle estrazioni implica teoricamente che nella definizione del campione, l’estrazione di ciascuno degli n elementi da una popolazione finita debba essere effettuata con ripetizione, ovvero assicurando la possibilit`a che l’elemento scelto possa ripresentarsi ad una qualsiasi estrazione successiva. Questa condizione si verifica, per esempio, quando nella estrazione di n palline da un’urna, ogni pallina estratta viene reimbussolata, al fine di non modificare la popolazione da cui si effettua ogni estrazione successiva. Se questa condizione non si verifica, l’estrazione `e chiamata senza ripetizione o in blocco, e modifica le probabilit`a teoriche delle successive estrazioni, perch`e condizionate da quella gi`a effettuata che non pu`o pi` u ripetersi. I risultati che ricaveremo nell’ipotesi di equiprobabilit`a delle estrazioni, dovranno pertanto essere corretti, se esse avvengono senza ripetizione. Tuttavia, questa correzione `e significativa solo se la popolazione `e costituita da pochi individui, mentre diventa trascurabile se la

184

DISTRIBUZIONI CAMPIONARIE

numerosit`a N degli individui della popolazione `e elevata, ed `e teoricamente nulla per N → ∞, ossia per popolazioni di infiniti elementi. In ogni caso, un campione casuale di grandezza (numerosit` a) n, scelto per effettuare la statistica su un carattere quantitativo X della popolazione, sar`a descritto da un insieme X = {X1 , X2 , . . . , Xn } di n elementi, al quale corrisponde l’insieme x = {x1 , x2 , . . . , xn } degli n valori osservati. Teoricamente, se facessimo tendere a +∞ la numerosit` a del campione che estraiamo da una popolazione infinita, allora il campione coinciderebbe con la popolazione stessa, e la distribuzione delle probabilit`a empiriche che si potrebbe ricavare secondo la tecnica spiegata nel Capitolo precedente si identificherebbe con la densit`a di probabilit`a del carattere X della popolazione. Ma i metodi della indagine statistica si basano proprio sull’ipotesi opposta: quella di avere a disposizione un campione con numerosit`a n molto minore degli N individui della popolazione. Se la collezione degli n elementi del campione `e casuale, in generale a ciascuna possibile scelta corrisponder`a un valore diverso della osservazione xi fatta a proposito dell’i-esimo elemento del campione estratto dalla popolazione. Di conseguenza, l’insieme X che descrive il generico campione di grandezza n deve essere riguardato come un vettore aleatorio, insieme di n variabili casuali Xi , i = 1, .., n, le quali sono statisticamente indipendenti nel caso che il campione sia stato estratto casualmente e con ripetizione. Si chiama statistica campionaria, o anche riassunto campionario, qualsiasi quantit` a g(X) che si esprime per mezzo delle n variabili casuali Xi , e che interessa valutare in vista della stima dei parametri del modello statistico. Una statistica campionaria `e anch’essa una variabile casuale Gn = g(X), e come tale `e dotata di una distribuzione di probabilit`a che chiameremo distribuzione campionaria della statistica Gn . Un esempio di statistica di un campione di ordine n `e la variabile casuale Gn =

1 q (X + X2q + . . . .. + Xnq ) n 1

(7.1)

che ha il significato di momento campionario di ordine q, e per q = 1 diventa la media campionaria cos´ı definita: µn =

1 (X1 + X2 + . . . . + Xn ). n

(7.2)

L’indice n introdotto nella notazione sta ad indicare che tale media risulta dall’esame di un campione di grandezza n del carattere X della popolazione, e serve per distinguere tale media campionaria dal valor medio µ (eventualmente incognito) della distribuzione teorica del carattere X, che `e stata definita nel modello statistico. La varianza campionaria `e la variabile aleatoria definita dalla seguente statistica: Sn2 =

n 1X (Xi − µn )2 n i=1

(7.3)

7.3 – Distribuzione campionaria delle medie

185

che in generale potr`a assumere valori diversi dalla varianza teorica σ 2 (eventualmente incognita) della distribuzione probabilistica dal carattere X. La sua radice quadrata positiva Sn `e la deviazione standard campionaria. Se dalla medesima popolazione si estraggono diversi campioni di grandezza n, allora i valori che assumono le loro statistiche – e in particolare la media campionaria (7.2) e la varianza campionaria (7.3) – saranno in generale diversi e distribuiti con leggi probabilistiche che sono definite dalle rispettive distribuzioni campionarie. Nei due paragrafi che seguono ricaveremo in dettaglio le propriet`a delle distribuzioni campionarie di queste due statistiche.

7.3

Distribuzione campionaria delle medie

Per valutare il valore atteso della distribuzione campionaria delle medie µn definita dalla (7.2), dobbiamo prendere in considerazione tutti i possibili campioni di grandezza n che possono essere estratti dalla popolazione, e fissare l’attenzione sull’iesimo elemento Xi di questi campioni. Questo `e una variabile casuale con la medesima distribuzione teorica del carattere X della popolazione, poich´e `e il risultato di estrazioni casuali dalla popolazione stessa. Indichiamo con fX (x) tale distribuzione teorica del carattere, con µ la sua media e con σ 2 la sua varianza, eventualmente sconosciute. Si ricava: (

E{µn } = E

1X Xi n i

)

=

1X 1 1 E{Xi } = · nE{X} = · n · µ = µ n i n n

(7.4)

Dunque, il valor medio della distribuzione campionaria della statistica µn coincide con il valor medio µ della distribuzione teorica del carattere X. La varianza della distribuzione campionaria delle medie (che `e diversa dalla statistica (7.3), di cui ci occuperemo nel paragrafo che segue) `e per definizione la quantit` a σn2 = E{[µn − E{µn }]2 } = E{µ2n + µ2 − 2µn µ} = E{µ2n } − µ2 1 = E{(X1 + . . . + Xn )2 } − µ2 , n2

(7.40 )

e per ricavarne una espressione significativa, occorre distinguere a seconda della procedura che `e stata seguita per estrarre il campione.

7.3.1

Campionamento con ripetizione

Se il campione `e stato estratto con ripetizione da una popolazione finita di N elementi, oppure se N → ∞, allora le variabili casuali Xi sono statisticamente indipendenti, con uguali densit`a di probabilit`a f (xi ) = fX (x). Si ha in tal caso: Z

E{(X1 + . . . + Xn )2 } =

(x1 + . . . + xn )2 f (x1 )f (x2 ) · · · f (xn )dx1 · · · dxn =

186

DISTRIBUZIONI CAMPIONARIE

Z

=

(x21 + . . . + x2n + 2x1 x2 + 2x1 x3 + . . . + 2xn−1 xn )f (x1 )f (x2 ) · · · f (xn )dx1 · · · dxn = = E{X12 } + . . . + E{Xn2 } + 2

n X

E{Xi }E{Xj }.

i,j=1

Ma poich`e le distribuzioni di tutte le Xi hanno momenti uguali a quelli della densit`a teorica fX (x), e inoltre il numero di combinazioni di n elementi a due a due vale n(n − 1)/2 , risulta: E{(X1 + . . . + Xn )2 } = n E{X 2 } + n(n − 1)µ2 . Sostituendo questo risultato nella (7.4’) si ottiene: σn2 =

E{X 2 } n − 1 2 1 σ2 + µ − µ2 = [E{X 2 } − µ2 ] = . n n n n

(7.5)

Dunque, la varianza della distribuzione campionaria delle medie `e uguale alla varianza teorica della distribuzione del carattere X, divisa per la numerosit` a del campione. La radice quadrata positiva della quantit` a (7.5): σ σn = √ n

(7.50 )

`e chiamata errore standard della media campionaria. Dalla (7.5) si deduce anche che, nella ipotesi di una distribuzione teorica della popolazione con varianza σ 2 non nulla, valgono le seguenti notevoli propriet`a di convergenza della media campionaria: • Convergenza in media quadratica della statistica µn al valor medio µ della distribuzione teorica fX (x). Infatti: lim σn2 = lim E{(µn − µ)2 } = 0.

n→∞

n→∞

• Legge debole dei grandi numeri. Fissato un ² > 0 arbitrario, per la diseguaglianza di Chebyshev (v. §2.2) si ha: IP{|µn − µ| ≥ ²} ≤

σn2 σ2 = ²2 n²2

per cui, passando al limite: lim IP{|µn − µ| ≥ ²} = 0.

n→∞

(7.6)

E’ cos´ı dimostrato che la statistica µn converge in probabilit`a al valor medio teorico µ, quando la numerosit` a del campione tende ad infinito.

7.3 – Distribuzione campionaria delle medie

187

Infine, `e di grande importanza il fatto che per grandi campioni `e possibile determinare non solo i momenti del primo e del secondo ordine, ma anche la densit`a stessa della distribuzione campionaria delle medie. Precisamente, basandosi sul Teorema Limite Centrale enunciato nel §2.3.2, si pu`o dimostrare che: al crescere di n la distribuzione campionaria delle medie approssima la legge normale N (µ, σ 2 /n) che ha media µ e varianza data dalla (7.5). Dimostrazione. La media campionaria (7.2) relativa a campioni estratti con ripetizione da una popolazione finita (oppure da una popolazione infinita) si pu`o anche esprimere come µn = Sn /n, dove Sn `e la somma di n variabili casuali indipendenti che hanno la medesima densit`a di probabilit`a. Quindi, per il Teorema Limite Centrale, la sua densit`a converge, per n → ∞, alla distribuzione normale con media E{µn } = e varianza σn2 =

1 1 E{Sn } = · nµ = µ n n

1 2 1 σ2 2 , σ (S ) = · nσ = n n2 n2 n

ossia converge alla legge N (µ, σ 2 /n). Per facilitare i calcoli relativi ai test statistici, al posto della media campionaria µn si usa spesso la variabile media campionaria standardizzata gi`a introdotta nel §2.3.2, e definita dal rapporto µn − µ Zn = . (7.60 ) σn In base al Teorema Limite Centrale, si pu`o affermare che per n sufficientemente grande la distribuzione di Zn `e ben approssimata dalla legge normale standard N (0, 1) con media nulla e varianza uguale ad 1.

7.3.2

Campionamento senza ripetizione

Se il campione `e estratto senza ripetizione (“in blocco”) da una popolazione con un numero finito N di elementi, le n variabili aleatorie Xi non sono pi` u indipendenti, perch´e ogni estrazione modifica la composizione della popolazione da cui devono essere scelti i successivi elementi del campione. Ne segue, per la legge delle probabilit`a composte (1.4), che la densit`a di probabilit`a congiunta del campione X non `e pi` u il prodotto delle densit`a f (xi ), bens´ı il seguente prodotto di densit`a condizionate: f (x1 , . . . , xn ) = f (x1 )f (x2 |x1 )f (x3 |x1 , x2 ) · · · f (xn |x1 , x2 , . . . , xn−1 ). Si pu`o dimostrare che in tal caso il valor medio della distribuzione campionaria della statistica µn `e ancora uguale alla media teorica µ, ma la sua varianza vale: σn2 =

σ2 N − n · . n N −1

(7.7)

188

DISTRIBUZIONI CAMPIONARIE

A parit`a di grandezza n del campione, se N > n non `e molto elevato essa `e dunque minore della (7.5) che `e valida per un campionamento con ripetizione, ma tende al valore (7.5) quando N → ∞. Esempio 7.1

Illustriamo i risultati precedenti con il seguente esempio. In una popolazione costituita da N = 5 elementi, il carattere X oggetto di studio assume rispettivamente i valori: 2, 3, 6, 8, 11. Da essa si estraggono tutti i possibili campioni di grandezza n = 2, allo scopo di valutare la media del carattere, che evidentemente ha il valore teorico µ = 6. • Campionamento con ripetizione. Il numero di campioni con numerosit` a 2 che possiamo casualmente estrarre con ripetizione dalla popolazione `e uguale al numero delle disposizioni con ripetizione di 5 elementi a due a due, ossia 52 = 25. In dettaglio, i possibili campioni sono i seguenti: 2, 2 3, 2 6, 2 8, 2 11, 2

2, 3 2, 6 2, 8 3, 3 3, 6 3, 8 6, 3 6, 6 6, 8 8, 3 8, 6 8, 8 11, 3 11, 6 11, 8

2, 11 3, 11 6, 11 8, 11 11, 11.

(7.8)

Ciascuno di questi campioni ha una media campionaria µn che vale, rispettivamente: 2 2.5 4 5 6.5

2.5 3 4.5 5.5 7

4 4.5 6 7 8.5

5 5.5 7 8 9.5

6.5 7 8.5 9.5 11

(7.9)

e se valutiamo le frequenze relative di ciascuna di queste medie campionarie, possiamo costruire il grafico a) di Fig. 7.1. Esso rappresenta una densit`a di probabilit`a discreta che definisce la distribuzione campionaria delle medie relativa alla statistica in oggetto. Il valor medio di questa distribuzione vale: E{µn } =

1 [2 + 3 + 6 + 8 + 11 + 2(2.5 + 4 + 5 + 5.5 + 6.5 + 8.5 + 9.5) + 4.7] = 6 25

e, in accordo con la (7.4), coincide con il valore teorico µ prima citato. Se ci proponiamo di valutare µ attraverso il valore della statistica µn che ricaviamo da un solo campione estratto casualmente, `e assai probabile che il risultato non sia uguale a 6. L’errore medio che possiamo compiere `e legato alla dispersione della distribuzione di figura rispetto al suo valor medio, e si valuta calcolandone la varianza σn2 definita dalla (7.4). Si trova: σn2 =

135 1 [(2 − 6)2 + 2(2.5 − 6)2 + . . . + 2(9.5 − 6)2 + (11 − 6)2 ] = = 5.4. 25 25

7.3 – Distribuzione campionaria delle medie f (m n ) 25

189

4/20

f (m n ) 20

4/25

2/20

2/25 1/25 0

1 2 3 4 5 6 7 8 9 10 11

mn

0

a) campionamento con ripetizione

1 2 3 4 5 6 7 8 9 10 11

mn

b) campionamento senza ripetizione Figura 7.1

Questa varianza della distribuzione delle medie campionarie `e legata alla varianza teorica del carattere X, Infatti si verifica subito che, come previsto dalla (7.5) con n = 2, `e la met`a della varianza teorica σ 2 che vale: 1 σ 2 = [(2 − 6)2 + (3 − 6)2 + . . . + (11 − 6)2 ] = 10.8 . 5 La radice quadrata di σn2 vale σn = 2.32379. Questo `e l’errore standard che si commette nel valutare il valor medio del carattere, attraverso l’analisi della statistica µn effettuata su un suo campione di grandezza n = 2. • Campionamento senza ripetizione. In tal caso, il numero totale di campioni che possiamo estrarre `e uguale alle disposizioni senza ripetizione di 5 elementi a due a due, e vale 5! = 20. (5 − 2)! I campioni sono quelli dell’insieme (7.8) privato degli elementi sulla diagonale principale, che contengono valori ripetuti. Le 20 possibili medie campionarie sono ancora indicate nella (7.9), con esclusione dei valori 2, 3, 6, 8, 11 che si trovano sulla diagonale principale. La distribuzione delle frequenze relative di queste medie campionarie `e mostrata nel grafico b) di Fig. 7.1. Questa distribuzione ha ancora valor medio E{µn } = 6 ma varianza minore che, in accordo con la (7.7), vale: σn2 =

2 3 σ2 [(2.5 − 6)2 + (4 − 6)2 + . . . + (9.5 − 6)2 ] = 4.05 ≡ · . 20 4 2

L’errore standard nella valutazione della media del carattere `e quindi leggermente inferiore, e vale σn = 2.01. Esempio 7.2: Distribuzione della differenza di medie campionarie

Le lampadine prodotte dall’azienda A hanno una vita media µA di 1400 ore, con deviazione standard σA = 200 ore; quelle dell’azienda B hanno vita media µB = 1200 ore, con deviazione standard σB = 100 ore. Si prova un campione casuale di n = 125 lampadine estratte dalla produzione dell’azienda A, e un campione di m = 100

190

DISTRIBUZIONI CAMPIONARIE

lampadine provenienti dalla produzione dell’azienda B. Calcolare la probabilit`a che le lampadine fornite dal produttore A abbiano una vita media: 1) di almeno 160 ore maggiore di quelle fornite da B; 2) che differisce per meno di 150 ore dalla vita media di quelle prodotte da B. Le distribuzioni campionarie delle medie µn e µm dei due campioni sono entrambe approssimabili con leggi normali, aventi valore atteso uguale a quello della popolazione da cui sono estratti: E{µn } = µA = 1400,

E{µm } = µB = 1200.

Le loro deviazioni standard, per la (7.5’), sono rispettivamente: σA σB σn = √ = 17.888 ; σm = √ = 10. 125 100 Definiamo la variabile casuale d(ω) che denota la differenza tra le medie campionarie: d(ω) = µn − µm . Essa ha una distribuzione con valor medio E{d} = E{µn } − E{µm } = 1400 − 1200 = 200 ore, e la sua varianza si determina applicando la (3.8) del Capitolo III, dopo aver posto: a = 1, b = −1, X ≡ µn , Y ≡ µm : 2 σ 2 (d) = σn2 + σm − 2 Cov (µn , µm ).

Se i due campioni estratti sono statisticamente indipendenti, la loro covarianza `e nulla e anche d(ω) ha legge normale, come dimostrato nell’Esempio 4.6 del capitolo 4, con deviazione standard q

σ(d) =

q

2 = σn2 + σm

(17.888)2 + 102 ' 20.49 ore.

Per calcolare le probabilit`a richieste, usiamo la variabile casuale standardizzata: Z(ω) =

d − 200 d − E{d} = σ(d) 20.49

che ha una distribuzione normale N (0, 1) e calcoliamo i valori z che essa assume per d = 160 e per d = ±150. Si trova subito: d = 160 : d = −150 : d = 150 :

z0 = −1.952 z1 = −17.08 z2 = −2.44 .

Le probabilit`a cercate si ricavano allora utilizzando la (2.32) e la Tabella dei valori di erf(z) che si trova in Appendice: 1 + erf (1.952) = 0.9744 2 IP(|d| < 150) = IP(z1 < Z < z2 ) = erf (−2.44) − erf (−17.08) = 1 ' − erf (2.44) = 0.5 − 0.4927 = 0.0073 . 2 IP(d ≥ 160) = P (Z ≥ z0 ) =

7.4 – Distribuzione campionaria delle varianze

7.4 7.4.1

191

Distribuzione campionaria delle varianze Campionamento con ripetizione

Se il modello statistico che si assume per studiare la popolazione `e quello normale, e se il campione `e estratto con ripetizione da una popolazione finita, oppure se la popolazione `e infinita, la statistica (7.3), chiamata varianza campionaria, ha una distribuzione che si pu`o dedurre applicando il seguente, importante: TEOREMA (Chi-quadrato) Se da una popolazione normalmente distribuita con varianza σ 2 si estraggono campioni casuali di numerosit`a n, la variabile aleatoria Qn (ω) =

1 X nSn2 ≡ 2 (Xi − µn )2 2 σ σ i

(7.10)

ha una distribuzione χ2n−1 con (n − 1) gradi di liberta’. Ricordando le propriet`a della distribuzione Chi-quadrato, gi`a presentata nel Capitolo 2, la variabile Qn ha dunque la densit`a (2.40) con n − 1 al posto di n, ha valor medio E{Qn } = n − 1 e varianza σ 2 {Qn } = 2(n − 1). 1.5

s2 = 1 f ( S 2n ) 2 f (^ Sn )

n = 21

1 n = 11 0.5

2 E{ ^ Sn }

E{S 2n } 0

1

2

3

Figura 7.2 - Distribuzioni campionarie della varianza

La varianza campionaria Sn2 `e definita, per la (7.10), dalla trasformazione lineare Sn2 = g(Qn ) =

σ2 Qn , n

e usando le formule di trasformazione per funzioni di variabili casuali la sua distribuzione campionaria ha una densit`a di probabilit`a che si ricava applicando la (4.5) o la (4.10) del Capitolo 4. Poich´e si ha g −1 (Sn2 ) =

nSn2 ; σ2

dg −1 n = 2 , 2 dSn σ

192

DISTRIBUZIONI CAMPIONARIE

si ricava: Ã

f (Sn2 )

= fχ2

n−1

nS 2 Qn = 2n σ

¯ ! ¯ Ã ! ¯ dg −1 ¯ nSn2 n ¯ ¯ ·¯ Qn = 2 · 2 . ¯ = fχ2 n−1 ¯ dSn2 ¯ σ σ

(7.11)

In Fig. 7.2 sono riportate con linea continua due distribuzioni campionarie di Sn2 , calcolate assumendo σ 2 = 1 e n = 11 e 21. Il loro valor medio vale: E{Sn2 } =

σ2 n−1 2 E{Qn } = σ n n

(7.12)

e la sua varianza si pu`o calcolare come segue: σ

2

=

(Sn2 )

=

E{(Sn2 )2 }

σ 4 (n − 1)2 − = n2

Ã

σ2 n

!2

E{Q2n } −

σ 4 (n − 1)2 = n2

σ4 σ4 σ4 2 2(n − 1) 4 2 2 2 2 [E{Q } − (n − 1) ] = [E{Q } − E {Q }] = σ {Qn } = ·σ n n n 2 2 2 n n n n2

dove σ 2 `e la varianza teorica della popolazione con distribuzione normale. Per n >> 1, si pu`o accettare il risultato: σ 2 (Sn2 ) ∼ = 2σ 4 /n, e di conseguenza la deviazione standard della distribuzione campionaria delle varianze `e ben approssimata da: q

σ(Sn2 ) ∼ = σ 2 2/n.

(7.13)

La (7.12) mostra un risultato degno di nota: il valor medio della statistica Sn2 non coincide con la varianza teorica σ 2 della popolazione. Questa propriet`a, che come vedremo `e assai importante ai fini della stima della varianza sconosciuta di un carattere della popolazione, `e invece soddisfatta dalla seguente statistica: Sˆn2 =

n 1 X Sn2 ≡ (Xi − µn )2 n−1 n−1 i

(7.14)

che chiameremo varianza campionaria corretta, la quale ha evidentemente valor medio E{Sˆn2 } =

n E{Sn2 } = σ 2 . n−1

(7.15)

La distribuzione campionaria di questa varianza corretta Sˆn2 si ricava facilmente invertendo la trasformazione (7.14) e usando la (7.11). Anche essa si esprime in termini della densit`a Chi-quadrato della variabile Qn =

n n − 1 ˆ2 · Sn2 = · Sn , 2 σ σ2

7.4 – Distribuzione campionaria delle varianze

193

e vale: µ



µ



n−1 n − 1 ˆ2 n−1 n − 1 ˆ2 = fχ2 Sn · . f (Sˆn2 ) = f Sn2 = Sn · Qn = 2 n−1 n n σ σ2

(7.16)

Le distribuzioni (7.16) che si ottengono per n = 11 e n = 21 sono riportate con linea tratteggiata in Fig. 7.2, e sono confrontate con le distribuzioni campionarie (7.11) della statistica Sn2 . La varianza della distribuzione “corretta” (7.16) vale: "

σ

2

(Sˆn2 )

=

E{(Sˆn2 )2 }

4

−σ =σ

4

#

E{Q2n } σ4 2 − 1 = σ 2 (Qn ) = σ4. 2 2 (n − 1) (n − 1) n−1

La sua deviazione standard `e perci`o s

σ(Sˆn2 )



2

2 n−1

(7.17)

e per n >> 1 `e assai vicina a quella della distribuzione delle varianze campionarie Sn2 .

7.4.2

Campionamento senza ripetizione

Se il campione `e estratto “in blocco” da una popolazione con un numero finito N di elementi, tenuto conto delle osservazioni fatte nel §7.3.2 la distribuzione campionaria di Sn2 non `e pi` u quella definita con la (7.11). Calcoli pi` u laboriosi mostrano, in particolare, che anche il suo valor medio `e diverso dal valore (7.12), e deve essere modificato in: N n−1 2 E{Sn2 } = · σ . (7.18) N −1 n Da quest’ultima segue che la varianza campionaria corretta Sˆn2 con valor medio uguale alla varianza teorica, si modifica in tal caso nella statistica: n N −1 1 X N −1 · · Sn2 = · (Xi − µn )2 , Sˆn2 = N n−1 N n−1 i da usare al posto della statistica (7.14).

(7.19)

194

DISTRIBUZIONI CAMPIONARIE

Esempio 7.3

Riprendiamo lo studio dei 25 campioni (7.8) che si possono estrarre con ripetizione dalla popolazione costituita da 5 elementi con valore 2, 3, 6, 8, 11, che come si `e gi`a visto ha varianza teorica σ 2 = 10.8. Ciascuno di essi ha una statistica Sn2 (con n = 2) che vale: 0 0.25 4 9 20.25 0.25 0 2.25 6.25 16 4 2.25 0 1 6.25 (7.20) 9 6.25 1 0 2.25 20.25 16 6.25 2.25 0 e il calcolo delle frequenze relative porta alla definizione di una distribuzione campionaria discreta, che `e mostrata nel grafico a) di Fig. 7.3. Il valor medio di tale distribuzione vale: E{Sn2 } =

1 27 [4(2.25 + 6.25) + 2(0.25 + 4 + 9 + 1 + 16 + 20.25)] = = 5.4 25 5

e, in accordo con il risultato (7.12), `e la met`a della varianza teorica σ 2 . Ne segue che la varianza campionaria corretta, il cui valor medio coincide con σ 2 , `e la statistica Sˆn2 = 2Sn2 i cui valori possibili sono il doppio di quelli riportati nella (7.20). f (S 2n ) 25

f (S 2n ) 20 4/20

5/25 4/25

2/20

2/25 E{S 2n }

0

E{S 2n }

s2 S 2n

2 4 6 8 10 12 14 16 18 20 22

0

a) campionamento con ripetizione

s2

2 4 6 8 10 12 14 16 18 20 22

S 2n

b) campionamento senza ripetizione

Figura 7.3

Campionamento senza ripetizione. I 20 possibili campioni estratti senza ripetizione dalla stessa popolazione hanno tutti varianze Sn2 non nulle, definite nella (7.20) con esclusione dei valori sulla diagonale principale. La distribuzione delle loro frequenze relative `e mostrata nel grafico b) di Fig. 7.3, ed ha valor medio E{Sn2 } =

1 27 [4(2.25 + 6.25) + 2(0.25 + 4 + 9 + 1 + 16 + 20.25)] = = 6.75. 20 4

Osservando che

5 27 5 1 27 = · = · · σ2 , 4 4 5 4 2 si riconosce che il risultato ottenuto verifica la (7.18), valida per campioni senza ripetizione. Inoltre, in tal caso la varianza campionaria corretta `e definita, per la

7.5 – Distribuzione campionaria delle frequenze

195

(7.19), dalla statistica

4 8 Sˆn2 = · 2 · Sn2 = Sn2 , 5 5 il cui valor medio coincide con la varianza teorica della popolazione. Infatti: 8 8 27 54 E{Sˆn2 } = E{Sn2 } = · = = σ2. 5 5 4 5

7.5

Distribuzione campionaria delle frequenze

Supponiamo che il carattere X della popolazione da cui si estrae il campione abbia due sole modalit`a, il cui esame pu`o dar luogo a realizzazioni di due soli eventi casuali incompatibili ed esaustivi (vero/falso, bianco/nero,....). In tale ipotesi il modello statistico per X `e quello Binomiale, in cui p `e la probabilit`a teorica di “successo” (X `e vero, bianco,...) e q = 1 − p `e la probabilit`a di “fallimento”. Indichiamo ora con ns il numero (ossia anche la frequenza assoluta) di “successi” rilevati in un campione casuale estratto da questa popolazione con n prove indipendenti. La distribuzione campionaria f (ns ) di queste frequenze `e definita dalla probabilit`a di osservare ns successi, la quale `e data dalla formula di Bernoulli (2.42). Dunque anche f (ns ) `e binomiale, descritta dalla densit`a discreta (2.45) del Capitolo 2 e definita sull’insieme dei numeri interi positivi. Se n `e sufficientemente grande, essa si approssima nel continuo con una legge normale (v. Fig. 7.4) con media e varianza che valgono: E{ns } = np , σ 2 (ns ) = npq . (7.21) Ne segue, ad esempio, che le probabilit`a di osservare un numero di successi maggiore di k0 oppure compreso tra k1 e k2 si approssimano, per un campione di numerosit` a n sufficientemente grande, con 1 − erf (z0 ) 2 IP(k1 ≤ ns ≤ k2 ) ' IP(z1 ≤ Z ≤ z2 ) = erf (z2 ) − erf (z1 )

IP(ns > k0 ) ' IP(Z > z0 ) = dove si `e posto:

ki − np zi = √ . npq

La frequenza relativa dei successi: Y = ns /n, `e invece una variabile aleatoria con valori in IR+ , la cui distribuzione `e definita dalla densit`a fY (y) = f (ns = ny) · n



n · N (p, pq/n).

Per n sufficientemente grande, essa si approssima con una distribuzione normale avente valor medio e varianza che valgono: E{Y } =

np E{ns } = = p, n n

196

DISTRIBUZIONI CAMPIONARIE

N (8, 7.84)

f(n s)

0

2

4

8

6

10

12

14

ns

Figura 7.4 - Distribuzione campionaria delle frequenze nell’Esempio 7.4

σY2

=

σ 2 (ns ) npq p(1 − p) = 2 = . 2 n n n

(7.22)

Esempio 7.4

Dall’analisi della produzione di un utensile, risulta che il 2% del prodotto di fabbricazione `e difettoso. Si vuole calcolare la probabilit`a che in un lotto di 400 utensili appena consegnati a un cliente quelli difettosi siano almeno 12. Il lotto in questione si pu`o considerare un campione estratto con n = 400 prove ripetute e indipendenti da una popolazione di infiniti elementi. Durante la scelta del campione, ciascuna estrazione avviene con una probabilit`a teorica p = 0.02 di avere un prodotto difettoso (nel nostro caso, la scelta di un utensile difettoso `e il “successo”). La distribuzione campionaria delle frequenze ns di utensili difettosi, mostrata in Fig. 7.4, `e approssimabile con una curva normale con media e deviazione standard che valgono: E{ns } = q np = 400 · 0.02 = 8 √ σ(ns ) = np(1 − p) = 400 · 0.02 · 0.98 = 2.8. Si deve determinare la probabilit`a IP(ns ≥ 12), rappresentata dall’area ombreggiata in figura. Per calcolarla, utilizziamo la variabile standardizzata Z=

ns − E{ns } , σ(ns )

che per ns = 12 vale z = 1.428. Ricordando quindi la (2.32) e usando la Tabella di erf(z) in Appendice, si ricava: IP(ns ≥ 12) = 1 − IP(Z < 1.428) '

1 1 − erf (1.43) = − 0.4236 = 0.0764. 2 2

7.6 – Problemi risolti

197

In Fig. 7.4 sono anche disegnati i rettangoli con base unitaria e altezza uguale alle probabilit`a (2.42) di avere un campione con ns successi. La probabilit`a ora calcolata `e approssimata dall’area di questi rettangoli che si trova a destra di ns = 12. Si badi per`o che l’insieme di questi rettangoli non deve essere confuso con l’istogramma delle frequenze empiriche delle modalit`a di un carattere X, che `e stato definito del Capitolo precedente. Infatti, se le osservazioni da rilevare nel campione riguardano due possibili modalit`a (“successo” o “fallimento”) di un carattere, l’istogramma delle loro frequenze sar`a costituito da due soli rettangoli, con altezza proporzionale rispettivamente al numero dei successi e dei fallimenti che si osservano in quel particolare campione esaminato. I rettangoli di Fig. 7.4 hanno invece base unitaria, centrata sulle possibili frequenze ns della modalit`a “successo”, e altezza uguale alla probabilit`a bernoulliana di osservare queste frequenze di successo.

7.6

Problemi risolti

7.1. Si estrae un campione di numerosit` a n = 64 da una popolazione con varianza σ 2 = 121. Calcolare la probabilit`a di avere una media campionaria che differisce per pi` u di 2 unit`a da quella incognita della popolazione. Soluzione. La distribuzione campionaria delle medie si approssima con una legge normale avente media E{µn } uguale alla media teorica µ e varianza σn2 = σ 2 /n = 121/64 = (11/8)2 . Se introduciamo la variabile standardizzata Zn =

µn − µ σn

la probabilit`a richiesta si calcola nel modo seguente: P (|µn − µ| > 2) = P (σn |Zn | > 2) = P (|Zn | > 2 · 8/11 = 1.4545) = 1 − 2 erf(1.4545) e dalla Tabella di erf(z) si ricava: P (|µn − µ| > 2) ' 1 − 2 · 0.427 = 0.146 . 7.2. Si estrae un campione {Xi } da 50 osservazioni di un carattere avente un modello statistico normale N (2, 1), ma `e noto soltanto il numero Z di osservazioni dalle quali risulta Xi ≤ 0, i = 1, . . . , 50. Determinare la legge di Z(ω). Soluzione. Le 50 osservazioni sono altrettante prove ripetute e indipendenti di un esperimento casuale. Se chiamiamo “successo” l’evento S = {Xi ≤ 0}, esso si verifica con probabilit`a µ

p = IP{X ≤ 0} =

0−µ 1 + erf 2 σ



=

1 1 − erf(2) = − 0.4772 = 0.0228. 2 2

La variabile casuale Z che rappresenta il numero di eventi S che si verificano in 50 prove ha pertanto distribuzione binomiale con parametri n = 50, p = 0.0228: Z ∼ B(50, 0.0228) .

198

DISTRIBUZIONI CAMPIONARIE

7.3. Si dispone di un campione di 100 osservazioni del carattere X di una popolazione, la cui deviazione standard `e nota e vale σ = 120. Qual’`e la probabilit`a che la media campionaria differisca per pi` u di 3 unit`a da quella incognita del carattere X ? Risposta. La distribuzione campionaria delle medie si approssima con una legge normale√avente media E{µn } uguale alla media teorica µ e deviazione standard σn = σ/ 100 = 12. Se Zn `e la corrispondente variabile standardizzata, la probabilit`a richiesta vale P (|µn − µ| > 3) = P (σn |Zn | > 3) = P (|Zn | > 0.25) = 1 − 2 erf(0.25) e dalla Tabella di erf(z) si ricava: P (|µn − µ| > 3) ' 1 − 2 · 0.0987 = 0.9026 . 7.4. In un lotto di 50 pile, la loro tensione in uscita ha una deviazione standard di 25V . Se da questo lotto ne estraiamo senza ripetizione n = 25, qual’`e la probabilit`a che la media delle pile estratte differisca per pi` u di 1 Volt dalla media teorica dichiarata dal costruttore ? Risposta. Poich´e il campione di n = 25 pile `e estratto in blocco da una popolazione di N = 50 elementi, la distribuzione campionaria della tensione media ha legge normale con deviazione standard s

σn = σ

s

N −n =2 n(N − 1)

50 − 25 2 = 25(50 − 1) 7

e per renderla normale standard si pu`o definire la variabile campionaria Zn =

7 µn − µ = (µn − µ). σn 2

La probabilit`a rischiesta vale quindi: P (|µn − µ| > 1) = P (|Zn | > 3.5) = 1 − 2 erf(3.5) e dalla Tabella di erf(z) si ricava: P (|µn − µ| > 1) ' 1 − 2 · 0.4998 = 4 · 10−4 . 7.5. La lunghezza di 3000 lamine `e distribuita normalmente con media µ = 68 mm e scarto quadratico medio σ = 3 mm. Si estraggono, con ripetizione, 80 campioni di 25 lamine ciascuno. Determinare in quanti campioni ci si deve aspettare una media compresa tra 66, 8 e 68, 3 mm. Soluzione. La distribuzione campionaria delle medie ricavate dai campioni di numerosit` √ a n = 25 `e normale, con media µn = µ = 68 e deviazione standard σn = 3/ 25 = 0.6 mm.

7.6 – Problemi risolti

199

Introdotta la variabile standardizzata Zn = (µn −68)/0.6, la probabilit`a che la media campionaria sia compresa tra 66.8 e 68.3 mm. si calcola come segue: P (66.8 ≤ µn ≤ 68.3) = P [(66.8 − 68)/0.6 ≤ Zn ≤ (68.3 − 68)/0.6] = = P (−2 ≤ Zn ≤ 0.5) = erf(0.5) + erf(+2) e dalla Tabella di erf(z) si ricava: P (66.8 ≤ µn ≤ 68.3) = 0.1915 + 0.4772 = 0.6687 = p. Per la legge dei grandi numeri, p `e il valore del rapporto tra il numero Nx di campioni in cui P (66.8 ≤ µn ≤ 68.3) e il numero totale dei campioni estratti. Quindi Nx 80 arrotondato all’unit`a per difetto. 0.6687 =



Nx = 80 · 0.6687 ' 53

7.6. Data la popolazione dei numeri 0, 2, 4, 6, 8: a) calcolare la media µ e la varianza σ 2 della popolazione; b) elencare i possibili campioni di numerosit` a n = 2 estraibili con ripetizione da tale popolazione; ¯ e le relative probabilit`a; c) elencare i possibili valori della media campionaria X d) sulla base dei dati ricavati al punto precedente, calcolare la media µX¯ e la varianza 2 della media campionaria X, ¯ verificando che valgono le uguaglianze: µ ¯ = µ; σX ¯ X 2 2 σX¯ = σ /n. Soluzione. a) Media e varianza valgono µ=

20 = 4 , 5

σ2 =

16 + 4 + 4 + 16 = 8 . 5

b) I campioni di numerosit`a 2 estraibili con ripetizione sono 52 = 25, e precisamente: 0,0 2,0 4,0 6,0 8,0

0,2 2,2 4,2 6,2 8,2

0,4 2,4 4,4 6,4 8,4

0,6 2,6 4,6 6,6 8,6

0,8 2,8 4,8 6,8 8,8 .

c) Le medie di ciascun campione valgono rispettivamente: 0 1 2 3 4

1 2 3 4 5

2 3 4 5 6

3 4 5 6 7

4 5 6 7 8

200

DISTRIBUZIONI CAMPIONARIE

¯ hanno queste probabilit`a: e quindi i possibili valori di X p(0) = 1/25, p(5) = 4/25, d)

µX¯

=

2 σX ¯

=

p(1) = 2/25, p(6) = 3/25,

p(2) = 3/25, p(7) = 2/25,

p(3) = 4/25, p(8) = 1/25.

p(4) = 1/25,

1 100 (2 + 3 · 2 + 4 · 3 + 5 · 4 + 4 · 5 + 3 · 6 + 2 · 7 + 8) = = 4≡µ 25 25 1 100 (16 + 2 · 9 + 3 · 4 + 4 + 4 + 3 · 4 + 2 · 9 + 16) = = 4 ≡ σ 2 /2 . 25 25

7.7. I pacchi da sei bottiglie di acqua minerale confezionati da uno stabilimento hanno un peso medio di 9, 3 Kg., con varianza σ 2 = 0, 4 Kg2 . Calcolare la probabilit`a che un campione di n = 20 pacchi proveniente dallo stabilimento abbia un peso totale maggiore di 184 Kg. Soluzione. La distribuzione campionaria del peso medio di ogni pacco ha valor medio E{µn } = µ = 9.3 Kg e varianza σn2 = σ 2 /n = 0.4/20 = 0.02 Kg2 . La probabilit`a richiesta `e uguale a quella che un singolo pacco abbia un peso maggiore di 184/20 = 9.2 Kg. e si calcola come µ

9.2 − E{µn } IP Zn ≥ σn



= IP(Zn ≥ −0.7071) =

1 1 + erf(0.7071) ' + 0.26 = 0.76 . 2 2

7.8. Due fornitori riforniscono lo stesso negozio di CD; il primo ne fornisce il 70%, e il secondo il 30% del totale. Da un’indagine campionaria della ditta acquirente risulta che il 94% dei CD del primo fornitore ha un diametro maggiore di 12.45 cm. e il 10% maggiore di 12.58 cm. Inoltre, l’8% dei CD del secondo fornitore ha un diametro minore di 12.45 cm. e il 95% `e minore di 12.6 cm. Assumendo che la distribuzione dei diametri dei CD sia normale, a) determinare la percentuale dei CD ricevuti dal negozio con diametro compreso tra 12.4 e 12.6 cm. b) avendo venduto un CD con un diametro non compreso tra 12.4 e 12.6 cm., qual’`e la probabilit`a che quel CD provenga dal secondo fornitore? Soluzione. a) Occorre anzitutto determinare la media e la varianza delle distribuzioni campionarie normali dei CD ricevuti dai due fornitori. Se X `e la variabile casuale che indica il diametro, e Z quella standardizzata, dai dati del problema si ha che per quelli del primo fornitore: µ



µ



12.45 − µ1 12.45 − µ1 = 0.5 − erf σ1 σ1 ¶ µ ¶ µ 12.58 − µ1 12.58 − µ1 = 0.5 − erf 0.10 = IP(X ≥ 12.58) = IP Z ≥ σ1 σ1 0.94 = IP(X ≥ 12.45) = IP Z ≥

7.6 – Problemi risolti

ossia:

201

µ



µ1 − 12.45 = 0.44 ; σ1 Dalla Tabella di erf (z) si trova: erf

µ

erf

12.58 − µ1 σ1



= 0.40.

µ1 − 12.45 = 1.56 σ1 12.58 − µ1 = 1.285 σ1 e risolvendo il sistema si ricava: µ1 = 12.5213 , σ1 = 0.0457. Analogamente, dai dati campionari sui CD del secondo fornitore, si ricava: ¶

µ

µ

12.45 − µ2 12.45 − µ2 0.08 = IP(X ≤ 12.45) = IP Z ≤ = 0.5 + erf σ2 σ2 µ ¶ µ ¶ 12.6 − µ2 12.6 − µ2 0.95 = IP(X ≤ 12.6) = IP Z ≤ = 0.5 + erf σ2 σ2 ossia: µ ¶ µ ¶ 12.6 − µ2 µ2 − 12.45 = 0.42 ; erf = 0.45. erf σ2 σ2 Dalla Tabella di erf (z) si trova:



µ2 − 12.45 = 1.41 σ2 12.6 − µ2 = 1.645 σ2 e risolvendo il sistema si ricava: µ2 = 12.519 , σ1 = 0.049. Definiamo ora gli eventi: E = {12.4 cm. ≤ X ≤ 12.6 cm.}; F1 = {CD del primo f ornitore}; F2 = {CD del secondo f ornitore} e calcoliamo: µ



µ



µ



µ



12.6 − µ1 12.4 − µ1 IP(E|F1 ) = erf − erf σ1 σ1 = erf(1.7221) + erf(2.654) ' 0.4575 + 0.496 = 0.9535 12.6 − µ2 12.4 − µ2 − erf σ2 σ2 = erf(1.653) + erf(2.4285) ' 0.45 + 0.4924 = 0.9424.

IP(E|F2 ) = erf

La probabilit`a totale che i CD abbiano diametro compreso tra 12.4 e 12.6 cm. `e IP(E) = IP(F1 )IP(E|F1 )+IP(F2 )IP(E|F2 ) = 0.7·0.9537+0.3·0.9424 = 0.95017 ' 95% . b) L’evento E 0 = {X 6∈ (12.4, 12.6)} ha probabilit`a IP(E 0 ) = 1 − IP(E) = 0.05, e inoltre: IP(E 0 |F1 ) = 1 − IP(E|F1 ) = 0.0465 ;

IP(E 0 |F2 ) = 1 − IP(E|F2 ) = 0.0576.

La probabilit`a ”a posteriori” che `e richiesta vale dunque: IP(F2 |E 0 ) =

0.30 · IP(E 0 |F2 ) = 0.3467 . 0.70 · IP(E 0 |F1 ) + 0.30 · IP(E 0 |F2 )

202

DISTRIBUZIONI CAMPIONARIE

STIME DI PARAMETRI Dopo aver precisato le propriet`a di due tra le statistiche campionarie pi` u importanti, ossia la media (7.2) e la varianza (7.3), in questo Capitolo ci occupiamo delle metodologie che, utilizzando i dati desunti dalla osservazione di un campione della popolazione, consentono di determinare i valori pi` u attendibili da attribuire ai parametri incogniti θi presenti nel modello statistico che `e stato adottato per la popolazione stessa. I metodi di stima che possiamo sviluppare sono di due tipi: • stima puntuale, se si utilizza una statistica campionaria Gn = g(X1 , . . . , Xn ) con l’obiettivo di determinare il valore corretto di un parametro incognito ϑ della popolazione; • stima per intervalli di confidenza se, oltre al valore approssimato del parametro incognito da stimare, si precisa anche il grado di approssimazione della stima puntuale effettuata, determinando la probabilit`a che il valore stimato appartenga a un prefissato intervallo. Nei due paragrafi che seguono sono illustrate le modalit`a con cui si perviene a questi due tipi di stima parametrica.

8.1

Stima puntuale

Una statistica campionaria Gn = g(X1 , . . . , Xn ), utilizzata per stimare il valore incognito di un parametro θ del modello statistico della popolazione, si chiama stimatore puntuale di ϑ. Avendo a disposizione le realizzazioni (x1 , . . . , xn ) di un campione, sono molti gli stimatori puntuali che possiamo definire. Per esempio: se ϑ `e un valor medio, possiamo scegliere come suo stimatore il riassunto (7.2), oppure la mediana (6.3) della distribuzione di frequenze nel campione esaminato. Se ϑ `e una varianza, due suoi stimatori possono essere la statistica (7.3), oppure quella “corretta” (7.14). Quale statistica scegliere, per avere i risultati pi` u attendibili? Il criterio da seguire nella scelta si basa sulla verifica che lo stimatore abbia ben definite propriet`a, che sono precisate dalle definizioni che seguono. 203

204

STIME DI PARAMETRI

• Stimatore corretto. La statistica Gn `e uno stimatore corretto, o imparziale, o non distorto (“unbiased”) di θ se il suo valore atteso coincide con il valore teorico del parametro da stimare, per qualsiasi legge probabilistica compatibile con il modello statistico della popolazione: E{Gn } = θ,

∀ P (x, θ) ∈ P.

(8.1)

• Stimatore consistente. La statistica Gn `e uno stimatore consistente “in probabilit`a” se, per qualsiasi ϑ compatibile con il modello statistico, esso converge al valore teorico ϑ con probabilit`a 1 quando la numerosit` a del campione tende ad infinito: lim IP(|Gn − ϑ| ≤ ²) = 1, ∀² > 0. (8.2) n→∞

Gn `e invece consistente “in media quadratica” se per n → ∞ si annulla il suo errore quadratico medio: lim E{(Gn − ϑ)2 } = 0

(8.20 )

n→∞

e in tal caso `e anche consistente in probabilit`a. Se Gn `e uno stimatore corretto, il suo errore quadratico medio coincide con la varianza σ 2 (Gn ). Pertanto `e anche consistente (in media quadratica e in probabilit`a) se la varianza della sua distribuzione campionaria tende a zero per n → ∞: lim σ 2 (Gn ) = 0. (8.200 ) n→∞

(1)

(2)

• Stimatore efficiente. Scelti due stimatori Gn e Gn entrambi corretti, (1) diciamo che Gn `e lo stimatore pi` u efficiente tra i due se ha una distribuzione campionaria con una varianza minore di quella della distribuzione campionaria (2) di GN : 2 (2) σ 2 (G(1) n ) ≤ σ (Gn )

(8.3)

per ogni numerosit`a n del campione e per ogni valore teorico ϑ del parametro da stimare. Tenuto conto delle precedenti propriet`a di una statistica campionaria, siamo ora in grado di enunciare il seguente: CRITERIO DI STIMA PUNTUALE: Una statistica Gn (X1 , . . . , Xn ) `e il miglior stimatore di ϑ se `e il pi` u efficiente nell’insieme degli stimatori corretti e consistenti. Il valore ϑˆ = gn (x1 , . . . , xn ) del miglior stimatore, calcolato utilizzando le n determinazioni xi del campione, `e la stima ottima del parametro ϑ.

8.1 – Stima puntuale

8.1.1

205

Stima puntuale di medie e di varianze

Sulla base del criterio appena enunciato, non `e difficile definire la stima ottima per le medie e per le varianze di una popolazione di infiniti elementi, descritta da un modello statistico normale. Riguardo al valor medio, i risultati ricavati nel Capitolo precedente ed espressi dalle (7.4) e (7.6) mostrano che la media campionaria µn definita dalla (7.2) `e uno stimatore corretto e consistente (sia in probabilit`a che in media quadratica) della media teorica µ. Ma essa `e anche il pi` u efficiente tra gli stimatori corretti e consistenti. Limitiamoci a chiarire quest’ultima affermazione con due esempi. 1). Dato un campione estratto da una popolazione con media µ e varianza σ 2 , consideriamo come statistica Gn una generica combinazione lineare delle variabili casuali indipendenti X1 , . . . , Xn : Gn =

n X

ai Xi

n X

in cui

i=1

ai = 1

(8.4)

i=1

e con almeno due coefficienti ai che siano diversi da 1/n (perch´e altrimenti Gn coinciderebbe con la media campionaria µn ). Il valore atteso della statistica (8.4) vale: n n E{Gn } =

X

ai E{Xi } =

i=1

X

ai µ = µ

i=1

e quindi anche Gn `e uno stimatore non distorto della media µ. Ricordando i calcoli gi`a effettuati nel §3.1.1, la sua varianza vale σ 2 (Gn ) =

n X

a2i σ 2 (Xi ) =

i=1

n X

a2i σ 2

i=1

e si pu`o anche scrivere σ 2 (Gn ) = σ 2

n µ X

ai −

i=1

1 1 + n n

¶2

= σ2

n µ X

ai −

i=1

1 n

¶2

+

σ2 > σn2 n

perch´e per almeno due coefficienti ai la differenza ai −1/n `e diversa da zero. Dunque la varianza di Gn `e sempre maggiore della varianza σn2 della media campionaria µn , e per la (8.3) si deduce che µn `e pi` u efficiente della statistica (8.4). Inoltre, σ 2 (Gn ) `e maggiore di zero per qualsiasi numerosit` a del campione, e tale che lim σ 2 (Gn ) = σ 2

n→∞

∞ X

a2i > 0.

i=1

Quindi Gn non `e nemmeno uno stimatore consistente della media µ. / 2). La mediana x ˆ di una distribuzione campionaria di frequenze, definita nella (6.3), `e anch’essa uno stimatore non distorto di µ, e si pu`o calcolare che per n >> 1 ha una varianza che vale: π 2 σ . σ 2 (ˆ x) = 2n

206

STIME DI PARAMETRI

Dunque x ˆ `e anche uno stimatore consistente, perch`e la sua varianza tende a zero per n → ∞. Tuttavia, per n finito quest’ultima `e maggiore della varianza (7.5) della distribuzione campionaria di µn , e quindi µn `e pi` u efficiente di x ˆ. / Poich´e si pu`o dimostrare che µn `e pi` u efficiente di qualsiasi stimatore della media, si pu`o concludere che la statistica (7.2) `e il miglior stimatore di µ, e di conseguenza la stima ottima del valor medio vale : µ ˆ=

n 1X xi . n i=1

(8.5)

Riguardo alla stima puntuale della varianza di una popolazione normale, nel §7.4 si `e ricavato che il valor medio della distribuzione campionaria di Sn2 , definita nella (7.3), non soddisfa la condizione (8.1). Pertanto, la statistica Sn2 `e uno stimatore distorto della varianza σ 2 della popolazione. Al contrario, in un campionamento con ripetizione la statistica “corretta” (7.14) soddisfa entrambe le propriet`a di non distorsione e di consistenza perch´e, ricordando i risultati gi`a ottenuti nel §7.4.1, `e tale che σ2 σ2 E{Qn } = (n − 1) = σ 2 n−1 n−1 2 lim σ 2 (Sˆn2 ) = lim · σ 4 = 0. n→∞ n→∞ n − 1

E{Sˆn2 } =

Inoltre, anche per Sˆn2 si pu`o dimostrare che `e il pi` u efficiente tra gli stimatori corretti e consistenti della varianza. Si pu`o pertanto concludere che la statistica (7.14) `e il miglior stimatore della varianza σ 2 della popolazione, e che la sua stima ottima effettuata con campioni estratti con ripetizione vale: n 1 X σ ˆ = (xi − µn )2 . n − 1 i=1 2

(8.50 )

E’ proprio questo valore che viene restituito dalla maggior parte dei software di elaborazioni statistiche, quando si chiede la varianza di una assegnata serie di dati. Se il campione `e estratto in blocco da un numero N non elevato di elementi, ricordando la (7.19) la stima (8.5’) si corregge moltiplicandola per il coefficiente (N − 1)/N .

8.1.2

Stima di massima verosimiglianza

E’ un metodo di stima puntuale assai efficace e attendibile, che spesso pu`o essere applicato con successo per valutare qualsiasi parametro incognito (non necessariamente coincidente con le medie o le varianze) presente nel modello statistico che si adotta per studiare una popolazione. Il procedimento per ottenere una stima di massima verosimiglianza `e il seguente.

8.1 – Stima puntuale

207

Supponiamo che la popolazione sia descritta da un modello statistico con densit`a f (x, ϑ) dipendente da un parametro incognito ϑ ∈ Θ ⊂ IR, ed occorra stimare ϑ con l’analisi di una statistica campionaria Gn , di cui sono note n osservazioni indipendenti x1 , x2 , . . . , xn . Queste osservazioni sono le realizzazioni di n variabili casuali indipendenti: Xi , i = 1, . . . , n, ciascuna con densit`a f (xi , ϑ). Poich`e sono indipendenti, la loro densit`a di probabilit`a congiunta vale, come detto nel Capitolo 3: L(ϑ; x1 , . . . , xn ) = f (x1 , ϑ)f (x2 , ϑ) · · · f (xn , ϑ). (8.6) Questa densit`a, interpretata come una funzione ordinaria della variabile reale ϑ e dipendente dagli n parametri xi , `e detta verosimiglianza per la realizzazione x = {x1 , .., xn } del campione. Si chiama stima di massima verosimiglianza per il parametro ϑ quel valore (se esiste) della variabile indipendente, per cui la funzione L(ϑ; x1 , . . . , xn ) ha un massimo nel dominio di interesse Θ del parametro da stimare. Questo valore si indica con M LE(ϑ) (Maximum Likelihood Estimation), e deve soddisfare la condizione: L[ϑ = M LE(ϑ); x1 , . . . , xn ] = sup L(ϑ; x1 , . . . , xn ). ϑ∈Θ

Se per qualsiasi realizzazione del campione la verosimiglianza L(ϑ; x1 , . . . , xn ) ha un massimo in Θ, e se L(ϑ; x1 , . . . , xn ) `e derivabile rispetto a ϑ, allora la stima di massima verosimiglianza M LE(ϑ) `e un suo punto di stazionariet`a che soddisfa l’equazione: dL(ϑ; x)/dϑ = 0. Poich´e L(ϑ; x) non `e identicamente nulla in Θ, quest’ultima equazione si pu`o anche scrivere: n d d d X log L(ϑ; x) = log[f (ϑ; x1 ) · · · f (ϑ; xn )] = log f (ϑ; xi ) = 0 dϑ dϑ dϑ i=1

ed effettuando la derivata si ricava la seguente equazione di verosimiglianza: n X ∂f (ϑ, xi ) i=1

∂ϑ

·

1 = 0. f (ϑ, xi )

(8.7)

Per la maggior parte dei modelli statistici di uso pi` u frequente non `e difficile verificare che i punti di stazionariet`a che soddisfano la (8.7) corrispondono effettivamente a un massimo di L(ϑ; x), per cui la soluzione della equazione di verosimiglianza (supposto che esista e sia unica in Θ) fornisce la stima M LE(ϑ), espressa in termini delle osservazioni xi rilevate nel campione. Se il parametro incognito ϑ `e il valor medio µ di una popolazione di infiniti elementi, si pu`o anche dimostrare che la stima di massima verosimiglianza del valor medio coincide con la media campionaria µn e di conseguenza, per quanto si `e visto nel paragrafo precedente, fornisce la stima ottima del valor medio della popolazione. Verifichiamo questa sua propriet`a nell’ipotesi che siano state fatte n osservazioni su una popolazione cui si attribuisce un modello statistico normale N (ϑ, σ 2 ). Ogni osservazione ha una distribuzione "

#

(xi − ϑ)2 1 , f (xi , ϑ) = √ exp − 2σ 2 σ 2π

i = 1, . . . , n

208

STIME DI PARAMETRI

e la funzione di verosimiglianza vale: #

"

n Y

#

"

n X 1 1 (xi − ϑ)2 (x − ϑ)2 √ exp − i 2 L(ϑ; x) = = exp − . 2σ 2σ 2 (2πσ 2 )n/2 i=1 σ 2π i=1

Per determinare il suo punto di massimo calcoliamo le derivate prime: "

#

(xi − ϑ)2 df (xi , ϑ) 1 xk − ϑ xk − ϑ exp − f (xi , ϑ) = √ · = 2 2 dϑ σ 2σ σ2 σ 2π per cui l’equazione di verosimiglianza (8.7) si scrive: n 1 X (xi − ϑ) = 0. σ 2 i=1

Poich`e σ 2 > 0, si ricava: x1 + x2 + . . . + xn − nϑ = 0, da cui M LE(ϑ) =

1 (x1 + x2 + . . . + xn ) = µn . n

Al contrario, con calcoli del tutto analoghi si pu`o mostrare che in un modello N (µ, ϑ) Normale-2, la stima di massima verosimiglianza per ϑ non concide con la stima ottima della varianza che si ottiene invece con la statistica (7.14). Infatti, tenuto conto che le densit`a di ciascuna osservazione Xi del campione sono #

"

1 (xi − µ)2 f (xi , ϑ) = √ , exp − 2ϑ 2πϑ le loro derivate valgono: "

1 (xi − µ)2 df (xi , ϑ) =√ exp − dϑ 2ϑ 2πϑ

#"

#

(xi − µ)2 (xi − µ)2 − ϑ 1 − = · f (xi , ϑ) 2ϑ2 2ϑ 2ϑ2

e l’equazione di verosimiglianza per ϑ `e in tal caso: "

#

n n 1 X 1 X 2 [(x − µ) − ϑ] = (xi − µ)2 − nϑ = 0. i 2ϑ2 i=1 2ϑ2 i=1

La sua soluzione `e: M LE(ϑ) =

n 1X (xi − µ)2 n i=1

e coincide con la varianza campionaria (7.2) che `e una stima distorta della varianza teorica σ 2 . Questo metodo di stima puntuale `e comunque particolarmente efficace quando si devono determinare parametri incogniti che non siano la media o la varianza della

8.1 – Stima puntuale

209

distribuzione teorica ipotizzata nel modello statistico. I due esempi che seguono illustrano la sua applicazione per questo tipo di stime. Esempio 8.1

Si vuole stimare il valore del parametro c ∈ IR nel modello statistico esponenziale del tipo E(λ + c) ∼ f (x, c) = (λ + c)e−(λ+c)x , x≥0 che si attribuisce a una popolazione dalla quale `e stato estratto, con ripetizioni, un campione di numerosit`a n. Definita la funzione di verosimiglianza (8.6) con ϑ = c, le derivate delle densit`a f (xi , c) valgono: df (xi , c) = e−(λ+c)xi − xi (λ + c)e−(λ+c)xi = dc e di conseguenza l’equazione di verosimiglianza `e n µ X i=1



µ



1 − xi f (xi , c) λ+c

µ



n X 1 n 1 − xi = − xi = n − µn = 0. λ+c λ + c i=1 λ+c

La stima di massima verosimiglianza per il parametro c `e pertanto: 1 M LE(c) = − λ. µn Si noti che M LE(c) = 0 implica: µn = 1/λ, e questo risultato verifica che la stima di massima verosimiglianza per il valor medio µ = 1/λ di una popolazione con modello esponenziale E(λ) coincide con la media campionaria µn /. Esempio 8.2

Si estrae con ripetizioni un campione di numerosit` a n da una popolazione avente un carattere X con valori in (0, 1], al quale si decide di assegnare un modello statistico descritto dalla densit`a ½ (1 + b)xb per x ∈ (0, 1] fX (x, b) = 0 altrove, con b ∈ IR parametro incognito. Per stimarlo, osserviamo che ogni elemento Xi del campione ha densit`a f (xi , b) = (1 + b)xbi la cui derivata vale ¶ µ df (xi , b) 1 = xbi [1 + (1 + b) log xi ] = + log xi f (xi , b). db 1+b L’equazione di verosimiglianza (8.7) si scrive: n µ X i=1



n X 1 n n + log xi = + log xi = + log(x1 x2 · · · xn ) = 0, 1+b 1 + b i=1 1+b

e risolvendola rispetto a b si ottiene: M LE(b) = −1 −

n ./ log(x1 x2 · · · xn )

210

8.1.3

STIME DI PARAMETRI

Metodo dei momenti

Si tratta di un metodo di stima puntuale che `e concettualmente assai semplice, e sebbene in generale non fornisca risultati molto precisi, `e molto utile per ottenere simultaneamente la stima di pi` u di un parametro incognito presente nel modello statistico. Precisamente, assumiamo che il modello di popolazione sia descritto da una densit`a fX (x; ϑ1 , ϑ2 , . . . , ϑM ) dipendente da M parametri incogniti, e che questa sia dotata dei suoi primi M momenti: E{X q }(ϑ1 , ϑ2 , . . . , ϑM ),

q = 1, . . . , M

noti come assegnate funzioni degli M parametri incogniti. Estratto dalla popolazione un campione di numerosit` a n, consideriamo gli M mo(q) menti campionari di ordine q, gi`a definiti nella (7.0). Indichiamo con gn (x1 , . . . , xn ) le realizzazioni di questi M momenti campionari, che possiamo calcolare utilizzando i dati xi . Imponendo che ciascuna realizzazione uguagli il corrispondente momento della densit`a teorica, si perviene al seguente sistema di M equazioni nelle M incognite ϑq : q = 1, . . . , M :

E{X q }(ϑ1 , ϑ2 , . . . , ϑM ) = gn(q) (x1 , . . . , xn )

(8.8)

la cui soluzione (se esiste, e se `e unica in Θ) fornisce la stima degli M parametri incogniti, espressa in termini degli n dati osservati. Al posto di qualche momento campionario del tipo (7.1) si pu`o anche utilizzare, per migliorare l’approssimazione dei risultati, i corrispondenti momenti campionari centrali, come per esempio la stima ottima (8.5) della varianza. Esempio 8.3

Si assume che il carattere X di una popolazione possa avere valori uniformemente distribuiti in un intervallo di IR da determinare. Il modello statistico per X `e perci`o quello uniforme R(ϑ1 , ϑ2 ) avente come parametri incogniti gli estremi di tale intervallo, ed `e descritto dalla densit`a costante (2.28) con momenti del primo e secondo ordine che valgono: 1 E{X} = (ϑ1 + ϑ2 ), 2

1 E{X 2 } = (ϑ21 + ϑ1 ϑ2 + ϑ22 ). 3

Per stimare i due estremi incogniti, si estrae un campione casuale con numerosit` a n = 10 dal quale si ricavano i seguenti dati xi : 1.4,

3.05,

1.9,

0.45,

2.2,

4.1,

3.5,

2.7,

4.25,

0.95.

La media campionaria e il momento campionario di ordine 2 risultano rispettivamente: gn(1) ≡ µn =

1 X xi = 2.45, 10 i

gn(2) =

1 X 2 x = 7.523. 10 i i

8.2 – Stima per intervalli

211

Applichiamo il metodo dei momenti, scrivendo la (8.8) per q = 1, 2. Si ricava il sistema: ϑ1 + ϑ2 = 2 · 2.45 ϑ21 + ϑ1 ϑ2 + ϑ22 = 3 · 7.523 la cui soluzione fornisce: ϑ1 = 0.3143 ,

ϑ2 = 4.8857. /

Esempio 8.4

Si ha motivo di ritenere che un parametro X, presente nel modello matematico di un fenomeno fisico aleatorio, possa assumere casualmente valori compresi nell’intervallo [0, 1], con legge non uniforme, bens´ı soddisfacente un modello statistico Beta B(b, c), descritto dalla densit`a che `e definita nella (2.53) del Capitolo II. Essa dipende dai due parametri incogniti b, c > −1, che ci proponiamo di stimare mediante l’analisi di un campione costituito, per esempio, dai risultati xi di n osservazioni indipendenti del fenomeno fisico oggetto di studio. Poich`e il valor medio e la varianza della distribuzione teorica sono funzioni note dei due parametri incogniti definite nella (2.54), conviene usare i dati del campione per calcolare le stime ottime µ ˆ, σ ˆ 2 della media e della varianza, e uguagliarle alle loro espressioni teoriche. Si ricava in tal modo il seguente sistema:    µ ˆ         σ ˆ2

=

b+1 b+c+2

=

(b + 1)(c + 1) (b + c + 2)2 (b + c + 3)

che ha come soluzione: µ ˆ2 (1 − µ ˆ) − (1 + µ ˆ) σ ˆ2 2 µ ˆ(1 − µ ˆ) c = µ ˆ−2+ 2 σ ˆ b =

con µ ˆeσ ˆ 2 definite rispettivamente dalle (8.5) e (8.5’) /.

8.2

Stima per intervalli

La stima ottima ϑˆ di un parametro ϑ che abbiamo ricavato nel paragrafo precedente, si determina esaminando i dati forniti da uno dei tanti campioni che casualmente `e possibile estrarre dalla popolazione. Ci`o significa che il valore empirico ottenuto `e da considerare approssimato, perch´e assai raramente esso coincider`a con il vero valore del parametro.

212

STIME DI PARAMETRI

Se per`o si conosce la distribuzione campionaria della statistica usata per stimare questo parametro, siamo in grado di valutare l’errore commesso, e di definire l’intervallo [ϑmin ≤ ϑˆ ≤ ϑmax ] che, con probabilit`a γ ∈ [0, 1] molto prossima ad 1, contiene il vero valore del parametro in questione. Questo metodo di stima, che evidentemente migliora e completa i risultati che si ottengono con una semplice stima puntuale, si chiama stima per intervalli. L’intervallo [ϑmin , ϑmax ] tale che IP(ϑmin ≤ ϑ ≤ ϑmax ) ≥ γ

∀ϑ∈Θ

si chiama intervallo di confidenza o intervallo fiduciario, i suoi estremi sono i limiti fiduciari, e γ `e il livello fiduciario o probabilit` a fiduciaria, che si sceglie in anticipo e quantifica, per cos´ı dire, il “nostro grado di accettazione” dell’errore commesso nella stima. Espressa in percentuale, la probabilit`a γ esprime anche il livello di significativit`a della stima effettuata. Fissato γ, quanto pi` u piccolo `e l’intervallo di confidenza, tanto migliore `e l’approssimazione della stima puntuale effettuata. La stima intervallare pi` u frequente usa un intervallo fiduciario simmetrico, centrato ˆ sul valore empirico ϑ calcolato, e prende anche il nome di stima a due code se la condizione: IP(ϑˆ − δ ≤ ϑ ≤ ϑˆ + δ) ≥ γ ∀ϑ∈Θ implica l’esclusione delle regioni pi` u esterne (le “code”) di una distribuzione di tipo normale. In altri casi, `e invece preferibile effettuare stime a una coda, che sono definite da condizioni del tipo: IP(ϑ ≤ ϑmax ) ≥ γ,

IP(ϑmin ≤ ϑ) ≥ γ

∀ϑ∈Θ

in cui gli intervalli di confidenza sono limitati solo a destra o a sinistra. La definizione delle distribuzioni campionarie delle medie e delle varianze che `e stata effettuata nei §7.3 e 7.4 del Capitolo precedente, ci permette di determinare per questi due parametri le stime intervallari che seguono.

8.2.1

Intervalli di confidenza per la media

8.2.1.1. Popolazione con varianza nota. Supponiamo dapprima che la popolazione da cui `e stato estratto il campione abbia una distribuzione teorica con media µ incognita da determinare, e varianza nota σ 2 . Se la popolazione ha un modello statistico Normale N (θ, σ 2 ), anche la media campionaria µn ha una distribuzione normale, che per le (7.4) e (7.5’) ha media µ e √ a n del campione. deviazione standard σ/ n, per qualunque valore della numerosit` Se la popolazione ha una distribuzione teorica che non `e normale, per il Teorema Limite Centrale la distribuzione campionaria delle medie ha ancora legge normale N (µ, σ 2 /n) se la numerosit`a del campione `e sufficientemente elevata (in pratica, se n ≥ 30).

8.2 – Stima per intervalli

213

In entrambi i casi, fissato il livello fiduciario γ e introdotta la variabile normale standard µn − µ √ ∼ N (0, 1), Zn = (8.9) σ/ n si pu`o determinare un intervallo di confidenza simmetrico, centrato sul valore empirico µn della media campionaria, calcolando il valore di z per cui si ha: µ

σ σ IP µn − √ z ≤ µ ≤ µn + √ z n n



µ



σ = IP |µn − µ| ≤ √ z n = IP(|Zn | ≤ z) = 2 erf (z) = γ. (8.10)

Questo valore di z che soddisfa la (8.10), e che indichiamo con zq ≡ z(1+γ)/2 (v. il grafico a) di Fig. 8.1) `e il quantile di ordine q = (1 + γ)/2 della legge Normale standard, e viene chiamato coefficiente fiduciario. Ricordando che il quantile zq di ordine q della distribuzione N (0, 1) `e quel valore di Z tale che FZ (zq ) =

1 + erf(zq ) = q , 2

esso si pu`o ricavare dalla Tabella di erf(z) riportata in Appendice, ricercando nelle sue colonne il numero pi` u prossimo al valore q − 0.5 (ovvero al valore γ/2), eventualmente interpolando tra due valori vicini.

N (0,1)

N (0,1) g

g

1 g 2

1 g 2 -z 1+ g 2

0

z 1+ g

1 g

z

0

2

a) stima con intervallo simmetrico

zg

z

b) stima a una coda

Figura 8.1 - Intervalli di confidenza

Calcolati il valore empirico µn e il coefficiente fiduciario zγ , l’intervallo di confidenza simmetrico per una stima al livello fiduciario γ risulta pertanto: σ σ µn − √ z(1+γ)/2 ≤ µ ≤ µn + √ z(1+γ)/2 n n

(8.11)

ed ha come estremi i limiti fiduciari: σ µn ± √ z(1+γ)/2 . n

(8.110 )

In modo analogo si pu`o procedere per determinare i limiti superiori o inferiori di intervalli di confidenza per le stime a una coda. Ad esempio, il valore zγ di z che

214

STIME DI PARAMETRI

soddisfa la seguente condizione: ¶

µ

µ



σ σ IP µ ≤ µn + √ z = IP µn − µ ≥ −z √ = IP(Zn ≥ −z) = n n = 1 − IP(Zn ≤ −z) = 1 − [1/2 + erf (−z)] = 1/2 + erf (z) = γ `e il quantile di ordine q = γ della legge N (0, 1) e definisce il limite fiduciario superiore per il seguente intervallo di confidenza a una coda: σ −∞ < µ ≤ µn + √ zγ (8.12) n che `e mostrato nel grafico b) di Fig. 8.1. Esso si determina ricercando nella Tabella di erf(z) il valore di z che corrisponde a una probabilit`a uguale a γ − 1/2. Allo stesso modo si determina il limite fiduciario inferiore dell’intervallo di confidenza: σ µn − √ zγ ≤ µ < +∞ , (8.13) n dove zγ `e ancora il quantile di ordine γ di N (0, 1), soddisfacente la condizione: µ



µ

σ σ IP µ ≥ µn − √ z = IP µn − µ ≤ z √ n n



= IP(Zn ≤ z) = 1/2 + erf (z) = γ.

OSSERVAZIONE 8.1 I limiti fiduciari ora determinati si prestano anche alla risoluzione dei seguenti problemi di stima, collegati a quello della determinazione di un intervallo di confidenza simmetrico. • Determinazione del livello fiduciario. Fissato lo scarto σ δ = |µn − µ| = √ z(1+γ)/2 n nella stima del valor medio µ attraverso il risultato empirico µn , la probabilit`a fiduciaria con cui si pu`o affermare che µ = µn ± δ `e data dal valore di γ che soddisfa la condizione: √ n z(1+γ)/2 = δ, σ il quale per la (8.10) vale: Ã √ ! n γ = 2 erf z = δ . (8.14) σ a del campione. Fissato il livello fiduciario γ, • Determinazione della numerosit` la numerosit`a del campione che `e necessaria per sostenere che il valor medio stimato vale µ = µn ± δ si calcola imponendo la condizione: σ z(1+γ)/2 √ ≤ δ n

8.2 – Stima per intervalli

215

con z(1+γ)/2 che soddisfa la (8.10). Da questa si ottiene: µ

n ≥ z(1+γ)/2

σ δ

¶2

.

(8.15)

8.2.1.2 Popolazione con varianza sconosciuta. Supponiamo ora che la popolazione da cui `e stato estratto il campione abbia una distribuzione teorica in cui anche la varianza σ 2 , in aggiunta alla media µ da determinare, sia sconosciuta. In tal caso, per effettuare una stima intervallare di µ ci si basa sulla densit`a t-Student illustrata nel §2.3.6 del Capitolo II, alla quale fa riferimento il seguente: TEOREMA 8.1 (t-Student) Se da una popolazione normalmente distribuita si estraggono campioni casuali di numerosit`a n con media campionaria µn e varianza campionaria corretta Sˆn2 , allora la variabile casuale √ (µn − µ) n (8.16) Tn = Sˆn ha una distribuzione t-Student con ν = n − 1 gradi di libert`a. Ne segue che se la popolazione ha una distribuzione teorica normale, una volta determinate le realizzazioni delle due statistiche campionarie (7.2) e (7.14) con numerosit` a n qualsiasi, una stima intervallare simmetrica per µ con livello fiduciario γ si potr`a effettuare determinando quel valore tq di t che soddisfa la condizione: Ã

Sˆn Sˆn IP µn − √ t ≤ µ ≤ µn + √ t n n

!

Ã

!

Sˆn = IP |µn − µ| ≤ √ t n = IP(|Tn | ≤ t) = γ.

= (8.17)

Il coefficiente fiduciario tq per questa stima a due code `e il quantile della distribuzione t-Student con ν = n − 1 gradi di libert`a, che lascia alla sua destra un’area uguale alla probabilit`a (1 − γ)/2. Esso si pu`o ricavare da una apposita Tabella dei quantili delle distribuzioni t-Student che `e riportata in Appendice, e per un prefissato grado di libert`a ν `e il valore che si trova nella colonna del quantile q =1−

1−γ 1+γ = . 2 2

(8.170 )

L’intervallo di confidenza simmetrico per una stima di µ al livello fiduciario γ `e pertanto: Sˆn Sˆn µn − √ tq ≤ µ ≤ µn + √ tq . (8.18) n n Si noti che i suoi limiti fiduciari si ottengono dalla (8.11’) sostituendo σ, ora incognito, con Sˆn (n qualsiasi), e il coefficiente zq con tq . In modo simile, si ricavano i

216

STIME DI PARAMETRI

seguenti intervalli di confidenza a una coda: Sˆn −∞ < µ ≤ µn + √ tq , n

Sˆn µn − √ tq ≤ µ < +∞ , n

(8.19)

i cui limiti fiduciari superiore o inferiore sono da determinare calcolando il coefficiente tq che `e ora il quantile della distribuzione t-Student con ν = n − 1 gradi di libert`a, con q = γ. Le formule (8.17)-(8.19) sono state ricavate nella ipotesi che la popolazione sia normalmente distribuita, e valgono anche per piccoli campioni (n < 30) estratti casualmente da questa. Se invece la popolazione non `e normalmente distribuita, non sono soddisfatte le ipotesi del precedente Teorema. In tal caso si pu`o per`o dimostrare che il Teorema 8.1 vale ancora per n sufficientemente grande, circostanza in cui, come si `e detto nel §3.2.6, la distribuzione t-Student tende alla legge Normale standard identificandosi con la variabile aleatoria Zn definita con la (8.9). Ne segue che le stime intervallari per la media di una popolazione con distribuzione diversa da quella normale si ottengono ancora, se la numerosit` a del campione `e sufficientemente elevata (n ≥ 30), calcolando i coefficienti fiduciari zγ che compaiono nelle (8.11)-(8.15), dopo aver sostituito in queste formule la deviazione standard incognita σ con il valore empirico della statistica campionaria Sˆn . Riportiamo qui, per comodit`a, le espressioni di Sˆn che si deducono dall’analisi della distribuzione campionaria delle varianze effettuata nel §7.4 del Capitolo VII. Se il campione di numerosit`a n `e estratto con ripetizione da una popolazione finita, oppure se la popolazione `e infinita, si ha r

Sˆn =

n Sn . n−1

(8.20)

Se il campione `e estratto senza ripetizione da una popolazione con un numero finito di N elementi, allora s N −1 n Sˆn = Sn , (8.21) N n−1 dove Sn `e la radice quadrata positiva della varianza campionaria (7.2): v u n u1 X Sn = t (Xi − µn )2 .

n

i=1

Esempio 8.5

La media e la deviazione standard del diametro di un campione di 200 utensili prodotti da una fabbrica sono rispettivamente µn = 0.824 cm e Sn = 0.042 cm. Nell’ipotesi che il campione sia stato estratto con ripetizione da un numero elevato di pezzi fabbricati, determinare: 1) i limiti fiduciari al 95% e al 99% per il diametro

8.2 – Stima per intervalli

217

medio dei tondini in produzione; 2) la numerosit` a n del campione che si dovrebbe esaminare per poter concludere, al livello fiduciario γ = 0.95, che l’errore nella stima della media `e inferiore a 0.001 cm. 1) Il campione `e estratto da una popolazione avente distribuzione non nota, con media e varianza pure sconosciute. La numerosit` a n `e sufficiente per asserire che i limiti fiduciari sono dati da Sˆn µn ± √ · zq 200 con Sˆn che per la (8.20) vale r

Sˆn =

200 · 0.042 = 0.04210 cm 199

e zq con q = (1 + γ)/2 si ricava dalla Tabella di erf(z). Al livello fiduciario γ = 0.95, si trova dalla Tabella che γ/2 = 0.475 = erf (1.96), e quindi zq = 1.96. Al livello γ = 0.99, si ha invece zq = 2.575, interpolando tra i valori pi` u vicini a γ/2 = 0.495. Si ottengono pertanto i seguenti risultati: 0.0421 · 1.96 = 0.824 ± 0.00583 cm. µ = 0.824 ± √ 200 0.0421 · 2.575 = 0.824 ± 0.00766 cm. µ = 0.824 ± √ 200

al livello γ = 0.95 : al livello γ = 0.99 :

2) Per stimare il valor medio con un errore inferiore a δ = 0.001, occorre che n soddisfi la condizione (8.15) con Sˆn = 0.0421 al posto di σ incognita. Al livello di fiducia del 95% si deve perci`o avere (arrotondando per eccesso perch´e n `e intero): µ

0.0421 n ≥ 1.96 · 0.001

¶2

= 6778. /

esempio 8.6

Dieci misurazioni della lunghezza di un oggetto danno come risultato una media µn = 4.38 cm e una deviazione standard Sn = 0.0036 cm. Si vuole determinare i limiti fiduciari al 95% e al 99% della lunghezza effettiva dell’oggetto. Il campione `e l’insieme di dieci prove ripetute e indipendenti consistenti nella misurazione della lunghezza dell’oggetto, e si pu`o considerare estratto con ripetizione dalla popolazione delle infinite misurazioni teoricamente possibili. In accordo con il Teorema di asintoticit`a per prove ripetute e indipendenti (v. §2.3.9 del Capitolo II), il modello statistico da adottare `e quello Normale-2, con media e varianza sconosciute. Poich`e abbiamo a disposizione un piccolo campione (n = 10), i limiti fiduciari per la media µ si calcolano usando la distribuzione t-Student con ν = n − 1 = 9 gradi di libert`a, e sono definiti dalla (8.18) con r

Sˆn =

10 · 0.0036 ' 0.0632 cm 9

218

STIME DI PARAMETRI

calcolato applicando la (8.20). Al livello fiduciario γ = 0.95 il quantile q dato dalla (8.17’) vale 1 + 0.95 q= = 0.975 2 e al livello fiduciario γ = 0.99: q=

1 + 0.99 = 0.995 . 2

La Tabella dei quantili della distribuzione t-Student con 9 gradi di libert`a (v. Appendice) fornisce rispettivamente i seguenti coefficienti fiduciari: tq = 2.262 e tq = 3.25. Pertanto, in applicazione della (8.18) si ricava che i limiti fiduciari per il valor medio della lunghezza dell’oggetto sono: al livello γ = 0.95 : al livello γ = 0.99 :

0.0632 µ = 4.38 ± √ · 2.262 = 4.38 ± 0.04516 cm. 10 0.0632 · 3.25 = 4.38 ± 0.06495 cm. / µ = 4.38 ± √ 10

Esempio 8.7

Da una popolazione di 200 voti in centesimi di un esame scolastico si estrae un campione casuale di 50 voti che ha media µn = 75 e varianza Sn2 = 100. Calcolare: 1) i limiti fiduciari al 95% per la stima della media dei voti; 2) il livello fiduciario con cui potremo affermare che tale media vale 75 ± 1. 1) Il campione `e estratto senza ripetizione da una popolazione finita con N = 200 elementi, con media e varianza sconosciute. Poich´e n > 30, possiamo calcolare i limiti fiduciari applicando la (8.11’) dopo aver sostituito, al posto di σ incognita, la stima corretta di Sˆn che questa volta `e data dalla (8.21). Il suo valore `e prossimo a quello della deviazione standard campionaria, e vale s

Sˆn =

50 200 − 1 · S2 = 200 50 − 1 n

r

199 · 100 = 10.0762. 196

Il coefficiente fiduciario zγ per γ = 0.95 vale zγ = 1.96 (v. l’Esempio 8.5 precedente). Pertanto i limiti fiduciari per la stima della media dei voti sono: µ = 75 ±

10.0762 √ · 1.96 == 75 ± 2.793. 50

2) Per valutare il livello fiduciario di una stima intervallare del valor medio con un errore non superiore a ±1, si applica la (8.14) con δ = 1 e Sˆn = 10.0762 al posto di σ. Si ricava allora: Ã √ ! 50 γ = 2 erf ' 2 erf (0.70) = 2 · 0.258 = 0.516 . 10.0762

8.2 – Stima per intervalli

219

Ci`o significa che una stima in cui si afferma che µ `e uguale al valore empirico con lo scarto massimo di una unit`a, ha soltanto il 51.6% di probabilit`a di essere vera. / Esempio 8.8

Con un montacarichi che ha un limite di sicurezza di 8200 kg si devono trasportare 25 casse, scelte a caso da un lotto ricevuto in ditta. Si sa che il peso medio di ciascuna cassa `e µ = 300 kg, con deviazione standard σ = 50 kg. Si vuole calcolare: 1) la probabilit`a che il peso delle 25 casse non superi il limite di sicurezza del montacarichi; 2) il numero massimo di casse che `e possibile caricare, se si vuole rimanere al di sotto del limite di sicurezza di 8200 kg. con una probabilit`a del 99.9%. 1) In questo problema si assume di conoscere i parametri µ e σ 2 del modello statistico per la popolazione delle casse, e poich´e non conosciamo il numero N di elementi della popolazione da cui `e stato estratto il campione di n = 25 casse, si intende che questo `e stato scelto da una popolazione infinita. La distribuzione campionaria delle medie dei pesi ha valor √ medio E(µn ) = µ = 300 kg e deviazione standard che per la (7.5’) vale σn = σ/ 25 = 10 kg. Si deve determinare la probabilit`a fiduciaria γ per un test a una coda sul peso delle 25 casse del campione, al quale si richiede di non superare il limite di sicurezza di 8200 kg. Questo limite di sicurezza `e raggiunto se ciascuna cassa ha un peso medio di µ∗n = 8200/25 = 328 kg. Quindi, la probabilit`a da calcolare `e γ = IP(µn < 328). Introducendo, al solito, la variabile standardizzata Zn =

µn − 300 µn − E(µn ) = , σn 10

al peso limite µ∗n di ciascuna cassa corrisponde il valore standardizzato z ∗ = 2.8. Si ricava dunque: γ = IP(µn < 328) = IP(Zn < 2.8) =

1 1 + erf(2.8) = + 0.4974 = 0.9974. 2 2

2) Nella seconda domanda `e invece fissato il livello fiduciario γ = 0.999, e si richiede il numero n di casse che soddisfa la condizione: µ

8200 P µn ≤ n



= 0.999

ovvero anche il valore zγ di Zn che soddisfa: IP(Zn ≤ zγ ) =

1 + erf(zγ ) = 0.999 . 2

Dall’esame della Tabella dei valori di erf(z) risulta: zγ = 3.1 per cui, ricordando l’espressione della variabile stardardizzata Zn , si ricava che deve essere: zγ = 3.1 =

8200/n − 300 √ . 50/ n

220

STIME DI PARAMETRI

Si ottiene perci`o la seguente equazione nella incognita n: √ 60n + 31 n − 1640 = 0 che ha soluzione n = 24, 76. Da essa si deduce che per non superare il limite di sicurezza con probabilit`a fiduciaria γ = 0.999, `e necessario caricare un numero massimo di 24 casse. / Esempio 8.9

Dall’analisi di 500 sferette da cuscinetto prodotte in uno stabilimento, si ricava che esse hanno un peso medio di 5.02 grammi, con deviazione standard σ = 0.30 gr. 1) Determinare la probabilit`a fiduciaria con cui si pu`o affermare che il peso medio delle sferette in produzione vale µ = 5.02 ± 0.02 gr. 2) Dai 500 elementi esaminati si estrae senza ripetizione un campione di n = 100 sferette. Calcolare la probabilit`a che questo campione abbia un peso complessivo compreso tra 496 e 500 gr., oppure maggiore di 510 gr. 1) Per il primo problema, si assume che il modello statistico per il peso delle sferette abbia varianza nota σ 2 = (0.3)2 = 0.09 gr2 , e media µ da stimare mediante i dati forniti da un campione di numerosit` a n = 500 estratto con ripetizione dalla popolazione degli elementi in produzione. Si richiede la probabilit`a fiduciaria γ per una stima intervallare di µ con uno scarto massimo δ = 0.02 gr. Essa si determina applicando la (8.14), e dalla Tabella di erf(z) si ricava: Ã√ ! 500 0.02 γ = 2 erf = 2erf (1.49) = 2 · 0.4319 = 0.8638. 0.30 2) Nel secondo problema, occorre determinare la distribuzione campionaria delle medie dei pesi, che risulta da un generico campione di n = 100 sferette estratto senza ripetizione da una popolazione di N = 500 elementi. Per il Teorema Limite Centrale, questa distribuzione campionaria `e ben approssimata dalla legge normale con valor medio E{µn } = µ = 5.02, e varianza da calcolare applicando la (7.7): σn2 =

σ 2 500 − 100 · = 7.2144 · 10−4 gr2 . 100 499

Si chiede di determinare le probabilit`a IP(4.96 ≤ µn ≤ 5) e IP(µn ≥ 5.10) che sono rappresentate dalle aree evidenziate in Fig. 8.2. La variabile casuale standardizzata Zn =

µn − E{µn } µn − 5.02 p = 2 0.027 σn

assume, in corrispondenza degli estremi richiesti per µn , i seguenti valori: µn = 4.96 : µn = 5 : µn = 5.10 :

z1 = −2.22 z2 = −0.74 z3 = 2.96

8.2 – Stima per intervalli

221

E{ m n } 4.9

4.96

5.1

5 5.02

mn

Figura 8.2

per cui le probabilit`a cercate sono: IP(4.96 ≤ µn ≤ 5) = IP(−2.22 ≤ Zn ≤ −0.74) = erf (2.22) − erf (0.74) = 0.2164 IP(µn ≥ 5.10) = IP(Zn ≥ 2.96) =

1 − erf (2.96) = 0.0015. / 2

Esempio 8.10

Da un campione di n = 100 votanti intervistati all’uscita dai seggi in un ballottaggio elettorale risulta che il 55% di essi si `e espresso a favore del candidato A. Si vuole determinare: 1) i limiti fiduciari al 95% e al 99% sulla percentuale di voti favorevoli al candidato A; 2) Il numero n di interviste necessarie per affermare, al livello fiduciario γ = 0.95, che il candidato sar`a eletto. L’universo costituito dall’elettorato attivo si suddivide in elettori favorevoli o contrari al nostro candidato A. Se indichiamo con p la probabilit`a (incognita) che l’elettore sia a lui favorevole, la popolazione degli elettori che hanno votato A `e distribuita con legge binomiale, avente una media E{ns } = 100p e varianza σ 2 (ns ) = 100p(1 − p), dove ns `e il numero di “successi” (voti a favore) riscontrati nel campione di elettori intervistati. Consideriamo tutti i possibili campioni di grandezza n = 100 estratti da questa popolazione, e valutiamo la distribuzione campionaria delle frequenze relative Y = ns /100. Nel §7.5 `e stato ricavato che anche Y ha una distribuzione binomiale, che si pu`o approssimare con una legge normale avente valor medio e deviazione standard date dalla (7.22): E{Y } = σY

=

E(ns ) =p 100 s p(1 − p) σ(ns ) = . 100 100

1) La prima domanda richiede una stima intervallare per la frequenza relativa Y di voti favorevoli, che effettuiamo introducendo la variabile standardizzata: Z=

Y −p Y −p =p . σY p(1 − p)/n

222

STIME DI PARAMETRI

Si deve determinare l’intervallo di confidenza: p − zq σY ≤ p ≤ p + zq σY con zq da calcolare per i livelli fiduciari richiesti usando la Tabella di erf(z), e precisamente: zq = 1.96 al livello γ = 0.95; zq = 2.58 al livello γ = 0.99. Dalle osservazioni sul campione ricaviamo che il valor medio della distribuzione delle frequenze relative di voti favorevoli `e E{Y } = p = 0.55, e la sua deviazione standard vale: r 0.55 · 0.45 σY = = 0.04975. 100 Si ottengono cos´ı i seguenti limiti fiduciari: al livello γ = 0.95 : al livello γ = 0.99 :

p = 0.55 ± 1.95 · 0.04975 = 0.55 ± 0.0975 p = 0.55 ± 2.58 · 0.04975 = 0.55 ± 0.128.

Dunque, arrotondando gli scarti alla seconda decimale, si conclude che al livello fiduciario γ = 0.95 il candidato avr` a una percentuale di voti che va dal 45% al 65%; al livello fiduciario γ = 0.99 avr`a una percentuale compresa tra il 42% e il 68%. 2) Il candidato sar`a eletto se Y > 0.50, e per stimare al livello di fiducia γ = 0.95 la probabilit`a che venga eletto, bisogna imporre che IP(Y > 0.50) = IP(Z > z0 ) =

1 − erf (z0 ) = 0.95 , 2

dove z0 `e il valore della variabile standardizzata per Y = 0.5, che scriviamo in funzione di n: √ 0.5 − 0.55 z0 = p = −0.1005 n. (8.22) 0.55 · 0.45/n Ricercando nella Tabella di erf(z) il valore z0 che soddisfa: erf (z0 ) = −0.45 e ricordando che erf (−z) = − erf (z), si ricava: z0 = −1.645. Se sostituiamo questo valore nella (8.22) si ottiene, arrotondando per eccesso: µ

n=

1.645 0.1005

¶2

∼ = 268.

Occorrerebbero pertanto 268 interviste per affermare, con un rischio di sbagliare limitato al 5%, che il candidato A vincer`a il ballottaggio. / Esempio 8.11

Un campione Auditel di 1000 spettatori di un programma televisivo `e costituito da na = 700 adulti e nb = 300 bambini. Dal rilevamento dei dati di ascolto di un programma di nuova produzione risulta che questo `e gradito da 280 adulti e da 240 bambini. Si vuole conoscere, ai livelli di fiducia γ = 0.95 e 0.99, i limiti fiduciari per il maggior gradimento del programma da parte dei bambini, rispetto a quello mostrato dagli adulti.

8.2 – Stima per intervalli

223

Si considerino due campioni che supponiamo statisticamente indipendenti: quello costituito dagli spettatori adulti e quello dei bambini. Le frequenze relative Ya e Yb con cui si riscontra il gradimento dello spettacolo nei due campioni sono rispettivamente: Ya =

280 = 0.4 = pa ; 700

Yb =

240 = 0.8 = pb . 300

Le distribuzioni campionarie di queste due frequenze relative, che indicano anche la percentuale pa , pb di gradimento del programma da parte dei due campioni, sono approssimabili (cfr. §7.5) con leggi normali aventi hanno valori medi E{Ya } = pa = 0.4 e E{Yb } = pb = 0.8. Le rispettive varianze valgono, per la (7.22): σa2 = σb2 =

pa (1 − pa ) 0.4 · 0.6 = = 0.000343 na 700 pb (1 − pb ) 0.8 · 0.2 = = 0.000533. nb 300

Definiamo ora la variabile casuale d(ω) = Yb − Ya che rappresenta la differenza tra la frequenza relativa di gradimento da parte dei bambini, e quella riscontrata negli adulti. Se d(ω) ha realizzazioni maggiori di zero, significa che il programma ha un maggior gradimento da parte dei bambini, e viceversa se d < 0. Dalle osservazioni sul campione si ha che il suo valor medio `e ovviamente E{d} = E{Yb } − E{Ya } = 0.4 , e la deviazione standard di questa distribuzione campionaria vale, per la (3.8) del Capitolo III: q √ σd = σa2 + σb2 = 0.000343 · 0.000533 = 0.0296. Una stima per intervalli del maggior gradimento da parte dei bambini si effettua calcolando il seguente intervallo di confidenza: E{d} − zq σd ≤ d ≤ E{d} + zq σd dove, al solito, zq `e il coefficiente fiduciario per la differenza standardizzata Z = (d − 0.4)/σd , e vale zq = 1.96 al livello γ = 0.95; zq = 2.58 al livello γ = 0.99. I limiti fiduciari per la differenza di gradimento ai livelli di fiducia richiesti sono allora: al livello γ = 0.95 : al livello γ = 0.99 :

d = 0.4 ± 1.96 · 0.0296 = 0.4 ± 0.058 d = 0.4 ± 2.58 · 0.0296 = 0.4 ± 0.076.

In termini percentuali, il risultato `e il seguente: • al livello fiduciario del 95%, il maggior gradimento del programma da parte dei bambini (rispetto a quello dimostrato dagli adulti) `e da valutare tra il 34.2% e il 45.8%; • al livello fiduciario del 99%, si stima invece compreso tra il 32.4% e il 47.6% /.

224

8.2.2

STIME DI PARAMETRI

Intervalli di confidenza per la varianza

Se si conosce la distribuzione campionaria delle varianze, `e possibile determinare un intervallo di confidenza per la varianza σ 2 della popolazione da cui `e stato estratto il campione di numerosit`a n. Nel §7.4 si `e visto che ci`o `e possibile se il modello statistico della popolazione ha legge normale, perch´e in tal caso dal Teorema Chi-quadrato si deduce che la stima ottima della varianza: σ2 Sˆn2 = Qn (8.23) n−1 `e distribuita con la densit`a (7.16), la quale a sua volta `e calcolabile attraverso la legge Chi-quadrato con ν = n − 1 gradi di libert`a della variabile aleatoria Qn . Non `e facile determinare i valori della distribuzione Chi-quadrato definita nella (2.20) e, come per la legge t-Student, si ricorre di solito ai valori tabulati dei suoi quantili χq , che sono riportati per diversi gradi di libert`a in una Tabella della Appendice. Denotiamo allora per comodit`a con χj = χq=qj il quantile della distribuzione Chiquadrato che, per definizione, `e tale da soddisfare la condizione: IP(Qn ≤ χj ) = qj ∈ [0, 1]. Se si impone che Qn assuma valori in un intervallo [χ1 , χ2 ] con un assegnato livello fiduciario γ, tenendo conto della (8.23) si ha ¶

µ

n − 1 ˆ2 Sn ≤ χ2 = σ2 µ ¶ n − 1 ˆ2 n − 1 ˆ2 = IP Sn ≤ σ 2 ≤ Sn = γ. χ2 χ1

IP(χ1 ≤ Qn ≤ χ2 ) = IP χ1 ≤

(8.24)

f ( Qn )

1 g 2

0

g 2

g 2

c1

E{Qn }

1 g 2 c2

c

Figura 8.3

Un intervallo di confidenza per la varianza σ 2 si ricava perci`o, al livello fiduciario γ, determinando due quantili χ1 , χ2 che soddisfano la (8.24). La scelta non `e unica, ma di solito si determinano quelli che escludono due code della distribuzione Chiquadrato, aventi la medesima area uguale a (1 − γ)/2. Con tale scelta (v. Fig. 8.3)

8.2 – Stima per intervalli

225

i due quantili sono tali che: q1 =

1−γ ; 2

q2 =

1+γ 2

(8.25)

e definiscono un intervallo fiduciario che, pur non essendo centrato sul valor medio della distribuzione campionaria di Sˆn2 , la suddivide in due parti con uguale area γ/2, a destra e a sinistra del valor medio il quale, come si `e visto nel §7.4, coincide proprio con la varianza teorica della popolazione. La probabilit`a che σ 2 assuma valori in questo intervallo `e uguale alla probabilit`a fiduciaria γ assegnata. La stima intervallare al livello fiduciario γ, per la varianza di una popolazione distribuita con legge normale, `e dunque: n − 1 ˆ2 n − 1 ˆ2 Sn ≤ σ 2 ≤ Sn χ2 χ1

(8.26)

con quantili dati dalla (8.25) e dove Sˆn2 `e una realizzazione della varianza campionaria corretta (7.14). In modo analogo si possono effettuare stime a una coda della varianza, tali da soddisfare condizioni del tipo: ¶

µ

n − 1 ˆ2 IP(Qn ≥ χ1 ) = IP σ ≤ S =γ χ1 n ¶ µ n − 1 ˆ2 IP(Qn ≤ χ2 ) = IP σ 2 ≥ S =γ χ2 n 2

(8.27)

nelle quali χ1 , χ2 sono i quantili della Chi-quadrato per cui q1 = 1 − γ ;

q2 = γ ,

e “tagliano” un’area della distribuzione campionaria che `e uguale a 1 − γ, rispettivamente a sinistra di χ1 e a destra di χ2 . Caso di grandi campioni Nel §2.3.7 si `e detto che per n >> 1 la distribuzione Chi-quadrato `e ben approssimata dalla legge Normale con media n e varianza 2n. Di conseguenza, se il campione usato per una stima intervallare della varianza ha numerosit` a n elevata (almeno maggiore di 30), la variabile aleatoria Qn ha una distribuzione prossima ad N (n, 2n), e la variabile (n − 1)Sˆn2 −n Qn − n 2 σ√ Zn = √ = (8.28) 2n 2n `e prossima alla Normale standard. In tal caso, la stima intervallare di σ 2 al livello fiduciario γ si pu`o effettuare imponendo che sia IP(|Zn | ≤ zq ) = γ, dove Zn `e dato dalla posizione (8.28) e zq `e, al solito, il quantile della Normale standard di ordine q = (1 + γ)/2 = q2 che soddisfa erf (zq ) = γ/2.

226

STIME DI PARAMETRI

Se ricaviamo σ 2 dalla (8.28) e, tenuto conto che n >> 1, assegnamo un valore unitario al rapporto (n − 1)/n, si deduce allora che l’intervallo di confidenza (8.26) pu`o essere ben approssimato dal seguente: Sˆ2 Sˆ2 rn ≤ σ2 ≤ 2 2 1+ 1− zq zq n n rn

(8.260 )

che `e pi` u comodo da calcolare perch´e richiede solo la determinazione di zq anzich´e quella di χ1 e χ2 . Esempio 8.12

Per stimare la varianza di un coefficiente di resistenza aerodinamica Cx , si effettuano 12 prove in una galleria del vento sul medesimo modello della struttura in esame. Dai risultati delle prove si ricava che il valor medio empirico del coefficiente di resistenza `e circa 0.3, con varianza campionaria Sn2 = 0.015. Si vuole determinare: 1) i limiti fiduciari per la varianza teorica σ 2 (Cx ) del coefficiente di resistenza, al livello di fiducia γ = 0.9 ; 2) il livello fiduciario con cui si pu`o affermare che σ 2 (Cx ) ≤ 0.03. Teoricamente, non sarebbe possibile assumere per Cx un modello statistico normale, perch´e N (µ, σ 2 ) `e definito sull’insieme dei numeri reali, mentre Cx > 0. Tuttavia, si pu`o facilmente verificare che la curva gaussiana (2.29) con un valor medio µX ' 0.3 e varianza di un’ordine di grandezza inferiore, ha valori trascurabili al di fuori di un intervallo non negativo 0 < x < 0.6). Di conseguenza, il modello statistico normale si pu`o ritenere compatibile con il nostro Cx e una stima intervallare di σ 2 (Cx ) si pu`o effettuare applicando le precedenti formule (8.24)-(8.27). 1) Per una distribuzione Chi-quadrato con ν = n − 1 = 11 gradi di libert`a, i quantili calcolati con la (8.25) sono: q1 =

1−γ = 0.05 ; 2

q2 =

1+γ = 0.95 2

e la Tabella dei quantili χq in Appendice fornisce: χ1 = 4.57; χ2 = 19.7. Il valore empirico della varianza campionaria corretta `e: 12 2 Sˆn2 = S = 0.01636 11 n e applicando la (8.26) si ottiene, al livello fiduciario γ = 0.9, la seguente stima intervallare della varianza teorica: 0.0091 =

11 · 0.01636 11 · 0.01636 ≤ σ 2 (Cx ) ≤ = 0.0393. 19.7 4.57

2) per determinare il livello fiduciario per una stima a una coda tale che σ 2 (Cx ) ≤ 0.03, usiamo la prima delle (8.27) ricercando il valore del quantile χ1−γ che soddisfa la condizione: n − 1 ˆ2 11 · 0.01636 Sn = = 0.03 , χ1−γ χ1−γ

8.2 – Stima per intervalli

227

ossia: χ1−γ = 5.998. Per ν = 11, la Tabella dei quantili fornisce i valori χ = 5.58 per q = 0.1, e χ = 7.58 per q = 0.25. Interpolando linearmente tra questi dati per ottenere il valore di q corrispondente al quantile 5.998, ricaviamo: q = 0.1 +

0.25 − 0.1 · (5.998 − 5.58) ' 0.13 7.58 − 5.58

da cui γ = 1 − q = 0.87 . Questo `e il livello fiduciario con cui si pu`o affermare che σ 2 (Cx ) ≤ 0.03. Esempio 8.13

Da una popolazione di N = 300 elementi avente un carattere X distribuito con legge normale N (µ, σ 2 = 150) si estraggono senza ripetizione n = 101 esemplari. Si desidera effettuare, al livello fiduciario γ = 0.98, una stima intervallare per la varianza del carattere X risultante nei 101 elementi del campione. In questo problema la varianza teorica `e nota, e il suo valore `e da utilizzare per effettuare una stima sulla varianza campionaria Sn2 . Si riscrive la (8.24) nella forma seguente: µ



n − 1 ˆ2 IP(χ1 ≤ Qn ≤ χ2 ) = IP χ1 ≤ Sn ≤ χ2 = σ2 Ã ! 2 σ2 σ 2 = IP χ1 ≤ Sˆn ≤ χ2 = 0.98 n−1 n−1 e si ricavano dalla Tabella in Appendice i quantili della distribuzione Chi-quadrato con ν = 100 gradi di libert`a, corrispondenti a q1 =

1 − 0.98 = 0.01 ; 2

q2 =

1 + 0.98 = 0.99 , 2

che valgono: χ1 = 70.1 ; χ2 = 136. Si deducono i seguenti limiti fiduciari per la stima ottima della varianza campionaria: 105.15 =

150 · 70.1 150 · 136 ≤ Sˆn2 ≤ = 204. 100 100

Ricordando poi che il campione `e stato estratto senza ripetizione, questa statistica `e legata alla varianza campionaria Sn2 dalla relazione (7.19): N −1 n 299 101 2 Sˆn2 = · Sn2 = · S = 1.00663 Sn2 , N n−1 300 100 n per cui la stima intervallare richiesta `e 105.84 ≤ Sn2 ≤ 205.35 .

(8.29)

I limiti fiduciari per Sn2 sono molto vicini a quelli calcolati per Sˆn2 , perch´e la numerosit`a del campione `e superiore a 30.

228

STIME DI PARAMETRI

Per lo stesso motivo, `e anche possibile approssimare il risultato richiesto effettuando una stima intervallare sulla variabile normale standard (8.28). Nel nostro caso, per avere risultati coerenti con i precedenti non `e per`o lecito approssimare all’unit`a il rapporto (n − 1)/n, perch´e il suo valore esatto `e stato usato nel ricavare la (8.29). Risolvendo la posizione (8.28) rispetto a Sˆn2 ricaviamo il seguente intervallo di confidenza approssimato: Ã

1−

r

!

Ã

n 2 zq σ 2 ≤ Sˆn2 ≤ 1 + n n−1

r

!

n 2 zq σ 2 . n n−1

Se sostituiamo zq = 2.33 risulta: 101.81 ≤ Sˆn2 ≤ 201.17 e dividendo i limiti fiduciari per 1.00663, si ottiene la seguente approssimazione dell’intervallo di confidenza per Sn2 : 102.48 ≤ Sn2 ≤ 202.50, da confrontare con il risultato “esatto” (8.29) che `e stato ottenuto usando i coefficienti fiduciari della distribuzione Chi-quadrato.

8.3

Problemi risolti

8.1. La connessione a un sito Internet `e ogni volta accettata con probabilit`a ϑ, 0 ≤ ϑ ≤ 1. Se X(ω) `e la variabile aleatoria che rappresenta il numero di tentativi necessari per avere il collegamento, qual’`e il modello statistico da assumere per la variabile Y (ω) = X −1 ? In n giorni diversi si osserva il numero di tentativi che sono stati necessari per la connessione, e se ne calcola la media campionaria µn . Questa statistica `e uno stimatore non distorto di E{Y } ? Soluzione. Se X = k, k = 1, 2, . . . definisce il numero d’ordine della prima prova in cui si `e verificato un successo, Yk = Xk − 1 indica il numero dei fallimenti che precedono il primo successo. Il modello statistico di Y `e quello della distribuzione geometrica : f (Y = k) = ϑ(1 − ϑ)k ,

k = 0, 1, 2, . . .

che ha media

1 1−ϑ = − 1. ϑ ϑ Per il Secondo Principio delle prove bernoulliane, la distribuzione delle medie campionarie di X `e l’inverso della probabilit`a ϑ: E{Y } =

½

E{µn } = E

X1 + . . . + Xn n

¾

=

1 = E{Y } + 1 = E{X}. ϑ

8.3 – Problemi risolti

229

Quindi µn non `e uno stimatore corretto di E{Y }, ma lo `e di E{X}. 8.2. Consideriamo la funzione f (x, ϑ) = ϑx + 1 − ϑ/2

per 0 ≤ x ≤ 1

e nulla altrove, dipendente dal parametro reale ϑ. a) Per quali valori di ϑ la funzione `e una densit`a di probabilit`a ? b) Calcolare, in funzione di questi valori, la media della variabile aleatoria che ha una densit`a di probabilit`a f (x, ϑ). c) Sia ora {Xk }, k = 1, . . . , n un campione di numerosit` a n del carattere X. Definite le due statistiche: Ã

n 1 6X Sn = − Xk , 12 n k=1

!

n 1X 1 Tn = 12 Xk − , n k=1 2

quale delle due `e uno stimatore non distorto di ϑ ? Soluzione. a) L’integrale di f (x, ϑ) vale 1 e non dipende da ϑ: Z 1µ 0



ϑx + 1 −

ϑ ϑ ϑ dx = + 1 − = 1. 2 2 2

Quindi f (x, ϑ) `e una densit`a per qualsiasi valore reale di ϑ . b)

E{X} =

Z 1 0

µ



"

ϑ ϑx3 x2 ϑx2 x ϑx + 1 − dx = + − 2 3 2 4

#1

= 0

1 ϑ + . 2 12

c) Calcoliamo i valori medi delle due statistiche: E{Sn } =

1 6 − E 12 n Ã

1 E E{Tn } = 12 n

( n X

)

Xk

k=1

( n X

k=1

Xk

)

µ

= 1 − 2

1 6 1 1 ϑ − · nE{X} = −6 + 12 n 12 2 12

!

µ

1 1 = 12 · nE{X} − n 2



µ



=−

35 ϑ − 12 2

1 ϑ 1 = 12 + − 2 12 2



= ϑ.

Lo stimatore corretto di ϑ `e Tn perch´e il suo valor medio coincide con il parametro ϑ da stimare. 8.3. Da una popolazione di N = 1000 sbarre metalliche si estrae in blocco un campione di n = 200 elementi. Stimare la lunghezza media µ delle sbarre e lo scarto quadratico medio σn della distribuzione campionaria delle medie, sapendo che la lunghezza media del q campione `e x = 21 cm e che la radice quadrata della varianza P campionaria `e Sn = n1 ni=1 (xi − x ¯)2 = 0.5 cm.

230

STIME DI PARAMETRI

Soluzione. Poich´e la media campionaria `e una stima corretta del valor medio della popolazione, ˆ = 21 cm. si ha subito che µ Il campione `e estratto senza ripetizione da N elementi, per cui la distribuzione campionaria delle medie ha uno scarto quadratico medio che vale s

σ σn = √ · n

N −n N −1

e per calcolarlo bisogna stimare la varianza σ 2 incognita della popolazione. La stima ottima della varianza `e N −1 n 999 σ ˆ2 = · Sn2 = · 0.25 ' 0.251 N n−1 5 · 199 e sostituendo la sua radice quadrata si ricava: s

σn =

σ ˆ2 · 200

s

1000 − 200 = 1000 − 1

r

0.251 · 4 ' 0.0317 cm. 999

8.4. Da una popolazione di N = 3000 studenti universitari maschi si `e estratto un campione di n = 100 elementi, i cui pesi sono raccolti nella seguente tabella: pesi [60, 65) [65, 70) [70, 75) [75, 80) [80, 85) [85, 90) [90, 95)

numero studenti 10 14 16 20 18 12 20

Stimare il peso medio di tutta la popolazione e lo scarto quadratico medio della media nei due casi: a) di estrazione bernoulliana e b) di estrazione in blocco. (Si assuma come valore del peso di ogni classe il valore centrale). Soluzione. Per ognuna delle sette classi calcoliamo: i valori centrali, gli scarti rispetto alla media e i loro quadrati. Ne risulta la seguente tabella: ∆i [60, 65) [65, 70) [70, 75) [75, 80) [80, 85) [85, 90) [90, 95)

ni 10 14 16 20 18 12 20

xi 62.5 67.5 72.5 77.5 82.5 87.5 92.5

xi − x -14.9 -9.9 -4.9 0.1 5.1 10.1 15.1

(xi − x)2 222.01 98.01 24.01 0.01 26.01 102.01 228.01

8.3 – Problemi risolti

231

per completare la quale si `e gi`a utilizzato il primo risultato: x=

1 (62.5·10+67.5·14+72.5·16+77.5·20+82.5·18+87.5·12+92.5·10) = 77.4 . 100

La stima ottima della varianza incognita della popolazione, effettuata con un campione estratto con ripetizione, `e σ ˆ2 =

1 (222.01 · 10 + 98.01 · 14 + 24.01 · 16 + 0.01 · 20 + 99 +26.01 · 18 + 102.01 · 12 + 228.01 · 10) =

7949 99

Pertanto nel caso di estrazione bernoulliana (“con ripetizione”) lo scarto quadratico medio della media vale σ ˆ σn = √ = n

r

7949 ' 0.896 . 9900

Nel caso di estrazione in blocco (“senza ripetizione”), la precedente stima della varianza deve essere moltiplicata per il coefficiente correttivo (N − 1)/N , che per`o si pu`o trascurare perch´e 2999/3000 ' 1. Allora per estrazioni in blocco risulta: s

σ ˆ σn = √ · n

N −n = N −1

r

7949 · 9900

r

2900 ' 0.896 · 0.983 ' 0.880 . 2999

8.5. La durata di cinque valvole di una certa popolazione fornisce il campione: { 637, 632, 636, 637, 633 } ore. Ricavare la stima corretta della vita media delle valvole e della sua varianza. Soluzione: µ ˆ = σ ˆ2 =

637 + 636 + 637 + 633 + 632 = 635 ore 5 4+1+4+9+4 11 = = 5.5 (ore)2 . 4 2

8.6. Sia X una variabile casuale normale di media µ e varianza σ 2 . Siano X1 , X2 , X3 le variabili casuali indipendenti descritte dalle tre determinazioni x1 , x2 , x3 di un campione da essa estratto con ripetizione. Per stimare il parametro µ si considerano ¯ 3 e S3 definiti, rispettivamente, da: i due stimatori X ¯ 3 = X1 + X2 + X3 , S3 = 1 X1 + 1 X2 + 3 X3 . X 3 5 5 5 ¯ 3 e S3 generano stime corrette di µ ? Perch´e ? 1) Gli stimatori X

232

STIME DI PARAMETRI

2) Confrontando le rispettive varianze, stabilire quale tra i due stimatori `e il pi` u efficiente. Soluzione. 1) I valori medi delle due statistiche valgono: ¯3} = E{X E{S3 } =

E{X1 } + E{X2 } + E{X3 } 3µ = =µ 3 3 E{S1 } + E{S2 } + 3E{S3 } 5µ = =µ 5 5

e poich´e sono uguali a µ, entrambe le statistiche generano stime corrette di µ . ¯ 3 e S3 valgono: 2) Tenuto conto che Xi sono indipendenti, le varianze di X ¯3} = σ 2 {X σ 2 {S3 } =

i 1h 2 1 σ2 σ (X1 ) + σ 2 (X2 ) + σ 2 (X3 ) = · 3σ 2 = 9 9 3 i 1 h 2 11 2 2 2 σ (X1 ) + σ (X2 ) + 9σ (X3 ) = σ 25 25

¯ 3 `e il pi` ¯ 3 ) < σ 2 (S3 ), ne segue che X u efficiente . e poich´e σ 2 (X 8.7. Da una popolazione molto grande di sfere si estraggono n = 50 sfere il cui peso medio `e x ¯ = 195 g. Sapendo che la varianza dell’universo `e σ 2 = 156.25 g 2 , determinare l’intervallo di confidenza per la stima della media µ al livello γ = 1−α = 0.95. Soluzione. La popolazione `e molto grande, e la numerosit` a del campione `e maggiore di 30. Qualunque sia il modello statistico della popolazione, si pu`o approssimare la distribuzione campionaria delle medie con una Normale con media x¯ = µ = 195 g. e deviazione standard σ σn = √ = n

r

156.25 √ = 3.125 ' 1.7677 g . 50

L’intervallo di confidenza I per la media `e tale che: 195 − σn zγ < µ < 195 + σn zγ , dove zγ `e il coefficiente fiduciario per la variabile standardizzata Zn = (µn − µ)/σn al livello fiduciario γ = 0.95. Si determina zγ usando la Tabella di erf(z) : erf(zγ ) =

γ = 0.475 2



zγ = 1.96.

e sostituendo si ricava: 1.95 − 1.7677 · 1.96 < µ < 1.95 + 1.7677 · 1.96



I = (191.53, 198.46) .

8.8. Le ripetute e numerose misurazioni di un certo angolo, effettuate mediante un teodolite assai preciso, descrivono una variabile casuale normale, incentrata sulla vera misura µ dell’angolo e di scarto quadratico medio σ = 0.100 . Stimare, mediante

8.3 – Problemi risolti

233

un intervallo di confidenza di livello 0.99, il valore incognito µ attraverso un campione di 9 misure la cui media risulta essere x ¯ = 4800 . Soluzione. La popolazione ha legge normale con varianza nota, per cui la distribuzione campionaria delle medie `e una normale N (µ, σ 2 /n) per qualunque n, ed `e descritta dalla variabile standardizzata Zn =

x ¯−µ √ = 30(48 − µ). σ/ n

Il suo coefficiente fiduciario zγ al livello γ = 0.99 vale: erf(zγ ) =

γ = 0.495 2



zγ = 2.58

per cui si ricava: 48 −

zγ zγ < µ < 48 + 30 30



I = (47.914, 48.086) .

8.9. Da una popolazione di 3000 studenti universitari si estrae un campione (senza ripetizione) di 200 studenti. Sia x ¯ = 170 cm l’altezza media del campione e s2 = 2 20, 25 cm la varianza del campione. Determinare l’intervallo di confidenza della media al livello di fiducia del 98%. Soluzione. La popolazione ha varianza teorica sconosciuta, per cui bisogna stimarla. Il campione `e estratto in blocco da un numero elevato di elementi: la stima di σ 2 `e σ ˆ2 =

n 200 s2 = · 20.25 = 20.35176 n−1 199



σ ˆ = 4.511.

La distribuzione campionaria delle medie ha quindi deviazione standard s

σn = σ ˆ·

N −n = 4.511 · n(N − 1)

r

14 ' 0.308. 2999

Al livello di fiducia γ = 1−α = 0.98, la variabile standardizzata Zn = (170−µ)/0.308 ha un coefficiente fiduciario zγ che vale: erf(zγ ) =

γ = 0.49 2



zγ = 2.33

per cui si ricava: 170 − 0.308zγ < µ < 48 + 0.308zγ



I = (169.28, 170.72) .

8.10. Nel misurare il coefficiente di dilatazione lineare di un metallo, uno sperimentatore stima che la deviazione standard `e di 0.05 mm. Quanto deve essere grande il

234

STIME DI PARAMETRI

campione delle misure affinch´e egli abbia la fiducia del 99% che l’errore, nello stimare il coefficiente medio, non sia superiore a 0.01 mm ? Risposta. La variabile standardizzata per la distribuzione campionaria dei coefficienti medi µn `e √ µn − µ n Zn = = · (µn − µ) σn 0.55 e il suo coefficiente fiduciario al livello γ = 0.99 (lo stesso dell’esercizio VI.2) `e zγ = 2.58. Affinch´e l’errore µn − µ nella stima di µ sia minore o uguale a 0.01 mm, deve essere: 0.05 √ · zγ = µn − µ ≤ 0.01 n

µ

ossia

n≥

0.05 · 2.58 0.01

¶2

= (12.9)2 = 166.41

e quindi, arrotondando all’unit`a per eccesso: n ≥ 167 . 8.11. Da una popolazione normalmente distribuita si estrae un campione di 10 anelli di diametro medio x ¯ = 28.2 cm, con scarto quadratico medio del campione pari a s = 5.29 cm. Determinare l’intervallo di confidenza per la stima del diametro medio della popolazione con livello di fiducia γ = 1 − α = 0.95. Soluzione. E’ stato estratto (si sottintende: con ripetizione) un piccolo campione (n < 30) da una popolazione normale con varianza sconosciuta. Si usa quindi la statistica √ √ (¯ x − µ) n n Tn = = (28.2 − µ) ˆ ˆ Sn Sn in cui

r 1 s Sˆn n 5.29 √ = √ ·s· =√ = 1.763 cm. = n n n−1 3 n−1

L’intervallo richiesto `e 28.2 − 1.763 · tγ < µ < 28.2 + 1.763 · tγ , dove tγ `e il quantile di ordine q = (1+γ)/2 della distribuzione t-Student con n−1 = 9 gradi di libert`a. Al livello di fiducia γ = 0.95, si ha: q = 0.975 ; tγ = 2.262 e sostituendo si ottiene l’intervallo fiduciario: I = (28.2 − 1.763 · 2.262, 28.2 + 1.763 · 2.262) ' (24.21, 32.19) cm. 8.12. Vengono effettuate in tempi diversi 20 misurazioni della concentrazione di un certo elemento in un materiale, e si osserva una media µn = 1.23 e una varianza corretta Sˆn2 = 0.4. Nell’ipotesi che questa concentrazione abbia un modello statistico normale con parametri sconosciuti, determinare l’intervallo fiduciario al livello 0.95

8.3 – Problemi risolti

235

per la sua media e la sua varianza. Quale sarebbe invece l’intervallo fiduciario per la media, se si supponesse che il modello normale avesse varianza nota σ 2 = 0.4 ? Soluzione. Se la popolazione normale ha varianza sconosciuta, la distribuzione campionaria delle medie ha legge t-Student con n − 1 = 19 gradi di libert`a. In una stima intervallare della media si ha: Sˆn Sˆn µn − √ · tq < µ < µn + √ · tq n n con tq = quantile di ordine q = (1 + γ)/2 = 0.975 della t-Student con 19 gradi di libert`a, che vale tq = 2.093. Sostituendo si ottiene: r

1.23 −

0.4 · 2.093 < µ < 1.23 + 20

r

0.4 · 2.093 20



I ' (0.934, 1.526) .

La distribuzione campionaria delle varianze ha legge χ2 con 19 gradi di libert`a, e la stima intervallare della varianza sconosciuta della popolazione `e n − 1 ˆ2 n − 1 ˆ2 Sn < σ 2 < Sn χ2 χ1 dove χ2 `e il quantile di ordine q = (1 + γ)/2 = 0.975, e χ1 `e il quantile di ordine q = (1 − γ)/2 = 0.025 della legge χ219 . Dalle Tavole risulta: χ1 ≡ χ0.025 = 8.91, χ2 ≡ χ0.975 = 32.9 e sostituendo: 19 19 < σ2 < 32.9 8.91



0.231 < σ 2 < 0.853 .

Se il modello normale avesse varianza nota σ 2 = 0.4, si dovrebbe assumere una distribuzione √ campionaria delle medie con legge normale e deviazione standard σn = √ σ/ n = 0.02. La stima intervallare della media sarebbe √ √ 1.23 − 0.02 · zγ < µ < 1.23 + 0.02 · zγ dove: erf(zγ ) = γ/2 = 0.475, ovvero: zγ = 1.96. Sostituendo si ottiene: 0.953 < µ < 1.507 . 8.13. In 10 prove su strada un motore di autoveicolo ha consumato in media 12.75 litri di carburante per 100 Km. e la varianza campionaria `e risultata Sn2 = 3.5. Nell’ipotesi che la distribuzione dei consumi segua una legge normale, stimare al livello fiduciario del 99% il massimo della media dei consumi di quel motore. Soluzione. Si tratta di determinare un intervallo di confidenza unilaterale inferiore per la media µ di una popolazione normale con varianza incognita. Questo intervallo di confidenza `e Sˆn −∞ < µ < µn + √ t0.99 n

236

dove

STIME DI PARAMETRI r Sˆn 1 n √ =√ · S2 = n n n−1 n

r

3.5 ' 0.6236 9

e t0.99 `e il quantile di ordine γ = 0.99 della distribuzione t-Student con n − 1 = 9 gradi di libert`a. Dalle Tavole risulta: t0.99 = 2.821, e sostituendo si ricava la stima: µ < 12.75 + 0.6236 · 2.821 ' 14.51 litri . 8.14. Si esamina un campione di 100 pile prodotte dalla ditta A e un secondo campione di 150 pile messe in commercio dalla ditta B. La media campionaria della tensione in uscita delle pile prodotte dalla ditta A risulta µA = 12.2 Volt; quella della ditta B `e µB = 11.7 Volt. Si suppone inoltre che i due campioni siano stati prelevati da popolazioni distribuite normalmente e con uguali varianze σ 2 = 0.12. Determinare, al livello di fiducia del 90%, l’intervallo di confidenza per la differenza δ tra le tensioni medie delle pile prodotte dalle due ditte. Soluzione. La distribuzione campionaria della differenza δ = µA − µB tra le medie ha legge normale, con media δ¯ = 12.2 − 11.7 = 0.5 Volts e varianza σδ2 =

2 σA σ2 0.12 0.12 + B = + = 0.002 (Volt)2 . nA nB 100 150

Il valor medio di δ ha la seguente stima intervallare: δ¯ − σδ zγ < µδ < δ¯ + σδ zγ , con zγ tale che erf(zγ ) = γ/2 = 0.45. Dalle Tavole di erf(z) si ricava: zγ = 1.645 e sostituendo: √ √ 0.5 − 0.002 · 1.645 < µδ < 0.5 − 0.002 · 1.645 ⇒ I ' (0.426, 0.573) Volts . 8.15. Un campione di n = 16 elementi di una popolazione con legge normale avente media µ e varianza σ 2 incognite, ha mostrato una media campionaria x ¯n = 68 ed una varianza campionaria corretta sˆ2n = 9. a) Determinare l’intervallo di confidenza per la stima della media µ al livello di confidenza del 95%. b) Calcolare la probabilit`a fiduciaria γ con cui si pu`o affermare che µ `e compreso nell’intervallo 68 ± 1.31475. Soluzione. a) Si dispone di un piccolo campione, estratto da una popolazione normale con varianza sconosciuta. Al livello γ = 0.95, la stima intervallare di µ `e la seguente: sˆn sˆn ¯ + √ · tq x ¯ − √ · tq < µ < x n n

8.3 – Problemi risolti

237

in cui tq `e il quantile di ordine q = (1 + γ)/2 = 0.975 della distribuzione t-Student con 16 − 1 = 15 gradi di libert`a, e vale: t0.975 = 2.131. Sostituendo si ricava: 68 −

3 3 · 2.131 < µ < 68 + · 2.131 4 4



I ' (66.40, 69.60) .

b) Se si vuole affermare che: 3 sˆn |¯ x − µ| = √ · tq = · tq = 1.31475, n 4 allora deve essere: tq = 1.31475 · 4/3 = 1.753. Nella distribuzione t-Student con 15 gradi di libert`a, questo `e il valore del quantile di ordine q=

1+γ = 0.95 2

da cui:

γ = 0.90 .

8.16. Un campione di n = 25 elementi estratto da una popolazione con legge normale ha una media campionaria µn = 10 e varianza campionaria corretta Sˆn2 = 2. Determinare gli intervalli di confidenza per la stima della media µ e della varianza σ 2 della popolazione, al livello fiduciario del 95%. Soluzione. La distribuzione campionaria delle medie ha legge t-Student con 24 gradi di libert`a. Al livello γ = 0.95, la stima intervallare per µ `e Sˆn Sˆn µn − √ · tq < µ < µn + √ · tq n n dove tq `e il quantile di ordine q = (1 + γ)/2 = 0.975 della t-Student con 24 gradi di libert`a, che vale t0.975 = 2.064. Sostituendo si trova: √ √ 2 2 10 − · 2.064 < µ < 10 + · 2.064 ⇒ Iµ ' (9.42, 10.58) . 5 5 La distribuzione campionaria delle varianze ha legge χ2 sempre con 24 gradi di libert`a, e la stima intervallare per σ 2 `e: 24 ˆ2 24 ˆ2 · Sn < σ 2 < ·S . χ2 χ1 n Se γ = 0.95, χ1 e χ2 sono rispettivamente i quantili di ordine q1 = 0.025 e q2 = 0.975 della distribuzione χ2 , e valgono: χ1 = 12.4, χ2 = 39.4. Sostituendo si ricava: 24 24 · 2 < σ2 < ·2 39.4 12.4



I(σ 2 ) ' (1.22, 3.87) .

8.17. Da una popolazione normale con varianza sconosciuta si estrae un campione di 9 elementi che ha una media xn = 100 e varianza campionaria corretta Sˆn2 = 0, 65.

238

STIME DI PARAMETRI

Determinare la probabilit`a fiduciaria γ con cui si pu`o affermare che la media µ della popolazione `e compresa in un intervallo di estremi 100 ± 0, 5. Soluzione. La probabilit`a γ si definisce come segue: Ã

!

Sˆn γ = IP(|Tn | ≤ tq ) = IP |xn − µ| = √ tq ≤ 0.5 n

dove tq `e il coefficiente fiduciario per una variabile Tn che ha legge t-Student con 8 gradi di libert`a. Esso deve soddisfare la condizione r

tq ≤ 0.5 ·

9 ' 1.861, 0.65

e dalla tavola della distribuzione t-Student con ν = 8 si ricava che il quantile che soddisfa tale condizione con il segno di uguaglianza vale q = 0.95. Si ricava perci`o q≡

1+γ = 0.95 2



γ = 0.9 .

8.18. Si estrae un campione da una popolazione il cui carattere X ha media incognita e varianza σ 2 = 9. Qual`e la numerosit` a minima che deve avere il campione per poter affermare, con probabilit`a almeno del 90%, che la media campionaria si scosta per non pi` u di 2 da quella incognita di X ? Risposta. La probabilit`a richiesta si calcola imponendo: σ zγ · √ = zγ · n

r

9 ≤2 n

dove zγ , coefficiente fiduciario della variabile standardizzata Zn = (¯ x − µ)/σn , `e tale che erf(zγ ) = γ/2 = 0.45. Dalla Tabella di erf(z) risulta: zγ = 1.65 e quindi, sostituendo e arrotondando all’unit`a per eccesso, si ricava: 3 1.65 · √ ≤ 2 n

µ



3 n ≥ 1.65 · 2

¶2

= 6.125 ' 7 .

TEST PARAMETRICI DI IPOTESI STATISTICHE 9.4

Principi generali di un test statistico

Si chiama ipotesi statistica qualsiasi ipotesi fatta sulla forma o sulle propriet`a della distribuzione probabilistica osservata in un esperimento che coinvolge una variabile aleatoria. Uno degli scopi fondamentali della Statistica Matematica consiste nella definizione dei metodi per verificare la validit` a di ipotesi fatte riguardo a questa variabile aleatoria, sulla base sia di considerazioni teoriche, sia della analisi dei dati osservati in un campione. L’ipotesi formulata su un generico fenomeno aleatorio `e usualmente chiamata ipotesi nulla, e indicata con H0 . Possiamo suddividere le ipotesi statistiche in due grandi categorie: • Ipotesi parametriche, che si riferiscono a certi parametri della distribuzione teorica di una o pi` u popolazioni, la quale si assume gi`a definita nella famiglia delle funzioni di distribuzione FX (x) compatibili con il modello statistico adottato per ciascuna popolazione. In generale, una ipotesi parametrica `e specificata da una ipotesi nulla del tipo: H0 :

ϑ ∈ Θ0 ⊂ Θ

(9.28)

per un parametro incognito ϑ (eventualmente multidimensionale) che si assume appartenente ad un determinato sottoinsieme Θ0 del dominio Θ compatibile con il modello statistico. Il test ha come obiettivo la verifica della validit` a della ipotesi (9.28). • Ipotesi non parametriche, fatte per esempio sulla forma o sulla natura stessa della funzione di distribuzione FX (x) del carattere aleatorio da studiare, oppure riguardanti propriet`a aleatorie congiunte di pi` u caratteri delle medesima popolazione, oppure ancora relativi a popolazioni differenti. 239

240

TEST PARAMETRICI

Una ipotesi non parametrica `e specificata da una ipotesi nulla del tipo: H0 :

FX (x) ∈ F0 ⊂ F

(9.29)

in cui F0 `e una classe appropriata di funzioni — appartenente alla famiglia F delle funzioni di distribuzione compatibili con il modello statistico — che si assume contenga la vera funzione di distribuzione FX (x) carattere X (eventualmente multidimensionale) che esaminiamo con il campione. Le ipotesi nulle del tipo (9.28) o (9.29) si chiamano semplici se Θ0 oppure F0 contengono solo un elemento; si dicono composte in caso contrario. Si chiama test statistico la regola che ci permette di decidere se, e in quale misura, accettare o respingere una ipotesi nulla del tipo (9.1) o (9.2), esaminando le osservazioni fatte su una statistica campionaria. L’impostazione di un test statistico si effettua nel modo seguente. 1. Si definisce una legge probabilistica per il carattere aleatorio X, compatibile con il modello statistico della popolazione su cui si effettua il test. 2. Si definisce l’ipotesi nulla H0 da verificare. 3. Si definisce una ipotesi alternativa H1 che `e una ipotesi da considerare valida quando si rifiuta H0 , e nei due casi sopra esaminati `e rispettivamente del tipo: H1 :

ϑ ∈ Θ1

con Θ1 = Θ \ Θ0

(9.10 )

H1 :

FX (x) ∈ F1 con F1 = F \ F0 .

(9.20 )

4. Si definisce una statistica campionaria Gn (X1 , . . . , Xn ) con distribuzione nota quando l’ipotesi nulla H0 `e vera. 5. Si suddivide lo spazio G delle possibili osservazioni campionarie in due insiemi disgiunti: l’insieme A detto regione di accettazione di H0 , e il suo complementare C = G \ A detto regione di rifiuto o regione critica. 6. Si assume come criterio decisionale la regola di accettare l’ipotesi nulla H0 se la realizzazione osservata della statistica Gn appartiene ad A, e di rifiutarla se appartiene alla regione critica. La decisione di accettare o rifiutare l’ipotesi nulla in seguito alle osservazioni del campione `e sempre affetta da due tipi di errore, che sono definiti come segue. L’errore di prima specie α `e quello che commettiamo se rigettiamo l’ipotesi nulla H0 quando essa `e vera: α = IP(H1 |H0 ) ≡ IP(Gn ∈ C | H0 vera).

(9.30)

L’errore di seconda specie β `e quello che commettiamo se accettiamo H0 mentre invece `e vera l’ipotesi alternativa: β = IP(H0 |H1 ) ≡ IP(Gn ∈ A | H1 vera).

(9.31)

9.5 – Test parametrici

241

Il livello di significativit` a del test `e la massima probabilit`a con la quale siamo disposti a rischiare di commettere un errore di prima specie. Sulla base della ipotesi fatta sulla legge della distribuzione campionaria, possiamo definire la probabilit`a α di commettere un errore di prima specie, e quindi riconoscere il livello di significativit`a del test ovvero, in modo equivalente, il livello di fiducia del test che `e specificato dalla quantit` a 1 − α. Le probabilit`a α, β di errore variano, ovviamente, al variare degli insiemi A e C con cui abbiamo scelto la regione di accettazione e quella di rifiuto. D’altra parte, sono possibili infinite suddivisioni dello spazio delle osservazioni campionarie, e di regola si opera in modo da scegliere la regione di accettazione A in modo da rendere piccolo l’errore di prima specie (solitamente, α = 0.05 oppure 0.01). Tuttavia, mantenendo fissa la numerosit`a n dei campioni, al decrescere di α cresce la probabilit`a β dell’errore di seconda specie. Fissato α, si deve pertanto ricercare la suddivisione dello spazio G che rende minimo l’errore β. Si definisce potenza di un test la quantit` a W = 1 − β ∈ [0, 1] che misura la probabilit`a di respingere l’ipotesi nulla H0 quando `e vera l’ipotesi alternativa H1 . La determinazione della potenza di un test `e spesso difficile, perch´e per il suo calcolo esplicito occorre conoscere anche la distribuzione campionaria di Gn quando `e vera l’ipotesi alternativa H1 la quale, per giunta, spesso non `e semplice ma composta. Nei casi in cui ci`o `e possibile, il test (se esiste) in cui fissato α l’errore β `e minimo si chiama “il test pi` u potente” tra quelli con α assegnato. A sua volta, la potenza di un test con α assegnato cresce al crescere della numerosit` a dei campioni, che `e comunque limitata per motivi di ordine pratico. Fissato anche n, se l’ipotesi alternativa `e composta, il grafico della potenza W (gn ) in funzione dei possibili valori empirici gn che pu`o assumere la statistica campionaria Gn si chiama curva di potenza del test. Se invece di riportare la potenza W (gn ) si riporta l’errore di seconda specie β, si ha la curva caratteristica operativa β(gn ) del test. In questo Capitolo tratteremo pi` u in dettaglio alcune tecniche in uso per effettuare la verifica di ipotesi parametriche per le quali, come vedremo, esiste sotto certe condizioni un criterio per la definizione di un test di massima potenza. Nel Capitolo seguente tratteremo infine i metodi pi` u comuni per effettuare test di ipotesi non parametriche.

9.5

Test parametrici

In un test statistico sul parametro ϑ di una distribuzione FX (x; ϑ) compatibile con il modello statistico della popolazione, l’ipotesi nulla e quella alternativa sono del tipo (9.28), (9.1’). Tre esempi molto particolari sono i seguenti. Se si assume: H0 : ϑ = ϑ0 ;

H1 : ϑ = ϑ1 ,

(9.32)

si imposta un test fra due ipotesi semplici, perch´e queste sono definite su due insiemi Θ0 e Θ1 costituiti entrambi da un solo elemento. Se invece si assume: H0 : ϑ = ϑ0 ;

H1 : ϑ > ϑ0

oppure ϑ 6= ϑ0 ,

(9.33)

242

TEST PARAMETRICI

l’ipotesi alternativa `e composta, perch´e Θ1 = (ϑ0 , +∞) oppure Θ1 = (−∞, ϑ0 ) ∪ (ϑ0 , +∞). E ancora: se per un modello Normale-2 N (ϑ1 , ϑ2 ) si fa l’ipotesi nulla: H0 :

ϑ1 = ϑ10 , ϑ2 = ϑ20 ;

Θ0 ∈ IR2 = {ϑ10 , ϑ20 },

questa `e una ipotesi semplice per i due parametri incogniti (media e varianza); se invece l’ipotesi nulla `e H0 : ϑ1 = ϑ10 e si lascia la varianza indeterminata, allora H0 `e composta. Nei test parametrici anche le ipotesi alternative, come quelle nulle, sono sempre ristrette alla classe delle distribuzioni FX (x; ϑ) ammissibili dal modello statistico, le quali si suppone abbiano legge nota anche se dipendente da certi parametri da stimare. Questa circostanza consente — almeno in certi casi in cui le ipotesi alternative sono soggette ad opportune restrizioni — di valutare anche i rischi di seconda specie β e quindi la potenza del test parametrico effettuato. Accettato un livello di significativit`a α, per riconoscere il test parametrico di massima potenza tra quelli ammissibili occorre definire la regione di rifiuto C in modo da avere un rischio di seconda specie β che sia il minore possibile. La soluzione di questo problema esiste sempre nel caso del test parametrico tra ipotesi semplici che consideriamo nel paragrafo che segue.

9.6

Test di Neyman-Pearson tra ipotesi semplici

Assumiamo le due ipotesi semplici (9.32) per il parametro ϑ ∈ IR di una distribuzione FX (x, ϑ) assolutamente continua con densit`a fX (x, ϑ). La regione critica per il test pi` u potente tra quelli che hanno un prefissato livello di significativit`a si pu`o determinare applicando un Teorema che si pu`o cos´ı enunciare. TEOREMA (di Neyman-Pearson, 1933) Sia Gn (X) una statistica campionaria, con valore empirico noto attraverso le n osservazioni (x1 , . . . , xn ) = x su un campione X estratto da una popolazione con funzione di distribuzione assolutamente continua. Scelto arbitrariamente un reale positivo c, il test pi` u potente, tra quelli per cui si ha α = IP(Gn (X) ∈ C |H0 ), esiste ed `e quello per cui la regione critica C `e l’insieme ½

L(ϑ0 , x) C = x : `(x) = 0 corrisponde dunque in questo test una partizione ottimale dello spazio campionario. Reciprocamente, scelto un livello di significativit`a α, la condizione (9.6) definisce la regione critica C che rende minimo l’errore di seconda specie β. Illustriamo questo Teorema con l’esempio che segue.

9.6 – Test di Neyman-Pearson tra ipotesi semplici

243

Esempio 9.1

Assumiamo un modello statistico Normale-1 N (ϑ, σ 2 ) con varianza nota e media da determinare, scegliendo tra l’ipotesi nulla che essa valga ϑ0 = 0 e l’ipotesi alternativa che il suo valore sia ϑ1 = 2. Nelle due ipotesi che ci interessano, le funzioni di verosimiglianza per le realizzazioni di un campione di numerosit` a n sotto l’ipotesi nulla e quella alternativa, sono (cfr. §8.1.2): "

n Y

#

"

#

n X 1 x2 1 x2i √ exp − i2 = L(ϑ0 ; x) = . exp − 2σ 2σ 2 (2πσ 2 )n/2 i=1 σ 2π i=1 # # " " n n Y X (xi − 2)2 1 (xi − 2)2 1 √ exp − L(ϑ1 ; x) = = exp − 2σ 2 2σ 2 (2πσ 2 )n/2 i=1 σ 2π i=1

e il rapporto di verosimiglianza vale: "

`(x) =

"

1 X 2 x exp − 2 2σ i i

1 exp − 2 2σ

Ã

X

x2i

#

+ 4n − 4

i

X

!# =

xi

i

=

µ

exp −



1

µ

· ¸ 2n ¶ = exp − (µn − 1) , 2nµn σ2

2n exp − 2 σ2 σ

dove `e stata introdotta la realizzazione µn della statistica campionaria da usare nel test, che `e la media campionaria (7.2). Secondo il teorema di Neyman-Pearson, per ogni arbitrario c > 0 il test pi` u potente `e quello per cui `(x) < c. Nel nostro caso, ci`o comporta che nella distribuzione campionaria delle medie la regione “ottimale” di rifiuto `e quella definita dalla condizione: µn > 1 −

σ2 log c ≡ h. 2n

(9.34)

Scelto ora un rischio di prima specie α, si determina il valore di h tenendo conto che la distribuzione campionaria delle medie ha legge normale N (µn , σ 2 /n). Infatti, se H0 `e vera, il valor medio di questa distribuzione `e nullo e dunque: Ã ! Ã √ ! √ Z ∞ nµ2n 1 h n n α = IP(µn > h |H0 ) = √ exp − 2 dµn = − erf . (9.35) 2σ 2 σ σ 2π h Una volta valutato h, tenuto conto che se `e vera H1 la distribuzione campionaria ha media E{µn } = 2, si determina anche l’errore di seconda specie β: β = IP(µn ≤ h |H1 ) = Ã ! " √ Z h √ # n n(µn − 2)2 1 (h − 2) n √ = exp − dµn = + erf , (9.36) 2σ 2 2 σ σ 2π −∞

244

TEST PARAMETRICI

H 0 : N ( q 0 ,1)

H 1 : N ( q1 ,1)

b

a

0 1 A : accetto H 0

mn

2

C : rifiuto H 0

Figura 9.1 - Test di Neyman-Pearson per ipotesi semplici

dal quale si ricava la potenza W = (1 − β) del test. Scelto invece un arbitrario c > 0, la (9.34) definisce la regione di rifiuto per il test pi` u potente tra quelli che hanno rischi di prima e seconda specie definiti dalle (9.35) e (9.36). La Fig. 9.1 illustra le distribuzioni campionarie delle medie µn per le due ipotesi semplici, nel caso in cui la varianza nota del modello statistico vale σ 2 = 16, e si effettua un test tra le ipotesi semplici sopra precisate, al livello di significativit`a α = 0.1, disponendo di un campione di numerosit` a n = 16. Dalla (9.35) si ha subito: erf(h) = 0.4 da cui si ricava, usando la Tabella in Appendice, che h ∼ = 1.3. A questo valore di h corrisponde, ancora per la (9.34), un valore di c uguale a ·

¸

2n(1 − h) c = exp = e−0.57 ' 0.565 . σ2 Dalla (9.36) si ricava allora: β = 0.5 + erf (−0.7) ' 0.24 e la potenza del test vale W ' 0.76. Le conclusioni da trarre sono allora le seguenti. Accettato un livello di significativit`a α = 0.01, • se la media empirica osservata da un campione di 16 elementi `e minore di µn = h = 1.3, si accetta l’ipotesi nulla dichiarando che la media teorica della distribuzione normale nel modello N (ϑ, 16) `e µ = 0; • se la media empirica `e maggiore di µn = 1.3, si rifiuta l’ipotesi nulla e si accetta l’ipotesi alternativa, dichiarando che µ = 2. Per definire la regione critica C, si pu`o anche fissare un valore positivo di c, per esempio c = 1. Con tale scelta, in base al Teorema di Neyman-Pearson la regione ottimale di rifiuto definita dalla (9.34) `e µn > h = 1, per un test con rischi di prima

9.7 – Test parametrici con ipotesi composte

245

e seconda specie che valgono: α = IP(µn > 1 |H0 ) = 1/2 − erf(1) ' 0.1587 β = P (µn < 1 |H1 ) = 1/2 + erf(−1) = α e in tal caso risultano uguali. Sebbene la potenza di questo test cresca al valore W = 0.8413, bisogna tener conto che essa `e determinata per l’insieme dei test in cui si accetta un rischio di prima specie α = 0.1587 che `e ben maggiore del precedente. Si osservi infatti, pi` u in generale, che: • al diminuire di α, aumenta h e quindi si restringe la regione di rifiuto; in tal caso per`o cresce β e quindi diminuisce la potenza del test; • fissato un h < 2, al crescere della grandezza n del campione decrescono sia α che β (infatti l’argomento della funzione degli errori nella (9.36) `e negativo). Ne consegue che, una volta definito il livello di significativit`a α, al crescere della grandezza del campione aumenta la potenza del test.

9.7

Test parametrici con ipotesi composte

Un test con entrambe le ipotesi semplici, del tipo che abbiamo appena studiato, si incontra raramente nelle applicazioni. E’ invece assai pi` u frequente il caso in cui entrambe le ipotesi H0 , H1 (o almeno una di esse) sono composte. In questo paragrafo tratteremo questi tipi di test parametrici, assumendo dapprima che solo l’ipotesi alternativa sia composta. Data una ipotesi nulla del tipo (9.28), le ipotesi alternative che si usano pi` u spesso sono: 1) H1 : ϑ 6= ϑ0 2) H1 : ϑ > ϑ0 3) H1 : ϑ < ϑ0 . (9.37) Nel caso 1) il test si chiama bidirezionale; nel caso 2) `e unidirezionale superiore o con“con coda a destra”, e nel caso 3) `e unidirezionale inferiore o “con coda a sinistra”. C’`e una stretta relazione tra un test con ipotesi di questo tipo e la determinazione di un intervallo di confidenza per ϑ, gi`a trattato nel Capitolo 8. Infatti, consideriamo un test bidirezionale per H0 al livello di significativit`a α. Una volta definita la distribuzione campionaria della statistica Gn , da usare quando `e vera l’ipotesi nulla su ϑ, una regione A di accettazione di H0 `e un intervallo delle realizzazioni campionarie contenente gn = ϑ0 (v. Fig. 9.2). L’area sottesa dalla distribuzione campionaria in questo intervallo deve essere uguale ad 1 − α, perch`e α `e il rischio di prima specie definito dalla (9.30) e misura la somma delle due aree della distribuzione che sono esterne alla regione di accettazione. Dunque, la regione di accettazione del test bidirezionale al livello di significativit`a α `e un intervallo Iγ soddisfacente la condizione: IP(Gn ∈ A |H0 vera) = IP(gn ∈ Iγ ) ≥ γ = 1 − α,

(9.38)

ossia `e un intervallo di confidenza per una stima di ϑ al livello fiduciario γ = 1 − α. Questo intervallo non `e unico: esiste, in generale, una famiglia Iγ,α = {Iγ } di insiemi

246

TEST PARAMETRICI

H0

H1

H1 H1

1 -a= g b C

b

b

q0 A = Ig

C

gn

Figura 9.2

che soddisfano la (9.11). Il test pi` u potente (se esiste) `e quello in cui la regione di accettazione A dell’ipotesi nulla `e l’intervallo Iγ ∈ Iγ,α che ha ampiezza minore. Questo risultato vale anche per i test unidirezionali definiti dalle ipotesi alternative 2) e 3) nella (9.37), ai quali corrispondono intervalli di confidenza aperti rispettivamente a sinistra o a destra. Per la valutazione dell’errore di seconda specie β del test, che `e definito dalla (9.31), occorre tenere presente che nelle ipotesi alternative composte si ammette che il parametro ϑ possa assumere qualsiasi altro valore ϑ1 ∈ IR − ϑ0 , e quindi a ciascuna realizzazione campionaria gn = ϑ1 corrisponde un differente errore di seconda specie. Esso `e dunque una funzione β(ϑ1 ) del valore empirico ϑ1 osservato nella statistica campionaria, e la potenza del test `e la funzione W (ϑ1 ) = 1 − β(ϑ1 ). Stabilito il rischio di prima specie α che si `e disposti ad accettare, la valutazione esplicita della regione di accettazione di H0 si effettua applicando i metodi per la determinazione degli intervalli di confidenza che sono stati esposti nel Capitolo 8, e per tale motivo dipende dal parametro su cui si deve effettuare il test, dalla numerosit`a del campione di cui disponiamo, e dal modello statistico della popolazione da cui tale campione `e stato estratto.

9.7.1

Test sul valor medio per il modello normale

Consideriamo in dettaglio il caso di pi` u frequente interesse nelle applicazioni: quello in cui la popolazione ha un modello statistico normale e quindi le distribuzioni campionarie sono anche esse normali con media ϑ0 = µ0 se H0 `e vera, oppure ϑ1 = µ1 ∈ IR−µ0 se `e vera l’ipotesi alternativa H1 . Per procedere nel test occorre anzitutto distinguere il caso in cui la varianza della popolazione `e nota (in cui si applicheranno i metodi del §8.2.2.1) da quello in cui `e incognita (ed `e quindi necessario usare le distribuzioni t-Student come spiegato nel §8.2.2.2). 9.4.1.1 Modello Normale-1: popolazione con varianza σ 2 nota

9.7 – Test parametrici con ipotesi composte

247

In tal caso le distribuzioni campionarie normali associate alle ipotesi H0 ed H1 hanno uguale varianza σn2 = σ 2 /n e non devono essere stimate. Per qualunque numerosit` a n del campione, si pu`o determinare la regione di accettazione del test e l’errore di seconda specie usando la Tabella di erf(z) come segue. • Test bidirezionale. Il test bidirezionale pi` u potente per il valor medio, al livello di significativit`a α, `e quello in cui si assume come regione di accettazione di H0 l’intervallo di confidenza simmetrico rispetto a µ0 , del tipo (8.11) con γ = 1 − α: A:

σ σ µ0 − √ z1−α/2 ≤ µn ≤ µ0 + √ z1−α/2 n n

(9.39)

dove z1−α/2 `e il coefficiente fiduciario per la variabile standardizzata Zn =

µn − µ0 √ , σ/ n

(9.40)

ovvero il suo quantile di ordine 1 − α/2 che `e legato al rischio di prima specie α dalla condizione (8.10) che qui si riscrive nella forma: 1 − α = IP(|Zn | ≤ z1−α/2 ) = 2erf(z1−α/2 ). Nel test bilaterale l’ipotesi nulla H0 `e da accettare se il valore empirico della variabile Zn definita dalla (9.40), calcolato attraverso le osservazioni del campione, appartiene all’intervallo (9.39). In caso contrario, si conclude che i dati forniti dal campione non sono compatibili, al livello di significativit`a α, con l’ipotesi H0 . Il rischio di seconda specie si determina come segue: Z

"

#

µ0 +σn z1−α/2 1 (µn − µ1 )2 dµn β(µ1 ) = IP(µn ∈ A|H1 ∼ N (µ1 , σn )) = √ exp − 2σn2 σn 2π µ0 −σn z1−α/2 µ ¶ µ ¶ µ0 − µ1 µ1 − µ0 = erf z1−α/2 + + erf z1−α/2 + . (9.41) σn σn

Se introduciamo la nuova variabile standardizzata Zn0 =

µ1 − µ0 µn − µ0 µn − µ1 − = , σn σn σn

(9.42)

ossia la differenza tra le normali standard associate rispettivamente alla ipotesi nulla H0 e alla ipotesi alternativa H1 , il rischio di seconda specie si pu`o pi` u sinteticamente riscrivere in funzione di zn0 nella forma: β(zn0 ) = erf(z1−α/2 − zn0 ) + erf(z1−α/2 + zn0 ). Ne deriva una curva caratteristica operativa (mostrata qualitativamente nel grafico con linea continua di Fig. 9.3) che tende a zero per µ1 → ±∞, `e monotona crescente per −∞ < µ1 < µ0 (ossia per zn0 < 0); vale β(µ0 ) = 1 − α per µ1 = µ0 (ossia per zn0 = 0); ed `e monotona decrescente per µ0 < µ1 < +∞ (zn0 > 0).

248

TEST PARAMETRICI

1

b

1- a

H1 : m 1 m 0 0.5

H1 : m 1 < m 0

H1 : m 1 > m 0

m0

- z 1- a

0

m1

z 1- a

z'n

Figura 9.3 - Curve caratteristiche operative per tests sul valor medio

• Test unidirezionale superiore. La regione di accettazione in questo test, per il quale l’ipotesi alternativa `e H1 : µ = µ1 > µ0 , `e l’intervallo aperto a sinistra: A:

σ −∞ < µn ≤ µ0 + √ z1−α n

dove z1−α `e il quantile di ordine 1 − α della normale standard (9.13), che al livello di significativit`a α soddisfa la condizione 1 − α = IP(Zn ≤ z1−α ) =

1 + erf(z1−α ), ) 2

(9.43)

mentre il rischio di seconda specie vale Z

"

#

µ0 +σn z1−α 1 (µn − µ1 )2 dµn β(µ1 ) = IP(µn ∈ A|H1 ∼ N (µ1 , σn )) = √ exp − 2σn2 σn 2π −∞ µ ¶ µ ¶ µ0 + σn z1−α − µ1 1 µ0 − µ1 = erf − erf(−∞) = + erf z1−α + .(9.44) σn 2 σn

Espresso in funzione della differenza standardizzata (9.15), esso vale β(zn0 ) =

1 + erf(z1−α − zn0 ) 2

(9.170 )

ed `e una funzione monotona decrescente di µ1 e zn0 : tende a zero per zn0 → +∞; `e uguale a 0.5 per zn0 = z1−α ; `e ancora uguale ad 1 − α per µ1 = µ0 (ossia per zn0 = 0) e teoricamente tende all’unit`a per µ1 , zn0 → −∞ (v. Fig. 9.3). • Test unidirezionale inferiore. La regione di accettazione in questo test, per il quale l’ipotesi alternativa `e H1 : µ = µ1 < µ0 , `e l’intervallo aperto a destra: A:

σ µ0 − √ z1−α ≤ µ < +∞ n

9.7 – Test parametrici con ipotesi composte

249

dove z1−α `e ancora il quantile di ordine 1 − α della normale standard (9.40) il quale, fissato il rischio di prima specie α, `e tale da soddisfare la condizione 1 − α = IP(Zn ≥ −z1−α ) =

1 + erf(z1−α ). 2

Il rischio di seconda specie vale Z

"

#

+∞ 1 (µn − µ1 )2 β(µ1 ) = IP(µn ∈ A|H1 ∼ N (µ1 , σn )) = √ exp − dµn 2σn2 σn 2π µ0 −σn z1−α µ ¶ µ ¶ µ0 − σn z1−α − µ1 1 µ0 − µ1 = erf(+∞) − erf = − erf −z1−α + (9.45) σn 2 σn

o anche, se espresso in funzione della differenza standardizzata (9.42): β(zn0 ) =

1 + erf(z1−α + zn0 ). 2

(9.180 )

L’errore di seconda specie `e in tal caso una funzione monotona crescente, simmetrica della (9.17’) rispetto all’asse zn0 = 0: tende teoricamente a zero per zn0 → −∞; `e uguale a 0.5 per zn0 = −z1−α , vale ancora 1 − α per µ1 = µ0 (ossia per zn0 = 0) e tende all’unit`a per µ1 , zn0 → +∞. La Fig. 9.3 mostra che a parit`a di α ed n i rischi di seconda specie dei test unilaterali (indicati con linea tratteggiata) sono minori di quello del corrispondente test bilaterale, in tutto l’intervallo di µ1 definito dalla particolare ipotesi alternativa che si considera. Ne segue che, sempre a parit`a di α e n, un test unilaterale `e pi` u potente di un test bilaterale. Esistono specifici diagrammi di curve caratteristiche (si veda ad esempio il testo [3] citato in Bibliografia) in cui il rischio di seconda specie `e riportato in funzione di |µ0 − µ1 |/σ al variare di α e n. I diagrammi mostrano, tra l’altro, che la pendenza delle curve cresce al crescere di n, per cui qualsiasi test con assegnato rischio di prima specie `e tanto pi` u potente quanto maggiore `e la numerosit` a del campione. In definitiva, questi diagrammi consentono quindi di valutare la numerosit` a campionaria che `e necessaria per effettuare un test con prefissata potenza W (zn0 ) = 1 − β(zn0 ). 9.4.1.2 Modello Normale generale: popolazione con varianza sconosciuta. Se la varianza σ 2 della popolazione normale `e sconosciuta, essa dovr` a essere stimata con la statistica campionaria corretta Sˆn2 definita nella (7.14). Sulla base del Teorema 8.1 (t-Student), il test si effettua osservando se il valore empirico della statistica Tn definita nella (8.16) appartiene alla regione di accettazione di H0 oppure alla regione di rifiuto dell’ipotesi nulla. Se si effettua un test bidirezionale, la regione di accettazione `e fornita dall’intervallo di confidenza (8.18), che ora si scrive: A:

sˆn sˆn µ0 − √ t1−α/2 ≤ µn ≤ µ0 + √ t1−α/2 n n

(9.46)

250

TEST PARAMETRICI

dove sˆn `e il valore empirico della radice quadrata di Sˆn2 , e t1−α/2 `e il quantile di ordine (1 − α/2) della distribuzione t-Student con (n − 1) gradi di libert`a. Confrontandola con la (9.39), si nota che la (9.46) si ricava sostituendo semplicemente sˆn al posto di σ e t1−α/2 al posto di z1−α/2 . In modo analogo, applicando le (8.19) e indicando con t1−α il quantile di ordine (1−α) della t-Student con (n−1) gradi di libert`a, si ricavano le regioni di accettazione per un test unidirezionale superiore (“coda a destra”): A:

sˆn −∞ < µn ≤ µ0 + √ t1−α n

(9.47)

oppure unidirezionale inferiore (“coda a sinistra”): A:

sˆn µ0 − √ t1−α ≤ µn < +∞. n

(9.48)

√ L’ipotesi nulla sar`a da accettare solo se il valore empirico tn = (µn − µ0 ) n/ˆ sn ricavato dal campione appartiene a una delle regioni ora definite. Le formule precedenti sono valide per qualsiasi numerosit` a n del campione, ma si usano soltanto per piccoli campioni (n < 30 circa). Infatti, si ricordi che la distribuzione t-Student tende alla normale standard per n → ∞, per cui quando n > 30 i quantili t1−α/2 e t1−α possono essere sostituiti dai corrispondenti quantili z1−α/2 e z1−α della variabile standardizzata Zn =

µn − µ0 √ , sˆn / n

(9.49)

che `e analoga alla (9.40) ma con la stima sˆn al posto di σ. In definitiva, se il test si effettua usando grandi campioni `e ancora possibile utilizzare tutti i risultati (compresa la determinazione dei rischi di seconda specie) che sono stati ricavati per il modello Normale-1. A tal fine, occorre soltanto stimare preventivamente la varianza con il suo valore campionario corretto. 9.4.1.3 Popolazione con distribuzione non normale Si `e visto nel Capitolo 6 che, indipendentemente dal modello statistico usato per la popolazione, le distribuzioni campionarie delle medie approssimano, al crescere di n, la legge normale N (µ, σ 2 /n). Ne segue che se n `e sufficientemente grande (n > 30) e se l’ipotesi nulla `e vera, la distribuzione delle medie campionarie si pu`o approssimare con una legge normale avente media µ0 e varianza σ 2 /n, se σ 2 `e nota, oppure Sˆn2 /n se σ 2 `e incognita. Pertanto, per grandi campioni le regioni di accettazione e i rischi de seconda specie nei tre tipi di test sono ancora quelle ricavati nello studio del modello Normale-1, indipendentemente dalla forma della distribuzione della popolazione da cui `e stato estratto il campione. Viceversa, per piccoli campioni estratti da una popolazione non normale non `e possibile, in generale, procedere al test sul valor medio. Esempio 9.2

9.7 – Test parametrici con ipotesi composte

251

Il peso medio di un campione di 100 confezioni di un prodotto alimentare vale µn = 1570 gr. Questo campione `e stato estratto da una popolazione per la quale si assume un modello statistico normale N (ϑ, σ 2 ) con deviazione standard σ = 120 gr. H0

W(z'n )

H1

1

1- a -2.58 -1.96

0

1.96 2.58

zn

1623.52 1630.96

mn

A A 1569.04 1576.48

1600

-3

-2

-1

0

1

2

3

z'n

Figura 9.4

Effettuando tests con livelli di significativit`a α = 0.05 e 0.01, quando si pu`o affermare che il peso medio µ dell’intera popolazione di quel prodotto, confezionato dalla stessa ditta `e di 1600 gr ? Si tratta di effettuare un test bidirezionale scegliendo tra una ipotesi nulla semplice e una ipotesi alternativa composta: H0 : µ = 1600 gr

H1 : µ 6= 1600 gr.

Se H0 `e vera, la distribuzione campionaria √ delle medie µn `e normale con valor medio 1600 e deviazione standard σn = 120/ 100 = 12; se `e vera H1 , la distribuzione campionaria `e una qualsiasi Normale con valor medio µn 6= 1600 e uguale deviazione standard (v. Fig. 9.4). Applichiamo la (9.12) per determinare le regioni di accettazione dell’ipotesi nulla ai vari livelli di significativit`a. Per α = 0.05, si ha: z1−0.05/2 = z0.975 = 1.96, e quindi la regione di accettazione dell’ipotesi nulla `e l’intervallo A = {zn : −1.96 ≤ zn ≤ 1.96} = {µn : 1576.48 gr ≤ µn ≤ 1623.52 gr}. Al livello α = 0.01 si ha invece z1−0.01/2 = z0.995 = 2.58, e quindi un intervallo pi` u ampio: A = {zn : −2.58 ≤ zn ≤ 2.58} = {µn : 1569.04 gr ≤ µn ≤ 1630.96 gr}. Il valore empirico zn della variabile standardizzata (9.40) risultante dalla osservazione del campione `e 1570 − 1600 = −2.5 . zn = 12 Al livello di significativit`a 0.05 (ovvero con un rischio massimo di sbagliare del 5%) esso non appartiene ad A, e pertanto rigettiamo H0 affermando che i dati forniti dal campione non sono compatibili con l’affermazione che il peso medio sia di 1600

252

TEST PARAMETRICI

gr. Al contrario, con un livello di significativit`a 0.01 (cio`e con un rischio massimo di sbagliare dell’1%), risulta zn ∈ A ed accettiamo l’ipotesi nulla concludendo che il peso medio `e di 1600 gr. Il rischio di seconda specie di questo test `e fornito dalla (9.41) e in funzione della differenza standardizzata (9.42) che qui si scrive zn0 = (µ1 − 1600)/12, vale: β(zn0 ) = erf(1.96 − zn0 ) + erf(1.96 + zn0 ) β(zn0 ) = erf(2.58 − zn0 ) + erf(2.58 + zn0 )

se α = 0.05, se α = 0.01.

La curva di potenza del test W (zn0 ) = 1 − β(zn0 ) ha un grafico che `e mostrato in Fig. 9.4 per un livello di significativit`a α = 0.05 /. Esempio 9.3

I carichi di rottura dei cavi prodotti da una fabbrica hanno un valor medio µ = 1800 Kg. Con una diversa tecnologia si intende mettere in produzione un nuovo tipo di cavo con carico di rottura maggiore. Si esaminano 50 cavi scelti a caso dalla nuova produzione, e si trova che la media campionaria dei nuovi carichi di rottura `e µn = 1850 con varianza campionaria corretta Sˆn2 = 10.000Kg 2 . Si pu`o affermare, a un livello di significativit`a α = 0.01, che i nuovi cavi hanno un carico medio di rottura pi` u elevato? Definiamo anzitutto le due ipotesi sulle quali dobbiamo fare la nostra scelta: H0 H1

: :

µ = 1800 Kg µ > 1800 Kg

(non c’`e variazione nel carico di rottura) (la nuova produzione migliora il carico di rottura).

Pur senza fare alcuna ipotesi sul modello statistico dei cavi di nuova produzione, poich`e il campione esaminato `e sufficientemente grande la distribuzione campionaria delle medie si pu`o approssimare con una legge normale avente media µ0 = 1800 Kg se H0 `e vera, e varianza Sˆn2 /n = 10.000/50 = 200 Kg2 . Effettuiamo un test unidirezionale superiore sulla variabile standardizzata (9.49) che nel nostro caso, se H0 `e vera, vale: Zn =

µn − 1800 √ . 200

(9.50)

Assumendo un rischio di prima specie α = 0.01, il valore di z1−α che delimita la regione di accettazione e quella di rifiuto si calcola con la (9.43) imponendo: 1 − α = IP(Zn ∈ C | H0 vera) =

1 + erf (z1−α ) = 0.99 2

ossia erf(z1−α ) = 0.49, e dalla Tabella di erf(z) si ricava: z1−α = 2.33. La regione di accettazione di H0 (v. Fig. 9.5) `e dunque l’intervallo A:

{zn : −∞ < zn ≤ 2.33} = {µn : −∞ < µn ≤ 1833}

e quella di rifiuto `e C:

{zn : 2.33 < zn < ∞} = {µn : 1833 < µn < ∞}.

9.7 – Test parametrici con ipotesi composte H0

253

W(z n' )

H1

1

1- a

0.5

a

zn

2.33

0

A

C 1833

1800

-3

1850

-2

-1

0

1

mn

2

3

z1- a

z'n

Figura 9.5

Sotto l’ipotesi H0 vera, il valore empirico di zn ottenuto dal campione si ricava sostituendo µn = 1850 nella (9.50). Esso vale zn = 3.55 ed appartiene alla regione di rifiuto. Dunque l’ipotesi nulla `e da rigettare, e l’affermazione che i cavi di nuova produzione hanno un pi` u elevato carico di rottura pu`o essere sostenuta al livello di significativit`a prescritto. Il rischio di seconda specie di questo test unidirezionale `e dato dalla √ (9.44), ed espresso in funzione della differenza standardizzata zn0 = (µ1 − 1800)/ 200 vale: β(zn0 ) =

1 + erf(2.33 − zn0 ). 2

La corrispondente curva di potenza W (zn0 ) = 1 − β(zn0 ) `e mostrata in Fig. 9.5. / Esempio 9.4: Test sulle frequenze relative

Una ditta farmaceutica afferma che un suo analgesico `e efficace per un periodo di dodici ore nel 90% dei casi. In un campione di n = 200 persone, la medicina ha dato in effetti ottimi risultati a ns = 160 sofferenti. Si chiede di valutare se, al livello di significativit`a α = 0.01, la ditta farmaceutica pu`o legittimamente sostenere quanto affermato. Se p `e la probabilit`a che l’analgesico abbia effetto per dodici ore, si chiede di procedere a un test unidirezionale scegliendo fra le seguenti ipotesi: H0 H1

: :

p = p0 = 0.9 p = p1 < 0.9

(l’affermazione `e corretta); (l’affermazione `e falsa).

La frequenza relativa dei “successi” della medicina rilevata dal campione `e y = ns /n = 160/200 = 0.8. Nell’ipotesi che H0 sia vera, la distribuzione campionaria delle frequenze relative Y = ns /n dei successi `e approssimabile con una legge normale (cfr. §7.5) con media E{Y } = p0 = 0.9 e deviazione standard s

σ0 =

p0 (1 − p0 ) = n

r

0.9 · 0.1 = 0.0212. 200

254

TEST PARAMETRICI W( p ) 1

H0

H1

1

0.5

a 0.8506

0.8

1- a 0.9

-4.71

Y = n s /n

A

C -2.33

z

0

-2

p

0.9

0.8506 -1

0

1

1

z'

Figura 9.6

Nel nostro test unidirezionale inferiore al livello di significativit`a α = 0.01, il quantile z1−α per la variabile standardizzata Z=

Y − p0 Y − 0.9 = σ0 0.0212

che `e tale da soddisfare la condizione 1 − α = IP(Z ≥ −z1−α ) =

1 + erf (z1−α ) = 0.99 , 2

vale z1−α = 2.33 come nell’Esempio precedente. La regione di accettazione dell’ipotesi nulla `e dunque l’intervallo aperto a destra: A = {z : −2.33 ≤ z < +∞} = {Y : 0.8506 ≤ Y < +∞} indicata in Fig. 9.6, mentre la regione di rifiuto `e C = {z : −∞ < z < 2.33} = {Y : −∞ < Y < 0.8506}. Il valore empirico di zn osservato nel campione `e zn =

0.8 − 0.9 = −4.71 0.0212

ed appartiene alla regione di rifiuto. Quindi, al livello di significativit`a 0.01 dobbiamo rigettare H0 , concludendo che l’affermazione della ditta farmaceutica non `e corretta, in quanto non legittimata dalle osservazioni effettuate sul campione. Prima di procedere al calcolo dell’errore di seconda specie, `e qui necessario sottolineare che le distribuzioni campionarie associate all’ipotesi alternativa sono normali con varianze diverse, in generale, da σ02 . Infatti, fissato un valore p1 < p0 compatibile con l’ipotesi alternativa, questa `e normalmente distribiuta con media p1 e deviazione standard s p1 (1 − p1 ) 6= σ0 , σ1 = n

9.7 – Test parametrici con ipotesi composte

255

che `e maggiore di σ0 per tutti i reali p1 compresi nell’intervallo (1 − p0 ) < p1 < p0 . La Fig. 9.6 mostra due di queste distribuzioni, che al diminuire di y1 aumentano la dispersione rispetto al loro valor medio. Ne segue che il rischio di seconda specie in questo test `e non `e dato dalla (9.45), ma deve essere calcolato come segue: "

Z

#

+∞ (Y − p1 )2 1 exp − dY = β(p1 ) = IP[Y ∈ A | H1 ' == √ 2σ12 σ1 2π p0 −σ0 z1−α µ ¶ ¶ µ p0 − σ0 z1−α − p1 1 p1 − p0 σ0 = erf(+∞) − erf = + erf z1−α + . σ1 2 σ1 σ1

N (p1 , σ12 )]

Il suo andamento qualitativo non varia rispetto a quello calcolato con la (9.45): `e sempre una funzione monotona crescente, e vale 0.5 per p1 = p0 − σ0 z1−α = 0.8506 che `e l’estremo inferiore dall’intervallo di accettazione A. Per ricercare una analogia formale con la (9.18’), si pu`o anche definire la differenza standardizzata: s

p1 − p0 Z = = (p1 − p0 ) σ1 0

n , p1 (1 − p1 )

mediante la quale il rischio di seconda specie si pu`o riscrivere nella forma: µ

β(z 0 ) =

σ0 1 + erf z1−α + z 0 2 σ1



che assume il valore 0.5 per σ0 z = − z1−α = −z1−α σ1 0

s

p0 (1 − p0 ) = −1.96. (p0 − σ0 z1−α )(1 − p0 + σ0 z1−α )

La potenza W (p1 ) = 1 − β(p1 ) del test `e la funzione monotona decrescente riportata in Fig. 9.6. / Esempio 9.5: Test sulla differenza di distribuzioni normali

Due campioni di 100 persone ciascuno sono estratti dalla popolazione dei pazienti di una malattia. Al campione A, unitamente alla terapia usuale si somministra una nuova cura in fase di sperimentazione; al campione B viene prescritto di continuare unicamente con la terapia usuale. A conclusione del trattamento, risulta che sono guariti nA = 75 pazienti del gruppo A e nB = 65 pazienti del gruppo B. Possiamo ritenere che la nuova cura `e efficace, ai livelli di significativit`a α = 0.01, 0.05 e 0.10 ? Indichiamo con YA la frequenza relativa (incognita) di guarigione tra la popolazione dei pazienti che si sono curati anche con la nuova terapia, e con YB la frequenza relativa di guarigione con la cura usuale, che supponiamo statisticamente indipendente da YA . Definiamo quindi la variabile aleatoria differenza tra le frequenze relative: d(ω) = YA − YB ,

256

TEST PARAMETRICI

sulla quale effettuiamo un test unidirezionale superiore per verificare le seguenti ipotesi: H0 H1

: :

d=0 (la nuova cura non ha effetto) d = d1 > 0 (la nuova cura `e pi` u efficace di quella usuale).

In seguito alle osservazioni fatte sui campioni, le frequenze relative di guarigione nelle due popolazioni di pazienti hanno distribuzioni approssimabili con leggi normali, rispettivamente con valor medio E{YA } =

75 = pA = 0.75 ; 100

E{YB } =

65 = pB = 0.65 100

σ 2 (YB ) =

0.65 · 0.35 = 0.002275 . 100

e varianze che per la (7.22) valgono: σ 2 (YA ) =

0.75 · 0.25 = 0.001875 , 100

Poich`e YA e YB sono normali e statisticamente indipendenti, anche d(ω) ha una distribuzione normale, come mostrato nel Capitolo 4. Essa ha valor medio E{d} = 0 se H0 `e vera, oppure E{d} = d1 > 0 se `e vera H1 , con uguale deviazione standard che vale (si confronti con l’Esempio 7.2): q

σd =

σ 2 (YA ) + σ 2 (YB ) =

√ 0.001875 + 0.002275 = 0.06442.

Il valore empirico della differenza d rilevato dai campioni `e dn = pA − pB = 0.10, e quello della corrispondente variabile standardizzata della differenza tra le frequenze relative vale: 0.10 dn − E{d} = ' 1.55 . zn = σd 0.06442 Per un test unidirezionale con “coda a destra”, i quantili z1−α corrispondenti ai livelli richiesti si calcolano applicando la (9.43) come come `e stato fatto nell’Esempio 9.3, e valgono: α = 0.01 : α = 0.05 : α = 0.10 :

z1−α = 2.33 (d1−α = 0.15) z1−α = 1.645 (d1−α = 0.106) z1−α = 1.28 (d1−α = 0.082).

In parentesi sono riportati i corrispondenti valori del quantile d1−α = σd · z1−α della distribuzione normale di d(ω). La regione di accettazione dell’ipotesi nulla `e A = {zn : −∞, z1−α } = {dn : −∞, d1−α }. Ai livelli di significativit`a α = 0.01 e 0.05, il risultato empirico standardizzato zn ' 1.55 < z1−α (corrispondente a dn = 0.10 < d1−α ) cade nella regione di accettazione di H0 , per cui si deduce che le differenze percentuali di guarigione nei due campioni non sono statisticamente significative, e non si pu`o affermare che esse indichino una efficacia della nuova cura.

9.7 – Test parametrici con ipotesi composte

257

H 0 , n = 300

b

H0 , n = 100

H1

dn b -0.15

-0.05

-0.1

0.05

0

0.1

0.15

d

Figura 9.7

Al contrario, al livello di significativit`a α = 0.10 si ha che zn cade nella regione di rifiuto di H0 : respingeremo dunque l’ipotesi nulla e affermeremo che la nuova cura `e pi` u efficace di quella usuale. Le conclusioni che si traggono dal test dipendono in modo determinante dal tipo del rischio α che siamo disposti a correre se si fallisce la previsione. Nel caso in cui si accetti un livello di significativit`a α = 0.1, bisogna mettere in conto che esiste un 10% di probabilit`a di illudere il paziente, somministrandogli una cura che non ha effetti utili. Si pu`o decidere di diminuire questo rischio di errore ma, a parit`a di numerosit`a del campione, cresce di conseguenza il rischio β di commettere un errore di seconda specie, che consisterebbe nel non somministrare la nuova cura, anche se in realt`a questa `e efficace: in tal caso aumenterebbe il rischio di non intervenire efficacemente per guarire un maggior numero di malati. Questo rischio di seconda specie del test si determina applicando la (9.44): µ

1 d1 β(d1 ) = + erf z1−α − 2 σd



e accettando un rischio di prima specie α = 0.10, in corrispondenza del valore empirico d1 = dn = 0.10 vale: β(0.10) =

1 + erf 2

µ

1.28 −

0.10 0.06442



=

1 − erf (0.2723) = 0.5 − 0.107 = 0.393 . 2

Ne segue che in base all’analisi dei campioni il rifiuto della nuova terapia sarebbe controproducente, con una probabilit`a che `e circa del 40%, ai fini di un miglioramento della terapia in uso. D’altra parte, esiste un modo per diminuire il rischio di prima specie α senza aumentare l’entit`a del rischio di seconda specie β: esso consiste nell’aumentare la numerosit`a n dei campioni, perch`e in tal modo si aumenta l’affidabilit`a della decisione che si assume a seguito del test. Si supponga infatti di rifare il medesimo test su altri due campioni di 300 pazienti ciascuno, dal quale risultano frequenze relative di guarigione, che indicheremo con

258

TEST PARAMETRICI

YA0 , YB0 , che sono uguali a quelle del test precedente: YA0 =

225 = 0.75 ; 300

YB0 =

195 = 0.65. 300

Se `e vera l’ipotesi nulla, la distribuzione campionaria della differenza d = YA0 − YB0 tra le nuove frequenze relative ha ancora media E{d} = 0.10, ma ha ora deviazione standard σd0

q

=

r

σ 2 (YA0 )

+

σ 2 (YB0 )

=

0.75 · 0.25 0.65 · 0.35 + = 0.0372 300 300

che denota una minor dispersione dei dati campionari rispetto alla media. Per il dato empirico dn = 0.10 con n = 300, la variabile standardizzata assume ora il valore: zn0 =

0.10 0.10 = = 2.688 > 2.33, 0 σd 0.0372

che appartiene alla regione di rifiuto al livello di significativit`a α = 0.01. Rigettando l’ipotesi nulla H0 , potremo allora affermare che la nuova cura `e efficace, sapendo che la probabilit`a di commettere un errore di prima specie (nell’illudere il paziente) `e limitata all’1% e che contemporaneamente il rischio di seconda specie (di non utilizzare un farmaco pi` u efficace) `e comunque ridotto al valore: 1 β(0.10) = + erf 2

µ

0.10 2.33 − 0.0372



=

1 − erf (0.358) ' 0.361. 2

La Fig. 9.7 mostra il confronto tra i risultati che si ottengono usando le due distribuzioni campionarie con differente numerosit` a, nel caso in cui sia vera l’ipotesi nulla H0 : d = 0. Per n = 300, il quantile d1−α = 0.0372 · z1−α della differenza d = YA0 − YB0 ai vari livelli di significativit`a vale: α = 0.01 , α = 0.05 , α = 0.01 ,

z1−α = 2.33 : d1−α = 0.0866 z1−α = 1.645 : d1−α = 0.061 z1−α = 1.28 : d1−α = 0.0476

e, al contrario del caso in cui n = 100, il dato empirico dn = 0.10 cade nella regione di rifiuto anche se si assume il minore tra i tre rischi di prima specie. /

9.7.2

Test sulla varianza

Per procedere a tests sulla varianza occorre che la popolazione da cui si estrae il campione sia normalmente distribuita, perch`e questa condizione `e necessaria per determinare gli intervalli di confidenza ricavati nel §8.2.2. Quando `e possibile accettare quasta ipotesi preliminare, un test bilaterale con ipotesi: H0 : H1 :

σ 2 = σ02 σ 2 = σ12 6= σ02

9.7 – Test parametrici con ipotesi composte

259

si effettua verificando se il valore empirico qn della statistica Qn =

n − 1 ˆ2 n Sn ≡ 2 Sn2 , 2 σ0 σ0

(9.51)

definita nel Teorema Chi-quadrato del §7.4.1, appartiene alla regione di accettazione risultante dalla scelta di un determinato rischio di prima specie α. Tenuto conto che Qn ha una distribuzione Chi-quadrato con (n − 1) gradi di libert`a, questa regione di accettazione `e l’intervallo A = {qn : χα/2 ≤ qn ≤ χ1−α/2 } = {Sn2 : σ02 χα/2 /n ≤ Sn2 ≤ σ02 χ1−α/2 /n}

(9.52)

dove χα/2 , χ1−α/2 sono i quantili di ordine α/2 e (1 − α/2) della Chi-quadrato con (n − 1) gradi di libert`a, e la regione di rifiuto di H0 `e l’insieme C = {0 ≤ qn < χα/2 } ∪ {χ1−α/2 < qn < +∞}.

(9.250 )

Se invece di vuole effettuare un test unilaterale, con coda a destra o a sinistra, le regioni di accettazione e di rifiuto saranno: H1 : σ12 > σ02 :

A = {qn : 0 ≤ qn ≤ χ1−α } = {Sn2 : 0 ≤ Sn2 ≤ σ02 χ1−α /n} C = {qn : χ1−α < qn < +∞} = {Sn2 : σ02 χ1−α /n < Sn2 < +∞}

H1 : σ12 < σ02 :

A = {qn : χα ≤ qn < +∞} = {Sn2 : σ02 χα /n ≤ Sn2 < +∞} C = {qn : 0 ≤ qn < χα } = {Sn2 : 0 ≤ Sn2 < σ02 χα /n}

dove, ovviamente, χα e χ1−α sono i quantili di ordine α e 1 − α della Chi-quadrato con n − 1 gradi di libert`a. Fissato un valore σ12 compatibile con l’ipotesi alternativa, la statistica Q0n = nSn2 /σ12 ha anch’essa una distribuzione Chi-quadrato con (n − 1) gradi di libert`a. Pertanto il rischio di seconda specie in questi test `e definito da β(σ12 ) = IP(qn ∈ A|H1 vera) = IP(qn ∈ A|Q0n = nSn2 /σ12 ∼ χ2(n−1) ) e sar`a calcolabile integrando opportunamente sulla regione A, al variare del valore corrente di σ12 , questa distribuzione Chi-quadrato associata all’ipotesi alternativa. Caso di grandi campioni Sappiamo che per n → ∞ la distribuzione Chi-quadrato tende alla normale N (n, 2n). Ne segue che per grandi campioni (almeno n > 30), potremmo approssimare la regione di accettazione e il rischio di seconda specie utilizzando la variabile normale standard (8.28) gi`a definita nel precedente Capitolo. Conviene per`o utilizzare la circostanza che in tal caso la deviazione standard √ campionaria Sn `e approssimabile con una legge normale, avente media σ e scarto σ/ 2n. Per la verifica di un’ipotesi nulla H0 sulla varianza, si pu`o utilizzare allora la statistica √ (Sn − σ0 ) 2n , (9.26) Zn = σ0

260

TEST PARAMETRICI

anch’essa con distribuzione normale standard. Scelto un rischio di prima specie α e calcolati i quantili z1−α/2 e z1−α , si individuano cos`ı le seguenti regioni di accettazione: H1 : σ12 6= σ02 : H1 : σ12 > σ02 : H1 : σ12 < σ02 :

A = {zn : −z1−α/2 ≤ zn ≤ z1−α/2 } = ½ µ µ ¶ ¶¾ z1−α/2 z1−α/2 = Sn : σ0 1 − √ ≤ Sn ≤ σ0 1 + √ 2n 2n A = ½ {zn : −∞ < zn ≤ z1−αµ} = ¶¾ z1−α = Sn : −∞ ≤ Sn ≤ σ0 1 + √ 2n A = {z : −z ≤ z < +∞} = n 1−α n ½ µ ¶ ¾ z1−α = Sn : σ0 1 − √ ≤ Sn < +∞ 2n

che per grandi campioni approssimano la (9.52) e seguenti. Il rischio di seconda specie in tal caso si calcola pi` u facilmente, perch`e `e definito dall’integrale: β(σ1 ) = IP(Sn ∈ A|Sn ∼

|calN (σ1 , σ12 /2n))

1 = σ1

"

Z A

#

(Sn − σ1 )2 exp dSn 2σ12 /2n

e si pu`o determinare utilizzando la Tavola della funzione degli errori. A seconda dell’intervallo A esso vale: H1 :

σ12

6=

σ02

:

H1 : σ12 > σ02 : H1 : σ12 < σ02 :

·√

µ



¸

σ0 σ0 β(σ1 ) = erf 2n − 1 + z1−α/2 − σ1 ¶ ·σ√1 µ ¸ σ0 σ0 − erf 2n − 1 − z1−α/2 σ1 σ¸1 ·√ µ ¶ 1 σ0 σ0 β(σ1 ) = erf 2n − 1 + z1−α + σ1 2¸ ·√ σ1 µ ¶ σ0 1 σ0 − 1 − z1−α β(σ1 ) = − erf 2n 2 σ1 σ1

Fissati α ed n, il suo andamento qualitativo `e mostrato per i tre casi in Fig. 9.8. Per σ1 = σ0 esso vale sempre 1 − α, che `e il valore massimo di β nel test bilaterale, ma tende all’unit`a per il test unilaterale superiore quando σ1 → 0, e per quello unilaterale inferiore quando σ1 → ∞. Pi` u dettagliati diagrammi di β in funzione del rapporto σ1 /σ0 si possono consultare in [3] al variare di α e della numerosit` a del campione. Esempio 9.6

Per la misurazione di un coefficiente di resistenza in galleria del vento, in aggiunta alla serie di prove gi`a considerata nell’Esempio 8.12 si effettua una nuova serie di n = 20 prove, i cui risultati mostrano ancora un valor medio empirico dell’ordine di 0.3, ma una varianza campionaria Sn2 = 0.028 che `e maggiore di quella del campione precedente. Si vuole effettuare un test per verificare se con gli ultimi dati raccolti si

9.7 – Test parametrici con ipotesi composte

261

b 1 1- a

H1 : s 21 s 20

H1: s 21 < s 20

H1 : s 21 > s 20 s1

s0 Figura 9.8 - Curve caratteristiche operative per tests sulla varianza

pu`o affermare, al livello di significativit`a α = 0.10, che la varianza della popolazione dei risultati ottenuti in quella galleria del vento `e σ 2 = 0.02. Definita l’ipotesi nulla H0 : σ02 = 0.02, se essa `e vera la statistica (9.24) vale Qn =

20 2 S = 1000Sn2 σ02 n

ed ha una distribuzione campionaria con legge Chi-quadrato con n − 1 = 19 gradi di libert`a. Per procedere in un test bidirezionale, definiamo l’ipotesi alternativa: H1 :

σ 2 6= 0.02

e determiniamo le regioni di accettazione e di rifiuto di H0 , definite dalla (9.52). Se assumiamo α = 0.10, dalla riga ν = 19 della Tabella dei quantili Chi-quadrato in Appendice si ricava: χ0.05 = 10.1, χ0.95 = 30.1. Di conseguenza, le regioni di accettazione e di rifiuto sono i seguenti intervalli di qn : A = [10.1, 30.1],

C = [0, 10.1) ∪ (30.1, +∞).

Il valore empirico della statistica Qn che si ottiene sostituendo in essa Sn2 = 0.028 vale qn = 28 e appartiene alla regione di accettazione (v. Fig. 9.9). Si pu`o perci`o concludere, al livello α = 0.10, che il campione `e compatibile con l’affermazione che le misurazioni effettuate in quella galleria del vento hanno una varianza σ 2 = 0.02. Si noti che si perviene invece a un risultato opposto se si effettua un test unidirezionale superiore assumendo l’ipotesi alternativa H1 : σ 2 > 0.02. Infatti in tal caso l’intervallo di accettazione di H0 sarebbe: A = [0, χ1−α ] = [0, χ0.90 ] = [0, 27.2] e il valore empirico qn = 28 andrebbe a cadere nella regione di rifiuto C = (27.2, +∞).

262

TEST PARAMETRICI

f(Q n )

H0

E Q

n

qn

0.05

0

10

20

0.05

30

40

c

A Figura 9.9

Per confrontare questi risultati con quelli che si ottengono per grandi campioni, supponiamo ora che i precedenti dati campionari siano stati ricavati da n = 32 prove, anzich`e 20. In tal caso si pu`o usare la statistica (??) che vale: √ 8(Sn − 0.02) √ Zn = . 0.02 Al livello α = 0.10, si ha z1−α/2 = z0.95 = 1.645, e per questa statistica la regione di accettazione di H0 , definita dalla prima delle (9.27), `e il seguente intervallo di zn : A = [−1.645, 1.645]. Il valore empirico di Zn vale √ √ 0.028 − 0.02 √ zn = 8 = 1.4657 0.02 ed appartiene ad A, per cui il risultato del test sarebbe uguale a quello che si ricava dall’esame del piccolo campione. In modo analogo, nel test unidirezionale superiore si ricava: A = (−∞, z1−α ] = (−∞, z0.90 ] = (−∞, 1.288] che non contiene zn ; dunque l’ipotesi nulla sarebbe in tal caso da rigettare, come gi`a rilevato nel caso in cui n = 20. Se n = 32, i rischi di seconda specie connessi ai due test si possono approssimare usando le formule (9.53). In particolare, se si fa coincidere σ1 con il valore empirico √ della deviazione standard Sn = 0.028 ' 0.167, si ha σ0 /σ1 ' 0.8468 e per il test bilaterale si ricava il seguente errore di seconda specie: β(0.167) = erf[8(0.8468 − 1) + 0.8468 · 1.645] − erf[8(0.8468 − 1) − 0.8468 · 1.645] = erf(0.167) − erf(−2.6186) = 0.065 + 0.4955 ' 0.56 mentre per il test unilaterale superiore si ha invece: β(0.167) =

1 + erf[8(0.8468 − 1) + 0.8468 · 1.288] = 2

9.7 – Test parametrici con ipotesi composte

263

= 0.5 + erf(−0.135) = 0.5 − erf(0.135) = 0.5 − 0.053 ' 0.447. Anche se non `e applicabile ai test effettuati con piccoli campioni, il confronto indica comunque che `e da attribuire una certa preferenza al test unilaterale, che a parit`a di α comporta un rischio di seconda specie inferiore a quello del test bilaterale.

9.7.3

Test di Fisher per il rapporto tra varianze

Si abbiano due caratteri X, Y normalmente distribuiti rispettivamente con leggi 2 ) e N (µ , σ 2 ), da ciascuno dei quali ` N (µX , σX e stato estratto un campione con Y Y 2. numerosit`a n ed m, aventi rispettivamente varianza campionaria corretta Sˆn2 e Sˆm Applicando ai due campioni il Teorema Chi-quadrato del §7.4.1, si ricava facilmente che la variabile aleatoria V (ω) =

2 (Y ) (n − 1)Qm σ 2 Sˆm = X (m − 1)Qn σY2 Sˆn2 (X)

(9.53)

`e distribuita con densit`a F di Fisher, definita nella (2.41) del §2.3.8, avente m − 1 e n − 1 gradi di libert`a. Si supponga ora di dover verificare se le distribuzioni normali dei due caratteri hanno 2 = σ 2 , ed effettuare un la medesima varianza. Si pu`o allora porre nella (9.53): σX Y test sulla statistica Sˆ2 (Y ) Vm,n = m Sˆn2 (X) ricavata dalla osservazione delle varianze corrette dei due campioni di X e Y . Definita l’ipotesi nulla 2 H0 : σX = σY2 e quella alternativa H1 :

2 σX 6= σY2 ,

si potr`a accettare H0 se il valore empirico di Vm,n `e “sufficientemente prossimo” ad 1 (che `e anche il limite cui tende il valor medio della distribuzione di Fisher per n → ∞). Scelto un livello di significativit`a α, la regione di accettazione di H0 si determina calcolando l’intervallo A = [fα/2 , f1−α/2 ], dove fα/2 e f1−α/2 sono i quantili della distribuzione F (m − 1, n − 1) di Fisher con m − 1 e n − 1 gradi di libert`a, che escludono due code con probabilit`a α/2. In Appendice sono riportate due Tabelle che indicano, al variare di m ed n, i quantili f0.95 (m, n) e f0.975 (m, n) da utilizzare per test bidirezionali ai livelli di significativit`a α = 0.10 e 0.05. Per il loro impiego, occorre anche sfruttare la seguente propriet`a della distribuzione F (m, n): fα/2 (m, n) = Esempio 9.7

1 . f1−α/2 (n, m)

(9.54)

264

TEST PARAMETRICI

In seguito alle due serie di misurazioni del coefficiente di resistenza Cx gi`a considerate negli Esempi 9.6 e 8.12 si vuole verificare, al livello di significativit`a α = 0.10, l’ipotesi che le distribuzioni di frequenza dei risultati (che come gi`a detto sono approssimabili con leggi normali) abbiano la medesima varianza. Indichiamo allora con X la frequenza relativa (teorica) delle n = 12 misure effettuate sul modello dell’Esempio 8.12, e con Y quella delle m = 20 misure dell’Esempio 9.6. Poich`e le varianze campionarie sono risultate, rispettivamente: Sn2 (X) = 0.015 e 2 (Y ) = 0.028, le varianze empiriche corrette valgono: Sm 12 Sˆn2 (X) = · 0.015 = 0.01636, 11

20 2 Sˆm (Y ) = · 0.028 = 0.02947, 19

2 = σ 2 , il valore empirico del loro rapporto ` e se `e vera l’ipotesi nulla H0 : σX e Y

Vm,n = 1 ·

0.02947 = 1.80. 0.01636

Calcoliamo ora la regione di accettazione A = ( f0.05 (m − 1, n − 1), f0.95 (m − 1, n − 1) ) con m − 1 = 19, n − 1 = 11. Il quantile f0.95 (19, 11) si calcola interpolando tra i valori forniti per m = 15 e m = 20 dalla apposita Tabella in Appendice: 1 4 f0.95 (19, 11) = f0.95 (15, 11) + f0.95 (20, 11) = 2.6606. 5 5 Il quantile f0.05 (19, 11) si calcola utilizzando la (9.30) dopo aver ricavato f0.95 (11, 19) con una doppia interpolazione lineare, effettuata dapprima tra m = 15 e m = 20 per per fissati valori di n = 10 e 15, e quindi interpolando tra n = 10 e n = 15 i risultati ottenuti per m = 19: f0.95 (10, 19) = f0.95 (15, 19) = f0.95 (11, 19) =

1 4 f0.95 (10, 15) + f0.95 (10, 20) = 2.3872 5 5 1 4 f0.95 (15, 15) + f0.95 (15, 20) = 2.243 5 5 1 4 1 f0.95 (10, 19) + f0.95 (15, 19) = f0.95 (10, 15) + 5 5 25 4 4 16 + f0.95 (10, 20) + f0.95 (15, 15) + f0.95 (15, 20) = 2.27184. 25 25 25

In definitiva si ottiene: f0.05 (19, 11) =

1 ' 0.44 f0.95 (11, 19)

e poich`e il dato empirico Vm,n appartiene all’intervallo A = (0.44, 2.6606), si accetta l’ipotesi nulla concludendo che al livello di significativit`a α = 0.10 i due campioni sono compatibili con l’affermazione che le varianze delle misurazioni effettuate sui due modelli sono uguali.

9.7 – Test parametrici con ipotesi composte

9.7.4

265

Test di incorrelazione

Si `e visto nel Capitolo 3 che le variabili aleatorie X e Y — con cui in Statistica si rappresentano due caratteri di una popolazione — sono statisticamente non correlate se `e nullo il loro coefficiente di correlazione ρ(X, Y ) definito dalla (3.9). La valutazione di questo coefficiente `e anche importante per verificare la correttezza di una regressione lineare di Y su X che si ottiene, come mostrato nel Capitolo 5, attraverso l’analisi di un campione di n coppie (xk , yk ) di dati riguardanti i due caratteri X e Y della medesima popolazione. Avendo a disposizione questo campione, un test sul coefficiente di correlazione tra i due caratteri si pu`o effettuare ricorrendo al seguente stimatore: n X

Cov(X, Y ) Rn = = Sn,X Sn,Y

(Xk − X)(Yk − Y )

k=1

nSn,X Sn,Y

(9.55)

dove X, Y , Sn,X , Sn,Y sono rispettivamente le medie campionarie e le radici quadrate delle varianze campionarie dei due caratteri. Introdotte le seguenti ipotesi: H0 :

ρ(X, Y ) = 0 ;

H1 :

ρ(X, Y ) 6= 0

(9.56)

relative al coefficiente di correlazione teorico dei due caratteri, si pu`o dimostrare che se l’ipotesi nulla `e vera, la statistica s

Tn = Rn

n−2 1 − Rn2

(9.57)

`e distribuita con legge t-Student con n − 2 gradi di libert`a. Ne segue che le regioni di accettazione e di rifiuto di H0 in un test bidirezionale al livello di significativit`a α sono rispettivamente: A = (−t1−α/2 , t1−α/2 );

C = (−∞, −t1−α/2 ) ∪ (t1−α/2 , +∞),

dove t1−α/2 `e il quantile della distribuzione t-Student con n − 2 gradi di libert`a, che esclude una coda di probabilit`a α/2. Se il valore empirico della statistica (9.33), calcolato con i dati forniti dal campione, appartiene alla regione di accettazione cos´ı determinata, si concluder`a che i due caratteri sono non correlati al livello di significativit`a α. Esempio 9.8

Nella regressione lineare effettuata nell’Esempio 6.2 del Capitolo 6 `e gi`a stato calcolato che il coefficiente di correlazione tra i caratteri X e Y ha il valore empirico Rn = 0.7027. Poich´e esso `e relativamente prossimo all’unit`a, si `e dedotto che i dati (xk , yk ) ricavati dal campione di numerosit` a n = 12 sono sufficientemente correlati statisticamente.

266

TEST PARAMETRICI

Effettuiamo un test di incorrelazione sulla statistica (9.33), per verificare se si possono trarre le medesime conclusioni anche nei confronti delle propriet`a statistiche della coppia di caratteri della popolazione dalla quale `e stato estratto il campione esaminato. Il valore empirico che si ricava per la statistica (9.57) vale s

tn = 0.7027

10 = 3.1232. 1 − (0.7027)2

L’esame della tabella dei quantili della distribuzione t-Student con n − 2 = 10 gradi di libert`a mostra che t1−α/2 = 2.228 oppure 2.764 oppure 3.169 rispettivamente per α = 0.05 oppure 0.02 oppure 0.01. Ne segue che ai vari livelli di significativit`a le regioni di rifiuto di H0 sono: α = 0.05 : α = 0.02 : α = 0.01 :

C = (−∞, −2.228) ∪ (2.228, +∞) C = (−∞, −2.764) ∪ (2.764, +∞) C = (−∞, −3.169) ∪ (3.169, +∞)

e quindi il dato empirico tn appartiene alla regione di rifiuto dell’ipotesi nulla H0 : ρ(X, Y ) = 0 per test bidirezionali con rischio di prima specie α = 0.02 o superiori, mentre invece cade nella regione di accettazione per α = 0.01. Se ne conclude che se si accetta di commettere un errore di prima specie maggiore o uguale a 0.02, l’ipotesi nulla sulla incorrelazione dei due caratteri `e da rigettare. Al contrario, si concluder`a che i due caratteri sono non correlati, solo se si vuole avere una probabilit`a massima dell’1% di commettere un errore di prima specie. Si osservi per`o che in tal caso l’errore di seconda specie β(tn ) pu`o essere assai elevato, perch´e varia in un intervallo compreso tra zero e 1 − α = 0.99 /.

9.7.5

Ipotesi H0 e H1 composte

Nel caso in cui anche l’ipotesi nulla sia composta, e genericamente del tipo: H0 :

N

ϑ ∈ Θ0 ⊂ Θ ⊆ IR ,

1 1, 200

N

4 2, 200

N

9 3, 200

a 0

1

2

3

c

mn

9.7 – Test parametrici con ipotesi composte

267

Figura 9.10

l’errore di prima specie del test dipende dagli effettivi valori empirici gn ∈ Θ0 che la statistica campionaria Gn pu`o assumere nell’insieme Θ0 compatibile con l’ipotesi nulla. Fissata la regione critica C del test, e tenuto conto della definizione (9.30), l’errore di prima specie `e ora la funzione α(gn ) = IP(Gn ∈ C | ogni H0 vera, con ϑ = gn ∈ Θ0 ) , e come livello di significativit`a del test si assume in tal caso l’estremo superiore dei possibili errori di prima specie: α = sup α(gn ).

(9.58)

gn ∈Θ0

Esempio 9.9

Si effettua un test sull’intervallo di tempo medio tra due successivi interventi di manutenzione di un dato componente della strumentazione di bordo di un velivolo. Indicato con X(ω) il tempo che intercorre tra due successivi controlli di manutenzione, si assume per esso un modello statistico esponenziale, descritto dalla densit`a fX (x, ϑ) = ϑe−ϑx che come `e noto (crf. §2.3.4) ha valor medio µ = 1/ϑ e varianza σ 2 = 1/ϑ2 = µ2 . Avendo a disposizione una serie statistica di 200 rilevamenti, da cui risulta un intervallo medio di tempo µn = 3.4 mesi, si vuole verificare se, con un prescritto livello di significativit`a, la media dei tempi di attesa tra due controlli si pu`o ritenere non superiore a 3 mesi. A tal fine si assumono le seguenti ipotesi composte: H0 : H1 :

1/ϑ ∈ Θ0 = [0, 3] 1/ϑ > 3.

Se l’ipotesi nulla H0 `e vera, tenuto conto della elevata numerosit` a del campione le possibili distribuzioni campionarie delle medie sono normali, con media µn ≤ 3 e varianza σ2 µ2 σn2 = = n n 200 come indicato in Fig. 9.10. La regione di accettazione di H0 `e A = [0, c] e quella critica `e C = (c, +∞), dove c si determina ricercando il valore µc di µ ≤ 3 che rende massimo l’errore di prima specie. Per questo test unidirezionale, `e facile rendersi conto (si veda la Fig. 9.10) che sup α(µn ) = α(3),

0≤µn ≤3

per cui µc = 3. Se dunque H0 `e vera e µn = µc = 3, assumendo per esempio un livello di significativit`a α = 0.01 si deve avere: IP(µn ∈ C|µn = µc = 3) =

1 − erf (zc ) = α = 0.01 2

268

TEST PARAMETRICI

dove zc `e il coefficiente fiduciario per la variabile standardizzata √ µ ¶√ (c − µn ) n c Zc = = −1 200. µn 3 Usando come di consueto la tabella di erf(z), si ricava zc = 2.33 da cui µ

zc c=3 1+ √ 200



= 3.494.

Poich`e il valore empirico di µn ricavato dal campione appartiene alla regione di accettazione A = [0, 3.494] dell’ipotesi nulla, essa viene verificata al livello di significativit`a α = 0.01. Se invece si accetta un rischio di prima specie pi` u elevato: α = 0.10, il coefficiente fiduciario vale zc = 1.29 e si trova: µ

1.29 c=3 1+ √ 200



= 3.27365,

per cui in tal caso l’ipotesi nulla `e da rifiutare perch´e il dato empirico appartiene alla regione di rifiuto C = (3.27365, +∞) determinata con il nuovo livello di significativit`a. /

9.7.6

Test del rapporto di verosimiglianza

E’ la generalizzazione del test di Newman-Pearson fra ipotesi semplici, descritto nel §9.2.1, al caso in cui si abbiano da verificare generiche ipotesi composte del tipo: H0 H1

: :

ϑ ∈ Θ0 ⊂ Θ ⊆ IRd ϑ ∈ Θ1 = Θ\Θ0 .

(9.59)

Avendo a disposizione le n osservazioni (x1 , . . . , xn ) = x dedotte da un campione X della popolazione, si definisce la statistica sup L(ϑ, X) λn (Θ0 , X) =

ϑ∈Θ0

sup L(ϑ, X)

(9.60)

ϑ∈Θ

detta rapporto di verosimiglianza, in cui L(ϑ, X) `e la funzione di verosimiglianza (8.6), da esprimere analiticamente in base al modello statistico adottato. Si pu`o dimostrare che in un test sulla statistica (9.60) con ipotesi composte (9.59) la regione critica `e l’insieme C = {x : λn (Θ0 , x) < c},

9.8 – Problemi risolti

269

dove c > 0 `e scelto in modo che il test abbia un prescritto livello disignificativit`a α, ovvero tale da soddisfare la condizione Z

IP(Gn (X) ∈ C | H0 vera ) =

C

L(ϑ, x)dx = IP(λn (Θ0 , x) < c) ≤ α,

∀ϑ ∈ Θ0 .

Questo metodo `e ampiamente usato per effettuare test di verifica per un’ampia classe di ipotesi composte sebbene, in generale, non porti alla costruzione di un test di massima potenza come invece avviene nel caso di ipotesi semplici. Si pu`o comunque dimostrare, sotto particolari condizioni di regolarit`a della stima di massima verosimiglianza, che il test possiede propriet`a ottimali in una sua variante asintotica, vale a dire quando la numerosit` a del campione tende ad infinito. Questa teoria asintotica, per la quale si rimanda al testo [2] citato in Bibliografia, riguarda per`o soltanto problemi in cui l’ipotesi nulla `e definita su un sottospazio di Θ, ossia tale che H0 : ϑ ∈ Θ0 con dim(Θ0 ) < dim(Θ). Questo `e il caso, per esempio, di un test sulla varianza per il modello Normale-2: N (ϑ1 , ϑ2 ) in cui Θ = {ϑ = (ϑ1 , ϑ2 ) : −∞ < ϑ1 < +∞, ϑ2 > 0} `e un semipiano, e Θ0 = {ϑ = (ϑ1 , ϑ2 ) : ϑ1 = ϑ10 , ϑ2 > 0} `e la semiretta dei valori positivi di ϑ2 , per ϑ1 assegnato.

9.8

Problemi risolti

9.1. Da un campione di 200 cambi per autovetture, la cui durata di funzionamento espressa in Km. ha un modello statistico normale con varianza nota σ 2 = 1.05625 · 107 , si ricava che il chilometraggio medio campionario `e di 44500 Km. Possiamo affermare, al livello di significativit`a α = 0.01, che la durata media dei cambi `e di 44800 Km ? E al livello di significativit`a α = 0.20 ? Soluzione. Si deve effettuare un test bidirezionale su una popolazione con varianza nota, assumendo una ipotesi nulla H0 : µ = µ0 = 44800 Km, e una ipotesi alternativa H1 : µ = µ1 6= 44800 Km. Se `e vera H0 , la regione di accettazione `e l’intervallo A: in cui

44800 − σn · z1−α/2 ≤ µn ≤ 44800 + σn · z1−α/2 σ 3250 σn = √ = √ = 230 n 200

e z1−α/2 `e il quantile di ordine (1 − α/2) della variabile standardizzata Zn = (µn − µ0 )/σn . • Al livello α = 0.01 si ha dalle Tavole: z0.995 = 2.58. Sostituendo si ricava 44800 − 230 · 2.58 ≤ µn ≤ 44800 + 230 · 2.58



A = (44206.6, 45393.4)

270

TEST PARAMETRICI

e poich´e il valore empirico x ¯ = 44500 appartiene ad A, accetto H0 . • Al livello α = 0.20 si ha z0.9 ' 1.287. Sostituendo si ricava 44800 − 230 · 1.287 ≤ µn ≤ 44800 + 230 · 1.287



A = (44504, 45096)

ex ¯ = 44500 non appartiene ad A, bens`ı alla regione critica e dunque rifiuto H0 . Si perviene allo stesso risultato se si preferisce effettuare il test sulla variabile normale standard Zn il cui valore empirico, se H0 `e vera, vale zn = (44500 − 44800)/230 ' −1.30. Infatti, al livello α = 0.01 esso appartiene alla regione di accettazione A = (−z0.995 , z0.995 ) = (−2.58, 2.58) e al contrario, al livello α = 0.20 non appartiene all’intervallo A = (−1.287, 1.287). 9.2. Si dispone del seguente campione: x1 = 7, x2 = 6, x3 = 8, x4 = 5, x5 = 6, x6 = 10 di sei osservazioni di un carattere X di cui non `e noto il modello statistico. In un test bilaterale sul valor medio di X, si pu`o accettare, al livello di significativit`a α = 0.1, l’ipotesi che esso valga µ = 6 ? Soluzione. Per procedere nel test occorre assumere che la popolazione con varianza sconosciuta abbia legge normale, e usare una distribuzione campionaria con legge t-Student. L’ipotesi nulla `e H0 : µ0 = 6 e l’ipotesi alternativa `e H1 : µ 6= 6. I valori empirici della media e della varianza campionaria sono x = 42/6 = 7 1 8 s2n = (4 + 1 + 1 + 1 + 9) = . 6 3 In un test bilaterale al livello α = 0.1, se H0 `e vera l’intervallo di accettazione `e sˆn sˆn 6 − √ · t0.95 ≤ µ ≤ 6 + √ · t0.95 6 6 dove

sˆ 1 √n = √ · n n

r

n · s2 = n−1 n

r

8 ' 0.7303 15

e t0.95 `e il quantile di ordine (1 − α/2) della distribuzione t-Student con n − 1 = 5 gradi di libert`a, che vale: t0.95 = 2.015. Dunque la regione di accettazione di H0 `e l’intervallo 6 − 0.7303 · 2.015 ≤ µ ≤ 6 + 0.7303 · 2.015



A ' (4.528, 7.471)

e poich´e il valore empirico della media (¯ x = 7) appartiene ad A, accetto H0 : µ0 = 6 .

9.8 – Problemi risolti

271

Si perviene allo stesso risultato calcolando il valore empirico della statistica r

µn − µ0 √ Tn = n = (µn − µ0 ) sˆn

15 8

il quale, se H0 `e vera, vale tn = 1.3693 e quindi appartiene alla regione di accettazione A = (−t0.95 , t0.95 ) = (−2.015, 2.015). 9.3. Da una popolazione con legge normale si estrae un campione di numerosit` a n = 8 la cui varianza vale Sn2 = 0.098. In un test sulla varianza incognita della popolazione, si pu`o affermare che σ 2 < 0.09, al livello di significativit`a α = 0.10 ? Soluzione. Si imposta un test unidirezionale inferiore per una popolazione normale con varianza sconosciuta, assumendo le ipotesi: H0 : σ 2 = σ02 = 0.09,

H1 : σ 2 < 0.09.

Se H0 `e vera, la statistica Qn =

n − 1 ˆ2 7 ˆ2 S = 77.7 · Sˆn2 Sn = 2 0.09 n σ0

segue la legge χ2 con n − 1 = 7 gradi di libert`a, e la regione di accettazione di H0 `e l’intervallo A = [χα , +∞) dove χα `e il quantile di ordine α = 0.1 della distribuzione χ2 con 7 gradi di libert`a. Dalle Tavole si ricava: χ0.10 = 2.83. Il valore empirico della varianza campionaria corretta `e sˆ2n =

n 8 s2n = · 0.098 ' 0.112, n−1 7

e quindi il valore empirico di Qn vale: qn = 77.7 · 0.112 ' 8.71. Dunque qn ∈ A = [2.83, +∞) e l’ipotesi nulla `e da accettare: ne consegue che dalle risultanze del campione non si pu`o affermare: σ 2 < 0.09 . 9.4. Cinque osservazioni di un carattere avente legge normale hanno i seguenti esiti: 4

5

5

6 8.

Sviluppare un test con livello di significativit`a α = 0.1, per verificare se la media del carattere vale µ = 5 oppure µ = 6. Qual’`e la potenza del test effettuato ? Soluzione. I valori empirici della media e della varianza campionaria sono: x ¯=

28 = 5.6, 5

s2n =

16 + 25 + 25 + 36 + 64 − (5.6)2 = 1.84, 5

per cui la stima corretta della varianza della popolazione `e σ ˆ2 =

n 5 s2 = · 1.84 = 2.3 n−1 n 4

272

TEST PARAMETRICI

e la distribuzione campionaria delle medie ha legge normale con media µ e deviazione standard s r σ ˆ2 2.3 σn = = ' 0.678. n 5 Definite l’ipotesi nulla H0 : µ = µ0 = 5, l’ipotesi alternativa H1 : µ = µ1 = 6 e la variabile standardizzata µn − 5 µn − µ0 = Zn = σn 0.678 della distribuzione campionaria delle medie quando H0 `e vera, la regione critica (µc , +∞) del test si calcola imponendo che µ

α = 0.1 = IP(µn > µc |H0 ) = IP(5+σn Zn > µc ) = IP Zn >

µc − 5 0.678



µ

1 µc − 5 = −erf 2 0.678

ossia, usando le Tavole di erf(z): µ

erf

µc − 5 0.678



= 0.4



µc − 5 = 1.287 0.678

da cui si trova: µc = 5 + 0.678 · 1.287 ' 5.873. La regione critica `e dunque C = (5.873, +∞) e non contiene il valore empirico x ¯ = 5.6 della media calcolata. Se ne conclude che l’ipotesi nulla µ0 = 5 `e verificata dalle risultanze del campione. La potenza del test `e W = 1−β, e il rischio di seconda specie β si calcola utilizzando la variabile normale standard Z1 = (µn − µ1 )/σn che rappresenta la distribuzione campionaria quando `e vera l’ipotesi alternativa. Si ricava allora: µ

µc − 6 β = IP (µn ≤ µc | H1 vera) = IP Zn ≤ σn 1 1 = + erf(−0.1874) ' − 0.074 = 0.426. 2 2



µ

5.873 − 6 = IP Zn ≤ 0.678



=

Pertanto la potenza del test vale W = 0.574 . 9.5. Su 100 transistor prodotti da una ditta, 6 risultano difettosi. Al livello di significativit`a α = 0.1, si pu`o accettare l’ipotesi che la percentuale dei transistor difettosi non supera il 5% ? Qual’`e il massimo rischio di prima specie che si pu`o correre nel fare questa affermazione? Soluzione. Indichiamo con p = nd /n la frequenza relativa degli nd transistor difettosi, e impostiamo un test unidirezionale superiore per verificare l’ipotesi nulla H0 :

p = p0 = 0.05

(5 transistor difettosi)

contro l’ipotesi alternativa H1 :

p = p1 > 0.05

(pi` u di 5 transistor difettosi).



9.8 – Problemi risolti

273

Se H0 `e vera, la distribuzione campionaria di p ha media p0 = 0.05 e deviazione standard s r p0 (1 − p0 ) 0.05 · 0.95 σp = = ' 0.0281, n 100 ed `e quindi descritta dalla normale standard Zn = (p − 0.05)/0.0281. Al livello α = 0.1 la regione di accettazione di H0 `e l’intervallo A = (−∞, z0.9 ) dove z0.9 `e il quantile di ordine 1 − α della normale standard, tale che 0.90 = 0.5 + erf(z0.9 )



erf(z0.9 ) = 0.4

da cui: z0.9 ' 1.285.

Il valore empirico di Zn vale: zn = 0.01/0.0218 = 0.4587 ed appartiene ad A = (−∞, 1.285). Dunque si conclude che al livello α = 0.1 l’ipotesi H0 `e da accettare . Il massimo rischio di prima specie αmax compatibile con l’accettazione di H0 `e definito dalla condizione 1 − αmax = 0.5 + erf(zn ) = 0.5 + erf(0.4587) ' 0.5 + 0.1735 = 0.6735 per cui si ricava: αmax = 0.3265 . 9.6. Una macchina costruisce anelli che dovrebbero avere un diametro medio di 5 cm, con una tolleranza di 0.2 cm. In un campione scelto a caso di 40 anelli, il diametro medio risulta x ¯ = 4.9 cm. Dire se al livello di significativit`a del 5% la produzione `e sotto controllo. Soluzione. Si deve affettuare un test bidirezionale su un campione estratto da una popolazione normale con media µ = 5 cm e deviazione standard σ = 0.2 cm. L’ipotesi nulla da verificare `e H0 : µn = µ0 = 5 cm, contro una ipotesi alternativa H1 : µn 6= 5 cm. Se H0 `e vera, la distribuzione campionaria delle medie `e descritta dalla Normale standard µn − µ0 µn − 5 √ . Zn = = σn 0.2/ 40 Al livello di significativit`a α = 0.05, la regione di accettazione di H0 `e l’intervallo A = (−z0.975 , z0.975 ), dove z0.975 `e il quantile di ordine (1 − α/2) della normale standard e vale z0.975 = 1.96. Il valore empirico di Zn rilevato nel campione `e zn =

x ¯−5 √ ' (4.9 − 5) · 31.62 = −3.162 0.2/ 40

e non appartiene all’intervallo di accettazione A = (−1.96, 1.96). Ne segue che al livello α = 0.05 si deve rifiutare l’ipotesi nulla µ0 = 5, concludendo che la produzione non `e pi` u sotto controllo .

274

TEST PARAMETRICI

9.7. Una ditta costruisce lampadine che dovrebbero avere una vita media di 1600 ore. In un campione di 100 lampadine la vita media risulta x ¯ = 1570 ore, con uno scarto quadratico medio s = 120 ore. Controllare l’ipotesi nulla H0 : µ = 1600 ore ai livelli di significativit`a del 5% e dell’1% rispettivamente. Soluzione. Poich´e abbiamo un campione con numerosit` a sufficientemente elevata, anche se non si conosce il modello statistico della popolazione la distribuzione campionaria delle medie si approssima con una legge Normale con media µn = 1750 ore e deviazione standard stimata attraverso lo scarto quadratico medio campionario: r Sˆn 1 n 120 σn = √ = √ · s = √ ' 12.06 ore. n n n−1 99

In un test bidirezionale per l’ipotesi nulla H0 , contro l’ipotesi alternativa : H1 : µ 6= 1600 ore, se H0 `e vera la variabile standardizzata Zn =

µn − 1600 µn − 1600 = σn 12.06

ha regioni di accettazione: A = (−z0.975 , z0.975 ) = (−1.96, 1.96) A = (−z0.995 , z0.995 ) = (−2.58, 2.58)

al livello α = 0.05 al livello α = 0.01.

Il valore empirico di Zn risultante dal campione `e zn =

x ¯ − 1600 1570 − 1600 = ' 2.4875. 12.06 12.06

Al livello di significativit`a α = 0.05 esso non appartiene ad A = (−1.96, 1.96) e di conseguenza si rifiuta l’ipotesi H0 . Al contrario, al livello α = 0.01 risulta zn ∈ A = (−2.58, 2.58) e si accetta H0 . 9.8. In un campione di 10 sfere metalliche prodotte da una macchina si calcola il diametro medio di 7 mm, con uno scarto quadratico medio s = 1.2 mm. Verificare, al livello di significativit`a dell’1%, se il diametro medio di tutta la produzione `e di 6.5 mm. Soluzione. Si dispone di un piccolo campione estratto da una popolazione con varianza sconosciuta: occorre perci`o supporre che questa abbia modello normale. L’ipotesi nulla da verificare `e H0 : µ = µ0 = 6.5 mm., e quella alternativa `e H1 : µ 6= 6.5 mm. Si usa la statistica µn − µ0 √ Tn = n sˆn in cui

r

sˆn = s

r

n = 1.2 n−1

10 ' 1.265 mm , 9

9.8 – Problemi risolti

275

la quale ha una distribuzione t-Student con 9 gradi di libert`a, e nell’esame del campione assume il valore empirico 7 − 6.5 √ tn = 10 ' 1.25. 1.265 In un test bidirezionale al livello α = 0.01, l’intervallo di accettazione dell’ipotesi nulla `e A = (−t0.995 , t0.995 ) dove t0.995 `e il quantile di ordine (1 − α/2) della distribuzione t-Student con 9 gradi di libert`a, che vale t0.995 = 3.25 . Poich´e tn ' 1.25 ∈ A = (−3.25, 3.25), al livello α = 0.01 si accetta l’ipotesi che il diametro medio della popolazione di sfere sia uguale a 6.5 mm. 9.9. Una casa costruttrice di automobili vuole esaminare un dispositivo che, opportunamente applicato, ridurrebbe il consumo di un certo tipo di automobili. A tale scopo, decide di provare tale dispositivo su un campione casuale di 50 automobili che normalmente hanno un consumo medio di 10 litri ogni 100 km. Dall’esame del campione risulta che il consumo medio su 100 km `e x ¯ = 9.5 litri, con uno scarto quadratico medio corretto sˆ = 0.8 litri. Valutare la convenienza effettiva di un tale dispositivo fissando un livello di significativit`a α = 1%. Soluzione. Si sottopone a verifica l’ipotesi nulla H0 : µ = µ0 = 10 litri/Km, in cui si afferma che il dispositivo non modifica significativamente il consumo normale. L’ipotesi alternativa `e H1 : µ < 10 litri/Km, che afferma che il consumo con il dispositivo `e effettivamente minore del normale. ( Si osservi che il caso µ > 10, ovviamente privo di interesse, `e escluso a priori). Poich´e il campione `e sufficientemente grande, si assume che le medie campionarie siano distribuite normalmente con media µ0 = 10 (se H0 `e vera) e deviazione standard √ √ σn = sˆ/ n = 0.8/ 50 ' 0.113 litri/Km. Effettuiamo un test unidirezionale inferiore sulla variabile standardizzata Zn = (µn − µ0 )/σn , che dal campione risulta avere un valore empirico zn =

9.5 − 10 ' − 4.42. 0.113

Scelto un livello di significativit`a α = 0.1, usiamo le Tavole per calcolare il quantile di ordine 1 − α = 0.99 della Normale standard, che vale z0.99 = 2.33. La regione di accettazione di H0 `e l’intervallo aperto a destra: A = (−z1−α , +∞) = (−z0.99 , +∞) = (−2.33, +∞). Questo intervallo non contiene il valore empirico zn < −z0.99 . Dunque l’ipotesi nulla `e da rifiutare, e dal test si deduce che il dispositivo riduce il consumo medio . 9.10. La durata media delle lampadine prodotte da una ditta, in un modello con legge normale, `e di 1800 ore con uno scarto quadratico medio di 100 ore. Impiegando

276

TEST PARAMETRICI

un nuovo materiale si pensa che la durata media possa essere accresciuta a 1850 ore. Per provare ci`o, si prende un campione di 50 lampadine e si trova che la durata media `e di 1830 ore. a) Al livello di significativit`a dell’ 1 % (rischio del produttore) valutare se c’`e stato un reale miglioramento, confrontando l’ipotesi nulla H0 : µ0 = 1850 (effettivo miglioramento) con l’ipotesi alternativa H1 : µ1 = 1800 (situazione immutata). b) Calcolare la probabilit`a β di commettere un errore di seconda specie (rischio del consumatore), cio`e di dichiarare una durata media di 1850 ore quando invece `e vera l’ipotesi alternativa. Soluzione. a) Si deve effettuare un test con ipotesi semplici su una popolazione normale con varianza nota. Poich´e in questo test si ha µ0 > µ1 , la regione di accettazione di H0 e quella critica sono rispettivamente A = (µc , +∞), C = (−∞, µc ) con µc da determinare. Introduciamo la variabile standardizzata che definisce la distribuzione campionaria delle medie. Se H0 `e vera, essa vale Zn =

µn − 1850 µn − 1850 µn − 1850 √ √ = = √ . σ/ n 100 50 200

Il suo valore critico al livello di significativit`a α = 0.01 si calcola scrivendo: µ

µc − 1850 α = 0.01 = IP(µn < µc | H0 ) = IP Zn < zc = √ 200 e dalle Tavole di erf(z) si ricava: −erf(zc ) = 0.49



zc = −2.33 ;

µc = 1850 +



=

1 + erf(zc ) 2

√ 200zc ' 1817.049.

Si noti che −zc = 2.33 non `e altro che il quantile z0.99 di ordine 1 − α della distribuzione Normale standard. Dunque la regione critica `e l’intervallo aperto a sinistra: C = {zn : −∞ < zn < −2.33} = {µn : −∞ < µn < 1817.049}. Il valore empirico di √ µn rilevato nel campione (al quale corrisponde il valore empirico zn = (1830 − 1850)/ 200 ' −1.414 di Zn ) non appartiene alla regione critica. In seguito alle osservazioni sul campione, si deve pertanto accettare l’ipotesi nulla, dichiarando che con il nuovo materiale c’`e un effettivo miglioramento . b) Il rischio di seconda specie β si determina introducendo la variabile standardizzata √ Z1 = (µ − µ1 )/ 200 che rappresenta la distribuzione campionaria quando `e vera l’ipotesi alternativa, e facendo il seguente calcolo: µ



µ



1817.049 − 1800 µc − µ1 √ = IP Z1 ≥ = β = IP(µn ≥ µc |H1 ) = IP Z1 ≥ √ 200 200 ¶ µ 1 1 17.049 = ' − erf(1.21) = 0.5 − 0.3869 = 0.1131 ' 11.3% . − erf √ 2 2 200

9.8 – Problemi risolti

277

9.11. Il consumo di carburante di un modello di scooter, espresso in Km/litro, ha legge normale con varianza nota σ 2 = 6, 25. Da un campione di 36 esemplari prodotti, si ricava una media dei consumi di 24,4 Km/l. Si domanda: a) Al livello di significativit`a α = 0, 05, si pu`o accettare l’ipotesi che il consumo medio del modello `e di 25 Km/l, in alternativa all’ipotesi che esso sia di 23 Km/l ? b) Quale errore si commette nel dichiarare un consumo di 25 Km/l, se `e vera l’ipotesi alternativa ? Soluzione. a) Definita l’ipotesi nulla H0 : µ = µ0 = 25 e quella alternativa H1 : µ = µ1 = 23, si procede ad un test unidirezionale inferiore nel quale la regione critica `e C = (−∞, zc ). Determiniamo il valore critico zc e il valore empirico zn della variabile standardizzata Zn la quale, se H0 `e vera, `e definita come µn − µ0 µ − 25 √ = √n Zn = = 2.4(µn − 25). σ/ n 6.25/6 Il suo valore empirico `e zn = 2.4(24.4 − 25) = −1.44, e il suo valore critico (cambiato di segno) `e il quantile di ordine 1 − α = 0.95 della distribuzione Normale standard (confronta anche con il precedente Esercizio 10/7). Dunque si ricava: zc = −z1−α = −z0.95 = −1.65



C = (−∞, −1.65)

e poich´e il dato empirico zn non appartiene alla regione critica ora calcolata, si deduce che l’ipotesi nulla deve essere accettata al livello di significativit`a del 5%. b) Se si usa lo stesso metodo dell’Esercizio precedente, per calcolare l’errore di seconda specie occorre prima determinare il valore critico µc della media campionaria: zc 1.65 µc = 25 + = 25 − ' 24.3125 σn 2.4 e quindi scrivere: ¶ µ ¶ µ 1 1.3125 µc − 23 = − erf β = IP(µn ≥ µc |H1 ) = IP Z1 ≥ σn 2 0.41¯ 6 1 ' − erf(3.15) = 0.5 − 0.4992 = 0.0008 2 dove Z1 = (µn −µ1 )/σn `e la variabile standardizzata che rappresenta la distribuzione campionaria quando `e vera l’ipotesi altermativa. Oppure, con procedura pi` u rapida, si pu`o applicare la formula: 1 β = + erf(z1−α − z 0 ) 2 in cui z 0 `e la differenza tra le Normali standard associate alla ipotesi nulla e alla ipotesi alternativa, e vale: 2 µn − 25 µn − 23 − =− = −4.8. z0 = σn σn 0.41¯ 6 Si ha cos`ı il medesimo risultato: β = 0.5 + erf(1.65 − 4.8) = 0.5 − erf(3.15) ' 0.0008.

278

TEST PARAMETRICI

TEST DI IPOTESI NON PARAMETRICHE 10.1

Test sulla legge di distribuzione

In gran parte dei test statistici trattati nel Capitolo precedente `e stata sfruttata l’ipotesi preliminare che il modello statistico della popolazione in esame fosse facilmente identificabile, ed esprimibile mediante leggi probabilistiche note (normale, binomiale, esponenziale,. . .). Capita spesso che ci`o non sia possibile, o per lo meno che la legge di distribuzione F (x) che siamo portati ad attribuire alla popolazione sia da verificare. Questa verifica si effettua con metodi chiamati anche test per la bont`a dell’adattamento, i pi` u noti dei quali sono il test di Kolmogorov-Smirnov e il test Chi-quadrato, che si impostano come segue. Si abbia in campione X = (X1 , X2 , . . . , Xn ) estratto da una popolazione il cui carattere X ha una funzione di distribuzione incognita FX (x). Per verificare se un modello statistico con assegnata legge F (x) “`e adatto” a descrivere le propriet`a probabilistiche del carattere X, si effettua un test per la seguente ipotesi nulla: H0 :

FX (x) = F (x),

x ∈ IR

(10.1)

in alternativa alla ipotesi: H1 :

FX (x) 6= F (x) per almeno un x ∈ IR.

(10.2)

In molte applicazioni, non si hanno informazioni sufficienti per individuare completamente la legge F (x) da assumere per il modello statistico, e occorre stimarne simultaneamente uno o pi` u parametri. In tal caso, il test consiste nel verificare l’ipotesi nulla composta: H0 :

FX (x) ∈ F0 = {F (x; ϑ), ϑ ∈ Θ}

(10.10 )

che la distribuzione teorica appartenga a una famiglia F0 di distribuzioni con legge F , in cui ϑ `e il parametro (o l’insieme dei parametri) da stimare secondo i metodi esposti nel Capitolo 8. In ogni caso, per procedere nel test occorre disporre di un riassunto campionario adeguato a rappresentare la distribuzione da testare. A tal fine, raggruppati eventualmente i dati (x1 , . . . , xn ) in m classi ∆k = [ak , bk ) come `e stato precisato nel 279

280

TEST DI IPOTESI NON PARAMETRICHE

§6.2, si determina la frequenza cumulata relativa dei dati del campione, che in questo contesto `e anche chiamata funzione di distribuzione empirica e si esprime come: Fn (x) =

m 1X nk U (x − ak ), n k=1

x ∈ IR

(10.3)

dove nk `e la frequenza assoluta dei dati appartenenti alla k-esima classe, e U (x − ak ) `e la funzione a scalino unitario (2.3). Se invece la numerosit` a del campione non `e elevata, per cui non `e necessario raggruppare in classi gli n dati xi , la funzione di distribuzione empirica `e la funzione a scalino costante 1/n nei punti xi : Fn (x) =

n 1X U (x − xi ), n i=1

x ∈ IR.

(10.4)

Questa funzione di distribuzione empirica si utilizza quindi per costruire le statistiche su cui si effettuano i test che seguono.

10.1.1

Test di Kolmogorov-Smirnov

Questo test si applica quando la funzione F (x) `e continua, e per verificare l’ipotesi nulla (10.1) usa la statistica: Dn =

sup

−∞