Le raisonnement bayesien : Modelisation et inference (Statistique et probabilites appliquees) [1 ed.] 9782287339066, 9782287339073, 228733906X [PDF]

Cet ouvrage expose de fa?on d?taill?e la pratique de l'approche statistique bay?sienne ? l'aide de nombreux ex

132 56 8MB

French Pages 388 [380] Year 2007

Report DMCA / Copyright

DOWNLOAD PDF FILE

Le raisonnement bayesien : Modelisation et inference (Statistique et probabilites appliquees) [1 ed.]
 9782287339066, 9782287339073, 228733906X [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Le raisonnement bayésien Modélisation et inférence

Springer Paris Berlin Heidelberg New York Hong Kong London Milan Tokyo

Éric Parent Jacques Bernier

Le raisonnement bayésien Modélisation et inférence

Éric Parent AgroParisTech/ENGREF 19, avenue du Maine 75732 Paris Cedex 15 Jacques Bernier Le Pech-de-Biaud 24250 Saint-Martial-de-Nabirat

ISBN : 978-2-287-33906-6 Springer Paris Berlin Heidelberg New York © Springer-Verlag France, Paris, 2007 Imprimé en France Springer-Verlag France est membre du groupe Springer Science + Business Media Cet ouvrage est soumis au copyright. Tous droits réservés, notamment la reproduction et la représentation la traduction, la réimpression, l’exposé, la reproduction des illustrations et des tableaux, la transmission par voie d’enregistrement sonore ou visuel, la reproduction par microfilm ou tout autre moyen ainsi que la conservation des banques de données. La loi française sur le copyright du 9 septembre 1965 dans la version en vigueur n’autorise une reproduction intégrale ou partielle que dans certains cas, et en principe moyennant le paiement de droits. Toute représentation, reproduction, contrefaçon ou conservation dans une banque de données par quelque procédé que ce soit est sanctionnée par la loi pénale sur le copyright. L’utilisation dans cet ouvrage de désignations, dénominations commerciales, marques de fabrique, etc. même sans spécification ne signifie pas que ces termes soient libres de la législation sur les marques de fabrique et la protection des marques et qu’ils puissent être utilisés par chacun. La maison d’édition décline toute responsabilité quant à l’exactitude des indications de dosage et des modes d’emploi. Dans chaque cas, il incombe à l’usager de vérifier les informations données par comparaison à la littérature existante.

Maquette de couverture : Jean-François Montmarché

Collection Statistique et probabilités appliquées dirigée par Yadolah Dodge Professeur Honoraire Université de Neuchâtel Suisse [email protected]

Comité éditorial : Christian Genest Département de Mathématiques et de statistique Université Laval Québec GIK 7P4 Canada

Stephan Morgenthaler École Polytechnique Fédérale de Lausanne Département des Mathématiques 1015 Lausanne Suisse

Marc Hallin Université libre de Bruxelles Campus de la Plaine CP 210 1050 Bruxelles Belgique

Gilbert Saporta Conservatoire national des arts et métiers 292, rue Saint-Martin 75141 Paris Cedex 3 France

Ludovic Lebart École Nationale Supérieure des Télécommunications 46, rue Barrault 75634 Paris Cedex 13 France

Dans la même collection : – Statistique. La théorie et ses applications Michel Lejeune, avril 2004 – Le choix bayésien. Principes et pratique Christian P. Robert, novembre 2005 – Maîtriser l’aléatoire. Exercices résolus de probabilités et statistique Eva Cantoni, Philippe Huber, Elvezio Ronchetti, novembre 2006 – Régression. Théorie et applications Pierre-André Cornillon, Éric Matzner-Løber, janvier 2007

Préface Faire de la statistique bayésienne a été, du moins en France, longtemps considéré comme adhérer à une église : une affaire de foi avec les querelles de chapelle qui s’ensuivent. Étant agnostique en la matière, je confesse le grand plaisir que j’ai eu à lire ce livre et à en rédiger la préface, d’autant plus que cela me donne l’occasion de rendre hommage à l’un des auteurs qui m’a beaucoup appris quand j’étais étudiant. Curieuse situation en vérité que celle de la statistique bayésienne alors que chacun s’accorde à considérer qu’il faut prendre en compte, dans une prévision ou une estimation, les informations que l’on peut avoir a priori. L’expression a priori signifie ici préalablement à une nouvelle expérience, enquête, etc. et non au sens d’une opinion préétablie et non prouvée (Monsieur vous avez des a priori...). L’utilisation d’une information préalable figure d’ailleurs dans des approches classiques de la statistique, en particulier en théorie des sondages où la prise en compte d’informations auxiliaires joue un grand rôle, à la fois pour constituer le plan d’échantillonnage (stratification) ou pour améliorer après coup les estimations (les fameux redressements). Malgré l’abondance d’informations a priori, je n’ai encore jamais vu utiliser d’estimation bayésienne pour des intentions de vote ou des indices de popularité : on continue à utiliser des estimations fréquentistes basées sur les seules données de la dernière enquête alors que l’on sait pertinemment que le pourcentage de voix de tel candidat au deuxième tour des élections présidentielles ne sera pas inférieur à 40 % ni supérieur à 70 % et n’est pas n’importe quelle valeur comprise entre 0 et 1 ! Pourquoi cette, sinon méconnaissance, du moins réticence à employer l’approche bayésienne ? Très vraisemblablement cela provient de la suspicion que l’on peut avoir à l’encontre de la conception subjectiviste des probabilités que l’on associe à la démarche bayésienne : si chacun peut avoir sa distribution de probabilité qui reflète ses croyances, alors comment en tirer des conclusions acceptables par tous ? Un autre handicap, d’une nature toute différente, était que les calculs des distributions prédictives étaient d’une complexité décourageante, mais les performances des ordinateurs ont rendu faisables des procédés de simulations efficaces et la disponibilité de programmes informatiques a changé la donne. Un des mérites de cet ouvrage est de montrer avec un grand nombre d’exemples

viii

Le raisonnement bayésien

tirés de la vaste expérience des auteurs, comment on peut modéliser de façon naturelle les distributions a priori et en tirer des inférences adéquates. Les auteurs réalisent le tour de force pour qui n’est pas bayésien, de présenter l’approche bayésienne comme une démarche objective. Il s’agit donc d’un véritable précis de modélisation, ne passant aucun aspect sous silence : le lecteur, j’en suis sûr, appréciera les parties consacrées au calcul bayésien. Les auteurs ne sont pas tombés dans le travers, trop fréquent dans de nombreuses publications, qui consiste à s’intéresser plus aux techniques de simulation qu’au problème à résoudre. La rigueur et la qualité pédagogique de cet ouvrage devraient certainement contribuer à la diffusion de cette approche et à une meilleure prise en compte du raisonnement probabiliste dans les décisions. Quelques mots pour conclure : la statistique bayésienne donne un cadre formel séduisant, peut-être l’ultime rationalisation de la statistique classique où tout est modélisé : paramètres comme observations. Il faut alors prendre garde au risque de sur-modéliser et de confondre modèle et réalité. Observer avant de modéliser, s’assurer de la robustesse ou résistance aux données erronées ou atypiques, valider les prédictions sur des données indépendantes restent des principes indispensables pour le praticien. Être ou ne pas être bayésien, là n’est plus la question : il s’agit d’utiliser à bon escient les outils adaptés quand cela est nécessaire. Gilbert Saporta

Avant-propos La statistique est un art interdisciplinaire de la quantification sous incertitudes utilisé par les physiciens, les économistes, les ingénieurs, les géographes, les biologistes, les assureurs, les psychologues, les météorologues, les gestionnaires d’entreprises, etc. bref, tous les praticiens soucieux de bâtir, sur des fondations solides, un pont entre théorie et données expérimentales. Depuis un siècle, la statistique s’est considérablement développée, initiant une révolution dans les modes de pensée, car elle porte un langage de représentation du monde et de ses incertitudes. C’est aujourd’hui une science mathématique dont l’objectif est de décrire ce qui s’est produit et de faire des projections quant à ce qu’il peut advenir dans le futur. Parfois, la situation peut être simplement décrite par quelques représentations graphiques d’analyse élémentaire des données. Bien souvent, le problème est beaucoup plus compliqué car de multiples facteurs d’influence doivent être pris en compte. Schématiquement, on construit deux ensembles avec ces facteurs. Un premier paquet contient les facteurs dits explicatifs, bien identifiés, ceux dont on souhaite étudier l’influence en détail. En ce qui concerne le second paquet de facteurs, on ne sait, ou on ne veut pas, représenter leur effet perturbateur au cas par cas et, de ce fait, le jargon des modélisateurs le baptise sous le terme bruit, décrit alors de façon plus grossière par ses caractéristiques statistiques générales. Dans tous les cas, l’étude de la variabilité est au centre des débats : il s’agit d’abord de caractériser l’influence des facteurs identifiés et ensuite de représenter et d’évaluer le bruit résiduel dû à ces autres facteurs non pris en compte dans l’analyse de façon explicite. Dans une telle situation, le statisticien classique utilise à la fois un raisonnement déterministe par l’absurde, afin de proposer des valeurs acceptables pour les paramètres décrivant les effets des facteurs explicatifs et un raisonnement probabiliste, pour traduire la variabilité des résultats observés due au bruit. Ce mode de pensée s’appuie sur l’hypothèse de la réalité objective des paramètres (et donc du modèle qui les définit) ainsi que sur l’interprétation de la probabilité comme limite des fréquences de résultats observés. C’est cette conception, dite fréquentiste, qui est généralement enseignée dans les cursus de formation académique en France. A contrario, le statisticien bayésien utilise le même cadre de pensée pour traiter par le pari probabiliste l’interaction de ces deux niveaux d’incertitudes : ignorance quant aux valeurs possibles des paramètres et aléa des bruits entachant les résultats expérimentaux.

x

Le raisonnement bayésien

Choisir la piste bayésienne paraîtra à certains inutilement trop sophistiqué si on se limite aux modèles élémentaires (binomial, normal, etc.) : pour ces cas d’école simples, l’approche fréquentiste est facile (nombreux logiciels), passée dans les mœurs (excellents cours de nombreux collègues), et offre au praticien des résultats souvent très proches de ceux que donnerait une analyse bayésienne avec une distribution a priori peu informative. Mais pour peu que l’analyste souhaite prendre à bras le corps des problèmes plus proches de son réel quotidien, apparaissent variables multiples, données manquantes, effets aléatoires, grandeurs latentes... bref la structure des modèles de la vie scientifique moderne se présente sous une forme où des couches successives de conditionnement s’emboîtent... et pour lesquels l’approche bayésienne affirme sa véritable pertinence. Finalement, nous ne proposons dans ce livre rien d’autre que de tirer parti du calcul des probabilités conditionnelles. Conditionner, telle est la clé qui ouvre toutes les portes, à la fois pour la modélisation (où nous plaidons pour l’élaboration de modèles avec structures par couches) et pour l’inférence (où le Bayésien exploitera les structures de conditionnement inverse). Le livre est construit en deux parties : – Les situations d’ingénierie sous incertitudes partagent de nombreux points communs. La première partie décrit les principes généraux de modélisation statistique permettant d’encadrer mais aussi de venir au secours de l’imagination de l’apprenti modélisateur : sont mis en place les concepts de décisions, d’informations, d’états de la nature et d’expertise. Dans ce cadre décisionnel, l’approche bayésienne est présentée comme une analyse de sensibilité vis-à-vis d’un critère de risque. On décrit ensuite comment les modèles courants peuvent être construits sur la base de quelques concepts généraux : concepts de symétrie, de parcimonie et d’entropie ou grâce aux théories de comportements asymptotiques. Enfin, le raisonnement conditionnel permet la naissance de structures de modèles par couches de variables latentes et nous décrivons les constructions conditionnelles les plus utiles : données manquantes, modèles hiérarchiques, modèles dynamiques, etc. – L’inférence est le processus d’apprentissage qui permet d’identifier un système en reconstruisant le vecteur des états de la nature à partir des informations collectées au fur et à mesure. La formule de Bayes donne la crédibilité à accorder à chaque paramètre sous la forme d’une distribution conjointe de probabilités dite loi a posteriori. Malheureusement, les modèles courants mettent en jeu de nombreux paramètres et, par conséquent, la distribution de probabilité a posteriori est une loi multidimensionnelle dont la constante de normalisation se présente sous la forme d’une intégrale multiple complexe. Par ailleurs, la boîte à outils standard des distributions de probabilité ne donne des expressions analytiques que pour un nombre trop restreint de distributions multidimensionnelles. La seconde partie présente donc les méthodes de calcul de ces distributions a posteriori, notamment les algorithmes de simulation Monte Carlo et tout particulièrement ceux par chaînes de Markov (MCMC) qui se ré-

Avant-propos

xi

vèlent l’outil adéquat pour un cadre plus général d’inférence où les lois a posteriori n’ont plus de forme particulière. En résumé, cet ouvrage présente le plus directement possible les éléments clés de la statistique bayésienne, en faisant l’hypothèse que le lecteur possède les bases de la théorie des probabilités et s’est déjà trouvé confronté à des problèmes ordinaires d’analyse statistique classique. Il aidera l’apprenti modélisateur à poser un problème, à en estimer les grandeurs caractéristiques, à anticiper le comportement à venir du système ainsi que sa variabilité. Il s’adresse aussi aux chercheurs et utilisateurs désireux de s’assurer du choix judicieux des méthodes qu’ils emploient, ... ou bien sûr, de les remettre en question et de s’en approprier de nouvelles. Pour tenter de clarifier la portée et les limites des outils inventoriés dans le livre, nous nous sommes efforcés de présenter, sans démonstration, les propriétés probabilistes de base essentielles à la justification des méthodes. Ce faisant nous espérons que le débutant, au prix d’un investissement intellectuel que nous pensons être acceptable, aussi bien que le spécialiste, sont susceptibles de trouver des informations intéressantes et utiles pour leurs propres besoins. Enfin, l’accès à cet ouvrage sera facilité pour le novice s’il a acquis une première expérience de la statistique classique ou bayésienne par la lecture d’ouvrages de niveau élémentaire tels que Bernier et al., 2000. Nous avons essayé d’atteindre ici un public de praticiens et d’ingénieurs soucieux de la validité des techniques qu’ils doivent appliquer. Sans sacrifier toute rigueur mathématique, notre ambition est plus ici de montrer que de démontrer. Ce souci nous distingue d’ouvrages de niveau mathématique plus ambitieux tels que Droesbeke et al., 2002, état de l’art pédagogique et complet sur les méthodes bayésiennes modernes, ou de Robert, 2006, remarquable traité fondamental et source d’inspiration importante pour tous les statisticiens bayésiens francophones ou non. Les exemples ont volontairement été choisis assez simples pour illustrer les idées de base des méthodes de calcul et la mise en pratique de nombreux modèles d’usage courant. Certains exemples ne sont propres qu’à un chapitre particulier : on les a appelés par la suite illustration s’ils permettent de mettre en lumière un point de théorie et application quand ils sont utiles pour faire comprendre la mise en place d’un calcul algorithmique. D’autres exemples (numérotés de 1 à 12) sont par contre repris à travers plusieurs chapitres. Ils emmènent progressivement le lecteur vers des situations d’applications plus complexes illustrant l’approche bayésienne et dont on peut numériquement réaliser l’inférence a posteriori par le calcul bayésien conventionnel ou par les méthodes MCMC. Le lecteur peut ne pas respecter l’ordre des chapitres et effectuer une lecture en diagonale en suivant le fil d’un même exemple. Pour faciliter ce type de lecture à partir du second chapitre, le signe «  » indique au lecteur à quel endroit du livre se poursuit l’exemple, tandis que le signe «  » pointe sur la page où a été commencé le traitement de l’exemple. Les points de modélisation et d’inférence traités pour ces douze exemples sont également repris dans l’index. Les idées forces de cet ouvrage se sont dégagées au cours de la direction de candidats au doctorat dans de nombreux domaines d’application de la sta-

xii

Le raisonnement bayésien

tistique. C’est pourquoi ce livre est d’abord dédié à Thierry, Irène, Philippe, Vincent, Luc, Sandrine, Antoine, Vazken, Etienne, Alberto, Benoît, Billy, Nicolas, Yves et Sophie... Notre collègue et ami de l’Université de Liège, Jean-Jacques Boreux, physicien passionné d’analyse bayésienne et pédagogue en croisade contre le caractère souvent inapplicable des mathématiques appliquées, nous a aidés à réécrire de nombreux chapitres de cet ouvrage. Nous voulons également remercier le directeur de l’École nationale du génie rural, des eaux et des forêts, Cyrille Van Effenterre, osant parier sur l’utilité à terme de nos investigations méthodologiques, et consider avec bienveillance celles qui n’ont pas abouti à un contrat d’ingéniérie aidant au financement immédiat de notre établissement. Nous avons eu le plaisir de collaborer avec l’équipe des permanents du laboratoire de MOdélisation, Risques, Statistique, Environnement, de l’ENGREF, qui nous ont motivés par leur critique et nous ont soutenus en partageant notre quotidien. La mise en œuvre de ce texte doit beaucoup à la diligence et l’efficacité de Claude Pingeon, notre secrétariat du MORSE. Nous remercions les Institutions qui nous permis d’utiliser les données de nos exemples (INRA, CEMAGREF, Électricité de France, HydroQuébec). Enfin, ce livre n’aurait jamais pu exister sans Denise Bernier : grâce lui soit rendue pour avoir accepté, cinq ans sans coup férir, que son retraité de mari se libère des obligations socio-culturelles ordinaires (pétanque, chorale, cartes...) pour jouer avec des objets bizarres (MCMC, latex, etc.). On ne saurait oublier de plus sa contribution comme expert à l’évaluation du prior de l’exemple du loto-foot, malgré un biais revendiqué en faveur de l’équipe de Bordeaux. Novembre 2006, Paris, France Éric Parent et Jacques Bernier

Sommaire Préface

vii

Avant-Propos

ix

Table des illustrations

xix

Liste des tableaux

I

xxiii

L’ANALYSE BAYÉSIENNE

1 La décision en présence d’information 1.1 Décision, information et règle de décision 1.2 Ensemble A des décisions ou actions . . . 1.3 Ensemble X des informations . . . . . . . 1.4 Les campagnes de collecte d’information . 1.5 Associer x ∈ Xe et a ∈ A . . . . . . . . .

1 . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

2 Représentation probabiliste des connaissances 2.1 Modèle statistique et modèle d’expertise . . . . . . 2.1.1 De l’utilité des représentations probabilistes . 2.1.2 Les observables X et les observées x . . . . . 2.1.3 Les inconnues θ . . . . . . . . . . . . . . . . . 2.2 Modèles statistiques paramétriques . . . . . . . . . 2.2.1 Exemple 1 : un modèle probabiliste à variable 2.2.2 Exemple 2 : pollution bactériologique . . . . 2.2.3 Exemple 3 : longueurs de saumons . . . . . . 2.2.4 Exemple 4 : rencontres de football . . . . . . 2.2.5 Exemple 5 : débordements d’une rivière . . . 2.3 Modèles d’expertise . . . . . . . . . . . . . . . . . . 2.3.1 Utiliser d’autres données . . . . . . . . . . . . 2.3.2 La méthode par introspection . . . . . . . . . 2.3.3 Choix de priors non informatifs . . . . . . . . 2.4 Que sait-on ? Incertitude et aléa . . . . . . . . . . .

. . . . .

. . . . .

3 3 6 8 11 11

. . . . . . . . . . . . . . . . . . . . . . . . . discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . .

19 20 20 21 22 22 23 23 24 26 29 30 31 34 39 41

. . . . .

. . . . .

. . . . .

. . . . .

xiv

Le raisonnement bayésien 2.4.1 2.4.2

Mise à jour de prior par propriété de conjugaison . . . . Quand les informations l’emportent sur le prior . . . . .

3 Risque et aide bayésienne à la décision 3.1 Le cadre décisionnel théorique . . . . . . . . . . . . . 3.1.1 Analyse extensive (ou a posteriori) . . . . . . . 3.1.2 Analyse normale (ou prédictive) . . . . . . . . 3.2 Des fonctions de désutilité simplifiées . . . . . . . . . 3.2.1 La pénalisation quadratique . . . . . . . . . . . 3.2.2 La pénalisation linéaire dissymétrique . . . . . 3.3 Exemples d’analyses décisionnelles complètes . . . . . 3.3.1 Protéger ou ne pas protéger . . . . . . . . . . . 3.3.2 Prise en compte réglementaire des risques . . . 3.4 Traitement décisionnel de la construction d’une digue 3.4.1 Période de retour . . . . . . . . . . . . . . . . . 3.4.2 Interprétation économique de la crue de projet 3.4.3 Prior non informatif . . . . . . . . . . . . . . . 3.4.4 Règle de décision bayésienne . . . . . . . . . .

42 49

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

53 54 54 54 55 56 56 57 57 59 61 62 63 64 65

4 Comment construire un modèle ? 4.1 Questions préliminaires . . . . . . . . . . . . . . . . . . . . 4.1.1 Le modèle existe-il ? . . . . . . . . . . . . . . . . . . 4.1.2 Le scientifique est condammé à la statistique . . . . 4.1.3 L’état de la nature est inaccessible à nos sens . . . . 4.2 Modèles par théorèmes asymptotiques . . . . . . . . . . . . 4.2.1 Loi normale . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . 4.2.3 Loi généralisée des extrêmes . . . . . . . . . . . . . . 4.2.4 Loi des dépassements . . . . . . . . . . . . . . . . . 4.3 Modèles par convolution . . . . . . . . . . . . . . . . . . . 4.3.1 Loi de Student . . . . . . . . . . . . . . . . . . . . . 4.3.2 Loi binomiale négative . . . . . . . . . . . . . . . . . 4.4 Modèles statistiques par maximum d’entropie . . . . . . . . 4.4.1 Interprétation intuitive de l’entropie . . . . . . . . . 4.4.2 Maximiser l’entropie Q sous contraintes . . . . . . . 4.4.3 Lois connues et reconnues de la famille exponentielle

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

73 74 74 74 74 75 76 76 77 78 79 80 82 83 84 86 88

5 Construire un modèle brique par brique 5.1 Dépendance et indépendance conditionnelles . . . . . 5.2 Modèle et symétrie par échangéabilité . . . . . . . . . 5.3 Conditionnement, causalité et graphe orienté . . . . . 5.4 Définitions grâce à un graphe orienté . . . . . . . . . 5.5 Conditionner, la clé pour modéliser intelligemment . . 5.6 Classes de modèles par conditionnement probabiliste . 5.6.1 Données manquantes et censurées . . . . . . .

. . . . . . .

93 . 94 . 95 . 97 . 100 . 100 . 105 . 105

. . . . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

Sommaire 5.6.2 5.6.3

II

xv

Modèle dynamique à temps discret . . . . . . . . . . . . 108 Modèle hiérarchique . . . . . . . . . . . . . . . . . . . . 111

LE CALCUL BAYÉSIEN

6 Motivations du calcul bayésien 6.1 Un passage obligé de l’inférence statistique bayésienne . . 6.1.1 Un calcul d’intégrale . . . . . . . . . . . . . . . . . 6.1.2 Difficultés . . . . . . . . . . . . . . . . . . . . . . . 6.2 Inventaire des méthodes . . . . . . . . . . . . . . . . . . . 6.2.1 Les commodités mathématiques de la conjugaison 6.2.2 Les techniques asymptotiques . . . . . . . . . . . . 6.2.3 Algorithmes de simulation avec indépendance . . . 6.2.4 Simulation Monte Carlo avec dépendance . . . . . 6.3 Guide de lecture . . . . . . . . . . . . . . . . . . . . . . .

123 . . . . . . . . .

125 126 126 127 128 128 128 128 129 129

7 Méthodes exactes et modèles unidimensionnels 7.1 Distributions conjuguées naturelles . . . . . . . . . . . . . . . . 7.2 Théorème de Koopman-Darmois . . . . . . . . . . . . . . . . . 7.3 Densité conjuguée d’un modèle exponentiel modifié . . . . . . 7.3.1 Construire la distribution conjuguée . . . . . . . . . . . 7.3.2 Extensions aux mélanges des propriétés de conjugaison . 7.4 Distributions conjuguées pour les modèles les plus courants . . 7.5 Inférence par les distributions conjuguées naturelles . . . . . . 7.5.1 Exemple 2 de la pollution bactériologique . . . . . . . . 7.5.2 Exemple 3 des saumons revisité . . . . . . . . . . . . . . 7.6 Distribution a posteriori d’un quantile normal . . . . . . . . . 7.7 Au-delà des distributions conjuguées naturelles . . . . . . . . .

133 134 135 136 136 137 137 139 139 142 147 149

8 Représentations multidimensionnelles 8.1 Un cas particulier de modèle normal . . . . . . . . . . . . . . 8.1.1 Vraisemblance . . . . . . . . . . . . . . . . . . . . . . 8.1.2 Inférence statistique . . . . . . . . . . . . . . . . . . . 8.1.3 Extensions à l’approximation de lois non normales . . 8.2 Modèle multinormal général . . . . . . . . . . . . . . . . . . 8.2.1 Modèle multinormal avec prior multinormal-Wishart . 8.2.2 Modèle multinormal sur l’exemple 9 . . . . . . . . . . 8.2.3 Données multivariées partiellement manquantes . . . . 8.3 Le modèle multinomial-Dirichlet . . . . . . . . . . . . . . . . 8.3.1 Le conjugué naturel du modèle multinomial . . . . . . 8.3.2 Inférence pour l’exemple 4 du loto-foot . . . . . . . . . 8.4 Extensions vers le non-paramétrique . . . . . . . . . . . . . . 8.4.1 Application du modèle Dirichlet au bootstrap bayésien 8.4.2 Boostrap bayésien sur l’exemple 9 . . . . . . . . . . .

153 153 153 155 156 156 158 161 162 164 164 165 165 166 167

. . . . . . . . .

. . . . . . . . .

. . . . . . . . . . . . . .

xvi

Le raisonnement bayésien

9 Les méthodes asymptotiques 9.1 Utilisation des modes a posteriori . . . . 9.2 Posterior avec prior négligeable . . . . . 9.2.1 θ est un paramètre réel scalaire . . 9.2.2 θ est un paramètre k-dimensionnel

. . . .

. . . .

. . . .

171 . 171 . 173 . 173 . 175

10 Simulation Monte Carlo avec indépendance 10.1 Nombres au hasard . . . . . . . . . . . . . . . . . . . . . 10.2 Du déterminisme à l’aléatoire . . . . . . . . . . . . . . . . 10.3 La distribution uniforme sur l’intervalle [0,1] . . . . . . . 10.4 Distribution réelle discrète ou continue . . . . . . . . . . 10.4.1 Par méthode d’inversion . . . . . . . . . . . . . . . 10.4.2 Simulation d’une variable normale N (0, 1) . . . . . 10.5 La méthode d’acceptation-rejet . . . . . . . . . . . . . . . 10.6 Méthode d’inversion générale . . . . . . . . . . . . . . . . 10.7 Intégration par échantillonnage simple . . . . . . . . . . . 10.8 Échantillonnage pondéré ou préférentiel . . . . . . . . . . 10.8.1 Choix de la distribution instrumentale . . . . . . . 10.8.2 Méthode IS approchée . . . . . . . . . . . . . . . . 10.8.3 Calcul bayésien par échantillonnage pondéré . . . . 10.8.4 Ré-échantillonnage . . . . . . . . . . . . . . . . . . 10.8.5 Méthodes générales de ré-échantillonnage . . . . . 10.9 Applications . . . . . . . . . . . . . . . . . . . . . . . . . 10.9.1 Quantile de Gumbel pour l’exemple 11 . . . . . . . 10.9.2 Intégration par échantillonnage . . . . . . . . . . . 10.9.3 Évaluation d’un prior informatif pour l’exemple 4 10.9.4 Rendement de la méthode SIR de Rubin . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . .

181 181 182 183 183 183 185 186 189 190 191 193 193 194 195 196 197 197 198 200 202

11 Chaînes de Markov et simulations Monte Carlo 11.1 Quelques illustrations de chaînes de Markov . . . 11.2 Éléments constitutifs des chaînes de Markov . . . 11.2.1 États . . . . . . . . . . . . . . . . . . . . . 11.2.2 Propriété de Markov . . . . . . . . . . . . . 11.2.3 Homogénéité (ou stationnarité forte) . . . . 11.2.4 Noyau d’une chaîne de Markov . . . . . . . 11.2.5 Équations de Chapman-Kolmogorov . . . . 11.2.6 Motivations pour passer à la limite . . . . . 11.2.7 Itérer une chaîne de Markov ? . . . . . . . . 11.2.8 Distribution invariante . . . . . . . . . . . . 11.3 Chaînes de Markov sur l’espace d’états de cardinal 11.3.1 Irréductibilité . . . . . . . . . . . . . . . . . 11.3.2 Propriétés caractéristiques des visites . . . . 11.3.3 Chaîne récurrente . . . . . . . . . . . . . . 11.3.4 Chaîne apériodique . . . . . . . . . . . . . . 11.3.5 Chaîne positive . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

205 206 214 214 214 214 215 217 220 221 222 224 225 225 229 229 229

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fini . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

Sommaire

xvii

11.4 Chaînes de Markov pour les espaces d’états de cardinal infini 11.4.1 ϕ−Irréductibilité . . . . . . . . . . . . . . . . . . . . . 11.4.2 Chaîne récurrente . . . . . . . . . . . . . . . . . . . . 11.4.3 Harris-récurrence . . . . . . . . . . . . . . . . . . . . . 11.4.4 Chaîne positive récurrente . . . . . . . . . . . . . . . . 11.5 Théorème général de convergence ergodique . . . . . . . . . . 11.5.1 Moyenne empirique le long d’une trajectoire . . . . . . 11.5.2 Recours à la Harris-récurrence . . . . . . . . . . . . . 11.5.3 Interprétation de la propriété ergodique . . . . . . . . 11.5.4 Intégrer par échantillonnage le long d’une trajectoire . 11.6 Rapidité de convergence . . . . . . . . . . . . . . . . . . . . . 11.6.1 A-t-on atteint le régime stationnaire ? . . . . . . . . . 11.6.2 Contrôler la rapidité de convergence . . . . . . . . . . 11.6.3 Réversibilité . . . . . . . . . . . . . . . . . . . . . . . . 11.7 Simulations informatiques . . . . . . . . . . . . . . . . . . . . 12 Algorithme de Metropolis-Hastings 12.1 Une méthode MCMC générale : Metropolis-Hastings . 12.1.1 L’algorithme d’acceptation-rejet revisité . . . . . 12.1.2 Limitations de l’algorithme d’acceptation-rejet . 12.1.3 Algorithme de Metropolis-Hastings . . . . . . . . 12.1.4 Conditions de π-réversibilité . . . . . . . . . . . . 12.1.5 Pratique de l’algorithme de Metropolis-Hastings 12.2 Réglages de l’algorithme Metropolis-Hastings . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . . . . . . . . . .

230 230 231 232 232 233 233 234 234 235 236 236 239 241 242

245 . 246 . 247 . 247 . 249 . 250 . 251 . 255

13 Algorithme de Gibbs 13.1 Échantillonneur de Gibbs . . . . . . . . . . . . . . . . . . . . . 13.1.1 Cas de deux coordonnées à valeurs continues . . . . . . 13.1.2 Condition d’invariance . . . . . . . . . . . . . . . . . . . 13.1.3 Échantillonnage de Gibbs d’un vecteur à k composantes 13.1.4 Exemple d’application de l’échantillonneur de Gibbs . . 13.2 Algorithme de Gibbs et modélisation graphique . . . . . . . . 13.2.1 Le DAG : une représentation utile du problème . . . . . 13.2.2 Modèle graphique et conditionnelles complètes . . . . . 13.2.3 Variables non observables . . . . . . . . . . . . . . . . . 13.2.4 Traitement de l’exemple 6 . . . . . . . . . . . . . . . . . 13.2.5 Traitement de l’exemple 10 . . . . . . . . . . . . . . . . 13.2.6 Traitement de l’exemple 7 . . . . . . . . . . . . . . . . . 13.3 Discussions et exercices de maniement . . . . . . . . . . . . . . 13.3.1 Le modèle linéaire . . . . . . . . . . . . . . . . . . . . . 13.3.2 Capture/ marquage/ recapture . . . . . . . . . . . . . . .

263 263 264 265 266 268 270 270 271 273 275 276 279 280 280 281

xviii

Le raisonnement bayésien

14 Algorithmes MCMC et par - delà 14.1 Méthodes hybrides . . . . . . . . . . . . . . . . . . . . . . . . 14.2 Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . . . . . . 14.3 Les logiciels d’analyse bayésienne . . . . . . . . . . . . . . . . 14.3.1 Écrire ses propres programmes . . . . . . . . . . . . . 14.3.2 Utiliser des packages bayésiens tout faits . . . . . . . . 14.3.3 WinBUGS . . . . . . . . . . . . . . . . . . . . . . . . . 14.4 Calculs d’intégration et contrôles pratiques de la convergence 14.4.1 Contrôle par l’échantillonnage pondéré séquentiel . . . 14.4.2 Approximation par un autorégressif . . . . . . . . . . 14.4.3 Test pour contrôler que la phase ergodique est atteinte 14.5 Introduction aux méthodes particulaires . . . . . . . . . . . . 14.5.1 Une étape d’échantillonnage pondéré . . . . . . . . . . 14.5.2 Une étape de ré-échantillonnage . . . . . . . . . . . . . 14.5.3 Ajouter une transition à la mode MCMC . . . . . . . 14.5.4 Premières idées pour un algorithme particulaire . . . . 14.5.5 Réconcilier échantillonnage pondéré et MCMC . . . . 14.5.6 Utilisation des algorithmes particulaires . . . . . . . .

. . . . . . . . . . . . . . . . .

15 Conclusions 15.1 Une démarche cohérente et des outils efficaces 15.2 De la difficulté d’être statisticien . . . . . . . . 15.3 Jeter des ponts transdisciplinaires . . . . . . . 15.4 Du plaisir d’être statisticien . . . . . . . . . . .

323 . 323 . 325 . 326 . 327

Annexes

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

283 284 288 294 294 295 296 300 300 301 303 306 306 307 309 309 313 314

331

Bibliographie

351

Index

359

Table des illustrations 1.1 1.2 1.3 1.4 1.5 1.6

Contrôle sanitaire dans un arrondissement de Paris. . . Échantillonnage de saumons juvéniles sur le Scorff. . . Grille de loto sportif. . . . . . . . . . . . . . . . . . . . Pointes de crue au-delà de 2 500 m3 / s de la Garonne Alerte aux coliformes en 1992. . . . . . . . . . . . . . . Décision conditionnelles à l’information météorologique.

. . . . . .

. . . . . .

. . . . . .

. . . . . .

4 5 6 7 9 14

2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11

Répartition des longueurs de juvéniles du Scorff. . . Victoire, match nul et défaite. . . . . . . . . . . . . Modèle de renouvellement poissonnien. . . . . . . . A priori sur la moyenne des saumons juvéniles. . . . A priori sur la variance des saumons juvéniles. . . . Exemple de loi a priori de type bêta. . . . . . . . . Connaissances a priori [θ]. . . . . . . . . . . . . . . Mécanisme déductif [x sachant θ]. . . . . . . . . . . Connaissances a posteriori [θ |x] . . . . . . . . . . . . Prise en compte de l’information pour actualiser ρ. . Mise à jour du paramètre μ. . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

25 28 29 32 33 35 43 43 44 48 48

3.1

Coût moyen a posteriori de ne pas construire. . . . . . . . . .

60

5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12

Causalité et dépendance probabiliste. . . . . . . . . . . Dépendances conditionnelles entre trois variables. . . . Histogrammes des apports mensuels à Ghezala. . . . . . Deux visions de la loi des fuites. . . . . . . . . . . . . . Structure graphique de modèle à données manquantes. Apports avec données manquantes. . . . . . . . . . . . Posteriors avec et sans information complémentaire. . . Modèle dynamique à temps discret. . . . . . . . . . . . Graphe acyclique orienté d’un modèle hiérarchique. . . Pannes et indisponibilités de 12 avions. . . . . . . . . . Graphes acycliques orientés avec et sans échangéabilité. Modèle hiérarchique pour le loto-foot. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

98 99 102 104 106 107 109 109 111 113 117 118

xx

Le raisonnement bayésien 5.13 Représentation imagée de la vision d’un modélisateur. . . . . . 5.14 Comment fait un biologiste pour identifier un animal du sol ? .

119 120

6.1

Densités a posteriori au voisinage du mode. . . . . . . . . . . .

131

7.1 7.2

Posterior marginal de l’écart entre aval et amont. . . . . . . . Densités a posteriori de la moyenne θ et de q0,9 . . . . . . . . .

146 149

8.1 8.2 8.3

Posterior de la variance annuelle de la production. . . . . . . . Posterior de la moyenne de la production totale. . . . . . . . . Estimations non paramétriques de la fonction de répartition. .

162 163 168

9.1 9.2

Ajustement de Gumbel aux chutes de neige maximales. . . . . 177 Distribution a posteriori asymptotique de x0,9 . . . . . . . . . . 178

10.1 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9 10.10 10.11

Histogramme sur 20 classes d’un 1 000-échantillon uniforme. . 184 Méthode d’inversion de la fonction de répartition. . . . . . . . 185 Méthode AR acceptation-rejet. . . . . . . . . . . . . . . . . . . 186 Échantillon bêta par méthode d’acceptation-rejet. . . . . . . . 188 Simulation d’une loi binormale par décomposition conditionnelle.190 Mécanisme de l’échantillonnage pondéré. . . . . . . . . . . . . 192 Mécanisme du sampling importance resampling. . . . . . . . . 195 Posteriors exact et simulé d’un quantile Gumbel. . . . . . . . 199 Distributions a priori et a posteriori des θi . . . . . . . . . . . 201 Vraisemblances normées par importance sampling. . . . . . . . 203 Vraisemblances normées par importance sampling resampling. . 203

11.1 11.2 11.3 11.4 11.5 11.6 11.7 11.8 11.9 11.10 11.11

Comportement des itérées d’un modèle sec-humide. . . Modèle de diffusion entre deux compartiments. . . . . . Modélisation autorégressive du chiffre d’affaires. . . . . Niveaux successifs d’un barrage réservoir. . . . . . . . . 500 premiers tirages d’une chaîne bidimensionnelle. . . Distribution ergodique de la chaîne bidimensionnelle. . Époques de passages en A. . . . . . . . . . . . . . . . . Fréquences de l’état 1 d’une chaîne à deux états. . . . . Trajectoires markoviennes d’un auto-régressif. . . . . . Histogrammes des réalisations d’un autorégressif . . . . Un algorithme itératif avec un composant stochastique.

. . . . . . . . . . .

. 207 . 209 . 211 . 213 . 223 . 224 . 228 . 237 . 238 . 238 . 244

12.1 12.2 12.3 12.4 12.5 12.6 12.7

Problème inverse. . . . . . . . . . . . . . . . . . . . . . . . . Ajustement d’un modèle linéaire sur dix données artificielles. Marginales a posteriori de θ1 . . . . . . . . . . . . . . . . . . Marginales a posteriori de θ2 . . . . . . . . . . . . . . . . . . Marginales a posteriori de θ3 . . . . . . . . . . . . . . . . . . Distribution de θ1 et θ2 pendant la période de chauffe. . . . . Marginales de θ1 et θ2 en comportement limite. . . . . . . .

. 246 . 252 . 253 . 254 . 254 . 256 . 257

. . . . . . . . . . .

. . . . . . . . . . .

Table des illustrations

xxi

12.8 Trajectoires de deux chaînes MH pour ρ après 1 000 itérations. 258 12.9 Fréquences de renouvellement des deux chaînes. . . . . . . . . 259 12.10 Distributions a posteriori de ρ exactes et simulées. . . . . . . . 262 13.1 13.2 13.3 13.4 13.5

Schéma de l’algorithme de Gibbs. . . . . . . . . . . . . . La mise à jour bayésienne tire parti du conditionnement. Posteriors marginaux des paramètres ρ et μ. . . . . . . . Probabilité prédictive pour les pluies à Ghezala. . . . . . Posteriors des paramètres des apports de La Grande. . .

. . . . .

. 267 . 272 . 277 . 278 . 279

14.1 14.2 14.3 14.4 14.5 14.6 14.7 14.8 14.9 14.10 14.11 14.12 14.13 14.14 14.15 14.16 14.17 14.18 14.19 14.20 14.21 14.22 14.23

Ajustement de Weibull sur un échantillon de 30 observations. Histogrammes a posteriori de λ et υ. . . . . . . . . . . . . . Jaugeage hydrométrique sur 16 mesures. . . . . . . . . . . . 3 chaines simulées par l’échantillonneur de Gibbs. . . . . . . Histogrammes simulés de β, α, σ. . . . . . . . . . . . . . . . . Diagramme des incertitudes jointes du couple α, β. . . . . . . Distribution a posteriori RB lissée de β. . . . . . . . . . . . . Autocorrélogramme de l’hyperparamètre α. . . . . . . . . . . Estimation du modèle de fiabilité des avions. . . . . . . . . . Autocorrélation pour α, β et σ de la courbe de jaugeage. . . Trois trajectoires bien mélangées de ρ. . . . . . . . . . . . . . Fréquence d’acceptation pour le modèle de Weibull. . . . . . Un mode non visité faute d’un nombre suffisant d’itérations. Loi auxilliaire pour explorer la densité de probabilité cible. . Certains points sont plus plausibles que d’autres. . . . . . . . Tirage bootstap multinomial. . . . . . . . . . . . . . . . . . . Enrichissement par un noyau markovien. . . . . . . . . . . . Boucler sur le cycle suivant. . . . . . . . . . . . . . . . . . . Échantillonnage pondéré et algorithmes markoviens. . . . . . Avatars d’un échantillonnage pondéré séquentiel. . . . . . . . Modèle dynamique de mélange de distributions gamma. . . . Accentuation du relief par passage à la puissance de U (d). . Résoudre un problème de décision optimale . . . . . . . . . .

. 285 . 287 . 290 . 292 . 292 . 293 . 294 . 298 . 298 . 302 . 305 . 305 . 307 . 308 . 308 . 309 . 310 . 311 . 314 . 315 . 317 . 321 . 322

15.1 A.1 A.2 A.3 A.4 A.5

Statisticien, drôle de métier. . . . . . . . . . . . . . Histogramme d’ensemble des longueurs de saumons. Scorff : corrélation moyenne - écart-type. . . . . . . Médiane d’une gamma en fonction de a. . . . . . . . Log10 des rapports r75 et r90 pour une loi gamma. . Quartile3 et décile9 de Student en fonction de 2a. .

. 324 . 335 . 336 . 338 . 339 . 341

. . . . . .

. . . . . .

. . . . . .

. . . . .

. . . . . .

. . . . . .

Liste des tableaux 1.1 1.2

Longueurs de saumons juvéniles. . . . . . . . . . . . . . . . . . Débits annuels maximaux de la Garonne. . . . . . . . . . . . .

10 12

2.1 2.2 2.3 2.4

Modèle empirique de fiabilité météo. . . . Information des 50 précédentes années. . . Chances de victoire ou nul pour 7 équipes. Élicitation des paramètres de non-perte. .

. . . .

23 31 37 38

3.1

Barème de Kass et Raftery. . . . . . . . . . . . . . . . . . . . .

72

4.1

Lois de Halphen. . . . . . . . . . . . . . . . . . . . . . . . . . .

90

5.1 5.2

Précipitations mensuelles à Ghezala. . . . . . . . . . . . . . . . Fiabilité de climatisation de 13 avions. . . . . . . . . . . . . . .

101 114

6.1

Notations pour les densités de probabilité courantes. . . . . . .

130

7.1 7.2

Tableau des conjuguées naturelles. . . . . . . . . . . . . . . . . Données de production en TWH annuels. . . . . . . . . . . . .

138 148

8.1 8.2 8.3

Statistiques exhaustives du système HydroQuébec. . . . . . . . 161 conjugaison multinomiale-Diriclet. . . . . . . . . . . . . . . . . 165 Crédibilité à 99 % des quantiles de la variance. . . . . . . . . . 168

9.1 9.2 9.3

Mode a posteriori pour la distribution de Poisson. . . . . . . . Chutes maximales de neige à la Plagne. . . . . . . . . . . . . . Crédibilité asymptotique pour le quantile de Gumbel. . . . . .

173 176 178

10.1 Intervalles de crédibilité à 90 % exact et simulé. . . . . . . . . . 10.2 Données de confrontation entre quatre équipes. . . . . . . . . .

200 200

11.1 Échanges entre compartiments. . . . . . . . . . . . . . . . . . .

209

12.1 Données générées pour la régression. . . . . . . . . . . . . . . .

251

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

xxiv

Le raisonnement bayésien

14.1 Seize mesures de jaugeage. . . . . . . . . . . . . . . . . . . . . . 14.2 Crédibilité à 90 % des paramètres de jaugeage. . . . . . . . . . 14.3 Estimation des temps moyens interpannes. . . . . . . . . . . . .

289 293 299

A.1 Pêches sur 16 sites de Pont Callec. . . . . . . . . . . . . . . . . A.2 Médiane et premier décile de l’écart-type. . . . . . . . . . . . .

335 342

Première partie

L’ANALYSE BAYÉSIENNE : CADRE THÉORIQUE

Chapitre 1

La décision en présence d’information Prologue Nous entrons dans le monde de la statistique par la porte de la décision sous informations. On parle plutôt de décision en avenir risqué car, bien souvent, les informations sont insuffisantes pour lever complètement les incertitudes. Bien sûr, la connaissance n’est pas réduite aux seules informations quantifiées, mais dans ce premier chapitre c’est à celles-ci uniquement que nous nous intéressons et à la façon dont elles assoient la décision, avant d’élargir le cadre au chapitre 2. De quelle façon réagit un homme rationnel qui reçoit une information ? Les exemples qui suivent montrent que ce type de question est général. La première difficulté n’est pas d’ailleurs d’ordre mathématique. Elle tient au partage du vocabulaire. Ici, on se propose de repérer les éléments-clés qui assurent une même expression formelle à tous ces exemples : la décision, les informations et leurs modes de collecte, la façon d’associer une décision à une information.

1.1

Décision, information et règle de décision

Nous nous plaçons dans une perspective de décision en univers incertain, c’est-à-dire que nous adoptons un point de vue très opérationnel, proche de celui d’un ingénieur. Voici quelques exemples de situations de nature variée, qui, à première vue, ne semblent partager aucun trait commun : Exemple 1 : Comment s’habiller demain matin compte tenu des aléas météorologiques ? 

4

Le raisonnement bayésien

Figure 1.1 – Contrôle sanitaire du mois de novembre 2005 dans un arrondisse-

ment de Paris. Exemple 2 : Dans une commune, l’organisme chargé de la distribution de l’eau potable et de l’exploitation du réseau (société privée concessionnaire ou services municipaux) surveille la qualité de l’eau en prélevant chaque jour des échantillons en des points de mesure répartis sur le réseau. Ces échantillons sont analysés pour rechercher la présence de coliformes, bactéries quelquefois pathogènes en elles-mêmes mais qui sont surtout la signature de pollutions plus importantes de l’eau du réseau. Au vu de ces analyses, se tient chez l’exploitant la réunion hebdomadaire du service de contrôle de la qualité qui évalue la concentration en coliformes dans le réseau et décide de mesures à prendre pour la semaine à venir : il s’agit notamment, en routine, de l’injection éventuelle de chlore dans le réseau ou de la mise en place de mesures plus drastiques comme le rinçage ou la désinfection de certaines parties du réseau si une dégradation plus importante de l’état sanitaire est à craindre. La figure 1.1 donne par exemple le résultat de tels contrôles effectués par la Direction des Affaires sanitaires et sociales de Paris pour le mois de novembre 2005 dans un arrondissement du Nord-Est de la capitale. À budget fixé, la stratégie de prise de décisions pour la semaine à venir peut-elle être améliorée ? 

1. La décision en présence d’information

5

Figure 1.2 – Échantillonnage de saumons juvéniles sur le Scorff par une équipe

de l’INRA. Exemple 3 : En septembre 2000, une campagne de mesures des tailles de juvéniles de saumons sauvages a été réalisée par les agents de l’Institut national de la recherche agronomique sur le Scorff, une rivière de Bretagne à saumons. Des échantillons ont été régulièrement prélevés le long de la rivière en 38 sites par pêche électrique comme le montre la figure 1.2. On mesure ensuite la taille des individus rencontrés. Une question concerne le différentiel de croissance des juvéniles localisés en amont, en aval et immédiatement à proximité d’une pisciculture industrielle : les effluents de la pisciculture auraient-ils une influence (et, le cas échéant, de quel signe ?) sur la croissance des saumons sauvages ?  Exemple 4 : Les grilles du loto sportif comme celle de la figure 1.3 présentent treize rencontres sportives à venir entre des couples (i, j) d’équipes de football ; n équipes sont en lice et chacune rencontre l’autre sur son propre terrain et sur le terrain de l’adversaire : il y a donc n × (n − 1) rencontres programmées. Chaque semaine, pour chacune des rencontres programmées, on peut engager un pari sur le résultat : les équipes i et j font match nul, i gagne, j l’emporte. Quelle décision recommander et sur quelles bases ? 

6

Le raisonnement bayésien

Figure 1.3 – Grille de loto sportif.

Exemple 5 : Les débits d’une rivière comme la Garonne sont très variables. La figure 1.4 présente la série des débits de crue de la Garonne à Mas d’Agenais qui ont dépassé le seuil de 2 500m3 /s sur la période 1913-1977. Faut-il construire une digue de protection contre les crues ou considérer que le risque de débordement est acceptable ? Si l’on décide de se protéger par un ouvrage de génie civil, jusqu’à quelle hauteur construire la digue ?  Nous allons montrer que tous ces problèmes de décision partagent les notions communes d’actions, d’informations, de stratégie conditionnelle (ou règles) de décision.

1.2

Ensemble A des décisions ou actions

On parle aussi d’actions ou d’alternatives. L’ensemble A est défini par le modélisateur et explicite le spectre des actions que le commanditaire de l’étude peut ou voudra bien entreprendre. L’ensemble des alternatives a peut être discret et, s’il est de cardinal n fini, on énumérera alors les décisions possibles A = {aj , j = 1, 2. . . n}. La structure de A peut être plus complexe, comme par exemple une réunion de parties de n . Passons en revue l’ensemble des décisions pour chacun des exemples : – Exemple 1 : On va prendre, pour simplifier l’exposé, les catégories de vêtements dans la garde-robe. Ici on peut alors décrire l’ensemble des

1. La décision en présence d’information

7

Figure 1.4 – 151 dépassements des pointes de crue au-delà de 2 500 m3 / s de

la Garonne à Mas d’Agenais durant la période 1913 1977

8

Le raisonnement bayésien

décisions par énumération A = { a1 (porter demain des vêtements légers), a2 (porter demain des vêtements de pluie), a3 (porter demain des vêtements de gros temps)} – Exemple 2 : Les décisions sont constituées par les mesures sanitaires que l’organisme de distribution d’eau peut engager. Elles sont par exemple du type A = { a1 (aucune action spécifique), a2 (chlorer plus), a3 (désinfecter), a4 (suspendre la distribution)} – Exemple 3 : Soit la pisciculture a une influence, soit elle n’en a pas : on peut ici envisager un ensemble binaire A = {a1 (agir comme si l’hypothèse d’influence est vraie), a2 (agir comme si l’hypothèse pas d’influence est vraie)}. Ici comme dans beaucoup d’exemples ultérieurs on peut interpréter ce cas comme un problème d’inférence, c’est-à-dire un choix (ou test) d’hypothèses concernant l’environnement. Sachant que ces hypothèses conditionnent des décisions non spécifiées mais, bien sûr, différentes, ce problème d’inférence est un problème décisionnel qui entre dans le cadre général. – Exemple 4 : Le loto-foot, société dépendant de la Française des Jeux, propose de parier sur 13 rencontres hebdomadaires. Il faut cocher une des trois cases de la grille de paris pour chacune des treize rencontres. Ce qui fait donc 313 paris possibles, éléments de l’ensemble A des décisions. On notera aij la décision de pari sur le résultat du match entre l’équipe i et l’équipe j de telle sorte que aij = 0 pour le match nul, aij = 1 si l’équipe i l’emporte sur son terrain, aij = −1 si l’équipe j gagne le match en déplacement. – Exemple 5 : Construire une digue de hauteur a ≥ 0 (a = 0 représente l’alternative ne pas protéger ). En termes d’ingénierie hydraulique, a est souvent dénommé crue de projet et sera exprimé dans la même unité que les débits de la rivière (puisqu’en une section donnée de la rivière, il y a une correspondance biunivoque entre la hauteur et le débit). L’ensemble A est, dans cet exemple, formé des réels positifs. Caractériser l’ensemble A est un acte de modélisation essentiel. D’un coté, on ne doit pas soumettre à l’analyse des décisions manifestement déraisonnables. D’un autre coté, l’exclusion irréfléchie de certaines décisions peut fausser les résultats.

1.3

Ensemble X des informations

Les informations, encore appelées données, observations ou résultats expérimentaux sont la manifestation tangible du phénomène étudié. Il est d’usage de réserver les lettres latines minuscules, particulièrement x ou y pour repérer ces quantités. Les exemples proposent des informations de nature variée : – Exemple 1 : Les informations sont ici les informations radiophoniques de la météo pour la journée. Quoique les situations météorologiques annoncées puissent être de structure très complexe, on se limitera, dans

1. La décision en présence d’information

9

Figure 1.5 – Alerte aux coliformes en 1992.

cet exemple à visée pédagogique, à des données caricaturales X = { x1 (soleil dominant annoncé), x2 (la météo prévoit des ondées intermittentes), x3 (orage en formation)} – Exemple 2 : Les données sont constituées par les résultats des analyses sanitaires que l’organisme a collectés sur la semaine. Elles donnent essentiellement le nom des stations de mesures où la présence de bactéries pathogènes a été détectée (les tests de présence/absence sont les plus courants, il existe également des analyses apportant des informations sur la concentration en bactéries, plus chères, non envisagées dans cet exemple). Pour une semaine donnée, les informations sont du type X = { (lieu de mesure, x(lieu de mesure)=0 si absence ou 1 si présence de coliformes)}. La figure 1.5 montre, pour le début de l’année 1992, particulièrement critique pour la capitale française, l’évolution de la proportion de stations ayant détecté la présence de coliformes (plus d’une centaine de points de contrôle sont collectés chaque semaine). – Exemple 3 : En amont et en aval de la pisciculture, on a échantillonné la ressource naturelle en saumons par pêche électrique locale, durant la même durée et par le même protocole. Ces saumons sont des juvéniles qui ont passé ou bien un an ou bien deux ans en rivière. (Ils sont discernables par le nombre de cernes sur les écailles.) On note nb , np et nh le nombre

10

Le raisonnement bayésien d’individus capturés en aval, sur le site et en amont de la pisciculture. Appelons xbi la longueur du ie`me saumon juvénile de un an en aval (indice b pour bas et p pour la proximité immédiate) de la pisciculture, xhj la longueur du j e`me saumon juvénile de un an en amont de la pisciculture (indice h pour haut). On forme xb , le vecteur de composantes (xbi , i = 1, 2, . . nb ) puis xh = (xh1 , . . xhi , . . xhnh ) et xp . Dans la suite de cet exemple, pour simplifier l’énoncé et parce que l’essentiel des prises porte sur les juvéniles, on ne prendra pas en compte l’information apportée par la taille des individus capturés agés de deux ans. L’ensemble des données observées s’écrit x = {xb , xp , xh }. L’ensemble X des données possibles 60 est ici (R+ ) . Le tableau 1.1 donne les résultats numériques observés (les longueurs des poissons sont en mm et nb = 21, np = 27, nh = 12).

Aval

Pisciculture

Amont

112 120 130 112 110 124 128 98 98

110 116 131 114 131 129 90 121 108

117 117 122 131 101 124 116 108 102

103 116 116 92 128 100 94 100 103

137 104 102 105 124 129 111 107

103 136

131 108

130

126 76 119

85 102

111 119

93

123

101

Table 1.1 – Longueurs de saumons juvéniles échantillonnés par l’INRA en aval, sur le site et en amont de la pisciculture de Pont Callec sur la rivière Scorff le 29 septembre 2000.

– Exemple 4 : Pour le loto sportif, les informations concernent les matchs déjà joués qui permettent d’ailleurs un classement des équipes, lequel classement évolue durant la saison au fur et à mesure des matchs joués. Pour ce problème la structure des données est formée d’un historique dont chaque élément est un enregistrement du type (équipe i, équipe j, score du match i contre j). Appelons xij ce résultat. Dans un premier temps, on ne va pas prendre en compte le nombre de buts marqués et se restreindre à des informations du type xij = 0 pour le match nul, xij = 1 si l’équipe i l’emporte devant l’équipe j, xij = −1 si l’équipe j gagne le match contre l’équipe i. – Exemple 5 : Décider de construire ou de ne pas construire un ouvrage destiné à protéger un site contre le débordement d’une rivière repose sur la connaissance de la probabilité d’apparition d’une crue dommageable. Cette probabilité est incertaine mais sur laquelle on dispose néanmoins de quelques enregistrements des débits passés de la rivière. Sur la figure 1.4, on a noté, par exemple, les débits de pointe (en m3 / s) des crues supérieures à 2 500 m3 / s apparues sur la période 1913-1977. Plusieurs

1. La décision en présence d’information

11

pointes peuvent apparaître chaque année. X = { (jour de la mesure j, xj = débit enregistré en m3 / s)}.

1.4

Les campagnes de collecte d’information

L’information x n’est pas nécessairement une donnée immédiate et disponible de facto : elle est souvent associée à une expérimentation, à une campagne de recueil d’information e ∈ E dont l’espace même des observations dépend, et, par la suite, nous noterons l’information Xe pour souligner cette dépendance. Exemple 1 : Pour s’informer sur les aléas météorologiques, l’usager peut choisir son média afin de connaître les prévisions. Selon le journaliste qui les diffuse, il peut d’ailleurs les considérer plus ou moins fiables. Exemple 2 : Sur le réseau dont il a la charge l’exploitant peut choisir les points de mesure de la qualité de l’eau ; ceux-ci ne sont pas complétement fixés d’avance (on choisit généralement les écoles et les établissements publics). Leurs localisations et leur nombre peuvent être un élément de choix et définissent la campagne e. Exemple 3 : La durée des campagnes de pêches sur le Scorff et le mode de capture des poissons peuvent être laissés au choix des agents de l’INRA. Exemple 4 : L’amateur de football peut ne considérer comme information que la précédente journée de championnat, ou quelques journées antérieures. Jusqu’où peut-il remonter dans le passé ? Exemple 5 : L’hydrologue sait bien qu’une crue de la Garonne n’est pas un événement isolé. Chaque crue a une histoire qui débute au moment où, par exemple, des précipitations notables tombent sur le bassin de la rivière. Celles-ci, comme c’est le cas de la Garonne, sont réparties sur un vaste territoire. Prendre ces précipitations en compte, ou une partie d’entre elles, constitue une campagne de collecte d’informations e différente de la campagne e que nous avions implicitement supposée : n’utiliser que les débits supérieurs à 2 500 m3 / s. Dans le tableau 1.2 par exemple, au lieu des dépassements de seuil, on a considéré une autre campagne de collecte d’informations : on a enregistré le maximum de débit journalier qui s’est écoulé au cours de chacune des années de 1913 à 1977. Les données x sont formées de la collection (jour de la mesure j, xj = débit enregistré en m3 / s). L’ensemble X des données 65 possibles est (R∗+ ) .

1.5

Associer x ∈ Xe et a ∈ A

Dans le cadre théorique précédent, le processus de décision peut prendre deux formes selon la disponibilité des informations. La tradition statistique nomme ces deux formes : analyse extensive et analyse normale. – Analyse extensive (ou a posteriori) Ici, les données ont été observées : le décideur est supposé connaître l’information x. Pour choisir la décision optimale a ∈ A dont il a inventorié les

12 Année 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924 1925

Le raisonnement bayésien Max. 4 579 4 774 4 968 4 774 3 400 6 137 4 189 4 579 2 800 4 384 5 747 3 200 3 100

Année 1926 1927 1928 1929 1930 1931 1932 1933 1934 1935 1936 1937 1938

Max. 3 200 6 332 4 968 1 950 7 500 3 700 3 600 2 500 3 700 6 137 4 189 5 747 3 200

Année 1939 1940 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950 1951

Max. 2 800 5 553 5 163 3 100 3 600 4 579 3 200 950 1 850 2 000 1 900 2 600 2 900

Année 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964

Max. 6 721 2 700 3 000 5 747 2 300 3 200 2 900 4 968 3 400 4 774 2 300 2 700 3 300

Année 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977

Max. 4 968 5 163 2 600 2 530 4 073 3 120 4 696 5 377 3 956 4 228 3 200 4 209 4 482

Table 1.2 – Débits annuels maximaux (en m3 / s) de la Garonne à Mas d’Agenais

sur la période 1913-1977. conséquences, il doit règler son comportement sur celles-ci ainsi que sur les incertitudes associées. Ces incertitudes sont en partie (mais en partie seulement) levées par l’information x. Nous verrons au chapitre 2 que cette information quantitative doit être complétée par des connaissances d’expert (la prise de décision ne s’appuie pas uniquement sur des données quantitatives et objectives). Évaluer ces incertitudes résiduelles et les combiner aux évaluations des conséquences sont les tâches du décideur à ce niveau. La statistique décisionnelle propose un cadre formel pour aider le décideur à choisir la décision d appropriée. – Analyse normale (ou prédictive) Ici, la donnée x n’a pas encore été observée (on sait juste que c’est un élément potentiel de l’ensemble X) et le décideur est dans une situation plus complexe, car ne disposant pas de l’information x, il doit d’abord choisir le type d’expérimentation e qui lui fournira xe . Souvent il dispose déjà d’une certaine information mais s’il s’interroge sur l’opportunité de la compléter, il est ramené au problème précédent. Ainsi doit-il utiliser une procédure de décision séquentielle : choix de e ∈ E → obtenir xe ∈ Xe → choix de a ∈ A

(1.1)

Au début de cette procédure, le décideur doit choisir un e mais les conséquences de son choix dépendront de sa décision a finale qui est non seulement soumise aux incertitudes sur les conséquences mais aussi - et c’est nouveau par rapport à la situation précédente de l’analyse extensive - aux incertitudes sur l’information xe que pourrait générer l’expérimentation e. De plus, le décideur placé au niveau initial de cette procédure devra se poser la question de la bonne décision a∗ au niveau terminal. La réponse à cette

1. La décision en présence d’information

13

question passe par l’étude des propriétés de la liaison δe entre l’information disponible xe ∈ Xe et la décision qui en découle a∗e = δe (xe ) ∈ A. L’application δe : Xe → A s’appelle aussi stratégie (de façon plus complète : stratégie conditionnelle de décision sous information) ou règle de décision. C’est elle qui va décrire le comportement du décideur soumis à tous les résultats expérimentaux possibles qu’il faut considérer sous cette optique qu’on appelle prédictive. Ainsi la notion de stratégie est une pierre de fondation pour les édifices de la statistique. Le cadre théorique précisera les notions supplémentaires de modèle stochastique (comment générer tous les résultats possibles ?), d’expertise et de coût (il faudra bien un critère pour parler de règle optimale). Avant de détailler ces concepts, présentons quelques stratégies pour développer la réflexion à partir de chacun des exemples : – Exemple 1 : A = { a1 (porter demain des vêtements légers), a2 (porter demain des vêtements de pluie), a3 (porter demain des vêtements de gros temps)}, X = { x1 (soleil dominant annoncé), x2 (la météo prévoit des ondées intermittentes), x3 (orage en formation)}. Si le décideur a une foi absolue en la météorologie nationale, sa stratégie δ 1 sera du type : δ 1 (xi ) = ai , ∀i = 1, 2, 3. On voit que la stratégie δ 2 telle que δ 2 (xi ) = a1 , ∀i = 1, 2, 3 correspond à celle de l’optimiste insouciant. On peut bien sûr imaginer d’autres attitudes (par exemple : la météo se trompe toujours). Il y a ici autant de stratégies que d’applications de X dans A, soit 3×3×3 = 27. La figure 1.6, extraite d’une publicité pour les répondeurs de Météo France illustre cette possible diversité des comportements. Cette image nous fait sourire car, intuitivement, nous pensons que la « bonne » stratégie est δ 1 . Peut-on justifier formellement le bien-fondé de cette attitude que cette publicité vise à nous faire accepter comme allant de soi ? – Exemple 2 : Imaginons qu’il y ait n lieux de mesures. A = { a1 (aucune action spécifique), a2 (chlorer plus), a3 (désinfecter), a4 (suspendre la distribution)}, X = { (ie`me lieu de mesure, xi =0 si absence ou 1 si présence de n coliformes), i = 1, 2. . n}. Dans l’absolu, il y 4(2 ) stratégies possibles, ce qui est beaucoup même pour un nombre n faible de stations de mesures. En admettant que chaque station joue un rôle équivalent, la quantité n  s = xi le nombre de stations défectueuses jouera le rôle particulier i=1

d’un résumé des données sur lequel on peut construire une règle de décision. Si, de plus, le décideur soupçonne la pollution bactériologique d’être d’autant plus grave que s est grand, la famille de stratégies, indexée par 3 entiers α, β, γ (avec 0 < α < β < γ < n), δ α,β,γ du type :

δ α,β,γ (s) δ α,β,γ (s) δ α,β,γ (s) δ α,β,γ (s)

= = = =

a1 a2 a3 a4

si si si si

0≤s Γ (α + β + r + 10) Γ (β + r − n) D

(3.7)

Dans ce calcul d’espérance de coût a posteriori, on retrouve, par les propriétés de conjugaison, que la loi de θ conditionnelle à l’information (n, r) obtenue par la formule de Bayes est une loi bêta de paramètres α + n et β + r − n. A N fixé, on choisit donc la décision a0 si l’expression (3.6) est plus petite que C sinon on choisit de construire l’ouvrage de protection (décision a). La figure 3.1 permet, pour différentes valeurs du nombre r = 20, 50, 100, ... d’années d’observations, la comparaison entre les valeurs de la formule (3.6) où D = 1 et les valeurs de C = 0, 1 et 0, 5 (C est exprimé relativement au coût de dommage). La distribution a priori est définie par les hyperparamètres α = β = 0, 5. Selon la règle de décision précédente, il s’agit alors de comparer les ordonnées de la courbe aux différents seuils C/D = 0, 1 , 0, 2 , ...0, 5, ... On voit que la stratégie bayésienne se définit de la façon suivante : C Pour D = 0, 5, par exemple : – si on dispose de 20 années de mesures : construire l’ouvrage de protection si l’on a observé plus de deux accidents par le passé (c’est-à-dire une fréquence observée de l’ordre de 0, 1) ; – pour 50 mesures choisir a dès que l’on a vu plus de quatre événements dommageables ; – avec 100 mesures, mettre en place l’ouvrage de protection à partir de sept événements dommageables observés. C Pour = 0, 2 le coût des dommages est relativement plus fort et ces D consignes deviennent respectivement : toujours protéger (r = 20), protéger dès un événement grave (r = 50), protéger à partir de deux accidents enregistrés pour 100 mesures.

3.3.2

Prise en compte réglementaire des risques

L’alternative protection/pas de protection est, dans le cas de risques majeurs, un problème du ressort de la puissance publique. Comme sur un plan

60

Le raisonnement bayésien

Figure 3.1 – Coût moyen a posteriori de ne pas construire avec a = b = 0, 5 selon diverses valeurs du nombre d’années de mesures r et de la fréquence d’occurrence des crues N/r.

3. Risque et aide bayésienne à la décision

61

réglementaire général, elle ne peut agir au cas par cas, elle est amenée à définir des seuils de probabilité θ0 admissibles pour un certain nombre de classes d’événements dommageables (naturels ou anthropiques comme les inondations, séismes, avalanches, explosions, etc.). La probabilité θ0 s’interprète toujours ici à l’échelle de la période élémentaire Δt. Du point de vue d’un décideur, la problématique est assez semblable à celle des exemples ci-dessus : il doit réglementairement choisir entre la decision a (assurer une protection) et la décision a0 (non-prise en compte du risque c’està-dire faire comme si θ était inférieur à θ0 ). L’incertitude pour le décideur est encore ici liée à sa méconnaissance de la valeur de θ. On supposera encore qu’il dispose d’une information sur θ formée de n événements apparus sur r périodes du passé. On remarquera que le parallélisme entre les cas particuliers et le cas réglementaire pourrait s’arrêter au niveau des conséquences des décisions car celles-ci ne peuvent qu’être indirectes dans le cas général : accepter l’hypothèse θ ≥ θ0 n’implique pas que l’événement dommageable surviendra dans l’avenir. Cependant, on peut admettre que le rôle de la puissance publique est celui d’un assureur qui doit faire payer au décideur une prime D garantissant le risque si θ ≥ θ0 . On se retrouve alors avec le même tableau de conséquences pour le décideur : – si a : coût d’investissement C ; – si a0 : paiement de la prime pour θ ≥ θ0 , 0 sinon. La décision a est associée au coût C et la décision alternative a0 est associée au coût a posteriori : 

1

[θ|n, r]dθ = D × [θ ≥ θ0 |n, r]

D

(3.8)

θ0

Cela implique que le décideur choisira a si : [θ condition équivalente à θˆn

3.4

C ≥ θ0 |n, r] > D  1 C ≥ θ0 où [θ|n, r]dθ = D ˆ θn

(3.9) (3.10)

Traitement décisionnel de la construction d’une digue

 Reprenons l’exemple 5 de la digue présentée au chapitre 1. La vraisemblance du modèle de renouvellement-dépassement et la forme du prior gamma-gamma sont données par les équations (2.8) et (2.24) du chapitre 2. Commençons par étudier la méthode heuristique avant de poser le problème décisionnel complet. La notion de période de retour d’événements donnée par le modèle (2.8) est essentielle pour critiquer la recette traditionnelle d’ingénierie.

62

Le raisonnement bayésien

3.4.1

Période de retour

La période de retour T (y) d’un phénomène récurrent associé à une variable aléatoire X de fonction de répartition F est la durée moyenne qui sépare deux événements du phénomène de valeur dépassant un seuil y. Soit une séquence {X1 , X2 , X3 , ...Xn , Xn+1 } de réalisations iid (indépendantes et identiquement distribuées) de même loi F . Pour la calculer, fixons un seuil y et appelons Zy la variable aléatoire entière longueur de l’intervalle de temps séparant deux réalisations du phénomène X dépassant le seuil y. L’événement {Zy = n} coïncide avec l’événement réalisé par {X2 < y; X3 < y; ...Xn < y; Xn+1 > y|X1 > y} ; la probabilité d’un tel événement est donc : n−1

P (Zy = n) = (F (y))

(1 − F (y))

(3.11)

Par définition la période de retour associée à la valeur y est la valeur +∞  moyenne de Zy . Elle vaut T (y) = nP (Zy = n), soit encore : n=1

T (y) =

+∞

n−1

n (F (y))

n=1

 ∞ n  ∂ n=0 u  1 (1−F (y)) = (1−F (y)) =  ∂u 1 − F (y) u=F (y)

Reprenons maintenant le modèle de dépassement-renouvellement, pour lequel cette formule n’est pas directement applicable puisqu’il peut se produire plus d’une crue dommageable par année. Supposons d’abord qu’il se produise exactement r crues sur une année : la probabilité pour que la plus grande r des crues soit inférieure à x vaut (G (x)) . En conséquence, la loi de la crue maximale annuelle a pour fonction de répartition : F (x) =

+∞

r

Pr (G (x)) =

r=0

F (x) =

+∞ r (μG (x)) e−μG(x) r=0

Γ (r + 1)

+∞ μr e−μ r (G (x)) Γ (r + 1) r=0

e−μ(1−G(x)) = e−μ(1−G(x)) = e−μ(e

(3.12)

−ρx

) (3.13)

et la période de retour de la valeur y est : T (y) =

1 1 1 = = −ρy ) −μ(1−G(y)) −μ(e 1 − F (y) 1−e 1−e

(3.14)

qui peut être approchée, quand T est grand (donc y grand et G (y) proche de 1 par : T (y) ≈

1 eρy = μ (1 − G (y)) μ

(3.15)

3. Risque et aide bayésienne à la décision

3.4.2

63

Modèle décisionnel classique et interprétation économique de la période de retour de la crue de projet

Si on construit une digue de hauteur h on investit C (h), coût d’amortissement annuel de l’ouvrage de protection élevé jusqu’à la hauteur h. Si une crue X excède la valeur h, on subit un dommage D (X, h), nul quand X < h. +∞  μkD (x, h) ρe−ρx dx où k est un facteur lié à Le dommage moyen est donc x=h

l’actualisation, supposé fixe et connu dans cet exemple. La dépense moyenne totale vaut alors : +∞ 

W (h, ρ, μ) = C (h) +

μkD (x, h) ρe−ρx dx

(3.16)

x=h

Plaçons-nous dans le cadre d’une démarche économique classique, fondée sur l’hypothèse que μ et ρ sont connus. En supposant C et D approximativement linéaires, respectivement C(h)  C0 h et D  D0 (x − h), au voisinage de la hauteur de digue idéale, l’équation précédente donne une hauteur de digue idéale h∗ (μ, ρ) telle que : 

 ∂W (h, ρ, μ)  =0  ∂h h=h∗

(3.17)

mais ∂W (h, ρ, μ) ∂h

= +

∂C (h) ∂h +∞  ∂D (x, h) −ρx μk ρe dx ∂h

(3.18)

x=h







C0 + D0 kμ ⎝1 −

h

−ρx

ρe

dx⎠

− kD (h, h) μρe−ρh = C0 + kD0 μ (1 − G (h∗ )) = 0 (3.19)

x=0

soit encore :

T (h∗ )

kD0 = T (D0 , C0 ) C0 1 (3.20) μe−ρh∗ Log (μT (D0 , C0 )) (3.21) ρ

= −

Mais d’après l’équation (3.15) T (h∗ )

=

donc h∗ (μ, ρ)

=

64

Le raisonnement bayésien

En d’autres termes, si on est sans incertitude sur les caractéristiques des aléas hydrologiques et avec ce modèle hydrologique de renouvellement-dépassement, la digue idéale est telle que la période de retour de la crue maximale annuelle de projet est égale au rapport de la valeur marginale du coût d’investissement sur la valeur marginale du coût des dommages. Ce court développement mathématique paraît donc justifier la pratique courante d’ingénierie hydraulique qui opère de la façon suivante : – sélectionner une période de retour de la crue de projet vingtennale, centennale ou millennale selon l’importance des enjeux économiques associés à l’ouvrage : l’équation (3.21) montre le lien T (D, C) entre T et les composantes des fonctions de coût, – estimer μ et ρ à partir des données statistiques (n crues xi , i = 1..n, se sont produites sur r années), les estimateurs classiques sont, en notant S (n) le débordement cumulé sur n années : μ ˆ = ρˆ =

n r

n n = n  S (n) xi

(3.22)

i=1

estimer la hauteur de la digue idéale par : μ, ρˆ) = h∗ (ˆ

S (n) Log

N r

T (D, C)

(3.23) n En supposant T (D, C) = 100 ans, on trouve avec les données de l’exemple ˆ = 2, 385 d’où une hauteur de digue équivalente à (5) : ρˆ = 0, 98 × 10−3 , μ Log(μT ) 3 = 5 586 m /s au-dessus du seuil de 2 500 m3 / s pris comme référence ρ pour les dépassements, soit finalement une digue d’une hauteur contenant un débit de 8 086 m3 / s pour se prémunir contre la crue centennale.

3.4.3

Prise en compte de l’incertitude sur μ et ρ avec prior non informatif

Introduisons une description de l’incertitude par les distributions a priori commodes (2.24) sur les paramètres hydrologiques μ et ρ. Appliquons la formule de Bayes, et observons ce que deviennent les moments caractéristiques des lois a posteriori quand n tend vers l’infini (cela revient à faire tendre aρ , bρ , cμ, dμ vers 0, traduction mathématique d’un prior non informatif dans la formule (2.26)) : E(ρ |n, r, S(n) ) Var (ρ |n, r, S (n) ) E(μ |n, r, S(n) )

=

n S(n)

= Vρ =

n 2

(S (n)) n = μ= R

(3.24)

3. Risque et aide bayésienne à la décision

65

Soit ρ = ρˆ = 0, 98 × 10−3 , Vρ = 6, 2 × 10−9 , μ = μ ˆ = 2, 385 avec les valeurs numériques de l’exemple (5), n = 155, r = 65, S(n) = 158143.

3.4.4

Règle de décision bayésienne

Pour simplifier les calculs, nous ferons encore dans cette partie l’hypothèse que le coût d’investissement est linéaire en h et qu’à partir de x > h le coût de dommage est linéaire en (x − h) soit : +∞ 

W (h, ρ, μ)

= C(h) +

μkD (x − h) ρe−ρx dx

x=h

W (h, ρ, μ)

= C0 h + kμD0

e−ρh ρ

(3.25)

Pour rechercher la décision bayésienne, il faut trouver h qui réalise le minimum du coût a posteriori, c’est-à-dire minimiser l’espérance de la formule (3.25) selon les distributions a posteriori [ρ |x ], [μ |x ] des états de la nature, conditionnellement aux informations de l’échantillon x, résumées ici par les quantités (n, S (n) , r) : +∞ 

Eμ,ρ|x (W (h, ρ, μ)) = C0 h + k μ ¯D0

e−ρh [ρ |x ] dρ ρ

(3.26)

ρ=0

Compte tenu de la forme de la loi a posteriori de ρ cette expression s’écrit encore : b +∞  e−ρh aρ ρ bρ −1 −ρaρ Eμ,ρ|x (W (h, ρ, μ)) = C0 h + k μ ¯D0 e dρ ρ ρ Γ (b) ρ=0

 bρ Γ bρ − 1 aρ = C0 h + kμD0

 Γ (b) a + h bρ −1 ρ  1−bρ aρ h 1+  = C0 h + kμD0  bρ − 1 aρ

(3.27)

(3.28)

Le minimum en h de (3.27) est donc atteint lorsque :  0 = C0 h − kμD0

h 1+  aρ

−bρ (3.29)

0 soit une hauteur de digue optimale telle que, en notant encore T = kD C0 :    1   1 bρ μkD 0 ∗   bρ h = aρ − 1 = aρ (μT ) − 1 (3.30) C0

66

Le raisonnement bayésien

Associée à la formule (2.25), l’équation (3.30) donne la règle de décision bayésienne, c’est-à-dire la crue de projet h∗ sous la forme h (n, r, S (n) , aρ , bρ , cμ , dμ ), fonction de l’information collectée (n, r, S (n)) et des croyances a priori (aρ , bρ , cμ , dμ ). Quand n est grand, on observe sur l’équation (2.25) que bρ tend vers l’infini donc que son inverse tend vers 0. Sous ces conditions, un développement de la formule (3.30) au deuxième ordre donne alors, en utilisant les moments a posteriori de ρ évalués en (2.26) : h∗

=

aρ 1 aρ 2 Log (μT ) + (Log (μT )) + ... bρ 2 b2 ρ

(3.31)

h∗



Log (μT ) 1 Vρ 2 (Log (μT )) + ρ 2 ρ3

(3.32)

Cette expression est à rapprocher de l’expression (3.23), car pour un choix d’hyperparamètres aρ = bρ = cμ = dμ tendant vers 0 (cas non informatif), l’expression (3.32) diffère de (3.23) uniquement par le terme de deuxième ordre : la prise en compte des incertitudes sur l’hydrologie et même s’il existe une information, malgré tout limitée, conduit à une surélévation de la digue par rapport à la formule (3.23). Cette surélévation, exprimée par le terme addi))2 tionnel Vρ 12 (Log(μT est essentiellement liée à la variabilité supplémentaire ρ3 provenant de l’incertitude sur ρ. Avec les données numériques de l’exemple (5) on obtient : ρ = 0, 98 × 10−3 , Vρ = 6, 2 × 10−9 , μ = 2, 385 et le surélévement vaut : 2

1 (Log (μT )) = 98, 7 m3 / s Vρ 2 ρ3 Conclusion 1 Pour cet exemple, l’information est assez abondante et les résultats tenant compte de l’incertitude sont finalement proches du cas limite en 98,7 information parfaite puisque l’écart relatif ne vaut que 8086 , proche de 1 %. Mais bien sûr, la différence est tributaire des autres hypothèses, notamment celles concernant la fonction d’utilité et la taille de l’échantillon. Par conséquent, la prudence reste de mise et d’ailleurs dans d’autres cas, les résultats peuvent être beaucoup plus contrastés, avec des surélévations dues à l’incertitude bien plus fortes. Ainsi, si au lieu de n = 155 valeurs, on ne disposait que de 10 fois moins d’années (et des ouvrages sont bel et bien à dimensionner sur des séries aussi courtes que 15 valeurs de crues maximales annuelles ), en supposant que le dépassement moyen et l’estimation de la crue de projet demeurent les mêmes (¯ ρ = 0, 98 10−3 , μ ¯ = 2, 385), les formules (2.26) et (3.32) montrent que le surélévement relatif, inversement proportionnel à n sous ces hypothèses, serait multiplié par 10 ! Á la page 78, on montrera que ce modèle se justifie comme cas particulier de la théorie des valeurs extrêmes.

3. Risque et aide bayésienne à la décision

67

Épilogue La théorie de la décision bayésienne demande de spécifier : – l’ensemble A des actions a que l’on peut entreprendre en avenir incertain (c’était le facteur commun essentiel de tous les exemples présentés au chapitre 1). On généralise la notion de décision en incluant aussi le choix éventuel d’une procédure de collecte d’informations (notée e précedemment) ; – les états de la nature inconnus θ qui introduisent de l’incertitude quant aux conséquences d’une décision, ainsi que les connaissances relatives à l’état de la nature ; le chapitre 2 montrait comment construire de tels modèles dits priors [θ] si aucune information objective n’avait été collectée ou appelés posteriors [θ |x ] si une information quantitative x avait permis de mettre à jour la connaissance initiale ; – des informations nouvelles y qui nous renseignent sur l’état de la nature au travers d’un modèle statistique donnant [y |θ, a ] (au chapitre 2, on illustrait également la construction d’un tel modèle d’occurrences des y qui peut éventuellement être différent de celui des données passées x). On fait apparaître ici le conditionnement par a dans le modèle d’occurence afin d’inclure le cas important où a régit aussi le plan d’expérience ; – une fonction d’utilité u(a, θ, y) qui évalue les conséquences de la décision a lorsque l’état inconnu de la nature prend la valeur θ et que se manifestent des observations y. La nouveauté amenée dans le chapitre 3 concerne la recherche de la décision optimale. Pour choisir parmi l’éventail des conséquences pondérées par leur probabilités d’occurrences u(a, θ, y) × [y, θ |a ], il faut trouver l’optimum d’une intégrale U (a) : on y a éliminé toutes les grandeurs aléatoires θ et y par intégration sur leur lois de probabilité.   U (a) =

u(a, θ, y) [y |θ, a ] [θ |x ] dydθ

Voilà le cadre général de la théorie statistique de la décision mis en place. Le chapitre 4 ouvre une fenêtre sur les trucs et astuces utiles pour construire un modèle.

Notes de lecture Tout n’est pas si simple Dans la pratique, on rencontre à la fois des difficultés de construction et de calcul en analyse bayésienne décisionnelle et notamment pour ce qui concerne l’intégrale U (a). Difficultés de construction, car il est malaisé d’obtenir pour chaque cas spécifique les fonctions [θ] et u(a, θ, y) (le jargon statistique qualifie d’élicitation cette opération d’encodage mathématique) et le modélisateur se contente généralement de priors adaptés et de coûts grossièrement esquissés.

68

Le raisonnement bayésien

Le principe même de fonction d’utilité telle qu’elle est utilisée ici est ouvert à discussions (cf Munier et Rousseau, 1995). Le numéro spécial du Statistician ( Kadane et al., 1998) rend compte d’expériences d’élicitations, discute les différentes techniques et en souligne les difficultés. Nous avons masqué, au nom de la pédagogie, les difficultés de calcul dans ce chapitre : les calculs de nos exemples s’arrangeaient bien grâce à une expression analytique des lois a posteriori (lois conjuguées que nous reverrons d’ailleurs au chapitre 6) et une fonction de coût u(a, θ, y) qui acceptait de se laisser intégrer pour donner une expression U (a) dont on pouvait trouver l’optimum en a (dans nos exemples, la décision a était d’ailleurs astreinte à prendre ses valeurs dans un espace de dimension 1). Le journal de la Société royale de statistique (JRSS ) a consacré tout un numéro spécial sur la recherche de la taille de l’échantillon optimale (Smeeton et Adcock, 1997) et la majorité des articles se restreignent à ce cas monodimensionnel. Dans les cas pratiques, toutes ces difficutés se cumulent : à la fois une décision a incluant un plan d’expérience e de grandes dimensions et un calcul d’intégration, sur un espace souvent complexe, impossible. Nous verrons, dans la seconde partie de cet ouvrage, une façon de contourner ce problème. L’idée est simple : sous  l’hypothèse que la fonction U (a) soit intégrable, c’est-à-dire que l’intégrale t∈A U (t) dt existe, créons la densité de probabilité à trois arguments u(a, θ, y) [y |θ, a ] [θ]  (3.33) π(a, θ, y) = U (t)dt t∈A Avec cette écriture U (a), avec a ∈ A est, à une constante près, la loi marginale de π(a, θ, y) et trouver son optimum revient à chercher le plus grand mode de cette marginale. D’où l’idée, pas aussi naïve qu’il y paraît a priori : simuler des triplets (A, θ, y) tirés dans π, représenter l’histogramme de la marginale selon a et en chercher le mode... Pour mettre en œuvre ce procédé, il faut simuler des tirages aléatoires selon une distribution connue à une constante près, ce qui est l’objet des algorithmes présentés dans la seconde partie de cet ouvrage. Rendez-vous au chapitre 14 pour poursuivre le remplacement d’un problème d’optimisation par un calcul de simulation.

Limites de l’approche économique du risque : Attitude du décideur face au risque Le critère de fonction de regret moyen utilisé comme allant de soi en ce contexte d’incertitude dans ce chapitre a fait couler beaucoup d’encre. On peut se référer à Bernier et al., 2000, pour une introduction simplifiée. Dans nos exemples, nous n’avons pas été explicites sur les évaluations des conséquences en termes de coûts. Il ne peut s’agir uniquement de coûts monétaires directs dont on sait, depuis longtemps (Bernoulli, 1738) que les calculs d’espérance mathématiques peuvent poser des problèmes conceptuels en situation de risque. Dans Neumann et Morgenstein, 1953, une solution a été proposée pour décrire le comportement en situation de risque : les gains ou pertes monétaires directs,

3. Risque et aide bayésienne à la décision

69

z, sont remplacés par des utilités U = U (z), fonctions croissantes des z et le critère décisionnel de l’espérance des pertes remplacé par l’espérance des utilités  E(U ) = U (z)[z]dz. La fonction U (z), propre au décideur, est théoriquement bien définie s’il accepte de suivre certaines règles de comportement décisionnel. En pratique, elle est évaluée par interrogations directes du décideur (voir Munier et Rousseau, 1995 ; Munier et Parent, 1998 pour une discussion critique de ces concepts). Les propriétés de U (z) ont une interprétation décisionnelle importante. Sa convexité implique que le décideur peut préférer une perte certaine, zc , à une perte aléatoire dont l’espérance serait cependant inférieure. Cette préférence, appelée aversion au risque, fonde la théorie des assurances en justifiant qu’un assuré soit prêt à payer une prime pour se débarrasser, en totalité ou en partie, d’une situation de risque. On trouve dans Bernier, 2003, une application de ces idées au cas de la construction d’un ouvrage de génie civil de protection contre les crues. La vision classique de l’ingénieur est présentée dans Miquel, 1984. L’utilisation de connaissances d’expert pour améliorer la prise de décision est mise en œuvre dans Parent et Bernier, 2003, sur un modèle un peu plus général que l’exemple 5.

Critique de la pratique réglementaire En matière de dimensionnement de digue (ou de toute autre structure dont le dimensionnement est caractérisé par une seule variable telle que h), une pratique réglementaire courante, à laquelle un projeteur est assujeti, est, comme nous l’avons dit, de déterminer une valeur de projet h∗ associée à une probabilité de dépassement annuelle 1−F (h∗ ) forfaitairement fixée à 0, 1, 0, 01, 0, 001... selon les cas c’est-à-dire une durée de retour de 10, 100, 1 000... ans selon les enjeux. Le calcul précédent pourrait être vu comme une justification rationnelle de cette démarche classique dans le cadre de la logique de l’optimum économique. Cependant, il y a une différence importante. Le calcul, aussi imparfait soit- il par ses hypothèses restrictives, montre que la durée de retour optimale T (h∗ ) est nécessairement fonction de l’évolution des coûts de dommages liés au niveau des crues et des paramètres de la distribution locale de crue. C’est le caractère forfaitaire général du réglement qui est ici en question. Le partage des responsabilités entre décideur et homme d’études est mis en discussion dans Bernier, 1998.

Intervalle de confiance ou intervalle de crédibilité D’un point de vue critique, on pourrait dire que la solution de l’équation (3.9) ressemble à une démarche classique : celle de la comparaison de θ0 à la limite supérieure d’un intervalle de confiance de probabilité de confiance 1 − α0 . Le choix du rapport C/D serait donc tout aussi arbitraire que celui de α0 . Cependant, il faut se garder de cette comparaison car l’intervalle de confiance est conceptuellement très différent d’un intervalle calculé sur la

70

Le raisonnement bayésien

distribution a posteriori de θ, comme le montre Lecoutre, 1997. Rappelons seulement que l’intervalle de crédibilité se réfère directement aux probabilités subjectives affectées à ses valeurs alors que l’intervalle de confiance fait une référence indirecte à la probabilité que ses limites calculées sur les observations ont de recouvrir la valeur du paramètre, certaine mais inconnue. Par ailleurs, la considération de la limite de probabilité en termes de rapport de coûts semble plus claire que celle de fréquence d’erreurs à la base de l’interprétation concrète de l’intervalle de confiance classique.

L’estimation classique : un problème bayésien décisionnel Pour le statisticien classique estimer un paramètre θ, c’est donner une foncˆ tion des données θ(y), la règle de décision, ayant la bonne propriété d’être admissible. Pour définir cette propriété, le statisticien fréquentiste introduit ¯ un critère d’écart entre θ et la valeur d’un estimateur donné θ(y), écart noté

¯ θ) et appelé fonction de coût (c’est souvent l’écart quadratique θ − θ¯ 2 ). v(θ, ¯ θ), moyenne du coût quelle que soit Il en déduit alors la fonction de risque R(θ, l’information y, et définie comme :  ¯ ¯ R(θ, θ) = v(θ(y), θ) [y |θ ] dy y

On dit alors qu’un estimateur θ¯1 (y) domine θ¯2 (y) si : ∀θ

∈ Θ, R(θ¯1 , θ) ≤ R(θ¯2 , θ) avec inégalité stricte pour au moins un θ dans Θ

ˆ est alors dit admissible s’il n’existe pas un autre estimaUn estimateur θ(y) ˆ teur, c’est-à-dire une autre fonction T (y) à valeur dans Θ qui domine θ(y). Le problème est qu’il existe généralement une infinité d’estimateurs admissibles. C’est pourquoi le statisticien classique s’intéresse à des classes restreintes d’estimateurs en imposant des conditions annexes : sans biais, invariants, efficaces, etc. Le statisticien bayésien, lui, intégrera en θ la fonction de risque en utilisant le prior [θ] :  W[θ] (T, θ) =

R(T, θ)[θ]dθ Θ

et définira l’estimateur de Bayes comme la fonction T[θ] qui minimise W. Comme le rappelle la formule générale 3.1 l’estimateur bayésien T[θ] sera la fonction :  ∀x → tx minimisant R(tx , θ)[θ|x]dθ Θ

Cette minimisation donne une méthode constructive directe, bien qu’éventuellement numériquement complexe, de tout estimateur de Bayes.

3. Risque et aide bayésienne à la décision

71

Un résultat très important, parce qu’il souligne l’intérêt pour un statisticien classique d’adopter (temporairement) une approche bayésienne, a été démontré par Wald, 1950 : si θ varie dans l’ensemble des réels R ou dans une partie bornée de R , tout estimateur T (y) est admissible si seulement c’est un estimateur de Bayes avec [θ] > 0 ∀θ ∈ Θ. En d’autres termes, si le statisticien (classique) a pour objectif de construire un estimateur admissible, alors il doit nécessairement rechercher celui-ci dans la classe des estimateurs de Bayes (avec [θ] > 0). On trouvera dans Ferguson, 1967 et dans Berger, 1985, des compléments sur cette passerelle décisionnelle entre inférences classique et bayésienne.

Les rapports de Bayes pour le choix de modèles L’approche bayésienne et notamment l’analyse extensive apportent le cadre adéquat pour traiter les problèmes de choix de modèles dont les dimensions (en nombre de paramètres peuvent être variables). Pour choisir un modèle mj parmi un ensemble fini M = {m1 , ...mj , ...mk }, l’analyse extensive propose la démarche suivante : – On calcule la distribution a posteriori [θj |mj ] des paramètres θj du modèle mj et la vraisemblance moyenne a priori [x |mj ] : [x|θj , mj ][θj ] [x |mj ]  avec [x |mj ] = [x|θj , mj ][θj ]dθj [θj |x, mj ] =

Pour [x |mj ] la dénomination vraisemblance moyenne a priori est souvent utilisée de préférence au terme technique usuel de distribution prédictive a priori. – On calcule les rapports de Bayes : Bj2 j1 (x) =

[x |mj2 ] [x |mj1 ]

(3.34)

pour chaque couple de modèles mj1 et mj2 . – Ces rapports de Bayes, intervenant dans le rapport Rj2 j1 des posteriors de mj1 et mj2 sont la base d’une inférence sur le choix des modèles. Cette approche revient à introduire un paramètre de crédibilité c’est-à-dire une probabilité a priori sur chaque modèle [mj ]. Comme : [mj2 ] Rj2 j1 = Bj2 j1 (x) [mj1 ] – On peut interpréter le rapport Bj2 j1 (x) comme l’évidence, apportée par l’information x en faveur de mj1 vis-à-vis de mj2 . Ces notions ont été l’origine de travaux très nombreux tant du point de vue de leur interprétation que du point de vue calcul. Sur le plan pratique, le barème

72

Le raisonnement bayésien

de Kass et Raftery est souvent utilisé (Kass et Raftery, 1994). Comme l’évaluation des priors dépend du problème spécifique traité, ces auteurs proposent un barème indépendant permettant un choix indicatif entre deux modèles, utile en première approche. Le tableau 3.1 exprime leur barème en prenant deux fois le logarithme du rapport de Bayes. Dans les problèmes de choix a posteriori gloFacteur de Bayes B12 (x) 0à3 3 à 20 20 à 150 > 150

2 log(B12 ) 0à2 2à6 6 à 10 > 10

Évidence de M1 Aucune Positive Forte Très forte

Table 3.1 – Barème de Kass et Raftery.

bal de modèles, ce barème est quelquefois utilisé pour écarter les modèles dans une première phase de sélection. Les méthodes bayesiennes décisionnelles pour les problèmes de choix de modèles que la statistique classique nomme problèmes d’adéquation ont fait l’objet de développements récents et nombreux qu’on ne peut présenter ici. Nous en évoquerons certains aspects au chapitre 14. On trouve une excellente présentation de ces thèmes dans Droesbeke et al., 2002. Nous référerons à Robert, 2006, et à Bernardo et Smith, 1994, pour des exposés plus approfondis.

Chapitre 4

Comment construire un modèle ? Prologue

Ce chapitre donne des méthodes pour construire et justifier les représentations probabilistes des modèles statistiques notés [x |θ ] dans les chapitres précédents et des modèles d’élicitation notés [θ] (X désigne la grandeur aléatoire dont la réalisation x est généralement observable tandis que le paramètre θ est l’état de la nature). Certains lecteurs peuvent ne pas s’intéresser à cette question dans l’immédiat, préférant mener leur apprentissage par l’expérience et par l’analyse, en essayant d’abord de manier les divers modèles présentés au fur et à mesure : ils peuvent alors sans dommage oublier ce chapitre dans un premier temps et revenir à sa lecture quand le besoin de synthèse se fera sentir. Nous voudrions faire comprendre ici que la construction d’un modèle est une œuvre commune de l’analyste statisticien et du praticien ou décideur d’un cas concret déterminé, objet de leur dialogue. Le praticien apporte ses connaissances physiques qu’il a souvent du mal à formuler sous forme quantitative. C’est notamment le cas quand il faut spécifier les hypothèses de structure de la partie aléatoire des modèles. Le statisticien apporte au dialogue les outils de quantification de ces structures. Les briques de base qu’il utilise couramment sont décrites dans ce chapitre : représentation des comportements limites (tendances centrales, événements rares, extrêmes), les convolutions ou mélanges, l’utilisation du concept d’entropie et les modèles exponentiels.

74

Le raisonnement bayésien

4.1

Questions préliminaires

4.1.1

Le modèle existe-il ?

Qu’est-ce qu’un modèle ? Pour le statisticien, c’est une représentation formelle, caricaturale et fonctionnelle qui permet la quantification sur un système réel dont il a préalablement procédé à la découpe des limites. L’effort majeur de représentation porte sur le bruit, c’est-à-dire les facteurs dont on ne sait ou on ne veut pas représenter finement l’influence au cas par cas : on fait alors appel à des variables aléatoires. La statistique décrit alors ces effets de façon grossière par leurs caractéristiques statistiques générales et les incertitudes par des distributions de probabilité. Cette vision semble irréconciliable avec celle du physicien, qui procède par accrétion de concepts élémentaires jusqu’à construire un édifice mental qui paraît beaucoup mieux charpenté pour prétendre à une vocation explicative universelle, détaché de toute restriction quant à sa finalité et souvent libre d’incertitudes quant aux hypothèses de base.

4.1.2

Le scientifique est condammé à la statistique

L’antagonisme entre modèles physique ou statistique, s’il alimente encore quelques vives discussions de salon dans les sociétés savantes, n’a plus vraiment cours. De toute façon, les physiciens ont déjà fait depuis longtemps le premier pas vers les statisticiens en introduisant le concept de probabilité au coeur de leurs théories (la fonction d’onde, pierre angulaire de la théorie quantique, est étroitement reliée à la densité de probabilité de présence d’une particule). Le second pas provient de la pratique. Pour être mis en œuvre, le modèle doit assimiler des données : la prévision météorologique apparaîtra sans doute aux yeux des puristes comme un infâme mélange des genres où des relations empiriques côtoient des équations fondamentales tandis que les constantes universelles sont réestimées toutes les trois heures ! Dans l’autre sens, de la statistique vers la vision déterministe explicative, le pas est aisément franchi ; on transforme un modèle déterministe en une construction probabiliste dès qu’on touche à un seul de ses termes avec de l’aléatoire. A contrario, une grandeur connue sans erreur n’est qu’un cas très particulier d’une grandeur aléatoire dont la variance tend vers zéro... Aussitôt que le scientifique est suffisamment humble pour accepter l’adage : tout modèle est faux, mais certains sont utiles, la question vraiment essentielle n’est plus la quête du (seul vrai) modèle, mais de comprendre comment construire un modèle fructueux.

4.1.3

L’état de la nature est inaccessible à nos sens

L’enjeu principal réside dans l’élaboration des inconnues du modèle, paramètres et variables cachées (que le modélisateur nomme état de la nature), qui permettent de simuler la réalité tangible, celle accessible à nos sens et à nos appareils de mesures. Dans les chapitres précédents, on a écrit [x |θ ] pour désigner la loi de probabilité de la grandeur (généralement observable) x sachant

4. Comment construire un modèle ?

75

l’état de la nature θ comme si cette structure de conditionnement probabiliste était évidente. C’est fort loin d’être le cas. L’état de la nature doit être conceptualisé, décrit, cerné par des opérations mentales et traduit sous forme d’une densité de probabilité donnant un modèle d’occurrence des observables [x |θ ]. De façon très analogue, le modèle d’élicitation des connaissances a priori [θ] pose des problèmes de formalisation, d’autant plus que le paramètre θ est interprété : inobservable, sa signification phénoménologique est rarement directement accessible à nos sens. Le cadre mathématique garantit la cohérence de ces élaborations ainsi que la possibilité de partage et de diffusion au sein de la communauté scientifique. C’est également affaire de création du modélisateur et on ne peut certes pas codifier la façon dont fonctionne l’imagination. Il y a pourtant des trucs et astuces que le lecteur trouvera dans ce chapitre. D’abord, on peut s’appuyer sur des théorèmes asymptotiques qui donnent les lois du hasard dans des circonstances idéalisées particulières : un grand nombre de perturbations qui s’ajoutent, des éléments rares, des valeurs extrêmes. On peut ensuite donner plus de souplesse à un modèle en construisant une extension par mélange. Enfin, pourquoi chercher à faire compliqué si on peut faire simple ? Le principe de parcimonie conduit aux lois de la famille exponentielle, présentée ici comme des solutions du principe de maximum d’entropie. Le maximum d’entropie s’appuie sur les symétries des connaissances du modélisateur telles que le principe d’insuffisante raison du calcul des probabilités popularisé depuis Laplace. C’est pourquoi ce principe est particulièrement utile pour construire des modèles d’élicitation des connaissances. Tous ces principes de modélisation sont utiles. On ne saurait oublier le principe empirique selon lequel, si le cas d’application procède d’un ensemble de situations où un modèle a été jugé empiriquement acceptable par toute une littérature technique, une bonne idée est de partir de ce modèle recommandé par la pratique. Un exemple bien connu est le réglement juridique américain qui demande, en matière de calcul de risque de crue de rivières, l’utilisation de la distribution log - Pearson type III. Quoique le mélange des genres juridique et scentifique soit criticable, l’argument sous-jacent : choisir un modèle parce que ce cas est assimilable à l’ensemble des cas où ce modèle a été jugé empiriquement acceptable résulte bel et bien d’une interprétation de similitude physique. Cette interprétation n’est finalement que l’extension d’une catégorisation empirique. Et, en statistique appliquée les usages de telles catégories sont fréquents.

4.2

Modèles par théorèmes asymptotiques

La première idée d’un modélisateur est de s’appuyer sur une vérité mathématique. Si les hypothèses sur lesquelles il appuie sa réflexion se rapprochent de circonstances idéalisées particulières où a été démontré un théorème du calcul des probabilités, il pourra être tenté d’utiliser comme modèle la structure particulière des lois du hasard issue de ce théorème.

76

Le raisonnement bayésien

Mais cette idée doit être examinée avec soin. D’abord la construction d’un modèle est toujours en soi une succession de vérités mathématiques à l’intérieur d’un corps d’hypothèses (c’est son support rationnel). C’est dans la transposition concrète des hypothèses que réside l’interprétation et celle-ci ne peut prendre la forme d’une déduction mathématique absolue. Comme nous le verrons ci-après le prototype de théorème justificatif concerne la loi normale. On ne peut mieux faire que rappeler ici la boutade de H. Poincaré : Tout le monde croit à la loi normale : les physiciens parce qu’ils pensent que les mathématiciens l’ont démontrée et les mathématiciens parce qu’ils croient qu’elle a été vérifiée par les physiciens. En fait, l’hypothèse d’effet additif d’un grand nombre de causes justifiant mathématiquement la loi normale, n’est, pour nous, qu’aide à l’interprétation physique qualitative de certaines variables particulières. Le modèle résultant n’est pas justifié de façon absolue mais s’il est validé par des données, il peut être privilégié (vis-à-vis d’autres modèles équivalents) pour autant que l’additivité ait réellement un sens.

4.2.1

Loi normale

L’exemple le plus connu est donc la loi normale. Le théorème de la limite centrale stipule que, quand on considère des variables aléatoires indépendantes et identiquement distribuées Xi , pas forcément normales, mais ayant un mo2 ment d’ordre 2 (on appelle μ leur espérance  n commune et σ leur variance parta(X −μ) i gée) et que l’on forme la quantité Yn = i=1√nσ , la répartition de probabilité de Yn se rapproche de plus en plus de celle d’une loi normale N (0, 1) quand n tend vers l’infini. Une version plus générale considère des variables indépendantes, de lois éventuellement différentes, mais sans qu’aucun moment d’ordre deux ne domine jamais la somme de tous les autres. L’utilisation passe-partout de ce théorème est souvent un réflexe chez un modélisateur : la loi normale pourra être privilégiée pour représenter un aléa qui s’exprime comme la résultante d’un grand nombre de perturbations dont aucune ne domine vraiment les autres... Ainsi en ira-t-il de la variabilité des longueurs d’alumettes dans une fabrication sous contrôle ou de la taille d’individus d’une même population (par exemple, les longueurs de saumons dans un tronçon de rivière, ou les hauteurs d’arbres de même âge et de même espèce dans une forêt).

4.2.2

Loi de Poisson

Le modèle de Poisson permet de représenter l’occurrence d’événements rares. Elle s’obtient par passage à la limite de la loi binomiale. Soit X une variable aléatoire suivant une loi binomiale de paramètres π et n. [x |n, π ] =

n! π x (1 − π)n−x x!(n − x)!

4. Comment construire un modèle ?

77

La loi de Poisson est la loi limite de X obtenue dans les circonstances suivantes : π → 0, n → ∞, nπ → λ La loi de Poisson a pour support l’ensemble des entiers naturels, sa fonction de densité s’écrit : λx [x |λ ] = exp (−λ) x! La ligne générale de la démonstration pour passer de la loi binomiale à la loi de Poisson est de montrer : n! – que le terme (n−x)! tend vers nx quand n → ∞ n – que (1 − π) = (1 − nλ )n tend vers exp (−λ) lorsque n → ∞ – que (1 − π)x tend vers 1 lorsque π → 0. La loi de Poisson est très employée dans le cas d’événements rares, par exemple pour le nombre de bactéries que l’on va pouvoir décompter lorsqu’on effectue un prélèvement dans un milieu où elles se répartissent de façon homogène. Elle a l’avantage de ne dépendre que d’un seul paramètre λ qui fixe l’espérance d’une variable aléatoire de Poisson. C’est en même temps un manque de souplesse, puisque ce paramètre fixe aussi la variance, ce qui restreint la portée du modèle à des phénomènes où moyenne et variance seront égales.

4.2.3

Loi généralisée des extrêmes

Considérons un ensemble de variables aléatoires indépendantes X1 , X2 ...Xn ayant en commun la même fonction de répartition F et considérons le maximum Mn = M ax (X1 , X2 ...Xn ). Dans les applications, les Xi sont souvent enregistrés à intervalle de temps régulier : par exemple les pluies moyennes de la journée ou les débits journaliers d’une rivière si bien que Mn correspondra au record sur une période de temps n. Ainsi, si n est le nombre de jours d’un mois donné, Mn pourra désigner la pluie de la journée la plus humide du mois en question. On montre facilement que la fonction de répartition de Mn est F n . Passer à la limite pour n → ∞ n’a pas de sens, car tous les points x du domaine de définition plus petits que le supremum de ce domaine sont tels que F (x) < 1, et, formulé ainsi, la limite de F n (x) est 0 (sauf pour le supremum où elle vaut 1). Pour éviter cette difficulté, on se donne le droit de renormaliser Mn avec −μ(n) . La question devient : existe-t-il deux suites μ(n) et σ(n) en Yn = Mnσ(n) de telles suites de constantes qui permettent de stabiliser la répartition de Yn quand n → ∞ vers une fonction de répartition G non dégénérée ? Un théorème mathématique montre que si une telle limite existe, elle est nécessairement de la forme :   − ξ1   y−μ G(y) = exp − 1 + ξ σ

(4.1)

78

Le raisonnement bayésien avec, par continuité quand ξ = 0    y−μ G(y) = exp − exp − σ

Cette loi célèbre est la GEV (generalized extreme values) définie sur le

domaine 1 + ξ y−μ > 0, les paramètres μ et ξ sont réels, tandis que le σ paramètre σ est réel positif. La loi GEV a l’avantage d’être explicite, de ne dépendre que de trois paramètres : dans la pratique c’est une loi qu’on pourra utiliser pour modéliser la pluie maximale, la crue maximale annuelle d’une rivière (bien que les débits successifs d’une rivière ne soient pas indépendants), la vitesse maximale du vent durant l’année en un lieu donné ou la plus grande intensité de secousses sismiques d’une région durant une année. Dans ces modèles, les paramètres μ et σ sont spécifiques de l’échelle à laquelle on étudie le phénomène (la taille des données élémentaires dont on prendrait le maximum) tandis que le paramètre ξ règle le comportement des queues de distributions et que la structure initiale de la loi du phénomène élémentaire F oriente le signe de ξ. À μ et σ fixés, une même valeur de projet protégera contre des événements d’autant moins rares que ξ sera petit. Les valeurs de ξ positives caractérisent des lois à support borné à droite (Weibull), ξ = 0 donne la loi de Gumbel et ξ < 0 fournit les lois de Fréchet dont les queues lourdes sont caractéristiques.

4.2.4

Loi des dépassements

Un autre modèle caractéristique des extrêmes est celui des dépassements encore appelé POT pour peaks over threshold. Considérons un ensemble de variables aléatoires indépendantes X1 , X2 ...Xn ayant en commun la même fonction de répartition F et supposons que les Xi se produisent à intervalle de temps régulier. Appelons u un niveau seuil et étudions la loi des dépassements au-delà de ce seuil. Le théorème de Pickands stipule que lorsque u croît vers l’infini, on sait caractériser à la fois l’intensité et la fréquence des dépassements : – le nombre de dépassements par unité de temps T suit une loi de Poisson de paramètre λT . Le paragraphe précédent sur la loi de Poisson permet de comprendre pourquoi : c’est ici un cas limite de tirage binomial de paramètre λ = 1 − F (u) ; – l’intensité du dépassement quand il se produit X − u (sachant X > u ) obéit à la loi de Paréto généralisée :  [X < x |X > u ] = 1 − 1 + ξ



x−u σ

− ξ1 (4.2)

 On utilisera ainsi ce résultat théorique comme modèle pour décrire les températures d’une saison supérieures à un seuil ou les débits d’une rivière dépassant un niveau de référence (voir exemple 5, page 61). Il y a une liaison étroite entre la GEV du paragraphe précédent et ce modèle de dépassement

4. Comment construire un modèle ?

79

(POT ). La loi du maximum sur une période de temps donnée d’un modèle POT est la loi GEV. La loi conditionnelle du dépassement d’un seuil quand on sait que l’observation issue d’un modèle GEV dépasse ce seuil est la loi de Pareto généralisée. On peut fortement justifier les hypothèses du modèle utilisé pour la construction d’une digue au chapitre 3 : pour peu que l’on travaille avec un seuil suffisamment élévé et que l’hypothèse d’indépendance soit acceptable pour les crues de ce niveau, les conditions asymptotiques s’appliquent et entraînent la validité progressive de la représentation mathématique (4.2). D’un autre coté, il a été simplifié pour les besoins du calcul (tout en restant réaliste pour certains cas) en posant ξ = 0 auquel cas l’équation (4.2) devient par continuité la loi exponentielle :    x−u [X < x |X > u ] = 1 − exp − σ D’autres modèles, discutés page 103, se construisent par extension de cette structure poissonnienne à marques exponentielles.

4.3

Modèles par convolution

Imaginons qu’on dispose d’un modèle pour la variable aléatoire X sous la forme d’une famille de distribution paramétrée par le vecteur θ, [x |θ ]. Réaliser un mélange à deux composantes pour créer la variable aléatoire Y consiste à tirer X1 dans la loi [x |θ1 ] puis à tirer X2 dans la loi [x |θ2 ] et enfin attribuer à Y la valeur de X1 ou celle de X2 avec une probabilité p1 (respectivement p2 = 1 − p1 ). La densité [y |θ1 , θ2 , p1 , p2 ] est une combinaison linéaire pondérée par les probabilités p1 et p2 des densités de chaque composant : [y |θ1 , θ2 , p1 , p2 ] = p1 [X1 = y |θ1 ] + p2 [X2 = y |θ2 ] Par exemple, si [x |θ1 ] est une loi normale N (μ1 , 1) et [x |θ2 ] une loi normale N (μ2 , 1), on obtient un mélange gaussien qui va pouvoir décrire une famille de densités de probabilité bimodales : la localisation de chacun des modes est réglée par le choix de μ1 et μ2 tandis que leurs amplitudes respectives dépendent de la valeur de p1 . Tant qu’à faire, on peut aller au-delà de deux composantes, en tirant les valeurs de θ dans une urne à n couleurs (θ1 , ..θi , ..θn ) en proprtions (p1 , ..pi , ..pn ). L’étape suivante consiste à tirer θ dans un continuum de valeurs selon une loi, elle-même paramètrée par un vecteur de paramètres φ, [θ |φ ]. La densité résultante du mélange [y |φ ] s’exprime par la généralisation à un continuum de valeurs d’une combinaison linéaire pondérée, c’est-à-dire une convolution (celle de [y |θ ] par [θ |φ ]).  [y |φ ] = [y |θ ][θ |φ ]dθ

80

Le raisonnement bayésien

Bien souvent cette opération se justifie quand la loi [y |θ ] n’est pas assez souple pour décrire le phénomène (d’une certaine façon le paramétrage par θ est trop parcimonieux et on est trop à l’étroit dans la famille [y |θ ] ). Si le vecteur φ est de plus grande dimension que θ, on dispose de plus de liberté pour ajuster le modèle [y |φ ]. Il est intéressant de comparer les premiers moments de [y |θ ] et de [y |φ ]. Pour l espérance : E(Y |θ)

= m(θ)

E(Y |φ)

= E(m(θ) |φ)

(4.3)

Étudions les variances, dans le cas général :  Var(Y |θ) = V (θ) = (y − m(θ))2 [y |θ ]dy   Var(Y |φ) = (y − E(Y |φ) )2 [y |θ ][θ |φ ]dθdy En soustrayant et en additionnant le terme m(θ) dans le carré sous l’intégrale et en remarquant que l’intégrale du double produit s’annule, il vient : 

Var(Y |φ) = V (θ) + (m(θ) − E(m(θ) |φ) )2 [θ |φ ]dθ Poursuivons l’étude des variances pour le cas particulier courant où : E(Y |θ) ) = m(θ) = θ Dans ce cas, le mélange a un effet de dispersion car la variance de [y |φ ] est plus grande que celle de [θ |φ ] :  Var(Y |φ) = Var(θ |φ) + V (θ)[θ |φ ]dθ (4.4) Considérons enfin le cas où m(θ) n’est pas une fonction de θ, c’est-à-dire le paramètre qui subit la convolution n’intervient pas dans le calcul de l’espérance E(Y |θ) ) = E(Y |φ) ). Il vient alors :  Var(Y |φ) = V (θ)[θ |φ ]dθ (4.5)

4.3.1

Loi de Student

Considérons le modèle normal : ∼ N (μ, σ 2 )    (x − μ)2 1 [xi μ, σi2 ] = √ exp − 2σi2 2πσi X

4. Comment construire un modèle ?

81

et imaginons que l’on mélange de telles données xi grâce aux tirages de paramètres σi eux-mêmes  issus d’une population inverse gamma. La loi in2 υ0 υ0 s0 verse gamma GI 2 , 2 pour σ 2 est telle que φ = σ12 suit une loi gamma   υ s2 G υ20 , 02 0 . Ce nouveau paramètrage de la loi gamma définit une loi dite du Chi-deux avec s20 un paramètre d’échelle et υ0 le nombre de degrés de liberté. On rappelle sa densité :    φ υ0 , s20 =

1 Γ( υ20 )



υ0 s20 2

 υ20 φ

υ0 2

−1



 υ0 s20 exp − φ 2

(4.6)

Du coup, la loi inconditionnelle de X, celle du mélange s’exprime par : ∞

 [x μ, υ0 , s20 ]

=

   [x |μ, φ ] φ υ0 , s20 dφ

φ=0 ∞

= φ=0

φ

√   υ0 φ υ0 s20 2 1 √ Γ( υ20 ) 2π 2 υ0 2

−1



 (x − μ)2 + υ0 s20 exp − φ dφ 2

On reconnaît dans la partie de l’expression dépendant de φ une structure de type gamma, dont on sait écrire la constante de normalisation. Par conséquent :

 [x μ, υ0 , s20 ]



=

Γ( υ02+1 ) 1 √ Γ( υ20 ) 2π

=

Γ( υ02+1 ) 1 1 √ Γ( υ20 ) υ0 π s0 

υ0 s20 2

 υ20 

(x − μ)2 + υ0 s20 2

1 1+

(x−μ)2 υ0 s20

− υ02+1

 υ02+1

Les formules (4.3) et (4.5) permettent le calcul de la moyenne et de la variance :  E(X μ, υ0 , s20 )  Var(X μ, υ0 , s20 )  Var(X μ, υ0 , s20 )

= μ   = σ 2 [σ υ0 , s20 ]dσ  =

−1

φ

1 Γ( υ20 )



υ0 s20 2

 υ20 φ

υ0 2

−1



 υ0 s20 exp − φ dφ 2

La difficulté de ce calcul n’est qu’apparente, car c’est encore celui d’une

82

Le raisonnement bayésien

constante de normalisation de loi gamma :  Var(X μ, υ0 , s20 )  Var(X μ, υ0 , s20 )

  υ0   υ20 −1 Γ( υ20 − 1) υ0 s20 2 2 = Γ( υ20 ) 2 υ0 s20   υ0 = s20 υ0 − 2

La variance d’une loi de Student n’existe donc que pour υ0 > 2. Finalement, on remarque que lorsque υ0 tend vers l’infini, la loi inverse gamma   υ s2 GI υ20 , 02 0 pour σ 2 tend vers un Dirac en σ 2 = s20 si bien que le résultat de la convolution est une loi normale N (μ, s20 ), limite de la loi de Student quand υ0 tend vers l’infini. Voilà pourquoi la loi normale constitue une bonne approximation de la loi de Student (en pratique dès que le nombre de degrés de liberté υ0 dépasse deux ou trois dizaines).

4.3.2

Loi binomiale négative

Considérons un phénomène régi par une loi de Poisson [x |λ ] =

λx exp (−λ) x!

Les valeurs prises par le phénomène X sont discrètes et on se souvient que : E(X |λ ) = λ Var(X |λ ) = λ On ne dispose donc que d’un seul paramètre pour fixer à la fois la moyenne et la variance du phénomène. Imaginons que les λ soient eux-mêmes tirés dans une loi gamma de paramètres a et b. [λ |a, b ] =

1 a (b) λa−1 exp (−bλ) Γ(a)

Pour une telle loi gamma E(λ |a, b )

=

Var(λ |a, b )

=

a b a b2

Pour le mélange, on disposera de deux paramètres pour fixer les moments selon les formules (4.3) et (4.4) : E(X |a, b )

=

Var(X |a, b )

=

Var(X |a, b )

=

a b  a + λ [λ |a, b ] dλ b2 a(1 + b) b2

4. Comment construire un modèle ?

83

Le résultat du mélange a pour loi : ∞ [x |a, b ]

=

[x |λ ] [λ |a, b ] dλ λ=0 ∞

[x |a, b ]

=

a

(b) λx+a−1 exp (−(b + 1)λ) dλ Γ(a)x!

λ=0

Cette opération d’intégration en λ est facile puisqu’on retrouve le calcul d’un coefficient de normalisation d’une loi gamma dont les paramètres sont ici a + x et b + 1. Tous calculs faits, on trouve : a

[x |a, b ] =

(b) Γ(a + x) Γ(a)x! (b + 1)a+x

On peut réexprimer la loi du mélange sous la forme : x  a  1 1 Γ(a + x) 1− [x |a, b ] = 1+b 1+b Γ(a)x! Si on change de variables en posant n = a + x et de paramètres en posant 1 , on fait apparaître la parenté de cette loi avec la loi binomiale quand a p = 1+b est entier. En effet, c’est l’expression de la loi du nombre de tirages indépendants à effectuer dans une urne (où p désigne la proportion de boules blanches) pour obtenir exactement a boules noires à la ne épreuve : (n−1)−(a−1)

[n |a, p ] = (1 − p) (p)

a−1

(1 − p)

n − 1! (a − 1)!(n − a)!

Dans ces conditions X apparaît comme l’incrément de tirages aléatoires au-delà de a, et, à cause de cette interprétation, la loi du mélange est connue sous le nom de loi binomiale négative. Elle est en fait plus générale car elle est définie également pour a réel positif. C’est un modèle que l’on retrouve souvent en biologie, pour caractériser les résultats de comptage de bactéries par exemple, et que l’on aurait également pu adopter pour la vraisemblance de l’exemple 2 abandonné page 45. On montre, à la page 111, comment développer cet exemple en ajoutant une dimension temporelle.

4.4

Modèles statistiques d’occurrences et d’élicitation par maximum d’entropie

En dehors de la convolution qui intéresse à la fois modèle statistique et modèle d’élicitation, les méthodes précédentes concernent plutôt le modèle statistique d’occurrence [x |θ ] d’une observable X à partir d’une base phénoménologique. Voici une méthode de construction qui intéresse surtout le modèle

84

Le raisonnement bayésien

d’élicitation des connaissances a priori car elle concerne plutôt la représentation subjective des incertitudes que la mise au clair de connaissances positives. Pour construire [θ], le modélisateur doit satisfaire certaines contraintes exprimant ses connaissances quantitatives. S’il n’a aucune autre information que celles-ci, il est conduit à rechercher alors son modèle dans une classe la plus large compte tenu de ces contraintes. Le maximum d’entropie est alors une voie possible. De plus, le respect du principe de cohérence, via le théorème de Bayes aboutit en retour, à une famille de modèles statistiques importants : la famille exponentielle.

4.4.1

Interprétation intuitive de l’entropie

Combien de questions faudrait-il poser pour localiser une personne qui se cache parmi N endroits possibles ? On convient de numéroter de 1 à N chacun des endroits. Imaginons qu’on ne puisse poser que des questions admettant seulement oui ou non comme réponses. Une première stratégie consisterait à visiter chaque lieu possible et poser N questions binaires de présence ou d’absence. Si nous faisons l’hypothèse qu’il existe un entier Q2 tel que N = 2Q2 , une stratégie plus efficace serait de ranger les sites en deux parties (la première partie comprendra les sites de 1 à N2 ) et la réponse binaire à la question d’appartenance au premier ou au second groupe nous renseignera si le site est localisé à gauche ou à droite de N2 . En itérant le procédé de bipartition, il suffira ainsi de Q2 = log2 (N ) questions seulement pour localiser l’individu recherché. Si on ne fait plus l’hypothèse que N est une puissance de 2, Q2 est l’entier le plus proche supérieur à log2 (N ). Dans ce qui suit on va faire tendre N → ∞ et ce problème d’arrondi n’est pas le point essentiel. Remarquons que dans la théorie de l’information Q2 s’interprête comme le nombre de bits (binary digits) nécessaire à l’écriture de N en base 2, c’est-à-dire la longueur du mot à utiliser pour coder N dans un alphabet de deux caractères. Si on emploie un autre système avec un alphabet de c charactères, le nombre de question sera : Qc = logc (N ) =

log2 (N ) log(N ) = log2 (c) log(c)

Comme on ne veut pas spécifier la taille de l’alphabet, on va utiliser le logarithme naturel log(N )˜ : à un facteur constant près, c’est le nombre de questions à poser pour identifier un individu qui peut prendre N positions possibles : Q = log(N ) Introduisons maintenant la probabilité : imaginons qu’on nous dise que cet individu ne soit plus assis de façon équiprobable sur N chaises dans une maison, mais qu’il existe une partition de k pièces de cette maison et chaque pièce i contienne Ni = N × pi chaises. Quand on nous dit dans quelle pièce i se trouve l’individu, pour le trouver exactement, il suffira de poser Qi questions avec : Qi = log(Ni )

4. Comment construire un modèle ?

85

Si on ne sait pas quel sous-ensemble de la partition doit être visité et qu’on programme au hasard la visite d’une pièce selon sa probabilité, on retrouvera l’individu après avoir posé en moyenne un nombre de questions : Q =

k

pi Qi

i=1

Par conséquent, quand les états possibles où se trouvent l’inconnu recherché sont regroupés en k sous-ensembles de poids relatifs p = (p1 , ..pk ), on réalise une économie par rapport à la situation initiale où chaque position est équiprobable : le fait de savoir en probabilité dans quelle pièce se trouve l’individu réduit le nombre de questions à poser en moyenne de la quantité ΔQ ΔQ = Q − Q = log(N ) −

k

pi log (Ni )

i=1

ΔQ =

log(N ) −

ΔQ = −

 k

k i=1

pi (log (N ) + log(pi )) 

pi log(pi )

i=1

ΔQ est positif et atteint son maximum quand les tailles des k sous-ensembles sont les mêmes (pi = k1 ). Dans ce cas-là, ΔQ = log(k) est tout simplement le nombre de questions à poser pour identifier  un sous-ensemble particulier. k L’entropie est définie comme i=1 pi log(pi ) , c’est-à-dire l’opposée de ΔQ. L’entropie est donc un indice de désordre associé à la répartition de probabilité discrète {pi , i = 1..k}. La généralisation de ce concept au cas continu pose un problème de cohérence. Pour fixer les idées, supposons que le scalaire θ représente un paramètre d’échelle des pièces mais le résultat est général. On peut considérer que le cas discret correspond à une partition de θ assez fine en k intervalles dont l’étendue individuelle maximale Δ tend vers 0. Mais le résultat dépend de la mesure de θ sur Θ. Or il est important que l’entropie soit invariante sous un changement de variable θ → ϕ = h(θ). C’est pourquoi la forme continue de l’entropie est définie par Jaynes sous la forme :  f (θ) Qh (f ) = − f (θ) log( )dθ h(θ) Θ où h(θ) est une mesure (positive) de référence sur Θ. Si h(θ) est normalisée de façon à définir une mesure de probabilité, elle représente l’ignorance complète de la valeur de θ sur Θ. Généralement, dans les applications, on la prendra égale à une densité uniforme sur Θ. Qh (f ) est appelée entropie au sens de Shannon-Jaynes ou de Kullback (voir Kullback, 1959).

86

Le raisonnement bayésien

4.4.2

Maximiser l’entropie Q sous contraintes

L’entropie Qh (f ) peut être utilisée comme un critère pour rechercher la distribution de probabilité f qui soit aussi vague que possible, c’est-à-dire qui maximise le nombre de questions à poser pour localiser une occurrence de f sous des contraintes spécifiques au problème. Quand aucune contrainte n’est imposée sur f sauf bien entendu la contrainte de normalisation :  f (θ)dθ = 1 Ω

la solution est la répartition uniforme qui donne une même probabilité à chaque état possible (il faut ici que le domaine Ω de définition de f soit un intervalle). Quand l contraintes linéaires en f , définies par l fonctions sur Ω, g j (θ), j = 1, 2...l du type :  f (θ)g j (θ)dθ = mj Ω

doivent être remplies, il faut rechercher une densité de probabilité f solution du problème suivant : soit F un ensemble de fonctions donné, trouver f ∗ dans F telle que : f∗

= ArgM axf ∈F (Qh (f ))  f (θ) où Qh (f ) = − f (θ) log( )dθ h(θ) Ω

sous les contraintes 



f (θ)dθ Ω



f (θ)g 1 (θ)dθ = m1 , ....,  j = m , ...., f (θ)g l (θ)dθ = ml =

1,

Ω

f (θ)g j (θ)dθ Ω

Ω 0

Faisons la convention g (θ) = 1, ∀θ ∈ Θ et m0 = 1, le Lagrangien L(f, λ) s’écrit : ⎞ ⎛  l f (θ) L(f, λ) = − f (θ) log( λj f (θ)g j (θ)dθ − mj ⎠ )dθ − ⎝ h(θ) Ω Θ j=0 

Nous n’entrons pas ici dans la théorie de l’optimisation fonctionnelle, qui donne des conditions suffisantes et nécessaires pour que f ∗ soit solution avec un vecteur de multiplicateur de Lagrange λ∗ = 0. Comme l’indique Sivia, 1996, il est plus simple de traiter la solution comme le cas limite de l’optimisation d’un problème discret, c’est-à-dire rechercher le maximum de : k

k k pi L=− pi log( ) − λ0 ( pi − 1) − λ1 ( gi1 pi − m1 ) − ... h i i=1 i=1 i=1

4. Comment construire un modèle ? Les conditions suffisantes de maximum contraintes. Quant aux conditions

∂L ∂λj

87

= 0 impliquent le respect des

= 0, elles donnent :

∂L ∂pj

pi )= λj gij hi j=0 l

log(

(4.7)

En passant à la limite la solution de l’équation (4.7) montre que f ∗ est l’exponentielle d’une forme linéaire des fonctions g j .  log

f ∗ (θ) h(θ)

 =

l

λj g j (θ)

(4.8)

j=0

La relation entre les multiplicateurs de Lagrange et les contraintes, ∀j ∈ {0..l}λj s’écrit alors :  l exp( λj g j (θ))g j (θ)dθ = mj (4.9) Θ

j=0

Finalement, le maximum d’entropie peut être évalué, c’est une forme bilinéaire des multiplicateurs de Lagrange et des contraintes associées : Q(f ∗ ) = h(θ)

l

λj mj

j=0

Tous ces résultats sont établis sous réserve que le domaine Θ soit tel que (θ) f (θ) log( fh(θ) )dθ et toutes les autres intégrales existent. De plus, les techΘ niques d’optimisation demandent des conditions de régularité pour les fonctions f et g j . Le résultat principal donné par l’équation (4.8) stipule la forme structurelle de la classe des solutions maximisant l’entropie sous contraintes. Elle est également connue de tous les statisticiens sous le nom de lois de la famille exponentielle pour θ. Nous utilisons la variable courante θ pour souligner que nous raisonnons généralement dans un cadre d’élicitation des connaissances a priori. Dans ce cadre on écrira donc : 

l [θ] = exp( λj g j (θ))

(4.10)

j=0

Notons qu’à la suite de Jaynes, 1968, cette méthode peut être utilisée directement sur la distribution a posteriori [θ|x] auquel cas les contraintes λj s’expriment comme des fonction de x (des statistiques) ou des constantes. Cette représentation du posterior est alors cohérente avec la formule de Bayes pour autant que le modèle statistique s’écrive : l [x|θ] = exp( Tj (x)g j (θ)) j=0

(4.11)

88

Le raisonnement bayésien

C’est dire que, conditionnellement à θ fixé, on retrouve pour x, une loi appartenant encore à une famille exponentielle. Le prior 4.10 est dit conjugué vis-à-vis du modèle statistique 4.11. Ces lois exponentielles jouent un rôle fondamental dans le développement de méthodes analytiques exactes de l’inférence bayésienne comme en statistique classique d’ailleurs. Les fonctions Tj (x) qui interviennent dans les contraintes ont été appelées statistiques exhaustives de la famille exponentielle et elles forment un espace linéaire.

4.4.3

Lois connues et reconnues de la famille exponentielle

Dans tous les exemples suivants, on a pris la mesure uniforme comme mesure de référence de telle sorte que l’entropie de Kullback est égale à l’intégrale Q0 =  f (x) log(f (x))dx à une constante près. Ω Loi exponentielle Le premier exemple de solution maximisant l’entropie Q0 est fourni pour l = 1, g 1 (x) = x, Ω = R+  f = ArgM ax f (x) log(f (x))dx Ω  f (x)dx = 1 f (x) > 0, Ω  f (x)xdx = m Ω 1 1 On trouve facilement les solutions (λ0 = log( m ), λ1 = − m ) des équations (4.8) et (4.9). Elles s’écrivent ici :

 

log f (x) ∞

=

exp(λ0 + λ1 x)dx =

(λ0 + λ1 x) 1

x=0 ∞

exp(λ0 + λ1 x)xdx = m

x=0 exp(−

x

)

et conduisent à la loi exponentielle de densité f(x)= m m . Une contrainte (hors celle de normalisation) conduit à un paramètre (ici la moyenne). En d’autres termes, la loi exponentielle est la densité de probabilité qui maximise l’entropie sous la contrainte d’une moyenne arithmétique fixée. Densité gamma a−1 Le second exemple est la loi gamma f (x) = Γ(a) exp( −x ba x b ). Elle peut être écrite comme une solution de (4.8) sous la forme :

log(f (x)) = (a − 1) log(x) − bx + log(Γ(a)) − a log(b)

4. Comment construire un modèle ?

89

Comme 





f (x) log(x)dx = lim ε→0 x=0  ∞ f (x)xdx = ab



x=0

f (x)

(xε − 1) dx = log(b) ε

x=0

On peut reconnaître la formulation d’un problème de maximum d’entropie avec : Ω = R+ , λ0 = log(Γ(a)) − a log(b), λ1 = a − 1, λ2 = −b g 1 (x) = log(x), m1 = log(b); g 2 (x) = x, m2 = ab Autrement dit, la loi gamma est la densité de probabilité qui maximise l’entropie à moyenne géométrique et à moyenne arithmétique fixées. Loi normale Quelle est la répartition de probabilité de densité f sur R maximisant l’entropie avec espérance et variance imposées ? C’est la loi normale. Considérons en effet la loi normale paramétrée classiquement par μ et σ. Sa fonction de densité vérifie : log(f (x)) =

−1 2 μ 1 1 μ2 x + 2 x − log(2πσ 2 ) − 2 2σ σ 2 2 σ2

ce qui est encore une solution de l’équation (4.8) avec l = 2 et λ0 = − 12 log(2πσ 2 )− 2 1μ 0 2 σ 2 , g (x)

−1 = 1; g 1 (x) = x, λ1 = + σμ2 and g 2 (x) = x2 , λ2 = 2σ 2; Par conséquent, la loi normale réalise le maximum d’entropie quand les premier et second moments sont imposés. Elle est solution du programme : Ω = R,  f = ArgM ax f (x) log(f (x)dx Ω  ∞ f (x)dx = 1 f (x) > 0, x=0  ∞ f (x)xdx = m1 = μ −∞  ∞ f (x)x2 dx = m2 = σ 2 − μ2 −∞

Lois de la famille exponentielle à trois paramètres Les lois à trois paramètres réalisent un programme de maximisation d’entropie, avec trois contraintes associées à trois paramètres θ = (θ1 , θ2 , θ3 ). Elles

90

Le raisonnement bayésien

s’écrivent donc sous la forme générale :  3  f (x |θ1 , θ2 , θ3 ) = exp θi gi (x) − log (I(θ1 , θ2 , θ3 ))

(4.12)

i=1

On a appelé I la constante de normalisation, définie par :  I(θ1 , θ2 , θ3 ) = exp {θ1 g1 (x) + θ2 g2 (x) + θ3 g3 (x)} dx,

(4.13)

x∈Ω

Les θi sont les composantes du vecteur de paramètres θ, et les gi sont les fonctions associées aux contraintes. Parmi ces lois une place à part est dévolue aux lois de Halphen définies pour les variables positives et qui sont obtenues pour des fonctions g1 (x), g2 (x) et g3 (x) particulières, celles qui correspondent à trois moments successifs d’ordre inférieur ou égal à 2 en valeur absolue. Dans le tableau 4.1, les signes des fonctions gi sont définis de telle sorte que l’on puisse choisir des valeurs positives pour tous les paramètres (θ1 , θ2 , θ3 ). On voit que les lois de Halphen de type A et de type B généralisent la loi gamma (comme la loi gamma, ces distributions maximisent aussi l’entropie à moyenne géométrique et moyenne arithmétique fixées, mais, de plus, on impose la moyenne harmonique pour la loi de type A tandis que c’est la variance pour la loi de type B). Une loi de type B−1 s’obtient à partir d’une loi de type B par transformation x −→ x1 . Fonction type A type B type B−1

g1 (x) log(x) log(x) -log(x)

g2 (x) −x x 1 x

g3 (x) − x1 −x2 - x12

Domaine de θ θ ∈ R+∗ × R × R+∗ θ ∈] − 1, ∞[×R × R+∗ θ ∈] + 1, ∞[×R × R+∗

Table 4.1 – Lois de Halphen.

Épilogue La modélisation probabiliste semble à beaucoup de praticiens un territoire inconnu et inabordable. S’appuyer sur des théorèmes asymptotiques donnant une description du hasard dans des circonstances pré-établies, mélanger des structures élémentaires, favoriser la parcimonie, font partie des premières étapes de l’art de la conceptualisation de mécanismes explicatifs. Les sections de ce chapitre permettent donc de poser quelques jalons parmi d’autres. Il faut oser faire le premier pas : plus on propose et l’on teste de structures de modèles, plus il est facile de les transposer dans des domaines d’applications variés. Les modèles de ce chapitre semblent encore des cas types trop élémentaires

4. Comment construire un modèle ?

91

(lois normale, de Poisson...), mais le chapitre suivant montre comment assembler ces modules élémentaires dans des structures fonctionnelles plus complexes construites par empilement de couches qui s’articulent les unes sur les autres, utiles pour les représentations de nombreux phénomènes réels, très loin de ces premiers cas d’école.

Notes de Lecture On trouvera dans tout livre élémentaire de statistique mathématique le théorème de la Limite Centrale et la démonstration du passage de la loi binomiale à la loi de Poisson, par exemple à la page 25 de Fourgeaud et Fuchs, 1967. Le chapitre 3 de Coles, 2001, donne les bases du théorème qui conduit à la GEV tandis que le chapitre 4 détaille le modèle des dépassements d’un seuil. On trouvera dans ce livre une mine de références utiles pour les problèmes de valeurs extrêmes. Parent et Bernier, 2001, en montrent les possibilités d’application à l’ingénièrie hydraulique. Les exemples de mélange font appel à un calcul de convolution. Les convolutions pour lesquelles on sait mener un calcul explicite ne sont pas étrangères à la théorie des distributions dites conjuguées qui seront bientôt présentées dans la seconde partie de ce livre aux chapitres 7 et 8 décrivant les Méthodes analytiques exactes. Les approches statistiques à base d’entropie ont été privilégiées par une école de pensée bayésienne où s’illustre Jaynes. Dans ses ouvrages et les articles de son école sont développées beaucoup plus avant les idées entropiques (voir par exemple Jaynes, 1968 et Jaynes, 1998). Probability Theory with Applications in Sciences and Engineering est un ouvrage inachevé regroupant des conférences de Jaynes dont l’essentiel est disponible sur internet grâce à Larry Bretthorst sur le site www.bayes.wustl.edu. On trouve également une approche entropique très bien illustrée par des cas d’exemples pour éliciter des priors dans Tribus, 1972 et Sivia, 1996. C’est une notion importante également reprise par Bernardo et Smith, 1994, sous le nom de reference priors pour bâtir des modèles d’élicitations des connaissances : un modèle d’occurrences des observables donné étant donné, ils proposent de choisir des lois a priori non informatives telles que l’entropie portée par la loi a posteriori demeure la plus grande possible. Enfin, signalons que Perreault et al., 1997, ont réalisé une monographie très détaillée des lois de Halphen données en (4.12) à la fois sur le plan théorique et en matière d’application à l’hydrologie stochastique.

Chapitre 5

Construire un modèle brique par brique : le conditionnement probabiliste et la modélisation graphique Prologue Voici des méthodes pour construire des représentations probabilistes [x |θ ] sous la forme de modélisation par niveaux successifs de la forme :  [x |θ ] =

[x |z, θ ] [z |θ ] dz

( X désigne la grandeur aléatoire observable, apparaît une couche intermédiaire Z, appelée variable latente, intermédiaire conditionnant directement les occurrences x tandis que le paramètre θ, l’état de la nature est rejeté dans les couches profondes). Ce chapitre montre que toute probabilité est conditionnelle, décrit le concept bayésien de symétrie (l’échangéabilité) et quelques structures complexes de modèles obtenues par échangéabilité. Il introduit également les idées de modélisation graphique. Cet outil a deux avantages : il met à plat toutes les hypothèses d’un modèle et améliore la communication entre le modélisateur et son client. L’efficacité de l’approche bayésienne en modélisation provient essentiellement : – de l’explicitation du conditionnement probabiliste par l’aide à la visualisation des structures que propose la modélisation graphique ; – de l’emploi naturel des concepts liés que sont l’échangéabilité et les structures hiérarchiques.

94

Le raisonnement bayésien

5.1

Dépendance et indépendance conditionnelles

Considérons un contrôle de fabrication par attribut : un échantillon de n objets issus d’un lot d’une fabrication homogène est extrait pour inspection complète et pour chaque objet i =1..n, on évalue s’il est défectueux (Xi = 1) ou conforme (Xi = 0) au cahier des charges de la fabrication. Imaginons que l’on ait contrôlé six objets et que l’on ait obtenu (x1 = 1, x2 = 0, x3 = 1, x4 = 0, x5 = 1, x6 = 1). Quel serait notre pronostic pour le septième objet ? Plutot X7 = 1 que X7 = 0 car nous sommes influencés par le résultat des tirages précédents. À telle enseigne que si les six résulats avaient été (x1 = 0, x2 = 0, x3 = 1, x4 = 0, x5 = 0, x6 = 0), nous aurions plutôt parié sur X7 = 0. Bref, notre expérience commune nous fait percevoir que les Xi sont non indépendants puisque nous nous appuyons sur le pari conditionnel [X7 |x1 , x2 , x3 , x4 , x5 , x6 ] pour faire notre prévision. Notons ici que ce pari conditionnel n’intéresse que les observations présentes ou futures, quels que soient les éventuels paramètres du modèle sous-jacent. On parlera de distribution [X7 |x1 , x2 , x3 , x4 , x5 , x6 ] conditionnelle prédictive. Considérons maintenant un autre problème où les Xi , i = 1..7 sont des observations de lancers successifs d’une pièce et on note Xi = 1 si pile est obtenu et Xi = 0 si c’est face. On a observé (x1 = 1, x2 = 0, x3 = 1, x4 = 0, x5 = 1, x6 = 1). Quel est cette fois notre pronostic pour le septième lancer ? Ici tout homme raisonnable dirait que puisque X7 est indépendant des lancers précédents, les observations x1 , x2 , x3 , x4 , x5 , x6 ne nous servent à rien pour faire notre prévision qui accordera 50 % de chances à pile et 50 % de chances à face. L’indépendance est ici une hypothèse largement admise et elle est fondée, si l’homme rationnel accorde à la pièce et à son mode de lancer des caractéristiques de symétrie, comme nous le verrons dans la section suivante. Conceptuellement, ces deux situations se modélisent traditionnellement selon le même schéma binomial de sept tirages avec remise dans une urne où il y a une proportion θ de boules noires. Pour quelles raisons X7 est-il une grandeur dépendante dans un cas et indépendante dans l’autre cas ? Le langage ordinaire est trompeur, et les raccourcis de pensée qu’utilisent les scientifiques, même ceux habitués au calcul des probabilités, sont dangereux. L’indépendance n’est pas une notion absolue, mais bel et bien une conception conditionnelle ! Il faut absolument exprimer le conditionnement ! Dans le premier cas, la proportion θ (d’objets défectueux) est inconnue et les x1 , x2 , x3 , x4 , x5 , x6 nous apportent de l’information sur θ et donc, par rebond, sur la qualité du septième objet que l’on va observer, X7 . Dans le second cas, θ est connu et vaut 1 2 de sorte que le septième lancer est équiprobable et indépendant (conditionnellement à la connaissance de θ) des résultats déjà obtenus. Dans le cadre bayésien, la situation est claire : le premier cas de prévision se réfère à la probabilité [X7 |x1 , x2 , x3 , x4 , x5 , x6 ], le second cas, demande par contre d’évaluer un autre objet, la probabilité [X7 |θ, x1 , x2 , x3 , x4 , x5 , x6 ] = [X7 |θ ] (puisque la connaissance de θ caractérise complètement le mécanisme aléatoire de Bernoulli). L’approche bayésienne lève toute l’ambiguïté en exprimant le condi-

5. Construire un modèle brique par brique

95

tionnement : certes les deux situations obéissent au même modèle d’urne avec une proportion θ de boules noires et les variables aléatoires Xi sont conditionnellement indépendantes (sachant θ) [X1 , X2 , X3 , X4 , X5 , X6 , X7 |θ ] =

7 

[Xi |θ ]

i=1

mais ne sont pas indépendantes quand θ est inconnu : [X1 , X2 , X3 , X4 , X5 , X6 , X7 ] =

1  7 θ=0

5.2

 [Xi |θ ] [θ]dθ

i=1

Modèle et symétrie par échangéabilité

Dans la discussion avec un praticien pour élaborer un modèle, l’analyste doit par conséquent se méfier du sens que chaque interlocuteur donne à sa vision probabiliste et particulièrement du mot indépendant. Si on oublie un instant notre réflexe de s’accrocher à un modèle binomial, dans l’exemple ci-dessus les sept grandeurs observables ne sont pas conjointement indépendantes, mais plutôt la collection de ces grandeurs est échangeable. Le client se refère aux grandeurs qu’il peut observer dans le monde tangible. Il veut dire au modélisateur que la symétrie du problème est telle que l’observation de (X1 = a, X2 = b) (avec a et b valant 0 ou 1) a la même chance de se produire que l’événement (X2 = a, X1 = b) et, plus généralement que ([X1 = a] = [X2 = a]; [X1 = a, X2 = b] = [X1 = b, X2 = a]) que toutes les lois conjointes d’une collection d’observations telles que (X1 , X2 , X3 , X4 , X5 , X6 , X7 ) sont invariantes par permutation des indices. C’est l’analyste qui introduit des objets abstraits, des inconnues, des grandeurs inobservées. Dans l’exemple élémentaire précédent, il nous fait croire à l’existence d’une grandeur θ qu’on ne verra jamais, comprise entre 0 et 1 telle qu’en conditionnant sur cette valeur les Xi accèdent à la merveilleuse propriété d’indépendance. Comme l’analyste est pédagogue et veut faire partager sa représentation abstraite, il introduit un schéma de représentation de modèle de tirages aléatoires dans une urne. Tout se passe comme si... et la grandeur inconnue θ à force d’être interprétée prend de la consistance, (d’ailleurs des générations d’enseignants des mathématiques de l’aléatoire ont répété qu’elle vaut 0, 5 dans le cas d’un tirage à pile ou face), et le client, convaincu, s’approprie le modèle. Cette inconnue θ existe-t-elle ? C’est-à-dire, du point de vue de la rigueur mathématique, a-t-elle un sens vis-à-vis des règles de cohérence de la logique ? C’est de Finetti qui a démontré dans les années 1930, par son théorème dit de représentation, l’équivalence entre l’exigence de symétrie (invariance par permutation des indices des lois conjointes) pour tout sous-échantillon de taille finie (X1 , X2 , ..Xi , ..Xn ) de variables binaires, et l’écriture de la loi conjointe

96

Le raisonnement bayésien

sous la forme : 1  n

[X1 = x1 , ..., Xi = xi , .., Xn = xn ] =

θ=0

 1−xi

θ (1 − θ) xi

[θ]dθ

i=1

D’une façon plus générale, l’échangéabilité d’une série de variables aléatoires (X1 , X2 , ..Xi , ..Xn , ....) est définie par la propriété d’invariance (en loi) par permutation des indices de toute collection de taille finie de ces variables. Si l’on dispose d’une famille de lois de probabilité indicée par un paramètre φ (pour tout φ, fφ (x) est une densité de probabilité) et, pour ce paramètre, d’une densité de probabilité g(φ) alors une représentation de la loi de l’occurrence conjointe de toute collection de taille n de (X1 , X2 , ..Xi , ..Xn ) sous la forme :

[X1 = x1 , ..., Xi = xi , .., Xn = xn ] =

1  n θ=0

 fφ (xi ) g(φ)dφ

(5.1)

i=1

constitue un modèle d’occurrence conjointe des Xi qui vérifie la propriété d’échangéabilité. Le modélisateur statisticien a ainsi donné au client, la seule chose qui compte pour lui, la loi des covariations possibles entre les grandeurs observables qu’il manipule. Dans ce contexte φ s’interprète comme un paramètre, [φ] = g(φ) comme un prior et [X = x |θ ] = fφ (x) comme une vraisemblance. Se pose la question de la réciproque : l’exigence de symétrie au sens de l’échangéabilité se traduit-elle toujours par une représentation dans le domaine des observables grâce à la formule de convolution ci-dessus ? Et si le praticien exige des propriétés additionnelles, comment les utiliser pour spécifier les fonctions fφ (x) et g(φ) ? Par exemple, il veut que la distribution des observables ne change pas si on leur ajoute une constante quelconque (invariance par translation) ou si on exprime ces observables par un système d’axes de référence d’orientations diverses (invariance par rotation). Dans Bernardo et Smith, 1994, on démontre par exemple que des variables aléatoires continues échangeables dont les lois conjointes vérifient des conditions d’invariance par rotation et translation doivent admettre une représentation sous la forme normale avec φ = (μ, σ), g quelconque mais f telle que : ∞ [X1 , ..., Xi = xi , .., Xn ] =

  1 (xi − μ)2 √ g(σ, μ)dσdμ exp − 2σ 2 2πσ i=1

+∞  n  

σ=0 μ=−∞

Autre piste pour construire des modèles plus complexes, on s’appuie sur l’échangéabilité conditionnelle ! Une série de variables aléatoires (X1 , X2 , ...Xi ,

5. Construire un modèle brique par brique

97

...Xn , ...) est dite échangeable conditionnellement à une variable Z si elle possède la propriété d’invariance par permutation des indices de la loi conditionnelle à Z de toute collection de taille finie de ces variables. Par exemple, lorsqu’on écrit un modèle linéaire sous la forme : Xi

= αZi + β + εi εi ∼ N (0, σ 2 ) iid

les observations X1 , X2 , ..Xn ne sont que partiellement échangeables. Ce sont les résidus εi qui possèdent eux, la propriété d’échangéabilité ! Les X1 , X2 , ...Xn ne sont que conditionnellement échangeables (sachant l’influence de la variable explicative Z pour l’observation i, c’est-à-dire connaissant αZi + β). L’art de la construction de modèle est en quelque sorte une quête de la propriété d’échangéabilité : elle consiste à introduire des grandeurs inconnues porteuses de sens physique et à mettre en place des couches successives de conditionnement entre les variables (observables ou non observables) qui interviennent dans le problème.

5.3

Conditionnement, causalité et graphe orienté

Prenons deux variables A et B intervenant dans un modèle, par exemple A une mesure catégorielle de l’état de stress d’un individu et B qui décrit la quantité de cigarettes que l’individu fume sur une période donnée. Le statisticien cherche à représenter la loi conjointe [A, B] qui lui permettrait de donner quelles sont les chances pour qu’un individu de la population étudiée présente à la fois les caractères A = a et B = b. A et B sont vraisemblablement liés c’est-à-dire que [A, B] = [A][B]. Pour exprimer cette variation conjointe, nous pourrions représenter un arc non orienté entre les deux nœuds A et B. Un pas supplémentaire est franchi par le modélisateur lorsqu’il propose un modèle sous la forme [A, B] = [B |A ] × [A]. Le modélisateur se distingue ici du statisticienmathématicien. Cette forme est mathématiquement équivalente (pour le statisticien), mais l’interprétation de [B = b |A = a ] peut être cette fois causale (pour le modélisateur), elle donne le même jugement probabiliste que si l’on avait fait l’assertion que : la quantité de stress a induit l’acte de fumer b cigarettes. Ce modèle est exprimé par le premier diagramme de la figure 5.1 où un lien orienté va du nœud A au nœud B. L’art de la modélisation consiste à enchainer ces conditionnements sans contradictions logiques. Dans ce travail, le modélisateur prend un risque car il introduit ainsi des structures explicatives et doit les assumer. Dans cet exemple il aurait pu, non pas partir de A comme point d’entrée, mais du nœud B et affirmer que : fumer une quantité b (éventuellement nulle) de cigarette provoque avec une certaine probabilité un état de stress a... puisque [A, B] = [A |B ] × [B]. Dans cet exemple simpliste, l’explication véritablement causale est sans doute ailleurs : d’autres variables comme C, le mode de vie de l’individu, ou D, le milieu fumeur ou non dans

98

Le raisonnement bayésien

Figure 5.1 – Causalité et dépendance probabiliste.

lequel il a été éduqué, expliquent à la fois A et B. Il est même réaliste de supposé que lorsqu’on a enlevé les influences conjointes de C et D, A et B soient conditionnellement indépendants, ainsi que le suggère le dernier graphe de la figure 5.1. La situation se corse lorsqu’on considère les relations entre trois variables A, B, C pour exprimer [A, B, C]. La figure 5.2 donne les trois types de structures possibles de dépendance. Il reste à permuter le nom des nœuds, et à considérer le cas de trois variables indépendantes pour obtenir toutes les situations où le modélisateur peut fixer arbitrairement trois probabilités conditionnelles ou non. Le cas qui reste, c’est-à-dire le cycle, est exclu. Il pose en effet problème car le modélisateur ne peut pas choisir librement trois représentations mathématiques de relation de conditionnement f, g, h (ce sont des fonctions à deux arguments qui traduisent une loi de probabilité conditionnelle, encore appelé noyau de transitions de probabilité). Regardons en effet les liens à respecter entre f, g et h pour un cycle. Ils sont tels que f (a, b) = [B = b |A = a ], g(b, c) = [C = c |B = b ], h(c, a) = [A = a |C = c ]. Ces fonctions f, g, h sont au minimum positives et telles que, à premier argument fixé, le cumul de tous les possibles du deuxième argument donne 100 %. Mais même membres de cette classe, elles ne peuvent pas être quelconques : elles doivent vérifier que le poids de tous les chemins (x, y, z) qui permettent de transiter de a à b font une masse unité

5. Construire un modèle brique par brique

99

Figure 5.2 – Les relations de dépendances conditionnelles possibles entre trois

variables.

   ∀(a, b), f (a, b) =

f (a, x)g(x, y)h(y, z)f (z, b)dxdydz (x,y,z)

et les conditions similaires de cohérence obtenues par permutations de f, g et h. Pour plus de trois nœuds, les structures de graphe orienté obtenues sont plus complexes, mais on ne fait que procéder par assemblage de relations d’héritages, de naissances ou de chaînes. Pour la même raison que ci-dessus, on ne considère que des graphes orientés acycliques, c’est-à-dire que les liaisons entre les nœuds sont des arcs orientés, mais les cycles sont inexistants. Cette façon de procéder permet de définir sans équivoque, pour un nœud donné, les ensembles suivants et leurs complémentaires : – les parents et les ancêtres (en remontant le graphe) ; – les enfants et les descendants (en suivant le sens des arcs) La construction graphique du modèle traduit directement une propriété forte d’indépendance conditionnelle : sachant ses parents, un nœud est conditionnellement indépendant de ses non-descendants. Ceci signifie que c’est le conditionnement (mis en œuvre par le statisticien) qui apporte le pouvoir explicatif (instillé par le modélisateur) : il faut identifier quelles sont les grandeurs conditionnantes, la parcimonie provient du fait qu’il y a généralement moins

100

Le raisonnement bayésien

de variables conditionnantes que de variables conditionnées, tandis qu’il faut faire preuve d’imagination (secourue par l’expérience) pour donner des lois de probabilités conditionnelles.

5.4

Définitions grâce à un graphe orienté

On appelle paramètres les nœuds sans parents. Ce sont les inconnues du problème. Les observables ont forcément un ou des parents, puisque le modèle assemble un mécanisme conditionnel qui permet d’aboutir aux observables. Les feuilles (ensemble des nœud sans enfants) sont donc nécessairement des observables. On appelle variables latentes tous les nœuds stochastiques qui ne sont ni des observables, ni des paramètres. Le système subit aussi des influences déterministes qui ne nous intéressent pas directement en tant que telles ici, puisque la représentation graphique a pour objet de mettre en évidence les incertitudes. On peut néanmoins classer ces influences en deux grandes familles. 1. Des grandeurs déterministes de forçage. Ce sont des actions provenant de l’extérieur du système que l’on suppose connaître de façon précise, mais sur lesquelles l’homme d’études ou le gestionnaire n’exerce aucun contrôle. Le fait de jouer en extérieur ou sur son propre terrain constituerait par exemple de telles grandeurs déterministes de forçage dans le modèle du loto-foot de l’exemple 4. 2. Des commandes. L’homme d’études ou le gestionnaire peuvent infléchir la trajectoire du système (manœuvre de vannes, actionneurs divers) ou agir sur la façon de l’observer (plan d’expérience, répétition de mesures). Ces actions ont un statut différent des précédentes car elles proviennent en quelque sorte de l’intérieur du système. Dans l’exemple 2, pour suivre la quantité de bactéries dans un stock d’eau, la quantité de chlore que le responsable de la qualité décide d’injecter à intervalles réguliers possède ce statut de variable de commande. Le nombre de points de mesures est une autre variable de commande qui, elle, détermine la qualité de l’information arrivant au gestionnaire.

5.5

Conditionner, la clé pour modéliser intelligemment

Exemple 6 La station météorologique tunisienne de Ghezala-barrage est située à proximité d’un périmètre d’irrigation dont il importe de connaître la pluviosié naturelle pour estimer les apports d’eaux complémentaires nécessaires. Le tableau 5.1 donne, en millimètres les totaux mensuels de précipitations pour février et août observés de 1968 à 2001 à cette station. 

5. Construire un modèle brique par brique

Février Août Février Août Février Août Février Août

1968 1969 1970 1971 1972 1973 1974 55,7 99,9 105,9 186,9 75,6 150,0 145,1 0 0,6 0 0 1,6 10,2 0 1977 1978 1979 1980 1981 1982 1983 23,8 102,2 123,8 65,0 65,5 73,8 26,0 29,7 13,2 0 20,5 0 14,1 0 1986 1987 1988 1989 1990 1991 1992 106,1 164,9 82,2 65,8 34,2 136,4 126,0 0 0,6 0 0 33,3 7,5 3,4 1995 1996 1997 1998 1999 2000 2001 0,7 291,3 87,2 61,3 76,8 50,4 79,0 31,5 8,6 4,3 52,2 1,4 0 0,2

1975 156,6 23,6 1984 102,6 2,4 1993 71,2 0

101 1976 80,3 10,2 1985 91 0 1994 79,6 0,1

Table 5.1 – Précipitations mensuelles de février et d’août au barrage de Ghezala.

Les modèles employés en hydrologie stochastique sont généralement membres d’une famille de lois de probabilité indicée par un nombre restreint de paramètres. Mais ne sont-ils qu’une boîte noire avec peu de paramètres de réglage permettant de simuler des séries synthétiques les plus statistiquement semblables aux données initiales ? Sur la base de quelles propriétés un analyste sera-t-il convaincu que tel ou tel modèle est un « bon » modèle hydrologique ? La figure 5.3 donne l’histogramme des pluies mensuelles des cumuls des mois de février et d’août à la station du barrage de Ghezala en Tunisie pour les années de 1968 à 2001. Le gestionnaire du barrage (et du périmètre d’irrigation adjacent) souhaite s’appuyer sur un modèle pour connaître la probabilité que le cumul des pluies en août demeure en-dessous d’un seuil critique pour les cultures (10 mm). Considérons la variable aléatoire X dont la distribution de probabilité s’écrit avec deux paramètres (μ et ρ) sous la forme : √ I1 (2 μρy) √ μρy 0|μ, ρ] = exp(−μ) si y = 0

[Y

= y|μ, ρ] = μρ exp(−μ − ρx)

[Y

=

si y > 0

(5.2)

Cette expression où apparaît la fonction de Bessel modifiée de seconde espèce I1 n’est pas standard et entraînera chez tout individu (hormis les spécialistes des fonctions de Bessel) un mouvement immédiat de recul ! Forçons nous, juste le temps d’un paragraphe, à passer au-dessus de cette légitime répulsion, le modèle (5.2) peut-il être considéré comme un bon modèle ? Nombre d’arguments vont dans ce sens : – Le modèle est parcimonieux (deux paramètres μ et ρ seulement). Il s’adapte à la fois à la situation unimodale de gauche de la figure 5.3 et à la situation de droite (pour créer une masse de probabilité importante en zéro, prendre μ grand).

102

Le raisonnement bayésien

Figure 5.3 – Histogrammes des 34 années d’apports mensuels (février et août)

à la station météorologique tunisienne du barrage de Ghezala. – Il est connu sous l’appellation « loi des fuites » selon la terminologie de G. Morlat qui a suggéré le modèle pour la représentation du volume de fuites sur les canalisations de transport de gaz. Des gens sérieux en ont fait des applications (voir par exemple, Fandeux et Bernier (1977) pour des applications à l’hydrologie). – Anticipant quelque peu sur la suite, nous pouvons garantir que, sans difficulté calculatoire insurmontable, les paramètres μ et ρ peuvent être estimés en maximisant la vraisemblance à partir de l’expression (5.2). Le logiciel Hyfran (2000) facilite l’estimation selon les méthodes classiques, mais l’approche bayésienne est également possible. – Il répond à la question d’ingéniérie posée (il évalue à 70 % de (mal)chance environ qu’il pleuve moins de 10 mm en août)... et il s’adapte remarquablement aux données, notamment à la possibilité de pluie nulle en août, spécifique de cette région semi-aride. Pourtant, loin s’en faut que ce modèle séduise au premier abord l’hydrologue normalement constitué. La parcimonie du modèle (5.2) et les autres qualités énumérées précédemment ne suffisent pas : malgré le faible nombre de données, l’analyste préfèrera sans doute un modèle de mélange à trois paramètres (π, α, β) d’une masse de Dirac et d’une loi gamma : [X = x|α, β, π] = (1 − π)δ0 + πgampdf (a, β) car chacun de ces coefficients lui semble plus interprétable : π caractérise la probabilité de l’occurrence de pluies (non nulles) dont l’intensité dans ce cas suit alors une loi gamma de moyenne αβ a et de variance αβ 2 . Pour être satisfait d’une représentation formelle, un modélisateur doit pouvoir comprendre et donner à interpréter son modèle. La meilleure preuve est

5. Construire un modèle brique par brique

103

que, si on lui avait tenu le discours qui va suivre, le lecteur n’aurait pas été pris à rebrousse-poil. Commençons, comme à la figure 2.3 de la page 29, par imaginer des événements supposés ponctuels (sans durée) qui surviennent aléatoirement dans le temps selon la trajectoire théorique d’un processus ponctuel marqué comme dans le modèle POT (page 78) du chapitre 4 ou dans l’exemple 5 débuté à la page 5. À chaque occurrence d’un événement est associée une marque Xi , variable aléatoire que l’on considère au-dessus d’un seuil u. Le modèle le plus simple de ce type suppose des événements indépendants survenant dans le temps selon un processus de Poisson P (μ) et des Xi successifs indépendants tels que leurs dépassements d’un seuil u sont distribués selon la loi de Pareto généralisée.  Le chapitre 4 décrivait un tel modèle pour la représentation des extrêmes, mais on peut aussi s’interesser à d’autres variables associées à ce processus, comme les sommes sur l’intervalle [0, T ] : ST,u =

NT

(Xi − u)

i=1

Dans un contexte d’inondations, il peut s’agir, par exemple, de dommages cumulés générés par les événements dépassant le seuil. Dans ce paragraphe, nous nous intéresserons aux précipitations totales mensuelles (T =1 mois, avec u = 0) considérées comme sommes de pluies ponctuelles instantanées Xi décrites des dépassements simplement exponentiels (cas particulier de la Pareto généralisée, prendre ξ = 0 et appeler ρ = σ1 dans l’ équation(4.2)). Les hydrométéorologues objecteront à ce modèle que les pluies réelles ont généralement une certaine durée. Toutefois, cette durée peut être négligée vis-à-vis de la longueur de T si on s’intéresse notamment aux totaux mensuels. On pose Y = S1,0 et le modèle se construit alors par les phases successives : tirage Poissonien du nombre N de jours pluvieux, quantité Xi tombée chacun de ces jours-là (génération selon une loi exponentielle), cumul Y de ces quantités sur le nombre N de jours pluvieux.

[N = n |μ ] [X1 = x1 , ...Xni = xn |ρ, n ] Y

μn −μ e n! n = ρn e−ρ i=1 xi

=

=

N

(5.3)

Xi

i=1

Du point de vue de la seule représentation des pluies mensuelles, la variable N et les grandeurs Xi sont inobservables. Mais, vis-à-vis du modèle, ce sont des variables latentes sur lesquelles la construction intellectuelle procède par assemblage et conditionnement. Ces variables latentes n’existent que par le modèle : elles n’ont qu’un sens conceptuel, et il faut ne pas accepter naïvement

104

Le raisonnement bayésien

leur réalité physique puisque le modèle d’arrivée poissonnien ne s’applique pas à courte échelle de temps. L’expression (5.2) provient de l’opération d’élimination des variables latentes N et les Xi par intégration :   n    [Y |μ, ρ ] = [Y |x1 , ...xi , ...xn ] [X1 , ...Xi , ...Xn |n, ρ ] dxi dn i=1

n x1 ,...xi ,...xn

La statistique classique ignore ces quantités intermédiaires puisqu’elle cherche à estimer directement les paramètres ρ, μ à partir des observables à travers la forme compliquée (5.2) de la loi des fuites. La statistique bayésienne les introduit dans une vraisemblance complète où interviennent les quantités latentes x et n, pivots de la structure du modèle :   N [y, x, n|μ, ρ] = 1Y = N Xi (μρ)n e−μn−ρ i=1 Xi i=1

Le graphe acyclique orienté de la figure 5.4 donne la logique de la genèse de la loi des fuites selon le modèle de processus de Poisson marqué exponentiellement. Remarquons enfin que l’amélioration de la compréhension du modéli-

Figure 5.4 – Loi des fuites selon le modèle classique ou d’après le raisonnement

conditionnel construit à partir du processus de Poisson marqué exponentiellement. sateur (passage de l’équation (5.2) aux équations (5.3)) tient au raisonnement

5. Construire un modèle brique par brique

105

conditionnel , elle n’est pas due au réalisme physique du processus de Poisson marqué pour les averses à courte échelle de temps ; le travail conceptuel est simplement facilité si on introduit ces variables latentes intermédiaires afin de construire la loi des fuites pour les précipitations mensuelles. On verra au chapitre 13 que le travail d’estimation est lui aussi bien plus simple en suivant la voie du raisonnement conditionnel. Notons finalement que la particularité mathématique de la loi des fuites est d’être une distribution mixte avec une probabilité notable de pluies nulles selon les valeurs de μ. Elle peut ainsi représenter les régimes pluviométriques mensuels de stations situées en zones semi-arides notamment.  À la page 275 du chapitre 13, on montrera comment réaliser l’inférence sur cet exemple.

5.6

Classes de modèles par conditionnement probabiliste

Les idées à la base de la construction précédente se transposent à de nombreux cas. La démarche consiste d’abord à identifier les grandeurs aléatoires observables et les quantités non observables, les inconnues. Les inconnues d’essence première, ou paramètres, sont le point d’entrée du modèle. On construit un modèle pour relier ces inconnues aux observables. Il faut passer de l’échangéabilité à l’indépendance conditionnelle en exprimant les conditionnements, afin de mettre en forme probabiliste le mécanisme stochastique adopté pour traduire la causalité. Des covariates interviennent également dans les relations. Enfin, un modèle se construit fréquemment par assemblage de sous-modèles. Voici quelques structures de base souvent rencontrées dans la littérature de modélisation stochastique.

5.6.1

Données manquantes et censurées

Dans cette structure de modèle, il se présente deux types d’observables. D’abord des grandeurs quantitatives ordinaires Yi en nombre k. Ce sont par exemple des débits de hautes eaux d’une rivière. Le régime en crue de la rivière est caractérisé par le vecteur de paramètre θ. Il existe des modèles [Yi |θ ] qui donnent la probabilité d’occurrence d’un événement de valeur yi sachant le paramètre de la nature θ (voir exemple 5). Un nombre n − k de données manquantes, notées ci-après Zk+1 , ...Zn , soit de même nature que les Y soit d’une autre nature comme des maxima Yk+1 = M ax(Zk+1 , ...Zn ). Par exemple, (n − k) débits Zk+1 , ..Zn de hautes eaux n’ont pas été enregistrés, mais on a conservé la trace et la valeur de la crue historique sur la période M ax(Zk+1 , ...Zn ). La figure 5.5 donne le graphe associé à cette situation. On voit que sachant θ les Yi , i allant de 1 à k, et les Zk+j , j allant de 1 à n − k,

106

Le raisonnement bayésien

Figure 5.5 – Structure graphique de modèle à données manquantes.

sont indépendants. Il en va de même pour les Yi , i allant de 1 à k + 1. Le problème d’inférence est d’utiliser l’information contenue dans les deux sortes de données pour porter un jugement probabiliste sur θ. Des modèles de structure analogue portent sur les données censurées : quand la grandeur Z dépasse un seuil s, elle n’est plus directement observable, mais elle traduit ce dépassement par une marque observable Y = 1. De telles circonstances se produisent quand l’appareil de mesure devient inapproprié ou sature : par exemple le débit de la rivière en crue dépasse le débit maximum de conception du débitmètre. Réservant ce cas à un traitement ultérieur, on détaille maintenant un cas plus simple où les observations manquantes sont de même nature que les grandeurs observées Yi et non des grandeurs extraites des Z comme les maxima. Exemple 7 Les apports hydrologiques maximaux annuels de la rivière Péribonka au Québec ont été déterminés de 1960 à 2002 à l’exutoire d’un réservoir (les Yi ). Ces apports en m3 /s sont apparus comme appartenant à un mélange de deux populations (avec ou sans déversement du réservoir). Ici nous supposerons que le régime naturel de cette rivière, que l’on peut mettre en relation avec les apports d’un bassin intermédiaire entre le réservoir et un site hydroélectrique situé à l’aval du réservoir (les Xi ), est représenté par les apports avec déversement. De façon arbitraire pour les besoins d’illustration simple, nous nous sommes limités aux 23 dernières années années, sur lesquelles 13 valeurs pouvaient être supposéess comme sans déversement et considérées comme

5. Construire un modèle brique par brique

107

Figure 5.6 – Apports d’un réservoir et intermédiaires avec données manquantes.

observations manquantes. Ces valeurs apparaissent sur la figure 5.6 par des points sur l’axe des abscises représentant les apports intermédiaires (toutes les données précitées sont extraites de l’article Favre et al., 2004).  Supposons, pour simplifier, un modèle normal pour les variables en jeu. Nous utiliserons les notations précédentes en y ajoutant la variable X représentant l’apport intermédiaire. Ainsi, X est distribué comme N (μ1 , σ1 ). Il est clair, sur l’ensemble des dix valeurs concomitantes qu’une covariation existe. Il importe de la modéliser par une relation conditionnelle sachant X = x sous la forme d’une densité normale :  ρσ2 (x − μ1 ), σ2 1 − ρ2 ) [y|x] = normpdf (μ2 + σ1 Ce modèle implique que Y est marginalement distribué selon N (μ2 , σ2 ) et ρ est le coefficient de corrélation entre les variables X, Y. Il implique aussi que chacune des 13 valeurs manquantes Zi est conditionnellement distribuée selon la même distribution : Zj où i

 ρσ2 (x − μ1 ) + σ2 1 − ρ2 i σ1 = N (0, 1) i = 11, ...23 = μ2 +

en indexant arbitrairement les valeurs manquantes de i = 11 à 23

(5.4)

108

Le raisonnement bayésien

Compte tenu de ces expressions, la vraisemblance complétée s’écrit :

[Y, Z|x]

=

23 1 1  exp( (xi − μ1 )2 σ1 1 σ123 σ223 ( 1 − ρ2 )23

+ +

10 1 ρσ2 (yi − μ2 + ( (xi − μ1 ))2 2 σ2 (1 − ρ ) 1 σ1 23

(zi − μ2 +

11

ρσ2 (xi − μ1 )))) σ1

 Le traitement numérique de cet exemple sera effectué au chapitre 13, page 279. La distribution conditionnelle des Z de l’équation (5.4) y joue un rôle essentiel. Nous anticipons quelque peu et nous en extrayons un résultat intéressant pour l’apport hydrologique S = X + Y , au niveau du site aval visé par l’exploitant hydro-énergétique. Bien sûr, S est une variable distribuée selon une loi normale telle que : E(S) Var(S)

= μ1 + μ2 = σ12 + σ22 + 2ρσ1 σ2

Nous nous intéresserons seulement au 9e décile de S, c’est-à-dire au quantile S9 dont la probabilité de dépassement annuelle est égale à 0, 1. La figure 5.7 ci-après montre une évaluation des distributions a posteriori de S9 avec et sans l’utilisation de l’information complémentaire (avec et sans l’utilisation des variables manquantes Z). Le gain de précision sur la crédibilité de S9 , apporté par l’information contenue dans les 13 observations non concomitantes de X et mesuré par le rapport des écart-types a posteriori (avec/sans) est égal à 0, 65. Ce gain de précision peut être appréciable dans un cas où les informations disponibles sont très limitées surtout si on ne conserve que les seules dix données concomitantes.

5.6.2

Modèle dynamique à temps discret

Comme le décrit la figure 5.8, ce modèle distingue deux étages. Le premier étage traduit une évolution dynamique d’un système décrit par une variable d’état X : [X(t + 1) |μ, u(t), x(t) ] = f (t, x(t), u(t), μ) (5.5) Application 5.1 Introduisons dans l’exemple 2 (cf page 83) une dimension temporelle, X(t) représente la concentration de bactéries pathogènes présentes à l’instant t dans un réseau d’adduction d’eau potable. μ désigne le paramètre de survie et u(t) des conditions extérieures de fonctionnement (température, etc.). X(t), inobservable est une variable latente.

5. Construire un modèle brique par brique

109

Figure 5.7 – Distributions a posteriori avec et sans information complémentaire.

Figure 5.8 – Modèle dynamique à temps discret.

110

Le raisonnement bayésien

La fonction f modélise les phénomènes de survie et de croissance de la population de bactéries d’un pas de temps à l’autre. Elle donnera la probabilité d’avoir un niveau de concentration x(t + 1) en bactéries pathogènes fonction de la valeur x(t) de la semaine précédente. Au-delà des chances de survie, μ peut caractériser l’influence d’autres perturbations aléatoires sur t l’évolution du système (incertitudes, fluctuations d’origine inconnue ou termes ignorés). Par exemple, la fonction f sera la densité de probabilité conditionnelle déduite d’une relation d’évolution du type : Log(X(t) = Log(X(t) + α − βu(t) + γε(t) avec ici μ = (αb, β, γ) tandis que ε(t) est une variable aléatoire normale N (0, 1). De plus, on fait l’hypothèse d’indépendance temporelle des ε(t). L’équation d’observation constitue le second étage du système et nous dit ce qui en est visible à chaque instant. [Y (t) |σ, u(t), x(t) ] = g (t, x(t), u(t), σ)

(5.6)

Considérons par exemple, un test qualitatif de présence/absence : un volume de 200mL est prélevé en un point de mesure et un test rapide nous dit si l’on détecte la présence de bactéries pathogène y = 1 ou non y = 0. Dans ce cas (en supposant que la concentration soit donnée en bactéries par mL), le nombre moyen de bactéries pathogènes est 200 × x(t). Si la variabilité spatiale de présence de bactéries dans le réseau est homogène, le modèle de Poisson est couramment employé et la probabilité de présence d’au moins une bactérie pathogène dans une éprouvette de 200 mL est alors : [Y (t) = 1 |x(t) ] = 1 − exp(−200 × x(t)). Des modèles plus compliqués font intervenir une erreur de mesure (paramétrée par σ) : le test pourrait ne pas être complètement fiable et donner lieu à de faux positifs par exemple. De même, l’influence de conditions extérieures (u(t)) sur l’observation du système peut également être modélisée. D’autres procédures de mesures peuvent être envisagées : la mesure quantitative directe la plus commune dit que y(t) vaut en moyenne x(t) à une erreur de mesure normale près, d’écart-type σ. Du point de vue formel, on regroupe les paramètres d’erreur de mesure ou de bruit d’état au sein d’un même vecteur θ = (μ, σ). On dit que ce modèle d’état est homogène si les fonctions f et g ne dépendent pas explicitement du temps t. Cette classe de modèle est très fréquemment rencontrée dans les applications où le temps joue un rôle explicatif. Le modèle distingue le vecteur des variables latentes X des paramètres θ. Le vecteur X contient les grandeurs inconnues, à qui l’on donne un sens de quantités physiques, inobservées mais potentiellement observables, variant dans le temps, reliées à une modélisation du système, c’est-à-dire à une opération conceptuelle de simplification fonctionnelle permettant la quantification d’un phénomène sous étude. Les paramètres θ, eux, sont invariants au cours du temps mais sont plutôt des grandeurs de nuisance, certes utiles pour caractériser le modèle, mais souvent d’un intérêt seulement indirect pour le modélisateur.

5. Construire un modèle brique par brique

111

Figure 5.9 – Graphe acyclique orienté d’un modèle hiérarchique.

La figure 5.8 met néanmoins en évidence que leurs incertitudes rejaillissent directement sur l’estimation et la prédiction des X(t). L’exemple 2 s’achève au chapitre 7, page 139, par le calcul d’inférence de ce modèle.

5.6.3

Modèle hiérarchique

Principes de base Une autre structure communément rencontrée est la structure hiérarchique ou modèle mixte à niveaux, excellemment décrite dans Goldstein, 1995. Application 5.2 Comment formuler une étude du rendement en lait d’une espèce identifiée de vache, la Française Pis Noir par exemple ? Dans la construction la plus simple d’un modèle, par exemple un modèle d’analyse de variance de production laitière où l’indice i désigne le facteur ( une vache) et j la répétition (la traite), on écrira ˜: Yij εij

= μi + εij ∼ N (0, σ 2 )

Tous les statisticiens s’entendent pour distinguer les grandeurs observables yij (les quantités de lait produites) de celles qui sont non observables, ici μi

112

Le raisonnement bayésien

et σ 2 (paramètres inconnus à identifier). Ces grandeurs observables sont les réalisations d’une variable aléatoire Yij éventuellement répétée plusieurs fois pour tenir compte de la variabilité naturelle du rendement en lait d’une vache, en faisant l’hypothèse que les conditions de traites sont stationnaires sur la période de traite. Si Rosette (l’individu i) appartient à un troupeau, on écrira volontiers μi = μ + αi pour exprimer que la production moyenne de Rosette peut différer de la moyenne du troupeau. Considérons le même modèle que le précédent en passant cette fois à un continuum de la manifestation des facteurs explicatifs, c’est-à-dire en pratique que la taille du troupeau soit suffisamment importante pour exprimer des variabilités interindividuelles : Yij εij ai

= μ + ai + εij ∼ N (0, σ 2 ) ∼ N (0, v 2 )

Quel est le statut de la grandeur ai ? Ça dépend ! Lorsqu’on identifie la valeur de l’indice i (focalisons notre attention sur la vache i nommée Rosette) alors c’est un paramètre qui caractérise la production différentielle de Rosette. Lorsque l’on ne distingue pas l’indice i (portons cette fois notre regard sur une vache quelconque), il s’agit d’une grandeur aléatoire au même titre que εij qui, elle, traduit la variabilité entre membres du même troupeau. Par suite, la variabilité de la production laitière de l’exploitation résulte de la combinaison (ici additive par hypothèse) de l’hétérogénéité du troupeau et la variabilité de la traite. La figure 5.9 traduit la structure de ce modèle. Certains préfèrent le présenter en partant du niveau le plus élevé : la Nature attribue à chaque vache une caractéristique latente μi en tirant dans une urne de possible dont la moyenne (la vache Archétype est μ) mais avec une dispersion interindividuelle représentée par l’écart-type v. Ensuite, chaque vache i exprime ses potentialités (μi ) au cours de l’expérience j donnant une observation Yij . Cette mesure est modélisée par une erreur normale d’écart-type σ. On fait ici l’hypothèse additionnelle que cette dispersion entre les traites est la même pour toute vache. Un exemple numérique non gaussien Exemple 8 Voici un exemple très connu de données de fiabilité dû à Proschan, 1963. Les durées des périodes de disponibilités entre pannes du système de conditionnement d’air ont été observées pour 13 avions de type 720. Les diagrammes (figure 5.10) en bâtons des nombres Nj de périodes et des durées ¯ j de ces pannes ont été construits à partir du tamoyennes de disponibilité X bleau 5.2 des données. Nous ne nous intéressons pas ici à la chronologie de ces pannes contrairement au problème initial de Proschan, mais nous voulons comparer ces avions du point de vue de leur fiabilité. Nous n’allons travailler

5. Construire un modèle brique par brique

113

que sur les 12 séries les plus longues du tableau 5.2 : le onzième avion, trop peu représentatif (deux mesures seulement) a été exclus de l’analyse qui suit. 

Figure 5.10 – Nombres de pannes et durées moyennes d’indisponibilité de 12 avions de type 720.

Utilisons l’indice j pour l’avion (Nj sera le nombre de panne de l’avion j) et l’indice i pour la panne (i allant de 1à Nj . Un modèle simple mais classique en fiabilité est de supposer que les durées de pannes individuelles successives Xij (i = 1...Nj , j = 1, ...12) sont indépendantes en probabilité et sont chacunes distribuées exponentiellement : [xij |ρj ] = ρj e−ρj xij

(5.7)

Pour l’avion j, le paramètre ρj est l’inverse de l’espérance mathématique de la durée de panne. On pose l’hypothèse d’indépendance conditionnelle des Xij à ρj fixés, soit : [xij , ...xi j  |ρj , ...ρj  ] = [xij |ρj ] × ... × [xi j  |ρj  ] Avec ces hypothèses, le comportement d’ensemble des 12 avions est entièrement décrit par les douze paramètres ρj . Il est facile de prouver que pour chaque avion j, c’est la moyenne x ¯.j qui résume toute l’information disponible sur ρj (statistique exhaustive). La distribution d’échantillonnage de x ¯.j c’est-à-dire la vraisemblance pour l’avion j est une densité gamma : [¯ x.j |ρj ] =

(Nj ρj )Nj Nj −1 −Nj ρj x¯.j 1 e = gampdf (¯ x.j , Nj , ) x ¯.j Γ(Nj ) N j ρj

(5.8)

114

1 194 15 41 29 33 181

Le raisonnement bayésien

Intervalles 2 3 413 90 14 10 58 60 37 186 100 61 65 49 9 14 169 24 447 56 184 20 36 79 201 84 118 44 34 59 31 29 18 118 18 25 67 156 57 310 62 76 7 26 22 44 34 23 62 130 208 70 101 208

(h) entre défaillances d’équipement d’air conditionné 4 5 6 7 8 9 10 11 12 74 55 23 97 50 359 50 130 487 57 320 261 51 44 9 254 493 18 48 56 87 11 102 12 5 100 29 104 7 4 72 270 283 7 502 220 120 141 22 603 35 98 12 239 14 18 39 3 12 5 70 47 62 142 3 104 85 21 246 47 68 15 2 91 29 176 225 77 197 438 43 386 182 71 80 188 230 59 33 246 1 79 3 27 15 21 16 88 130 153 104 42 106 46 26 35 20 206 5 326 5 82 5 12 54 36 120 31 22 11 216 139 3 46 210 14 111 97 71 39 30 11 63 23 14 18 13 11 191 14 16 18 90 163 1 24 16 52 95

13 102 209 14 57 54 32 67 59 134 152 27 14 230 66 61 34

Table 5.2 – Données en heures de la fiabilité du système de climatisation de 13 avions de type 720.

5. Construire un modèle brique par brique

115

Apprentissage par l’information et construction du modèle hiérarchique Il est intéressant d’examiner sur cet exemple comment un ingénieur fiabiliste fait son apprentissage sur son modèle c’est-à-dire sur les ρj , à mesure que l’information s’accumule, c’est-à-dire à mesure qu’il examine les moyennes x ¯.j des durées de pannes des différents avions. – Premier cas : l’ingénieur est plutôt un statisticien classique. Pour lui, les paramètres ρj existent objectivement et par conséquent, soit ils sont égaux soit ils sont différents. Choisir une alternative (et rejeter l’autre) est essentiel car le choix conditionne la façon dont il appréhende l’information. En effet, les fondements de l’apprentissage reposent ici sur la considération d’une même valeur ou non pour les paramètres certains ρj . S’il a postulé des valeurs différentes des ρj , alors il n’apprend rien de la fiabilité de l’avion j en examinant le comportement des autres. (Nous excluons ici l’intervention d’une variable explicative quantifiant certaines caractéristiques de service des avions qui expliquerait une part des différences). – Deuxième cas : l’ingénieur est influencé par l’approche bayésienne. Sous ce paradigme, les paramètres (comme le modèle) n’ont pas de réalité objective. Il leur associe des probabilités subjectives, paris sur leurs valeurs possibles. La base de son jugement est donc la distribution conjointe [ρ1 , ρ2 , ...ρk |x] compte tenu de l’information x = (¯ x.1 , x ¯.2 , ...¯ x.k ) globale dont il dispose. Bien entendu selon la formule de Bayes cette  distribution x.j |ρj ] et du sera une conséquence directe de la vraisemblance connue j [¯ prior conjoint [ρ1 , ρ2 , ...ρk ] qu’il admet. Plusieurs choix lui sont permis pour caractériser ce prior : 1. Admettre l’identité des ρj : ρ1 = ρ2 = ... = ρk = ρ caractérisé par un prior [ρ]

(5.9)

2. Supposer qu’ils sont tous quelconques, différents, auquel cas il choisit logiquement des priors indépendants : [ρ1 , ρ2 , ...ρk ] =

j=k 

[ρj ]

(5.10)

j=1

3. Nous avons exclus le cas d’informations quantifiées permettant d’homogénéiser les avions mais même si cela est, l’ingénieur peut-il vraiment se restreindre aux deux hypothèses extrêmes (complète homogénéité ou complète hétérogénéité) ? Après tout, il s’agit du même type d’avions 720. Bien sûr, son jugement eût pu être différent si le groupe avait réuni les types 720 et 747, par exemple. Mais on peut penser que les 720 ont un comportement commun en matière de fiabilité qui fait que l’information disponible sur l’un j peut être utile, au moins partiellement, à n’importe

116

Le raisonnement bayésien lequel des autres dans le groupe. Si cette hypothèse d’information symétrique est possible alors l’ingénieur bayésien apprendra sur chacun des avions en considérant l’ensemble. Bref les ρi sont échangeables.

En applicant le théorème de Bruno de Finetti (cf eq (5.1)), la distribution conjointe des ρi peut se mettre sous la forme d’un mélange de distributions h(ρ.j |ϕ) identiques et indépendantes, fonctions d’un hyperparamètre ϕ (qui peut être vectoriel) tiré au sort dans un hyperprior [ϕ] :  [ρ1 , ρ2 , ...ρk ] = h(ρ1 |ϕ)h(ρ2 |ϕ)...h(ρk |ϕ)[ϕ]dϕ (5.11) Supposons que l’ingénieur dispose d’un k1 échantillon (k1 < k) de ρi et qu’il souhaite prédire la fiabilité de ρk1 +1 , ...ρk connaissant son information sur ρ1 , ρ2 , ...ρk1 . Un calcul élémentaire de probabilité mène alors à la conséquence importante de la formule 5.11 :  [ρk1 +1 , ...ρk |ρ1 , ρ2 , ...ρk1 ] = h(ρk1 +1 |ϕ)...h(ρk |ϕ)[ϕ|ρ1 , ρ2 , ...ρk1 ]dϕ (5.12) L’équation 5.12 représente une formule analogue à 5.11, mais avec le prior actualisé. Elle montre la cohérence vis-à-vis de la possibilité d’apprentissage de l’hypothèse d’échangéabilité pour construire un prior sur les variables latentes ρi . Ces formules mathématiques ont une valeur concrète extrêmement importante. La mise à jour du prior sur ϕ est possible en leur appliquant la règle de Bayes. Si l’ingénieur accepte l’hypothèse d’échangéabilité des ρ, alors il fait son apprentissage comme si les valeurs de ces paramètres étaient des réalisations indépendantes et dépendaient d’un hyperparamètre ϕ pour lequel il doit éliciter un prior. A posteriori, ce prior est mis à jour sur les seules valeurs des ρ. S’il en dispose en tant que variables latentes, alors les observables x ¯ n’interviennent pas directement. Cette coupure est à la base de la construction de modèles hiérarchiques utilisant des variables latentes supposées échangeables. La logique de cette construction est visualisée par le diagramme DAG hiérarchique du modèle. Dans cette hiérarchie chaque nœud a un seul ascendant. En remontant le graphe au cours d’un algorithme d’inférence, on voit bien que la structure hiérarchique permet l’apprentissage sur les hyperparamètres ϕ à partir des seuls descendants c’est-à-dire les valeurs des variables latentes ρj obtenues à chaque itération. On voit ici deux graphes orientés. Le premier illustre le modèle homogène où le paramètre ρ, est identique pour tous les appareils. Le second comporte un niveau hiérarchique supplémentaire assurant la coordination entre appareils par le modèle d’échangéabilité que les hyperparamètres ϕ caractérisent. Il importe, bien sûr, de complèter le modèle par un prior sur ϕ. On voit bien que l’hypothèse d’échangéabilité se traduit par un niveau hiérarchique supplémentaire pour les ρj . Le corollaire intéressant de cette représentation par variables latentes échangeables est que le cas d’hétérogénéité complète des ρ n’est pour un bayésien

5. Construire un modèle brique par brique

117

Figure 5.11 – Graphes acycliques orientés pour le modèle homogène et pour le modèle hiérarchique (par échangéabilité des ρi ).

qu’un cas limite de la représentation générale de l’échangéabilité où le prior [ϕ] est très dispersé. On doit bien comprendre aussi qu’introduire l’hypothèse d’échangéabilité nécessite un effort de modélisation supplémentaire. Le théorème de représentation de de Finetti fixe seulement la structure du modèle. Il reste au modélisateur à choisir la forme de la distribution h(ρ|ϕ) et du prior [ϕ] des hyperparamètres. Le choix peut être délicat car il s’agit de variables latentes. Il est souvent possible de choisir pour h(.) les conjuguées naturelles de la vraisemblance des observables, ici par exemple la conjuguée naturelle de la loi gamma qui distribue les x ¯j sachant ρj , est encore une loi gamma. Signalons enfin une propriété utile des priors des modèles hiérarchiques : la sensibilité aux choix de ces priors diminue à mesure de l’introduction de niveaux intermédiaires. Dans notre exemple, il serait acceptable (et réaliste) d’utiliser un prior non informatif pour l’hyperparamètre ϕ.  Le traitement de l’exemple demande la maîtrise des techniques d’estimation décrites dans la seconde partie de cet ouvrage : l’inférence sera conduite au chapitre 14, page 297.

118

Le raisonnement bayésien

Figure 5.12 – Modèle hiérarchique pour le loto-foot avec forces intrinsèques.

Nous avions déjà construit un modèle hiérarchique page 40 ! Dans la même classe de modèles, la figure 5.12 présente le DAG associé au modèle avec force intrinsèque de chaque équipe pour l’exemple 4. Le premier niveau de ce modèle hiérarchique distribue les θi selon une loi normale N (0, σ 2 ). + − = On a adopté la convention d’écrire en pointillés le triplet (πij , πij , πij ) car celuici est une fonction déterministe de θi et θj (cf équation 2.4).  À la page 165 du chapitre 8, on commence l’inférence du modèle multinomial le plus simple, tandis que ce modèle échangeable est estimé à la page 202 du chapitre 10.

Épilogue Le raisonnement conditionnel est la clé pour construire des modèles élaborés : la conceptualisation des phénomènes repose sur l’emploi de structures avec variables latentes. La modélisation probabiliste est également affaire d’état d’esprit : exprimer le maximum de comportements possibles avec le minimum d’hypothèses. Le modélisateur accepte l’existence abstraite d’un fonctionnement interne et caché du système, manie le quantitatif, n’est pas spécialiste du domaine mais n’hésitera pas à formaliser le phénomène ! La parcimonie et la simplification sont pour lui des atouts opérationnels. Cette forme d’esprit est liée au langage de modélisation employé (et non au cas spécifique traité) :

5. Construire un modèle brique par brique

119

Figure 5.13 – Représentation imagée de la vision d’un modélisateur.

on reconnaît les paramètres inconnus au coeur de la représentation (voir figure 5.13), les variables aléatoires observables dans la couche la plus à l’exterieur et faisant un pont entre les deux, les variables latentes. Cette démarche du mathématicien des modèles stochastiques n’est pas facile à assimiler et peut même heurter la sensibilité d’un praticien, spécialisé dans son domaine, dont les repères s’établissent par catégorisation de propriétés très locales. Un praticien en effet attache beaucoup d’importance aux observations, interprête plus de façon qualitative que quantitative : il connaît bien le processus dans ses détails mais rechigne à le formaliser, à telle enseigne que la simplification est ressentie comme un appauvrissement intellectuel. À titre d’exemple, la figure 5.14 ébauche la procédure mentale, sûrement fort éloignée de celle que nous proposons, que peut exercer un biologiste du sol lors de ses activités quotidiennes. On conçoit sans peine le bénéfice induit par la collaboration entre modélisateur et spécialiste d’un domaine. En premier lieu, on peut faire le distinguo entre processus interne et observations : le statisticien aide d’abord à cerner le processus d’observation et à décrire les erreurs de mesures, tandis que le praticien décrit plutôt comment fonctionne le système, mais bien sûr, le statisticien utilise des paramètres et des variables latentes pour étayer cette description. L’expertise du biologiste améliore ici la structure et la connaissance des paramètres du modèle. Pour faciliter la collaboration et le dialogue, les hypothèses sont rendues explicites. Les variables aléatoires observables résultent d’un mé-

120

Le raisonnement bayésien

Figure 5.14 – Comment fait un biologiste pour identifier un animal du sol ?

canisme aléatoire que le modélisateur sait généralement représenter, ce qui permet d’ailleurs de valoriser les données stockées. Enfin, le quantitatif permet la prévision, la généralisation et l’expression du doute scientifique. Un modèle probabiliste étant construit, on verra dans les chapitres de la seconde partie comment estimer ses paramètres. Les algorithmes utilisés font eux-mêmes appel à certaines propriétés du calcul probabiliste : c’est dire que, là aussi, un raisonnement conditionnel supporte la construction des méthodes d’inférence les plus pertinentes.

Notes de lecture Construire une structure de covariation entre deux grandeurs aléatoires X et Y (ou plus) est un problème classique mais difficile de modélisation statistique (Anderson, 1984). En gros, trois pistes et leurs ramifications sont explorées par les modélisateurs pour construire une loi conjointe [X, Y ]. – Spécifier les marges f (x) = [X] et g(x) = [Y ] puis ayant choisi leurs fonctions de répartitions F et G, faire une anamorphose. L’anamorphosme normale est sûrement la première qui vient à l’esprit, car il est facile de construire un modèle normale bivarié sur les transformées. L’anamorphose uniforme est également assez naturelle : U = F (X) et V = G(Y ). Il s’agit ensuite de construire des structures de lois bivariées à marges

5. Construire un modèle brique par brique

121

uniformes : C(u, v) = [U < u et V < v] C’est l’objet de la théorie des copules (Genest et Rivest, 1993). On trouvera dans une véritable boite à outils comprenant diverses formes paramétriques de fonctions C(U, V ) et l’étude de leur propriétés par exemple dans Nelsen, 1998. Enfin, lorsque les marges sont les mêmes f = g, certains auteurs (Kotz et al., 2000) ont cherché à construire des extensions régulières par l’emploi de séries infinies de polynomes orthonormés associés à la loi f :   1 si m = n Pn (x)Pm (x)f (x)dx = 0 si m = n [X = x, Y = y] = f (x)f (y)



rk Pk (x)Pk (y)

k=0

Par exemple, la loi normale bidimensionnelle s’exprime grâce à l’emploi de polynomes d’Hermite (Cramer, 1946), la loi gamma fait entrer en scène les polynomes de Laguerre (Kibble, 1946), etc. – Spécifier directement les conditionnelles [X |y ] et [Y |x ] et s’assurer que cette construction est légitime (Arnolds et al., 1999), c’est-à-dire que cette spécification est compatible avec l’existence d’une la loi conjointe [X, Y ]. C’est la piste qui a été suivie par les modélisateurs de données spatiales (Besag, 1974, Banerjee et al., 2004) sur un lattice (réseau de points avec une structure de voisinage), lorsqu’ils veulent définir la loi de leur phénomène par le jeu des interactions entre voisins (Kaiser et Cressie, 2000). Le chapitre 6 de Cressie, 1993 est remarquable, car il donne des arguments très utiles de parcimonie pour construire des structures de dépendance conditionnelle, à partir des lois de la famille exponentielle (les auto-modèles). – Spécifier une loi marginale [X] comme point d’entrée, puis y accrocher les autres variables par le conditionnement du type [Y |x ]. C’est ce que nous avons fait dans ce chapitre. La construction de modèle par conditionnement probabiliste et modélisation graphique doit beaucoup à la communauté de l’intelligence artificielle qui a rapidement pressenti les possibilités de cette formalisation. Les ouvrages de Cowell et al., 1999 ou de Jordan, 1999 étudient rigoureusement les propriétés des graphes sur lesquels reposent les modèles graphiques. La société Bayesia promeut un logiciel (http ://www.bayesia.com) qui construit de tels modèles graphiques en vue de l’analyse conditionnelle à partir de bases de données. La notice du logiciel WinBUGS (ce programme est disponible gratuitement sur http ://www.mrc-bsu.cam.ac.uk/bugs), fournit une très bonne introduction pratique à la modélisation graphique et à la construction de modèles par conditionnement : l’outil doodle permet même la visualisation immédiate de tels graphes. On verra au chapitre 13 que la structure

122

Le raisonnement bayésien conditionnelle du modèle de la loi des fuites (exemple 6), comme celle des avions (exemple 8), facilite également l’estimation de ses paramètres. Enfin, notre livre à paraître : Applications du raisonnement conditionnel bayésien s’inscrit dans la lignée du présent ouvrage, regroupe de nombreux exemples et décline au cas par cas les structures conditionnelles introduites dans ce chapitre sur des cas d’études en particulier les données manquantes, les structures de modèles dynamiques et les structures hiérarchiques.

Deuxième partie

LE CALCUL BAYÉSIEN : MÉTHODES ET ALGORITHMES D’ESTIMATION

Chapitre 6

Motivations du calcul bayésien Prologue La pertinence et l’efficacité de l’approche bayésienne, comme guide du raisonnement scientifique face à l’incertitude, sont reconnues depuis longtemps (de Finetti, 1937 ; Savage, 1954 ; etc.). La mise en œuvre des principes bayésiens, en dehors de cas d’école, s’est longtemps heurtée aux difficultés pratiques de calcul. Les moyens informatiques, dont on disposait avant les années 1990, étaient insuffisamment puissants et trop centralisés. Les problèmes réels, avec leurs dimensions et leurs complexités importantes, faisaient alors la part belle aux méthodes statistiques classiques. La situation, depuis lors, a subi une véritable révolution (Brooks, 2003). Maintenant on peut affirmer qu’il n’existe, au moins a priori, aucun contre-argument justifié à l’emploi des méthodes bayésiennes quelle que soit la complexité du cas envisagé. On doit ce nouveau paysage scientifique au développement de nouveaux outils de calcul : les méthodes MCMC (simulations Monte Carlo par Chaînes de Markov ) et à l’amélioration des anciens (échantillonnage pondéré ou importance sampling et méthodes des particules), et à leur relance par la puissance nouvelle de la micro-informatique décentralisée. Les fondements conceptuels de ces méthodes de calcul sont solidaires des modes de raisonnements conditionnels de la modélisation bayésienne et le paradigme bayésien apparaît comme une démarche rationnelle, efficace et solidement intégrée du programme complet : modélisation→calcul→décision. Cette deuxième partie introduit l’ensemble des outils de calcul bayésien. Par souci pédagogique, les illustrations présentées restent simples : elles servent surtout à présenter les principes conducteurs de méthodes dont le champ d’applications est beaucoup plus vaste.

126

Le raisonnement bayésien

6.1

Calculer une intégrale est un passage obligé de l’inférence statistique bayésienne

L’approche bayésienne complète se décompose en deux phases : – une phase d’inférence où les jugements inductifs sont basés sur les distributions a posteriori des paramètres θ d’un modèle. Cette distribution, notée dans la partie précédente [θ|x] contient toute la connaissance sur laquelle seront élaborés les jugements inductifs bayésiens. Nous continuons de noter les observables par des lettres latines telles que x ou y et les paramètres par des lettres grecques comme θ. Pour des besoins d’estimation, on peut vouloir calculer certaines caractéristiques (moyennes, moments, quantiles, intervalles de crédibilité, etc.) de ces distributions plutôt que celles-ci toutes entières ; – une phase décisionnelle où les conséquences incertaines futures de chaque alternative sont évaluées pour comparer les issues incertaines de toutes les décisions possibles. Au chapitre 3, nous avons montré que cette seconde phase demande le calcul d’une intégrale de la fonction de coût selon la distribution a posteriori ou, dans certains cas, l’évaluation de la loi prédictive de résultats à venir.

6.1.1

Un calcul d’intégrale

Dans les deux cas précédents, inférence statistique ou analyse prédictive décisionnelle, il s’agit de réaliser le calcul des caractéristiques a posteriori des θ ou de certaines fonctions du type u(θ) et de leurs espérances mathématiques :  U = u(θ)[θ|x]dθ (6.1) La fonction u(θ) pourrait dépendre d’une autre quantité telle une décision d (comme un dispositif de plan d’expériences à choisir) ou éventuellement des données futures z (par exemple à travers l’évaluation de la performance d’une règle de décision δ). Note 6.1 Par convention, toute distribution [.] exprimée par sa densité sera nulle hors du domaine de définition de la variable en jeu. Cette commodité évite l’écriture systématique des bornes d’intégration des formules sachant que  l’écriture ()dθ sous-entend Θ ()dθ où Θ est le domaine de définition. Le cas particulier de l’évaluation d’une probabilité a posteriori associée à un sous-domaine A rentre dans ce cas général, car il donne lieu à une intégrale de cette forme (avec une fonction indicatrice IA (θ)) : u(θ) = IA (θ) = {

1 si θ ∈ A 0 si θ ∈ /A

6. Motivations du calcul bayésien

127

Ainsi, mathématiquement traduit, notre objectif est dans cette partie le calcul pratique de [θ|x] et des intégrales de la forme (6.1). Le cas particulier et important du calcul des lois marginales se formule également dans ce cadre. Supposons θ vectoriel, on considère des composantes de θ et on effectue la partition en θ = {θ1 , θ2 }. Fixons la première partie des composantes à une valeur donnée θ1 = t ; on peut écrire d’après les régles opératoires usuelles sur les densités conditionnelles :   [t|x] = [t, θ2 |x]dθ2 = [t|θ2 , x][θ2 |x]dθ2 En posant ut (θ2 ) = [t|θ2 , x] on voit que :  [t|x] = ut (θ2 )[θ2 |x]dθ2 Bref, pour calculer la densité marginale de θ1 au point θ1 = t on peut effectuer le même calcul que (6.1) d’une espérance mathématique de la conditionnelle ut (θ2 ) = [t|θ2 , x] (dite conditionnelle complète de la composante θ1 ) par rapport à la composante complémentaire θ2 .

6.1.2

Difficultés

Généralement, les problèmes réels sont décrits par des modèles à paramètres multiples θ = (θ1 , θ2 , .., θj , ..). Les distributions à évaluer sont donc les distributions marginales de chaque paramètre θj sous la forme, par exemple, de densités de probabilités mais aussi des distributions conjointes de couples de paramètres et plus généralement d’un sous-vecteur de θ de taille quelconque. La distribution a posteriori provient de la formule de Bayes : [(θ1 , θ2 , .., θj , ..)|x] =  

[x|(θ1 , θ2 , .., θj , ..)][θ1 , θ2 , .., θj , ..] ... Θ [x|(θ1 , θ2 , .., θj , ..)][θ1 , θ2 , .., θj , ..]dθ1 dθ2 ...dθj ... 

où [θ] = [θ1 , θ2 , .., θj , ..] est la densité a priori conjointe des paramètres θ. Cette formule montre que la forme analytique de [θ|x] est fournie par la donnée de la vraisemblance [x|(θ1 , θ2 , .., θj , ..)] et du prior [θ1 , θ2 , .., θj , ..]. Le calcul du dénominateur ne détermine que la constante de normalisation de la loi a posteriori. Ce calcul pose en général des problèmes si bien que celui de la densité a posteriori conjointe des θ doit souvent prendre en compte l’impossibilité de calcul pratique de cette constante a posteriori (Rappelons que les x, valeurs observées, sont ici supposées fixées et connues quand on réalise la phase d’inférence selon le paradigme bayésien). De plus, ce n’est pas seulement la densité conjointe [θ|x] de l’ensemble des paramètres qui intéresse l’analyste mais aussi certaines des densités marginales [θj |x] des paramètres θj ou encore la densité de fonctions ψ(θ) du paramètre θ. Le calcul explicite de ces distributions est souvent loin d’être évident.

128

Le raisonnement bayésien

6.2

Inventaire des méthodes

On distingue la classe des méthodes de calcul analytique de celle des méthodes de simulation Monte Carlo.

6.2.1

Une méthode analytique exacte : les commodités mathématiques de la conjugaison

En dehors de méthodes ad hoc adaptées à des cas particuliers, il existe une méthode analytique générale basée sur les distributions a priori dites conjuguées naturelles spécifiquement adaptées aux modèles exponentiels. Des indications sur ces distributions conjuguées ont déja été données pour les exemples 2, 3 et 5 de la première partie. Elles seront généralisées pour les vraisemblances de modèles [x|θ] appartenant aux familles exponentielles.

6.2.2

Les techniques asymptotiques forment la seconde classe de méthodes analytiques

Un cas fréquent de problème est celui où la taille n de l’échantillon d’information systématique x est suffisamment grande pour que, dans la formule de Bayes, la contribution de la vraisemblance [x|θ] l’emporte sur la densité a priori [θ] dans le sens suivant : par rapport à l’ordonnée de la distribution [θ] sensiblement constante, l’ordonnée de la fonction [x|θ], comme fonction de θ (i.e. la fonction de vraisemblance) est proche d’une gaussienne dans un voisinage d’une valeur modale θˆ de [x|θ] pour n assez grand (voir figure 6.1).

6.2.3

Algorithmes de simulation Monte Carlo avec indépendance

Les méthodes de simulation sont des algorithmes qui doivent être envisagés pour le calcul effectif de l’inférence bayésienne des modèles multiparamétriques plus complexes, puisque les deux précédentes classes tiennent du miracle opérationnel. En effet, dans la pratique, le prior est généralement de structure quelconque (excluant l’élégance et la commodité du calcul par conjuguées naturelles) et la taille de l’échantillon n’est pas souvent très grande (pas de recours à la normalité asymptotique). Historiquement, on a d’abord développé les méthodes de Monte Carlo pour approcher des densités telles que [θ|x], avec des erreurs contrôlables, en générant pour ces lois des séquences de réalisations ...θi−1 , θi , θi+1 , ...indépendantes. Une de ces méthodes générales, l’échantillonnage pondéré (importance sampling en anglais) a subi d’importantes améliorations telles que le ré-échantillonnage de Rubin et peut être utilisée maintenant en concurrence ou en combinaison avec les algorithmes de simulation d’échantillons dépendants.

6. Motivations du calcul bayésien

6.2.4

129

Algorithmes de simulation Monte Carlo avec dépendance

Une autre classe d’algorithmes Monte Carlo plus récents, les algorithmes de Monte Carlo par Chaînes de Markov (MCMC ) produisent quant à eux des séquences de réalisations dépendantes ...θi−1 , θi , θi+1 , ... que l’on peut utiliser facilement dans un cadre très général pour évaluer les densités a posteriori [θ|x]. Ce sont aujourd’hui les algorithmes les plus utilisés, et ils permettent le calcul bayésien d’une très large variété de modèles. Ces méthodes s’appuient sur le comportement limite stationnaire d’un algorithme stochastique qui parcourt l’espace des états possibles pour θ avec une fréquence convergeant vers [θ|x]... Malheureusement, la vitesse de passage à ce comportement stationnaire peut être très lente. Cependant, l’utilisation de la phase de comportement limite dite phase ergodique est possible avec précautions mais des progrès restent à faire pour une détection pratique du nombre d’itérations nécessaires pour atteindre le régime stationnaire limite.

6.3

Guide de lecture

Nous illustrerons d’abord les méthodes de calculs analytiques exactes par conjugaison, car elles permettent de reconstruire les modèles statistiques élémentaires comme des modèles ad hoc où l’information est apportée à travers des résumés statistiques particuliers. Dans le chapitre 9, les théorèmes limites de normalité utiles dans les calculs asymptotiques seront rappelés et illustrés sur quelques exemples. Le lecteur, averti des techniques ordinaires de simulation, pourra ne pas s’attarder sur le rappel succinct des méthodes de Monte Carlo classiques au chapitre 10 pour concentrer ses efforts sur l’exposé des méthodes de Monte Carlo par chaînes de Markov (MCMC ). Après une présentation au chapitre 11 des propriétés des chaînes de Markov ayant pour objet principal d’aboutir à une meilleure compréhension de la notion d’ergodicité, l’accent sera porté sur les deux grands groupes de méthodes MCMC : - au chapitre 12, les méthodes de Metropolis-Hastings, - au chapitre 13, l’échantillonnage de Gibbs. Ces méthodes seront illustrées par des exemples simples, généralement des modèles à deux paramètres au plus, pour suivre et visualiser les résultats. Leur puissance est bien sûr surtout utile pour le traitement de modèles plus complexes. Le cas échéant, il n’est pas difficile de programmer les algorithmes correspondants, en utilisant par exemple les possibilités statistiques du programme R ou le logiciel BUGS pour apporter des résultats numériques à tous ces exemples. Ces deux logiciels sont libres et gratuits. Les routines de la toolc box statistique de MATLAB offrent également des possibilités intéressantes. Le chapitre 13 se termine par la mise en évidence de l’étroite correspondance entre calcul bayésien conditionnel (algorithme de Gibbs) et modélisation bayésienne par conditionnement sur variables latentes (modélisation graphique).

130

Le raisonnement bayésien

Nom du symbole densité uniforme

Notation unifpdf (a, b, x)

Formule 1 b−a I[a,b] (x)

densité normale

normpdf (x, θ, σ )

probabilité cumulée

normcdf (x, θ, σ)

quantile normal xp

norminv (p, θ, σ)

quantile de Student tp

tinv (p, ν)

exp(− (x−θ) 2σ 2 ) x 2 exp(− (x−θ) 2σ 2 ) −∞  xp 2 1 p = √2πσ exp(− (u−θ) 2σ 2 )du −∞ Γ( ν+1 )  tp du p= √ 2 ν+1 −∞ u2

densité gamma quantile de gamma xp probabilité binomiale probabilité Poisson

gampdf(x, a, b) gaminv (p, a, b) binopdf (x, n, θ) poisspdf (x, θ)

e−x/b xa−1  xp −u/b a−1 1 p = ba Γ(a) e u du 0 Cnx θx (1 − θ)n−x 1 −θ x θ x! e

√1 2πσ √1 2πσ

2νπΓ(ν)

1

2

[1+

ν

]

2

ba Γ(a)

Table 6.1 – Notations pour les densités de probabilité courantes.

Au chapitre 14, nous associons les deux techniques précédentes, ce qui donne les algorithmes d’estimation bayésienne que tout praticien devrait aujourd’hui pouvoir inclure dans sa trousse à outils. Quand finalement nous les associons avec l’algorithme d’échantillonnage pondéré, nous formons les éléments constitutifs des algorithmes de type particulaires, que nous croyons promis à un grand avenir comme outil d’inférence bayésienne. Petit lexique Pour désigner certaines densités ou quantiles de distributions, on utilisera quelques-unes des notations suivantes, particulièrement commodes. Le tableau 6.1 reprend quelques définitions utiles. Le tableau 6.1 ne donne qu’un échantillon limité à quelques distributions parmi les plus courantes. En matière de densités (probability density function ou pdf ), de fonctions de répartition (cumulative density function ou cdf ) ou de quantiles (inv), les notations sont utilisées systématiquement pour toutes la collection de distributions.

Notes de lecture Les ouvrages les plus utiles pour le lecteur qui entame la deuxième partie de cet ouvrage sont Tanner, 1992, Gamerman, 1997, ainsi que Robert, 1996. Le premier livre est un classique d’un niveau abordable où chaque méthode est d’abord rapidement présentée du point de vue théorique puis illustrée sur des exemples variés (de lois de probabilités). L’ouvrage de Robert et Casella, 1998, plus récent, satisfera plus les lecteurs de formation mathématique ; il présente l’ensemble des méthodes actuelles de simulation avec rigueur sous un aspect formel unifié. On trouve aussi des présentations moins tournées vers l’application à l’analyse bayésienne dans Ycart, 2002.

6. Motivations du calcul bayésien

131

Figure 6.1 – Comportement local des densités a posteriori au voisinage du mode.

Chapitre 7

Méthodes analytiques exactes pour modèles unidimensionnels Prologue Nous introduisons ici les méthodes de calcul analytiques qu’utilisaient les pionniers de la statistique bayésienne. Thomas Bayes (Bayes, 1763) a traité exactement du modèle binomial, et, par la suite, les pionniers (Laplace, Jeffreys, de Finetti, Savage, etc.) ont continué sur cette voie en y ajoutant surtout le modèle normal simple. Ils voulaient utiliser systématiquement l’approche à des problèmes statistiques concrets au-delà des principes philosophiques (Jeffreys, 1939). Sur le plan de la systémisation des méthodes de calcul exact, c’est le concept de distribution a priori conjuguée naturelle dû à Raiffa et Schlaifer qui a permis d’entrevoir la solution d’un plus grand nombre de problèmes (Raiffa et Schlaifer, 1961). Les économistes ont été les premiers à en bénéficier. Plus que les problèmes de calcul, la quantification délicate des distributions a priori a longtemps été considérée comme un obstacle à l’applicabilité de ces méthodes. C’est une des raisons qui ont poussé certains statisticiens, notamment Box et Tiao, 1973, à développer les méthodes analytiques dans le cas de priors dits non informatifs. Dans ce cadre qui s’appuie sur un minimum de connaissances a priori, on retrouve de nombreuses méthodes statistiques classiques, mais en plus, certains problèmes sont mieux traités dans le contexte bayésien comme les estimations de paramètres par intervalles (Lecoutre, 1997). En pratique, des hypothèses assez contraignantes restreignent les possibilités d’applications complètes des méthodes analytiques. Pourtant, il importe de les présenter car elles fondent le traitement bayésien de modèles standards et certains de leurs résultats partiels s’avèrent d’une grande utilité pour les méthodes MCMC , plus performantes.

134

Le raisonnement bayésien

Ce chapitre est consacré aux modèles dont le traitement analytique est possible par l’intermédiaire des distributions conjuguées naturelles. On présente d’abord les méthodes puis on les illustre sur quelques applications où les modèles en jeu font intervenir des observables monodimensionnelles.

7.1

Distributions conjuguées naturelles

Au chapitre 2, le traitement des exemples 2 et 3 s’est appuyé sur le concept de distributions conjuguées naturelles pour les modèles binomial et gaussien. Considérons plus généralement un modèle caractérisé par la densité des observations x connaissant les paramètres θ. Définition 7.1 (Raiffa et Schlaifer, 1961) : Compte tenu de la densité [x|θ], une classe C de distributions [θ] conjuguées naturelles par rapport à [x|θ] est un ensemble de [θ] tel que si [θ] ∈ C alors [θ|x] ∈ C. En raccourci C est dite conjuguée naturelle. L’idée des auteurs de cette définition est que, pour certains modèles, il existe des formes analytiques conjuguées naturelles qui facilitent les calculs de distributions a posteriori si le prior est choisi dans cette classe. On sait que, considérée comme fonction de θ, [x|θ] s’appelle vraisemblance. On ne peut toutefois pas pousser l’interprétation jusqu’à condidérer [x|θ] comme  une densité propre en θ car en général [x|θ]dθ = 1. En suivant cependant Raiffa et Schlaifer (1961) on peut définir une classe C de priors propres en posant : [ϕ|θ] [θ|ϕ] =  [ϕ|θ]dθ où est [ϕ|θ] l’expression analytique de la vraisemblance en X = ϕ. Dans cette classe les observations jouent donc le rôle d’hyperparamètres ϕ. On peut démontrer que cette classe est conjuguée naturelle par rapport à [x|θ]. Ainsi une densité conjuguée naturelle en θ peut être obtenue en intervertissant, dans l’expression de la vraisemblance, le rôle de θ (qui devient la variable d’intérêt) et de x (qui joue le rôle d’hyperparamètre ϕ multidimensionnel). Cet hyperparamètre ϕ peut ensuite être estimé pour coller au mieux à une expertise ou à des informations complémentaires a priori. L’intégrale du dénominateur n’est là que pour assurer la condition nécessaire d’une densité : Θ [θ|ϕ]dθ = 1. Dans le cas général d’un n-échantillon où x est un vecteur, le nombre de coordonnées de ϕ à caler peut être trop grand puisqu’il est en théorie du même ordre de grandeur que la taille n de l’échantillon. Cependant, les vraisemblances de nombreux modèles ne sont fonctions des x que par l’intermédiaire d’un nombre limité de statistiques : {T1 (x, c), T2 (x, c), ...Tk (x, c)}. Ce sont ces k statistiques qui fourniront les k paramètres de calage {ϕ1 , ϕ2 , ...ϕk }.

7. Méthodes exactes et modèles unidimensionnels

135

Note 7.1 Dans ce chapitre, le symbole c représente les caractéristiques constantes de l’information comme la taille n d’un échantillon, ou des valeurs du temps, ou toute autre variable exogène non aléatoire intervenant sur le système. Définition 7.2 Le vecteur T (x, c) = {T1 (x, c), T2 (x, c), ...Tk (x, c)} constitue un résumé exhaustif de l’information initiale x si, pour toute loi a priori [θ] : [θ|x] = [θ|T (x, c)], ∀[θ]

(7.1)

Ceci signifie que la distribution a posteriori de θ ne dépend de l’information x qu’à travers le résumé exhaustif T et ceci quelle que soit la distribution a priori. Les statistiques constituant T peuvent donc remplaçer x sans perte d’information dans le sens bayésien d’invariance de la distribution a posteriori. On les appelle encore statistiques exhaustives. Application 7.1 (binomial) Soit un n−échantillon indépendant x = {x1 , x2 , ...xn } d’une variable de Bernoulli de probabilité θ ; on a :

[θ|x] avec T (x, n)

=

= i=n i=1

 i=n

 i=n

(1 − θ)1− i=1 xi [θ] const × θT (x,n) (1 − θ)n−T (x,n) [θ]

=

const × θ

i=1

xi

xi

La densité a posteriori ne dépend des x qu’à travers la statistique T (x, n) formée du cumul des succès, qui est donc une statistique exhaustive. Application 7.2 (normal) Soit un n-échantillon indépendant normal N (μ, σ) avec le paramétrage θ = (μ, σ) : const −  ni=1 e [μ, σ|x] = √ ( 2πσ)n

(xi −μ)2 2σ 2

n(¯ x−μ)2 +ns2 const 2σ 2 [μ, σ] = √ [μ, σ] e− ( 2πσ)n

Par un développement (somme de carrés), on voit n classique de l’exposant  n ¯ = n1 i=1 xi et T2 (x, n) = s2 = n1 i=1 (xi − x que T1 (x, n) = x ¯)2 sont exhaustives pour le couple θ = (μ, σ).

7.2

Théorème de Koopman-Darmois

Une condition nécessaire et suffisante d’existence d’un vecteur exhaustif de dimension finie k pour θ est que la vraisemblance s’écrive sous la forme spécifique : [x|θ] = h(x, c)β(θ, c)eT1 (x,c)α1 (θ)+T2 (x,c)α2 (θ)+...+Tk (x,c)αk (θ)

(7.2)

136

Le raisonnement bayésien

où les αj (θ) sont linéairement indépendants, c’est-à-dire qu’il n’existe pas des constantes λ1 , λ2 , ..., λk telles que : λ1 α1 (θ) + λ2 α2 (θ) + ... + λk αk (θ) = 0,

∀θ

Cet énoncé, valable, sous des conditions de régularité générales et si le domaine X de x ne dépend pas de θ, constitue le théorème de KoopmanDarmois. La distribution [x|θ] est alors dite appartenir à une famille exponentielle d’ordre k. On a déja rencontré les familles exponentielles rattachées à l’utilisation du concept d’entropie au chapitre 4. Les deux modèles binomial et normal des exemples 2 et 3 exhibaient des distributions appartenant à des familles exponentielles (respectivement d’ordre 1 et d’ordre 2). Nous utiliserons une forme modifiée de ces familles exponentielles. On supposera que la fonction β(θ, c) intervenant dans l’équation (7.2) peut être mise sous une forme particulière : β(θ, c) = eTk+1 (c)αk+1 (θ)+Tk+2 (c)αk+2 (θ)+...+Tk+r (c)αk+r (θ) où les Tj (c) (pour j = k + 1, ...k + r) dépendent uniquement des caractéristiques constantes de l’information. La vraisemblance d’une famille exponentielle modifiée s’écrit alors :  j=k

[x|θ] = h(x, c)e

7.3 7.3.1

j=1

Tj (x,c)αj (θ)+

 j=k+r

j=k+1

Tj (c)αj (θ)

(7.3)

Densité conjuguée d’un modèle exponentiel modifié Construire la distribution conjuguée

D’après la forme de l’équation (7.3), il est clair que la distribution conjuguée de cette vraisemblance exponentielle modifiée s’exprime en fonction d’un nombre limité à k + r constantes ϕj sous la forme :  j=k+r

[θ|ϕ] = const × e

j=1

ϕj αj (θ)

(7.4)

Les hyperparamètres ϕj s’appellent les paramètres naturels de la distribution [θ|ϕ] précédente sur θ (qui appartient elle aussi à une famille exponentielle). Raiffa et Schlaifer choisissent alors une distribution a priori de cette forme lorsque la vraisemblance du modèle appartenait à la famille exponentielle correspondante. La raison essentielle est que la forme (7.4) reste invariante lorsqu’on applique la règle de Bayes, puisque seuls les paramètres ϕj sont modifiés.

7. Méthodes exactes et modèles unidimensionnels

137

La démonstration est immédiate :  j=k

e

[θ|x, ϕ] =  Θ

j=1

Tj (x,c)αj (θ)+

 j=k

e

 j=k+r

Tj (x,c)αj (θ)+

j=1

 j=k+r

[θ|x, ϕ] = const × e

j=1

j=k+1

 j=k+r

j=k+1

Tj (c)αj (θ)+

 j=k+r

Tj (c)αj (θ)+

j=1

 j=k+r j=1

ϕj αj (θ) ϕj αj (θ)



(x,c) ϕj αj (θ)

(7.5)

(x,c)

où les hyperparamètres a posteriori ϕj

sont définis simplement :

(x,c)

(c) ϕj

= ϕj + Tj (x, c) pour j = 1, 2, ....k ϕj = ϕj + Tj (c) pour j = k + 1, k + 2, ....k + r

(7.6)

et sont appliqués aux mêmes fonctions αj (θ) qui elles restent identiques a priori et a posteriori. Bien entendu les paramètres naturels ϕj ne sont qu’une possibilité de paramétrages de la distribution de θ (via les αj (θ)). En pratique, pour les interpréter et les utiliser dans un calage d’expertise, on doit les relier aux paramètres usuels (moyennes, variances, quantiles, etc.) des distributions a priori plus aisément interprétables. La plupart des lois usuelles qu’un étudiant manipule au cours de son premier cours de probabilité est de type exponentiel. La section suivante donne un tableau des lois conjuguées associées en utilisant les paramètres usuels.

7.3.2

Extensions aux mélanges des propriétés de conjugaison

Supposons θ réel pour simplifier l’écriture, et soit [θ|ϕ] une famille de conjuguées naturelles par rapport à un modèle où existe un résumé exhaustif T (x). alors la distribution mélangée : [θ|π(ϕ)] =

i=p

πi [θ|ϕi ]

(7.7)

i=1

où π(ϕ) est la distribution finie {πi } sur les ϕi est aussi conjuguée par rapport au même modèle. A posteriori, la distribution {πi } s’applique sur les p valeurs ϕi + T (x). Cette extension des propriétés de conjuguaison se généralise également à des mélanges continus (ou convolutions) aussi bien qu’au cas θ multidimensionnel.

7.4

Distributions conjuguées pour les modèles les plus courants

Le tableau récapitulatif 7.1 présente les distributions conjuguées naturelles associées à un certain nombre de modèles classiques utilisables pour un néchantillon indépendant. Les colonnes donnent :

138

Le raisonnement bayésien

– – – –

le nom du modèle ; sa vraisemblance ; la densité conjuguée associée (exprimée en paramètres usuels) ; les relations a priori →a posteriori sur les paramètres usuels (compte tenu des relations 7.6 entre paramètres naturels). Dans ce tableau, on notera que l’information utilisée sera exprimée par x : éventuellement discret (binomial ou Poisson), ou réel. L’indice x caractérisera donc les paramètres a posteriori. Les paramètres du modèle seront des minuscules grecques alors que les hyperparamètres (paramètres des priors et posteriors) sont ici des minuscules latines. Le modèle normal est noté avec 2 un paramètre de précision τ = 1/σ inverse de x ¯ et s2 désignent  la variance. traditionnellement les statistiques xi /n et (xi − x ¯)2 /n. Modèle

Vraisemblance

Conjuguée (paramètres usuels)

binomial (x, θ, n) Poisson (x, θ, n)

Cnx θx (1 x e−nθ θx!

(1−θ) bêta : θ B(a,b) 1 gamma : ba γ(a) e−θ/b θa−1

normal, τ connu

τ n − ( 2π ) e i=1

exponentielle

θn e

normal



− θ) θ ∈ [0, 1] θ ∈ [0, +∞[

i=n  i=1

n−x

i=n 

2 τ 2 (xi −θ) )

θxi

i=n  − τ n/2 i=1 ( 2π ) e

2 τ 2 (xi −θ) )

αnγ −nα¯ x n(γ−1) g Γn (γ) e

Modèle binomial (x, θ, n) Poisson (x, θ, n) normal, τ connu

Conjugué bêta(a, b) gamma(a, b) normal(m, s2 )

exponentielle



θ e

i=n  i=1

θxi −

i=n 

2 τ 2 (xi −θ) )

τ n/2 ( 2π ) e

gamma

αnγ −nα¯ x n(γ−1) g Γn (γ) e

b−1

2 2 √ 1 e−n(θ−m) /(2s ) 2πs2

1 −θ/b a−1 θ ba Γ(a) e a−1 (τ ) exp[− τ ]× √ −τ n0b(θ−m)2 /2

const × ... × const × τ e ah−1 const × αΓ(hγ) exp[− αb ]× ... × const × e−cγ−h log Γ(γ)+log Γ(hγ) Mise à jour des paramètres usuels ax = a + x, bx = n − x b ax = a + x, bx = b+n 2 s .¯ x s2 2 mx = m+nτ 1+nτ.s2 , sx = 1+nτ.s2 gamma :

normal

i=1

normal : gamma :

gamma

n

a−1

1 −θ/b a−1 θ ba Γ(a) e a−1 (τ ) exp[− τ ]× √ −τ n0b(θ−m)2 /2

const × ... × const × τ e ah−1 const × αΓ(hγ) exp[− αb ]× ... × const × e−cγ−h log Γ(γ)+log Γ(hγ)

Table 7.1 – Tableau des conjuguées naturelles.

Notons que les modèles binomial et Poisson du tableau dans lequel x est réel s’appliquent aussi à des n-échantillons où la statistique x est considérée comme résumé exhaustif (tels que la somme de n-échantillons de Bernoulli, binomial, Poisson). La vraisemblance normale où θ est un scalaire réel sera écrite :

7. Méthodes exactes et modèles unidimensionnels

(√

1 2πσ 2



) e n

i=n  i=1

(xi −θ)2 /(2σ 2 )

139

i=n   τ n − i=1 τ.(xi −θ)2 ) =( ) e 2π

où τ = σ12 est appelée la précision de la distribution normale. La vraisemblance gamma(b, γ) , où b est le paramètre d’échelle standard et γ est le paramètre de forme, sera écrite : i=n 

i=1 1 e− b bnγ Γn (γ)

xi

i=n  i=1



xγ−1 i



α α Γ(nγ) n(γ−1) = n .e−nα¯x g n(γ−1) = e−nα¯x × n g Γ (γ) Γ(nγ) Γ (γ)

en posant α =

1 b

où x ¯ et g sont respectivement les moyennes arithmétique et géométrique des x. En ce qui concerne les conjuguées de ce modèle on notera que : 1. conditionnellement à γ fixé α est distribué, a priori comme a posteriori, selon une distribution gamma gampdf (α, hγ) ; 2. la distribution marginale de γ n’est pas standard [γ|c, h] = const × e−cγ−h log Γ(γ)+log Γ(hγ) mais elle est calculable numériquement aisément (pour autant que γ ne soit pas trop grand).

7.5

Applications de l’inférence par les distributions conjuguées naturelles

La forme (7.5) ne donne que la distribution conjointe de l’ensemble des paramètres θ1 , θ2 , .., θj , ..θp . Faut-il encore trouver, au mieux analytiquement, les distributions marginales ou conditionnelles intéressantes pour les problèmes concrets en main. Dans ce paragraphe, nous illustrons par des exemples comment rechercher des solutions analytiques à ces problèmes.

7.5.1

Exemple 2 de la pollution bactériologique

 Dans ce cas de contrôle de pollution par les coliformes (voir 111), l’information est résumée par le nombre s de stations sur n stations mesurées où au moins une bactérie a été observée et la vraisemblance déduite du modèle binomial peut s’écrire : θ

[x|θ] = Cns θs (1 − θ)n−s = Cns es log 1−θ +n log(1−θ)

140

Le raisonnement bayésien

soit sous la forme (7.5) avec : T1 (x, c) = s θ α1 (θ) = log 1−θ

T2 (c) = n α2 (θ) = log(1 − θ)

Inférence Le prior conjugué naturel est θ

[θ|ϕ] = const × eϕ1 log 1−θ +ϕ2 log(1−θ) = const × θϕ1 (1 − θ)ϕ2 −ϕ1 ce qui est une distribution bêta dont les paramètres usuels (a, b) (voir aussi l’équation (2.6)) sont liés de façon biunivoque aux paramètres naturels (ϕ1 , ϕ2 ) par : a = ϕ1 + 1 et

b = ϕ 2 − ϕ1 + 1

En appliquant la règle de Bayes on trouve donc la densité de la distribution a posteriori associée à ce prior : (x,c)

[θ|x, ϕ] = const × eϕ1 avec

(x,c)

ϕ1

log

(c) θ 1−θ +ϕj

= ϕ1 + s = a + s − 1 et

log θ

= const × θa+s−1 (1 − θ)b+n−s−1

(c)

ϕ2 = ϕ 2 + n = b − a − 2

Exprimée en termes des paramètres usuels, c’est la distribution bêta qui a été utilisée pour le même exemple dans la première partie formule (2.12) à la page 35 avec décalage de paramètres : [θ|x, a, b] =

θa+s−1 (1 − θ)b+n−s−1 B(a + s, b + n − s)

(7.8)

Procédure de collecte et vraisemblance Supposons maintenant qu’une autre procédure de collecte de données soit envisagée sur le réseau au cours d’une campagne : observons successivement une à une, mais au hasard, les stations jusqu’à ce qu’on constate dans l’ensemble obtenu, s stations polluées avec cette fois s fixé au départ. On dit qu’une station est polluée si l’échantillon d’eau qu’on y prélève contient au moins un coliforme. Appelons de la même façon n > s le nombre de stations échantillonnées nécessaires jusqu’à la se station polluée. On notera que c’est maintenant n qui est le résultat d’une variable aléatoire et non pas s qui est ici fixé. La vraisemblance s’écrit alors : θ

n−s s n−s n log(1−θ)+s log 1−θ [x|θ] = Cn−1 θ (1 − θ)n−s = Cn−1 e

C’est ici la vraisemblance du modèle binomial négatif. On retrouve une forme exponentielle, en fait identique à la première à une fonction de s seul près. Si bien que la distribution a posteriori conjuguée naturelle est identique

7. Méthodes exactes et modèles unidimensionnels

141

à 7.8 pour la même distribution a priori. Les deux procédures de collecte (n fixé d’un coté, s fixé de l’autre) ne se différencient que par les règles d’arrêt de la collecte qui sont toutes deux indépendantes de la grandeur inconnue θ. Conséquence de cette indépendance, les inférences bayésiennes seront identiques car basées dans les deux cas sur la même distribution a posteriori. Cet exemple est important sur le plan conceptuel car le paradigme bayésien s’y distingue notablement du paradigme classique qui, lui, donnerait des résultats d’inférence très différents pour ces deux procédures de collecte.

Prédiction Le modèle bêta-binomial précédent va nous permettre, à titre d’exercice, d’introduire simplement une notion utile : celle de distribution prédictive de la fréquence de stations polluées sur une campagne future de N stations échantillonnées. On supposera que l’information sur θ est le résultat d’une campagne préalable qui a dénombré s stations polluées sur n. Le modèle bêta-binomial nous indique que la distribution prédictive du nombre K de stations polluées sur N au cours de cette campagne future est :  [k|N, n, s] =

k CN

0

1

θk (1 − θ)N −k [θ|n, s]dθ

(7.9)

En utilisant le prior conjugué bêta, on a :

 1 k CN θk+s+a−1 (1 − θ)N −k+n−s+b−1 dθ (7.10) B(a + s, b + n − s) 0 C k B(k + s + a, N − k + n − s + b) [k|N, n, s] = N B(a + s, b + n − s)

[k|N, n, s] =

Les lecteurs de culture probabiliste reconnaîtront dans la formule (7.10) un modèle d’urne de Polya (Feller, 1968) : au départ, on dispose d’une urne avec a boules blanches et b boules noires. Après chaque tirage, on remet dans l’urne deux boules : celle tirée et une de la même couleur. La loi prédictive de Sn est ainsi générée par un mécanisme de type bootstrap (Efron et Tibshirani, 1984) par suréchantillonnage à partir d’une répartition a priori de référence des valeurs possibles de cette variable (Fortin et al., 1997). Il peut être utile de résumer cette distribution sous forme de prévision ponctuelle en adoptant, par exemple, l’espérance prédictive, déduite directement de la première forme

142

Le raisonnement bayésien

intégrale en intervertissant les sommations : E(K|N, n, s) =

N

k × [k|N, n, s]

k=0

E(K|N, n, s) =

1 B(a + s, b + n − s)



k k+s+a−1 kCN θ (1 − θ)N −k+n−s+b−1 dθ

0 k=0  s) 1 s+a

N B(a + s, b + n − B(a + s, b + n − s) a+s E(K|N, n, s) = N n+a+b E(K|N, n, s) =

N 1

θ

0

(1 − θ)N −k+n−s+b−1 dθ (7.11)

a et b sont les paramètres a priori. Une façon de représenter la complète ignorance a priori sur θ (en dehors des résultats de la campagne préliminaire) est de poser une distribution uniforme c’est-à-dire a = b = 1. On en déduit : E(

K s+1 |N, n, s) = N n+2

(7.12)

Cette formule (initialement proposée par Laplace pour le modèle binomial) donne la prévision de la fréquence future du nombre d’événements étudiés (ici les stations polluées) sur N observations futures en fonction des informations du passé. Elle s’applique à tous les types d’événements dont l’occurrence est représentée par le modèle bêta-binomial.

7.5.2

Exemple 3 des saumons revisité

 Cet exemple a commencé à être traité page 46. La vraisemblance s’écrit avec θ = {μh , μp , μh , σ} ⎛ nh ⎞ np

 h  p h 2 p 2 nb +np +nh  − μ + x x − μ j ⎟ 1 1 ⎜ j=1 j j=1 ⎟ √ [x |θ ] = exp − 2 ⎜ n b ⎝ ⎠

 b 2 2σ σ 2π + xj − μh j=1

(7.13) Sous l’exponentielle se trouve une somme de trois formes quadratiques dont chacune peut être développée sous la forme suivante (avec x ¯ moyenne des x) : n j=1

2

(xj − μ) =

n

x2j − 2n¯ xμ + nμ2

(7.14)

j=1

de telle sorte que la vraisemblance devient : ⎛ nh np nb  h 2   nb +np +nh  (x ) + (xhj )2 + (xbj )2 − 2(nh x ¯h μh j ⎜ 1 ⎜ j=1 1 j=1 j=1 √ [x|θ] = exp − 2 ⎝ +np x ¯p μp + nb x ¯h μh ) + ... 2σ σ 2π h 2 2 2 +nh μ + np (μp ) + nb μb

⎞ ⎟ ⎟ ⎠

7. Méthodes exactes et modèles unidimensionnels

143

Inférence Il s’agit d’une famille exponentielle avec : nh 

Tj ; j = 1, 2, 3, 4

np 

(xhj )2 +

j=1

j=1

(xpj )2 +

nb 

(xbj )2

nh x ¯h

np x ¯p

μh σ2

μp σ2

j=1

− 2σ1 2

αj ; j = 1, 2, 3, 4 nb +np +nh 2 2

Tj ; j = 5, 6, 7, 8 αj ; j = 5, 6, 7, 8

− log σ

nh h2 − μ2σ2

np μp2 − 2σ 2

nb x ¯b (7.15) μb σ2

nb μb2 − 2σ 2

Cet exemple avait été traité avec une densité a priori donnée par (2.11). Elle  ne débouchait pas sur une forme explicite de la loi a posteriori μh , μb , μp , σ|x . Le prior (2.11) n’était donc pas un prior conjugué. La distribution a priori conjuguée naturelle sera ici :  ϕ 5 1 1 [θ|ϕ] = exp(− 2 Q) (7.16) σ 2σ 2 2 2 Q = ϕ1 − 2ϕ2 μh − 2ϕ3 (μp ) − 2ϕ4 μb + ϕ6 μh + ϕ7 (μp ) + ϕ8 μb Il n’est pas facile de reconnaître directement la structure de cette distribution conjointe. Pour cela on doit l’exprimer autrement, réarranger la part de l’exposant entre parenthèses et utiliser à rebours la formule (7.14) pour chaque μ comme dans le cas de μh ci dessous : 2 ϕ2 2 ϕ22 ) − ϕ6 μh − 2ϕ2 μh = ϕ6 (μh − ϕ6 ϕ6 D’autre part et comme dans l’exemple de la première partie, il est commode d’utiliser le paramètre 1/σ 2 sans changer la structure exponentielle. Comme auparavant nous l’appelerons précision en le notant τ = 1/σ 2 si bien que la distribution conjointe s’écrit : τ ϕ2 ϕ2 ϕ2 exp − (ϕ1 − 2 − 3 − 4 + 2 ϕ6 ϕ7 ϕ8 ϕ2 2 ϕ3 2 ϕ4 2 h p ϕ6 (μ − ) + ϕ7 (μ − ) ) ) + ϕ8 (μb − ϕ6 ϕ7 ϕ8

ϕ5 /2

[τ, μa , μp , μh ] ∝ (τ )

soit en changeant de paramètres ; [θ|ϕ] ∝ (τ ) avec

a−1



τ τ 3 exp − ( 2

2 b

+ λh (μh − mh )2 + λp (μp − mp )2 + λb (μb − mb )2 )

a = (ϕ5 + 1)/2 λ h = ϕ6 λ p = ϕ7 λ b = ϕ8

b=

ϕ2

2

ϕ2

ϕ2

4) (ϕ1 − ϕ2 − ϕ3 − ϕ8 6 7 ϕ2 mh = ϕ6 3 mp = ϕ ϕ7 ϕ4 mb = ϕ 8

(7.17)

144

Le raisonnement bayésien

Les domaines (−∞, +∞) des paramètres de position μh , μp , μb étant indépendants du domaine de τ , l’intégration par rapport à ces paramètres donne la distribution marginale de τ :

a−1

[τ ] ∝ (τ )

τ exp −( ) b

On reconnaît une distribution gamma(a, b). C’est pourquoi la distribution de σ 2 = 1/τ est dite gamma − inverse(a, b) . Il suffit d’appliquer la règle des probabilités composées en divisant [θ|ϕ] par cette densité marginale pour obtenir la distribution conditionnelle des paramètres de position conditionnelle à τ ou σ fixé. On voit alors immédiatement que, conditionnellement à τ fixé, les trois paramètres de position sont indépendants et distribués selon des lois normales respectives N (mh, , √λ1 τ ), h N (mp, , √ 1 ), N (mb, , √λ1 τ ). λp τ

b

L’intérêt de ce modèle conjugué ( 7.6) est que les distributions marginales de chaque μ (ou plus généralement de toutes combinaisons linéaires des paramètres de position μ) peuvent être obtenues aisément. Prenons le cas de μh . On a :

a−1/2

[τ ,μh ] ∝ (τ )

τ 2 exp − ( + λh .(μh − mh )2 )) 2 b

donc :  [μh ] =

[τ, μh ]dτ τ

[μh ] ∝

1 [1 + λh b(μh − mh )2 ](2a+1)/2

On retrouve la forme de la densité de distribution de Student déjà présentée à la page 80 du chapitre 4. La première partie de l’annexe A en décrit les propriétés en √ détail à la page 331. Plus précisément, cette formule montre que la quantité 2λh ba(μh − mh ) est distribuée selon une loi de Student standard à ν = 2a degrés de liberté. Bien entendu, la distribution de Student s’applique pour les lois marginales a posteriori aussi bien que pour les lois a priori après modifications des paramètres naturels en utilisant les relations entre paramètres naturels (7.17) appliquées aux T du tableau 7.1. On peut les exprimer en paramètres standards des distributions gamma et conditionnelles normales (à τ fixé), soit :

7. Méthodes exactes et modèles unidimensionnels

a(x,c) = a +

nb + np + nh 2 np nh nb    (xhj − x ¯h )2 + (xpj − x ¯p )2 + (xbj − x ¯b )2

[b(x,c) ]−1 = b−1 + (x,c)

λh

(x,c)

mh

j=1

j=1

j=1

2 (x,c)

= nh + λh , λ(x,c) = np + λp , λ b p =

145

= nb + λ b

nh x np x nb x ¯ + λh mh (x,c) ¯ + λp mp (x,c) ¯b + λb mb , mp = , mb = nh + λ h np + λp nb + λb h

p

On remarquera que le modèle de prior conjugué naturel (7.16) est proche du modèle de prior (2.11), non conjugué, utilisé dans l’exemple 3 de la première partie : il possède les mêmes marges en chacun des quatre arguments σ, μa , μp et μh , mais il existe une dépendance entre les μa , μp , μh et σ. Application numérique pour l’exemple 3 des saumons Par rapport à la distribution a priori utilisée dans la première partie, l’utilisation de la conjuguée naturelle permet des calculs analytiques complets. Pour ce qui concerne le paramètre τ , les deux modèles de priors sont identiques à une distribution gamma d’hyperparamètres a = 3, 4 et b = 0, 004. Par contre, ils diffèrent pour le paramètre de position μ. Il est toujours difficile pour un expert d’éliciter une distribution conditionnelle de μ liée à un autre paramètre τ tout autant incertain pour lui. C’est pourquoi il est préférable d’utiliser la distribution a priori marginale de chacun des μ qui est une loi de Student dans le cas conjugué. Mais, connaissant a et b, cette loi dépend de deux hyperparamètres m, λ que nous supposerons identiques pour les trois paramètres de position μ. Une méthode pratique d’élicitation de la distribution de Student passe par la méthode dite des quantiles. Nous renvoyons le lecteur à l’annexe A, page 334, qui présente le détail de l’élicitation du prior conjugué pour l’exemple des saumons. Ici, on peut utiliser les valeurs mμ = 100 et sμ = 10 que l’expert a pu éliciter directement précédemment mais en les interprétant cette fois comme moyenne et écart-type de la distribution de Student correspondant au prior conjugué : = mμ = 100 = 2λba 2a = 1, 42 = 2a−2

m Var(t) s2μ soit λ

=

1 bs2μ (2a−2)

=

250 480

= 0, 52

Ces valeurs numériques s’appliquent aux trois stations. Étudions la distribution marginale a priori de l’écart δ = μb − μh . Notons que d’après le modèle, le prior de δ pour τ fixé est une distribution normale que nous écrirons : N (0, τ ( λ1b + λ1h )) = N (0, 3, 85τ ).

146

Le raisonnement bayésien

Compte tenu du prior gamma indépendant de τ et selon l’annexe A, la distribution marginale a priori de δ est donc une Student ; plus précisément  λh λb 2 λh +λb ba(δ − 0) est distribué selon la Student standard à ν = 2a degrés de liberté. En revenant aux données INRA de l’exemple 3, on a : x ¯b = 118, 05, nb = 20 x ¯h = 105, 17, nh = 12 nh  j=1

(xhj − x ¯h )2 +

np  j=1

(xpj − x ¯p )2 + 2

nb  j=1

(xbj − x ¯b )2 = 4776, 9

En appliquant la propriété des  conjuguées et les formules de passage a b priori→a posteriori, on voit que 2 (12+0,52)(20+0,52) ¯b + 32 1+4776,9b (a + 59)(δ − x x ¯h ) est a posteriori distribué selon Student standard à ν = 65, 8 degrés de liberté. Pour un tel nombre de degrés de liberté cette distribution est d’ailleurs pratiquement confondue avec une normale centrée réduite. Donc, en remplaçant les paramètres par leurs valeurs numériques, δ est approximativement distribuée a posteriori selon une loi normale d’espérance 12, 88 et d’écart-type 2, 24 dont la figure 7.1 montre la densité.

Figure 7.1 – Distribution marginale a posteriori de l’écart δ de longueur de saumon entre aval et amont de la pisciculture.

7. Méthodes exactes et modèles unidimensionnels

147

Cette distribution est nettement concentrée vers les valeurs positives de δ, ce qui s’interprête comme une quasi-certitude que l’écart moyen de taille entre l’amont et l’aval de la pisciculture dépasse 6 mm (avec une valeur la plus probable de 13 mm). Conclusion 2 Dans cet exemple, l’information objective apportée par la campagne de pêches est assez importante pour valider l’hypothèse d’un effet très significatif de la pisciculture sur la taille des saumons des populations amontaval.

7.6

Calculs analytiques exacts de la distribution a posteriori d’un quantile normal

Pour illustrer plus complètement les méthodes de calcul exactes, nous allons calculer la densité et un intervalle de crédibilité pour le quantile d’une loi normale dont on posséde un n-échantillon indépendant. Le quantile qp de probabilité de non-dépassement p est tel que p = [X ≤ qp ].  up 2 u Donc, avec p = √12π −∞ exp(− u2 )du, on a qp = θ + √pτ (en utilisant les notations paramétriques du tableau des conjuguées). Nous utilisons un modèle de prior conjugué naturel. La lecture du tableau 7.1 nous apprend que la densité conjointe a posteriori des paramètres est telle que : bτx est distribuée selon Y = √ gamma(ax , 1) et λx τ (θ − mx ) est distribuée selon une normale U = N (0, 1) pour τ fixé. Les quantités indexées par x sont les paramètres a posteriori, soit :

ax = a +

n−1 , bx = 2

2b 2+b

i=n 

(xi − x ¯)2

i=1

mx =

mλ + n¯ x , λx = λ + n λ+n

Il en résulte aussi que U (comme fonction conjointe des deux variables aléa√ λ τ (q toires θ√et τ ) et Y sont indépendants en probabilité. Alors comme x p− √ √ √ mx ) = λx τ (θ − mx ) + λx up et donc λx τ (qp − mx ) = U + λx up , on peut écrire quelle que soit la valeur de τ : √  U + λx u p √ λx bx (qp − mx ) = Y √ On voit sur cette formule que λx bx (qp − mx ) est marginalement distribué selon un rapport de deux variables √ indépendantes : une variable normale (d’écart-type 1 mais de moyenne δ = λx up ) au numérateur et une racine carrée d’une gamma(ax , 1) au dénominateur.

148 Année TWH Année TWH

Le raisonnement bayésien 1983 214,0 1992 193,3

1984 188,3 1993 168,5

1985 156,2 1994 185,4

1986 190,0 1995 158,6

1987 184,3 1996 172,0

1988 162,7 1997 174,8

1989 154,3 1998 167,5

1990 181,2 1999 211,3

1991 158,9 2000 181,1

Table 7.2 – Données de production en TWH annuels.

La première partie de l’annexe A montre page 331√que le résultat de cette opération aléatoire est, à la constante multiplicative 2ax près, une variable t(δ) dite de Student décentrée avec paramètre de décentrement δ et 2ax degrés de liberté.  2λx ax .bx (qp − mx ) = Student d´ ecentr´ e(2ax , δ) Le modèle normal est un des rares modèles où les calculs analytiques exacts de distributions a posteriori de quantiles sont possibles. Exemple 9 : Le tableau 7.2 donne l’équivalent énergétique total annuel X en terawattheures (TWH) des apports hydrologiques du Québec sur 18 ans de 1983 à 2000. On suppose que X est distribué indépendamment chaque année selon une loi normale N (θ, τ ).  Si on accepte le modèle normal, les données se résument par les statistiques exhaustives : i=n n = 18, x ¯ = 177, 9, (xi − x ¯)2 = 5262, 2 i=1

Avec un prior quasi non informatif (m = a = λ = 0, b = 10 0000), ces données peuvent être introduites dans les formules précédentes. Signalons que les bibliothès de nombreux outils de calcul scientifique comme R ou Matlab, contiennent les lois de Student préprogrammées. On peut ainsi tracer les densités et calculer les deux intervalles de crédibilité à 90 % de la moyenne θ (correspondant à la médiane q0,5 ) et du neuvième décile q0,9 , appelé également quantile décennal dans le jargon hydrologique. C’est une grandeur utile pour l’ingénieur. Par exemple quand on planifie de nouveaux ouvrages, on comprend bien qu’une valeur telle que q0,9 jouera un rôle pour aider à caractériser la rentabilité et l’accroissement de fiabilité du nouvel ouvrage par rapport à l’existant face aux aléas hydrologiques. Les intervalles de crédibilité à 90 % sont : θ q0,9

lim inf lim sup 172, 8 183, 0 188, 3 202, 5

 Le traitement de cet exemple se poursuit au chapitre 8 page 162.

7. Méthodes exactes et modèles unidimensionnels

149

Figure 7.2 – Densités a posteriori de la moyenne θ et de q0,9 (n = 18 années).

7.7

Au-delà des distributions conjuguées naturelles

Il existe bien d’autres modèles exponentiels où l’on peut employer les conjuguées naturelles même de façon partielle comme dans l’exemple 3 à la page 46. Mais répétons que l’existence de tels modèles tient plutôt d’un miracle mathématique et il est bien des problèmes où ils ne peuvent être employés. Il faut d’ailleurs mettre en garde le lecteur contre la tentation de modifier la structure d’un modèle réaliste pour la mettre sous une forme où le prior serait calculable commodément, fût-il conjugué naturel. Si la commodité de calcul est seule en question on observera qu’il n’est nul besoin de prendre des priors commodes dans les « petits » modèles ne comportant qu’un ou deux paramètres. La formule de Bayes : [θ1 , θ2 |x] =  

[x|θ1 , θ2 ][θ1 , θ2 ] [x|θ1 , θ2 ][θ1 , θ2 ]dθ1 dθ2

peut être calculée par divers procédés numériques quelle que soit la distribution a priori [θ1 , θ2 ] sans difficultés dans ce cas. Nous en verrons des exemples plus loin. Même si la vraisemblance est de structure exponentielle, il peut être difficile d’utiliser la conjuguée naturelle. Revenons à l’exemple 2 et supposons que la probabilité de présence de coliformes soit fonction d’une caractéristique z

150

Le raisonnement bayésien

d’environnement observée sur le réseau au moment de la campagne de mesure, par exemple la température du réseau. On dispose alors de p campagnes avec des couples (si , zi avec i = 1 à p) observés. Les si sont toujours des réalisations binomiales mais avec des θi variables liées aux zi . Mais peut-on encore utiliser les conjuguées bêta ? Si c’était possible il faudrait relier les hyperparamètres a et b aux zi , par exemple sous une forme linéaire : ai = α0 + α1 zi bi = β0 + β1 zi Or les paramètres usuels d’une bêta sont nécessairement positifs. Le respect de ces contraintes dans la procédure n’est pas simple et on perd le bénéfice des conjuguées. Il est plus commode remplacer le prior bêta par une distribution non conjuguée obtenue par une transformation [0, 1] → [−∞, +∞], qui respecte les contraintes sur θ. Un modèle de prior très couramment rencontré considère θ le reparamétrage logit ψ = log 1−θ et la distribution a priori telle que : ψi = α0 + α1 zi + ζi où les ζi sont normaux indépendants N (0, σ) Bien que plus parcimonieux que le précédent, ce modèle à trois hyperparamètres ne peut être traité analytiquement. C’est également le cas des modèles de type Poisson dont nous trouverons des exemples dans le paragraphe suivant sur les méthodes approchées asymptotiques. À cet état d’avancement, malgré la commodité des propriétés de conjugaison, le modélisateur reste donc sur sa faim, à la recherche d’une solution opérationnelle efficace à tous ses problèmes et sans limitations imposées par la structure éventuellement complexe du modèle. Que le lecteur impatient maîtrise son anxiété jusqu’aux algorithmes de simulation dont l’exposé termine la seconde partie de ce livre.

Épilogue La grande variété des modèles exponentiels (notamment parmi les distributions courantes) et les méthodes de conjuguées naturelles offrent bien des avantages calculatoires. Nous avons donné une conclusion à un exemple : la pisciculture exerce une influence significative sur la taille des saumons juvéniles de la rivière Scorff. Sur deux nouveaux exemples, nous avons montré que les calculs peuvent être complètement menés jusqu’à leur terme. Mais travailler avec un prior conjugué ne peut être d’usage universel. Est-ce acceptable d’imposer une structure mathématique pour encoder le savoir d’un expert ? Quand bien même il accepterait de rentrer dans ce moule, est-il sensé de demander à un expert (qui ne l’est pas nécessairement dans le domaine de la statistique) de juger de paramètres dont il ne comprend pas directement la signification dans

7. Méthodes exactes et modèles unidimensionnels

151

le monde observable ? Pourtant l’élicitation des priors fait partie de la tâche de modélisation primordiale en statistique bayésienne. Les structures conjuguées et leurs principales propriétés doivent être absolument maîtrisées par l’apprenti-modélisateur car elles pourront être utiles comme briques élémentaires dans des méthodes de simulation plus efficaces pour les modèles complexes. C’est pourquoi le chapitre suivant insiste sur les mêmes outils mais cette reprise se décline dans un cadre où les observables sont multidimensionnelles.

Notes de lecture Dans leur livre fondamental de 1961, Raiffa et Schlaifer ont introduit les conjuguées naturelles en même temps que leurs applications à une série de problèmes généralement à caractère économique (Raiffa et Schlaifer, 1961). On trouvera dans ce livre une quantité de modèles aussi bien mono- que multidimensionnels. Les auteurs ne se sont pas contentés de présenter les méthodes d’inférence, ils ont poussé l’analyse jusqu’à des essais de solutions des problèmes décisionnels utilisant les fonctions d’utilité. On doit également à Raiffa et Schlaifer la distinction claire entre analyse extensive bayésienne et analyse normale qui permet de dégager le pont entre approche bayésienne et approche classique. Une autre présentation analytique est celle de Box et Tiao, 1973, qui ont inventorié systématiquement les méthodes bayésiennes dans le cadre non informatif a priori et pour le modèle normal et ses extensions. Ils utilisent leur propre conception de distributions non informatives, dites localement uniformes qui sont le plus souvent des limites de distributions a priori propres. L’intérêt du livre est de montrer que, si souvent les méthodes bayésiennes dans ce cadre recoupent les méthodes classiques, il est des cas où elles s’opposent. Pour traiter ces cas particuliers difficiles, l’approche bayésienne conserve la même ligne de raisonnement probabiliste et apparaît souvent plus convaincante que les approches ad hoc classiques. On pourra enfin consulter Sivia, 1996, au titre d’exemple d’un ouvrage pédagogique élémentaire d’application des méthodes bayésiennes inspiré par les idées de Laplace et la conception nécessaire et logique des principes bayésiens selon Jaynes.

Chapitre 8

Méthodes analytiques exactes pour représentations multidimensionnelles Prologue Le calcul analytique complet des distributions a posteriori par conjugaison est possible également pour deux structures multidimensionnelles couramment rencontrées : la loi normale pour les grandeurs continues et la loi multinomiale pour les variables discrètes. Les conjugées sont respectivement des modèles normaux, ainsi que le modèle de Dirichlet. Les modèles multinormaux se présentent sous diverses formes. Le livre classique de Raiffa et Schlaifer, 1961 en donne de très nombreuses variantes. Ce chapitre en illustre d’abord deux exemples dont les applications possibles sont les plus nombreuses. La seconde partie du chapitre est consacrée au modèle multinomial-Dirichlet. On montre d’abord comment ses propriétés généralisent celles du modèle bêta-binomial. Quelques perpectives non paramétriques de ce modèle fructueux, notamment le bootstrap, sont finalement esquissées.

8.1 8.1.1

Un cas particulier de modèle normal Vraisemblance

Soit un vecteur aléatoire X de n lignes (i.e n × 1) multinormal Nn (μ, Σ) où μ est le vecteur n × 1 des espérances mathématiques, Σ est la matrice des variances et covariances n×n supposée régulière (de rang n i.e |Σ| = 0) telle que xT Σx est définie positive quel que soit x (on rappelle que x est, par convention

154

Le raisonnement bayésien

une réalisation quelconque de X) ; par définition :   1 −k/2 −1/2 T [x|μ, Σ] = (2π) |Σ| exp − tr[Σ−1 (x − μ) (x − μ) ] 2

(8.1)

Note 8.1 On note AT la transposée de la matrice A et tr l’opérateur trace. tr(A) donne la somme des valeurs de la diagonale principale de la matrice A. |Σ| désignera le déterminant de la matrice Σ. On utilise ici la propriété de l’opérateur trace tr,avec tr(AB) = tr(BA) quand les produit AB et BA sont définis pour deux matrices A et B, pour exprimer une forme quadratique selon l’identité : (x − μ) Σ−1 (x − μ) = tr(Σ−1 (x − μ) (x − μ) ) T

T

Soit un modèle normal particulier où le vecteur μ est relié à un vecteur à k < n dimensions de paramètres θ sous la forme : μ = Aθ + B

(8.2)

On supposera de plus que A, B et Σ sont fixés, de valeurs connues et de dimensions adéquates pour que les opérations matricielles aient un sens. Application 8.1 Un appareil destiné à des mesures en nature a été préalablement étalonné en laboratoire et sa variance d’erreur aléatoire σ 2 est donc connue. Cependant, selon l’endroit où il est plaçé, cet appareil ne mesure une grandeur physique Z qu’avec des erreurs systématiques constante θ1 et proportionnelle θ2 incertaines. Étalonné dans un site fixé, l’appareil a fourni n observations {x1 , x2 , .xi ....xn } indépendantes associées à des valeurs {z1 , z2 , ...zn }, spécifiées connues par ailleurs. Le modèle précédent peut s’appliquer à un tel contexte de mesurage en posant : B = 0, Σ = σ 2 In (In matrice identité de rang n)     θ1 1 1 ....1 ... 1 θ= AT = θ2 z1 z2 ....zi .. zn On a : μ = E(X) = Aθ + B,

Σ = σ 2 In

(8.3)

La répétition des n mesures peut poser des problèmes de stabilité des conditions qui assurent la permanence des biais θ1 et θ2 . Dans ce cas où les paramètres θ peuvent varier avec le temps, il faut imposer un ordre chronologique aux indices i, considérées comme des dates de mesures. Les raisonnements séquentiels de l’approche bayésienne sont particulièrement adaptés à ce type de problèmes. C’est ainsi que pour tenir compte des évolutions possibles des θ les priors peuvent représenter des dépendances markoviennes de type conditionnel [θ(i) |θ(i−1) ].

8. Représentations multidimensionnelles

8.1.2

155

Inférence statistique

La vraisemblance s’écrit : 1 1 exp[− (x − Aθ − B)T Σ−1 (x − Aθ − B)] [x|θ] =  n 2 (2π) ||Σ|| 1 [x|θ] ∝ exp[θT AT Σ−1 (x − B) − θT AT Σ−1 Aθ] 2 La deuxième forme montre la partie essentielle pour appliquer la formule de Bayes : on peut incorporer ce qui ne dépend que des données x dans la constante puisque les raisonnements a posteriori sont conditionnels à x fixé. Le prior conjugué naturel est : 1 [θ|ϕ] = const × exp[θT ϕ1 − θT ϕ2 θ] 2 Il appartient à une famille exponentielle où les paramètres matriciels ϕ ont les dimensions matricielles adéquates. C’est aussi une distribution multinormale à n dimensions que nous écrirons sous la forme standard usuelle : [θ] = 

1 (2π)n

1 exp[− (θ − M )T S −1 (θ − M )] 2 |S|

En développant l’exposant comme pour la vraisemblance et en identifiant, on obtient les relations : ϕ1 = S −1 M ϕ2 = S −1 qui sont applicables a posteriori comme a priori d’après la propriété d’invariance de la forme conjuguée naturelle. Maintenant l’application de la règle de Bayes à la conjuguée donne (selon la règle d’additivité des exposants) : (x,e1 )

ϕ1

(x,e)

ϕ2

= ϕ1 + AT Σ−1 (x − B) = ϕ2 + AT Σ−1 A

En exprimant les paramètres naturels en fonction des paramètres normaux standards, on a : [S (x,e) ]−1 M (x,e) = AT Σ−1 (x − B) + S −1 M [S

(x,e) −1

]

=S

−1

+A Σ T

−1

(8.4)

A

Ces relations déterminent complètement la distribution normale a posteriori.

156

Le raisonnement bayésien

8.1.3

Extensions à l’approximation de lois non normales

Ces équations sont importantes car elles peuvent être utilisées dans le cas d’un modèle plus général que le modèle normal avec lequel on les a déterminées. Supposons que le modèle du vecteur observation x soit tel que : x = A + Bθ +  où  est distribué selon une loi quelconque de matrice de covariances Σ (connue comme A et B), et donc indépendante de θ. Résumons l’incertitude a priori sur θ par sa moyenne M et sa matrice de covariances S sans préciser autrement la distribution a priori. Alors les moyennes et matrice de covariances a posteriori sont données par la formule 8.4 quelle que soit la forme des distributions des  et du prior de θ. Bien entendu la distribution a posteriori peut ne pas être normale. Comme autre simplification supplémentaire, prenons θ réel monodimensionnel, A = 0 et B un vecteur colonne constitué de n valeurs égales à 1, de plus Σ = σ 2 In comme dans notre exemple. C’est de fait le cas d’un n−échantillon indépendant d’espérance θ et de variance fixée. Les paramètres a priori M = m et S = s2 sont donc des scalaires. Il est aisé de trouver alors : s2 σ 2 ns2 + σ 2 ¯n + mσ 2 ns2 x = ns2 + σ 2

(s(x,e) )2 = m(x,e)

La moyenne a posteriori est une combinaison linéaire de la moyenne a priori et de la moyenne empirique de l’échantillon observé. On remarque que la variance a posteriori tend vers 0 à mesure que n augmente et que l’écart entre la moyenne a posteriori m(x,e) et x ¯n calculé sur cet échantillon tend également vers 0 et ceci quel que soit m et s différent de 0. On retrouve sur cet exemple les propriétés de convergence asymptotique vers la moyenne, version bayésienne de la loi des grands nombres.

8.2

Modèle multinormal général

Le modèle général multidimensionnel 8.1 présente également une structure exponentielle qui le rattache à la théorie présentée dans le chapitre précédent. Comme en statistique classique, on peut profiter des propriétés particulières des hypothèses gaussiennes pour obtenir des distributions a priori conjuguées naturelles et pousser les développements analytiques. Cependant et comme dans le cas classique, l’augmentation de la dimension des vecteurs impose une structure assez contraignante à ce modèle multinormal. Notons en particulier qu’il impose, au moins du point de vue de la rigueur, que toutes les régressions conditionnelles soient linéaires et que toutes les distributions conditionnelles,

8. Représentations multidimensionnelles

157

quel que soit leur ordre, soient normales. On ne vérifie jamais cela en détail et on se contente souvent de ne valider que les marges. Mais cette vérification est loin d’être suffisante si k, la dimension de la structure, est plus grand que 2. Ce modèle impose en effet la loi normale à toutes les distributions conditionnelles et marginales et donc la linéarité des régressions d’une compoosante sur une autre. De ce point de vue, sa robustesse peut facilement être en question pour nombre de problèmes. De plus, si k n’est pas limité à quelques unités, le nombre de paramètres est très grand : il y a k(k + 1)/2 paramètres qui composent la matrice de variance ! Conséquence pratique, une des difficultés récurrentes de l’approche bayésienne sera l’élicitation a priori de tous ces paramètres, ceux de la loi a priori de Σ notamment. Le modèle conjugué prior-posterior est appelé multinormal-Wishart et généralise le modèle unidimensionnel normal-gamma. De façon analogue au paragraphe précédent (où cependant n sera remplacé dorénavant par k), considérons : – un vecteur X (réalisations x) de k lignes (i.e k × 1) multinormal Nk (μ, Σ) où μ est un vecteur k × 1, Σ est une matrice k × k régulière (de rang k c’est-à-dire |Σ| = 0) telle que xT Σx est définie positive ; donc :   1 −k/2 −1/2 T [x|μ, Σ] = (2π) |Σ| exp − tr[Σ−1 (x − μ) (x − μ) ] 2 – Soit x = {x1 , x2 , ..., xn } un n−echantillon indépendant de réalisations de X:   n 1 −nk/2 −n/2 T [x|μ, Σ] = (2π) |Σ| exp − tr[Σ−1 ((xi − μ) (xi − μ) )] 2 i=1 (8.5) Le modèle multinormal-Wishart est le conjugué naturel pour cette vraisemblance vis-à-vis de μ, Σ (propriété des familles exponentielles auxquelles appartient le modèle (8.5)). Note 8.2 Dans ce chapitre, les lois normales s’exprimeront avec la matrice de précision P = Σ−1 , en lieu et place de la matrice de variance Σ. Après changement de variables passant à la matrice de précision P , ce modèle est défini comme suit : 1. Une distribution dite de Wishart Wk (P |P0 , ν) pour le paramètre matriciel P (dit de précision) et de dimensions k(k+1) puisque P est symétrique ; 2 sa densité est :  

1 1 (ν−k−1)/2 −1 [P |P0 , ν] = |P | exp − tr P P0 ν/2 2 K(ν, k) |P0 |

k avec P0 matrice k × k réguoù K(ν, k) = 2νk/2 π k(k−1)/2 i=1 Γ ν+1−i 2 lière et ν(entier) > k. La distribution correspondante de Σ = P −1 est dite Wishart inverse Wk−1 (Σ|P0 , ν).

158

Le raisonnement bayésien

2. Une distribution conditionnelle multinormale de μ pour P fixé :

[μ|P, m0 , λ)] = (λ/2π)

k/2

1/2

|P |



 1 T exp − tr[λP (μ − m) (μ − m) ] 2

où m est un vecteur a priori et λ est un scalaire a priori Au total, le modèle de priors bâti sur ces conjuguées naturelles est assez complexe. Notons une forme de distribution a priori peu informative souvent utilisée pour Σ, il s’agit de la densité impropre : −(k+1)/2

[μ, Σ] ∝ |Σ|

Quand k = 1 ce prior impropre donne [μ, Σ] ∝ σ12 où σ 2 est la variance du modèle. Ce n’est pas tout à fait le prior usuel égal à σ1 qui permet des comparaisons avec l’inférence classique non bayésienne (Box et Tiao). Il en résultera une différence dans les degrés de liberté. Si on fait le changement de variable P = Σ−1 le prior non informatif correspondant au modèle normal-Wishart de−(k+1)/2 . Ce prior est en effet la limite du conjugué Wishart vient [μ, P ] ∝ |P | inverse quand la précision a priori tend vers 0 avec ν comme on le verra plus loin. Même si ce prior généralise dans une certaine mesure les errements classiques unidimensionnels (k = 1), il semble moins intuitif à plusieurs dimensions. Dawid et al., 1973, ont découvert quelques paradoxes à l’encontre de ce prior, notamment pour ce qui concerne les marges.

8.2.1

Inférence sur le modèle multinormal avec prior multinormal-Wishart

Le détail des propriétés des distributions normale et Wishart est donné en première partie de l’annexe B. Il est possible de mener le calcul analytique des distributions a posteriori associées au modèle multinormal général sur lequel l’information disponible est un n-échantillon indépendant. Comme noté au début de ce chapitre nous utiliserons la reparamétrisation en terme de précision P = Σ−1 . Revenons à la vraisemblance d’un n−échantillon multinormal et au prior conjugué naturel multinormal-Wishart. La vraisemblance s’écrit : 

−nk/2

[x|μ, P ] = (2π)

n/2

|P |

 n 1 T exp − tr{P (xi − μ) (xi − μ) } 2 i=1

(8.6)

8. Représentations multidimensionnelles

159

Maintenant : n

T

(xi − μ) (xi − μ) =

i=1

n

T

((xi − x ¯) + (¯ x − μ)) ((xi − x ¯) + (¯ x − μ))

i=1

=

n

T

T

(xi − x ¯) (xi − x ¯) + n((¯ x − μ) (¯ x − μ)

i=1 T

= Sn + n((¯ x − μ) (¯ x − μ) n T en posant (xi − x ¯) (xi − x ¯ ) = Sn i=1

La loi a posteriori est multinormale-Wishart En substituant cette décomposition à la somme dans l’exposant de la vraisemblance et en multipliant celle-ci par la densité du prior multinormal-Wishart on obtient le posterior à une constante près. Soit : 1 exp(− tr[P (Sn + P0−1 )]) 2 1 1/2 × |P | exp(− tr[P (Q1 + Q2 )] 2 T T où Q1 = n (¯ x − μ) (¯ x − μ) , Q2 = λ (μ − m0 ) (μ − m0 ) (n+ν−k)/2

[μ, P |x] ∝ |P |

mais : xT + λmT0 ) − (n¯ x + λm0 )μT + n¯ xx ¯T + λm0 mT0 Q1 + Q2 = (n + λ)μμT − μ(n¯ nλ (¯ x − m0 )(¯ x − m0 )T = (n + λ)(μ − mx )(μ − mx )T + n+λ n¯ x + λm0 avec mx = n+λ Donc en regroupant les termes où les paramètres interviennent : [μ, P |x] ∝ |P |

(νx −k+1)/2

1 exp(− tr[P (Px−1 )]) 2

1 exp(− tr[λx P (μ − mx )(μ − mx )T ] 2 n¯ x + λm0 avec mx = , λx = n + λ n+λ nλ (¯ x − m0 )(¯ Px−1 = Sn + P0−1 + x − m0 )T n+λ 1/2

× |P |

νx = n − 1 + ν,

Il en résulte donc a posteriori que : – P est distribué comme un Wishart Wk (P |Px , νx )

(8.7)

(8.8)

160

Le raisonnement bayésien

– pour P fixé, μ est conditionnellement distribué selon une multinormale Nk (mx , λ1x P −1 ) Pour retrouver la solution résultant du prior non informatif, il suffit de poser : λ = ν = 0 et P0−1 = 0, forme limite des priors où l’information tend vers 0. Calcul analytique des distributions marginales Pour obtenir la distribution marginale du vecteur μ, on doit intégrer la distribution conjointe 8.7 par rapport à P. Pour cela on utilise la proposition figurant dans l’annexe B à ce chapitre puisque :  [μ|x] =

 [μ, P |x]dP ∝

|P |

(νx −k+1)/2

donc [μ|x] ∝

1 exp(− tr[P [Px−1 +λx (μ−mx )(μ−mx )T ]dP 2 (8.9) 1

[1 + λx (μ −

mx )T Px (μ

− mx )](νx −k+1)/2+1

(8.10)

L’équation (8.10) est la forme d’une distribution de Student multivariable. Le théorème suivant résume ceci : Théorème 8.1 La distribution marginale du vecteur μ est multi-Student tk (Px , νx ). Corollaire 8.1 La distribution scalaire de toute coordonnée μ1 est Student unidimensionnelle t1 (P11x , νx ) où P11x est l’élément de la diagonale principale correspondant de Px . Considérons la forme quadratique : T 2 = λx (μ − mx )T Px (μ − mx )

(8.11)

En utilisant le résultat 8.11, on a : [T 2 ] ∝

(T 2 )(k−1)/2 [1 + T 2 ](νx −k+1)/2+1

C’est la distribution marginale dite du T 2 de Hotelling (voir l’annexe B pour ce chapitre). Par simple changement de variable on aboutit à : Théorème 8.2 La distribution marginale de F = Snedecor à k et νx − k + 1 degrés de liberté.

νx −k+1 2 T k

est un Fisher

D’après les propositions 10 et 11 de l’annexe B, ces résultats se généralisent à tout modèle où le posterior de P est Wishart Wk (P |Px , νx ) et où on a des paramètres u = Cμ tels que μ ∝ Nk (mx , λ1x P −1 ).

8. Représentations multidimensionnelles

161

Complexe 1 2 3 4 Moyenne annuelle (Twh) 13, 34 9, 18 9, 55 8, 24 Variance (Twh)2 3, 248 2, 618 4, 190 2, 104 Complexe 5 6 7 8 Moyenne annuelle (Twh) 9, 48 20, 13 73, 74 32, 29 Variance (Twh)2 2, 447 7, 680 244, 80 32, 923 Matrice de corrélation 1 −0, 02 −0, 16 −0, 31 −0, 14 0, 11 −0, 16 −0, 02 1 0, 7 0, 14 0, 00 0, 20 −0, 05 0, 14 1 0, 58 0, 37 0, 21 0, 22 0, 38 0, 81 0, 33 0, 24 0, 12 1 0, 60 0, 47 0, 34 1 0, 81 0, 55 1 0, 53 1 Table 8.1 – Statistiques exhaustives du système HydroQuébec à huit complexes.

8.2.2

Modèle multinormal sur l’exemple 9

Nous développons l’exemple 9 (page 148) du système de l’HydroQuébec constitué de huit complexes dont la production annuelle est représentée par un vecteur X à huit coordonnées dont le tableau 8.1 donne les statistiques exhaustives (moyennes, variances et partie supérieure de la matrice de corrélations empiriques) sur les dernières années : On a donc admis ici le modèle multinormal N (μ, Σ) pour le vecteur de production annuelle et le prior représenté par le modèle conjugué multinormalWishart. Une propriété intéressante de ce modèle est la facilité avec laquelle on peut analyser la distribution annuelle de tout vecteur Y = cT X combinaison linéaire des x, ce qui permet d’étudier aisément les productions comparées des productions des sous-systèmes. Ici, nous nous contenterons d’étudier la production totale : Ytot = cT X avec cT = {1, 1, 1, 1, 1, 1, 1, 1} Pour le calcul qui suit, il est particulièrement simple d’approcher les formules analytiques par des simulations (ici 5 000 tirages) et notamment celle de la loi de Wishart donnée précédemment. La plupart des logiciels scientiques comme R ou MATLAB ont des routines de simulation des distributions normales multivariables et autres, mais pas directement pour ce qui concerne j=ν Wishart. Pour celle-ci on peut utiliser la propriété suivante : si P = j=1 uj uTj où les uj = Nk (0, A) sont des vecteurs normaux indépendants, alors H = Wk (A, ν). La figure 8.1 illustre le maniement de cette distribution de Wishart en calculant la distribution a posteriori de la variance de Ytot soit Var(Ytot ) =

162

Le raisonnement bayésien

cT Σc = cT P −1 c, et compare ce résultat avec le calcul analogue résultant d’une hypothèse d’indépendance mutuelle des complexes dans ce cas la variance serait la somme des variances.

Figure 8.1 – Distributions a posteriori de la variance annuelle de la production

totale.

Conclusion 3 Les valeurs moyennes de ces deux distributions sont respectivement : 300 Twh2 (indépendance) et 555 Twh2 (dépendance) ce qui montre la grande sensibilité de la prévision des productions à la dépendance entre les complexe énergétiques. Le graphique de la figure 8.2 montre la distribution a posteriori de la moyenne μtot de la production totale annuelle. L’exemple se poursuit page 167 où l’on propose une méthode non paramétrique d’estimation.

8.2.3

Données multivariées dont certaines composantes sont partiellement manquantes

On trouvera ci-après une application du modèle multinormal Wishart où k = 3. Il s’agit d’un cas de données manquantes généralisant l’exemple 9 du chapitre 5. Exemple 10 (LaGrande) Le système de production électrique exploité par la Société HydroQuébec est constitué en fait de huit complexes énergétiques

8. Représentations multidimensionnelles

163

Figure 8.2 – Distribution a posteriori de la moyenne de la production totale

annuelle. dont les apports annuels X successifs sont supposés distribués selon le modèle multinormal. Cependant, les données de l’un des plus importants : le complexe La Grande (X3 ) sont supposées de valeur confirmée sur la période 1986-2001. Mais deux complexes voisins Churchill Falls (X1 ) et Outardes (X2 ) disposent de 15 années de données supplémentaires, depuis 1971.  Calculée sur la période récente commune, voici la matrice de corrélation de X1 , X 2 , X 3 . 1 − −

0, 59 0, 68 1 0, 58 − 1

qui montre une liaison assez moyenne entre les apports annuels des trois systèmes. Nous allons utiliser le modèle général multinormal N3 (μ, Σ) comme distribution du vecteur X1 , X2 , X3 associé à son prior conjugué dont nous prendrons ici la forme non informative limite. Comme cela a déja été indiqué au chapitre 5 les observations manquantes doivent être prises en compte pour chaque vecteur X observé incomplétement c’est-à-dire pour X possédant des coordonnées manquantes. Une observation manquante z (cas de X3i pour i = 1 à 15 de notre exemple) sera ainsi une réalisation d’un vecteur normal unidimensionnel Nk1 (μ3z , Σ33 )

164

Le raisonnement bayésien

où Σ33 est l’élément de la partition correspondante de Σ. Cette observation manquante sera un sous-vecteur du X que  l’on  vecteur    xz   x1      tel que  peut compléter par le sous-vecteur observé associé xz =  x2  z      μxz   Σ11 Σ12    est normal N3 (  μz , Σ21 Σ33 ) Compte tenu de l’indépendance supposée entre les vecteurs de données, y compris des vecteurs avec données manquantes, la conditionnelle complète de chaque z ne dépend, outre les paramètres, que du sous-vecteur xz qui lui est directement relié, soit : [z|x, μ, Σ] = avec μz(x)

=

et Σ33

=

N1 (μz(x) , Σ33 )

(8.12)

μz + Σ−1 11 Σ12 (xz − Σ33 − Σ31 Σ−1 11 Σ13

μxz )

(8.13) (8.14)

 Ces formules, associées aux expressions des distributions a posteriori conditionnelles complètes permettrons la construction de l’algorithme de Gibbs décrit au chapitre 13, page 276, pour mener l’inférence de cet exemple.

8.3 8.3.1

Le modèle multinomial-Dirichlet Le conjugué naturel du modèle multinomial

Un autre modèle multidimensionnel important en statistique est le modèle multinomial-Dirichlet. Soit un vecteur X = {x1 , ..., xj , ...xk } dont les coordonj=k nées, à valeurs discrètes entières positives ou nulles, sont telles que j=1 xj = n et n est supposé fixé. Pour le modèle multinomial j=k la densité ou probabilité élémentaire de tout vecteur discret x vérifiant j=1 xj = n, s’écrit : j=k 

n!

[x|θ] = j=k j=1

xj !

x

θj j avec θj ≥ 0 et



θj = 1

(8.15)

j=1

Cette distribution appartient à une famille exponentielle avec les paramètres naturels ϕj = log(θj ). La distribution multinomiale, véritable passe-partout de la panoplie statistique, intervient comme vraisemblance du vecteur des probabilités θj correspondant aux k classes de fréquences xj déduites d’un n-échantillon indépendant j=k quelconque ( j=1 xj = n). Le tableau 8.2 rappelle ses principales propriétés. En suivant Ferguson, 1973, on sait qu’une distribution conjuguée naturelle de la multinomiale est la distribution de Dirichlet D(a, k), singulière dans Rk et définie par :  j=k Γ( aj )  aj −1 [θ] =  θ avec aj > 0 Γ(aj ) j=1 j

(8.16)

8. Représentations multidimensionnelles Vraisemblance j=k xj j=1 θj x !

n!  j=k j=1

Conjuguée (paramètres usuels)  Γ( aj ) j=k aj −1  j=1 θj Γ(aj )

j

165

Mise à jour ax,j = aj + xj ∀j

Table 8.2 – conjugaison multinomiale-Diriclet.

L’annexe B rappelle les propriétés de cette distribution et ses liens avec les lois bêta et gamma.

8.3.2

Inférence pour l’exemple 4 du loto-foot

Reprenons l’exemple 4 avec ses développements donnés dans les chapitres 1 et 2, et à la page 118. Considérons la rencontre entre les équipes i =Monaco + − = et j =Marseille. Elle est régie par le triplet (πij , πij , πij ). Au chapitre 2, le prior construit pour ce triplet est en fait une loi de Dirichlet (5/3, 10/3, 2, 14). On − vérifiera que cela revient en effet à dire que la loi marginale de πij = 1 − πij est une loi bêta de paramètres 5 et 2, 14 (cf. tableau 2.4) et que la loi conditionnelle − = de πij sachant πij est une loi bêta de paramètres 5/3 et 10/3 réajustée par le

− − = . Considérons les données x+ facteur d’échelle 1 − πij ij , xij , xij des rencontres entre l’équipe i et l’équipe j que nous prenons en compte pour remettre à jour + − = notre prior sur (πij , πij , πij ). La vraisemblance s’écrit :

− = + − = x+ ij + xij + xij ! + xij = xij − xij + = − πij πij πij xij ! xij ! xij ! Si trois matchs joués entre i =Monaco et j =Marseille ont donné deux victoires − = à Monaco et un nul alors x+ ij = 2, xij = 1, xij = 0 et la loi a posteriori est encore une Dirichlet, cette fois de paramètres (5/3 + 2, 10/3 + 1, 2, 14 + 0) Á la page 202, on poursuit le travail d’inférence sur cet exemple, avec le modèle plus compliqué hiérarchique échangeable proposé page 118.

8.4

Extensions vers le non-paramétrique

Le modèle multinomial-Dirichlet a pris une importance notable en statistique bayésienne depuis les travaux de Ferguson, 1973, qui ont conduit au développement des méthodes bayésiennes non paramétriques. Nous allons nous arrêter sur les développements que le modèle lui-même a subi, mais nous ne donnerons ici qu’une présentation heuristique des idées de base. 1. Le modèle multinomial-Dirichlet s’applique à l’inférence sur tout échantillon d’une distribution quelconque absolument continue partitionnée en classes. 2. Un échantillon de toute distribution F (x) représentée sur n’importe quelle partition finie de son domaine X par un ensemble de probabilités θj , peut être décrit par ce modèle selon l’approximation multinomiale. L’idée est

166

Le raisonnement bayésien de partir de cette propriété de base pour probabiliser a priori l’ensemble F des distributions en approximant chaque F (x) par un ensemble {θj } pour une partition assez fine sur laquelle le modèle Dirichlet s’applique. Pour cela, il est nécessaire de définir une mesure positive α(x) sur X , mesurable telle que les paramètres aj des éléments wj de chaque partition sont égaux à aj = α(wj ). La quantité α0 = α(X ) est un paramètre homogène au cardinal d’un échantillon et α0 = 0 peut représenter une distribution non informative sur l’ensemble des distributions approchées sur les partitions.

3. Les propriétés de la distribution de Dirichlet garantissent la validité des conditions dites de Kolmogorov. Rappelons que ce sont les conditions qui assurent la cohérence du calcul des probabilités marginales et conditionnelles quelle que soit la partition sur F considérée. Ces propriétés définissent le processus stochastique dit de Ferguson. 4. Le processus de Ferguson est conjugué dans le sens où, compte tenu d’un n-échantillon indépendant {x1 , x2 , ...xn }, il reste valable a posteriori mais la mesure caractéristique αx des distributions de Dirichlet est alors modifiée par l’information :

αx (wj ) = α(wj ) +

n

δxi (wj ) ∀wj

i=1

8.4.1

avec δx (wj ) = 

1 si x ∈ wj 0 si x ∈ / wj

(8.17)

Application du modèle Dirichlet au bootstrap bayésien

Supposons qu’on se trouve en situation non informative a priori représentée par la mesure α0 = α(X ) = 0 et que l’on possède un n−échantillon {x1 , x2 ....xn } d’une distribution réelle F (x) absolument continue quelconque et qu’on ordonne par ordre croissant {x∗1 < x∗2 .... < x∗n }. Selon la théorie précédente la répartition {θ1 , ...θk } de toute partition de X est a posteriori distribuée selon une Dirichlet D(αx , k) avec αx (wj ) = n i=1 δxi (wj ) pour tout wj . Considérons alors le domaine ] − ∞, x∗n ] et la n−partition engendrée sur ce domaine par les n − 1 premières observations supposées toutes différentes (ce qui est justifié selon l’hypothèse de distribution continue). Alors la distribution a posteriori de la répartition des θ associés, s’écrit : [θ|x] = [θ1 , θ2 , ..., θn−1 |x] =

j=n (n − 1)!  1−1 θ = (n − 1)! 1!...1! j=1 j

(8.18)

n car j=1 θj = 1 (on sait que cette distribution de Dirichlet est dégénérée dans R ).

8. Représentations multidimensionnelles

167

Soit le changement de variables de jacobien unité : π1 π2 πn−1

= θ1 = θ1 + θ2 ... = θ1 + θ2 + ... + θn−1

Alors : [π|x] = (n − 1)! ce qui signifie que les πi croissants sont distribués comme les valeurs d’un échantillon ordonné de n − 1 variables uniformes sur [0, 1]. Cette propriété a suggéré à Rubin, 1981 une méthode de simulation non paramétrique a posteriori des distributions associées à un échantillon fini {x1 , x2 ....xn } (méthode appelée bootstrap bayésien). Algorithme 3 (bootstrap bayésien) 1. Tirer un (n-1)-échantillon indépendant uniforme sur [0, 1] : u1 , u2 , ...un−1 , 2. L’ordonner : u∗1 < u∗2 < .. < u∗n−1 3. Calculer : θ¯1 = u∗1 , θ¯2 = u∗2 − u∗1 , ...θ¯n−1 = u∗n−1 − u∗n−2 et θ¯n = 1 − u∗n−1 4. La distribution {θ¯1 , θ¯2 ....θ¯n } sur l’ensemble fini {x1 , x2 ....xn } peut ainsi être considérée comme une réalisation a posteriori non paramétrique de la distribution dont on dispose a priori d’un échantillon {x1 , x2 ....xn }. On notera que cette réalisation est une distribution discrète sur le support donné par l’échantillon. On peut considérer que toute caractéristique comme la variance σ 2 est une fonctionnelle de la distribution parente. On peut donc simuler une valeur a posteriori de cette caractéristique en écrivant : s2 =

i=n i=1

8.4.2

θ¯i (xi − m)2 avec m =

i=n

θ¯i xi

(8.19)

i=1

Boostrap bayésien sur l’exemple 9

Reprenons le complexe 7, le plus important du système énergétique géré par HydroQuébec (voir aussi page 162). Le modèle multinormal ayant été adopté plus haut, il est utile d’étudier la distribution de la variable X7 sur la base des valeurs annuelles disponibles. La figure 8.3 présente, pour chaque xi et dans un contexte non paramétrique la médiane et les limites de crédibilité à 10 et 90 % des probabilités de nondépassements associées à chaque valeur de l’échantillon. Le boostrap bayésien a été utilisé avec 10 000 tirages.

168

Le raisonnement bayésien

Figure 8.3 – Estimations non paramétriques de la fonction de répartition.

La ligne en tiretés représente le modèle normal, hypothèse utilisée précédemment. La largeur des intervalles de crédibilité ne permet pas une conclusion précise. Cependant, il semble que la distribution normale soit proche de la limite inférieure pour les valeurs de x plus petites que la moyenne. On peut également obtenir la distribution a posteriori de la variance, paramètre essentiel de l’inférence précédente. Pour avoir une idée de la validité de l’hypothèse de normalité, le tableau 8.3 compare les limites de crédibilité à 99 % des quantiles de cette distribution à ceux de la distribution analogue pour le modèle normal. Limite crédible 99 % Modèle normal Bootstrap bayésien

variance 291(T wh)2 172(T wh)2

Table 8.3 – Écartement des limites de crédibilité à 99 % des quantiles de la

variance.

Conclusion 4 On conclut ainsi que l’hypothèse de normalité tend à surestimer la variance des apports du complexe 7.

8. Représentations multidimensionnelles

169

Épilogue Voilà le lecteur muni des principaux outils de calcul conjugué pour les données continues (suivant un modèle normal) et les données catégorielles (suivant une loi multinomiale). La facilité de maniement des modèles multinormaux est trompeuse. Il est clair que l’élicitation a priori des distributions de si nombreux paramètres peut poser des problèmes en pratique tandis qu’à l’autre extrême l’utilisation de priors non informatifs n’est souvent qu’une commodité de calcul peu réaliste. Mais l’élicitation des priors fait partie de la tâche de modélisation primordiale en statistique bayésienne. C’est pourquoi, plus que les modèles multidimensionnels on privilégie des modèles à structure de corrélation particulière en s’appuyant par exemple sur des hypothèses de comportement echangeable entre certaines coordonnées. La théorie non paramétrique issue des processus de Ferguson : modèles de Dirichlet, Polya, etc. est destinée à un fort développement dont les applications potentielles sont nombreuses. Nous n’en avons donné qu’une introduction très succincte et le sujet est trop vaste pour y consacrer une part de ce livre. D’une certaine façon, le chapitre suivant nous renvoie une fois de plus à la nécessité de bien maîtriser le modèle normal : en effet, sous des conditions de régularité, on démontre que toutes les lois a posteriori ressemblent à la loi normale quand le nombre de données augmente et ce prochain chapitre montre comment tirer parti de cette propriété asymptotique pour l’inférence bayésienne.

Notes de lecture Le premier modèle multinormal présenté dans ce chapitre n’est autre que le point de départ des modèles appelés dynamiques linéaires extrêment utiles dans de nombreux domaines comme l’économie ou la commande des systèmes (voir Tiao et Zellner, 1964 et West et Harrison, 1989). En statistique bayésienne multivariable, il semble que les développements des modèles paramétriques aient plutôt suivi la voie des modèles échangeables qui seront discutés plus complétement dans la suite de ce livre. En matière de modèles multidimensionnels directement structurés comme les modèles gaussiens vus dans ce chapitre, il y a peu à signaler. L’hypothèse de normalité peut cependant être quelquefois en question dans le cadre multidimensionnel mais nous avons laissé de coté les modèles à marges non gaussiennes. Dans cette optique, les extensions utilisant la théorie des copules (Genest et Rivest, 1993 ; Nelsen, 1998) semblent promises à un développement intéréssant car leurs structures s’adaptent aisément au cadre hiérarchique, base de la modélisation bayésienne. C’est surtout le cadre non paramétrique qui a vu des développements importants tant théoriques qu’appliqués depuis les travaux de pionnier de Ferguson, 1973. Antoniak, 1974, a ainsi étendu les processus de Ferguson

170

Le raisonnement bayésien

au cas de mélanges de processus, ce qui permet de pallier le principal défaut du modèle Dirichlet, à savoir de ne permettre que la simulation de distributions discrètes (sur des ensembles dénombrables même si le prior est continu). Sethuraman et Tiwari, 1982, ont développé une formule de caractérisation des processus de Ferguson, évitant le découpage en classes. Ces développements concernent aussi le cadre bayésien prédictif. La distribution prédictive d’une fonction de répartition F (x), compte tenu d’un n-échantillon fixé, s’obtient par une généralisation de la loi dite de Polya. On considère un schéma d’urne constitué de deux urnes : – 1 : la première urne représente le prior F0 (x) affectée de son poids α0 (paramètre du modèle de Dirichlet correspondant) ; – 2 : la seconde urne contient (au départ) les n observations {x1 , x2 ....xn } affectée de son poids n. La méthode de tirage avec remise (Blackwell et Mac Queen, 1973) est alors la suivante : Algorithme 4 (bootstrap Polya) 0 1. On commence à tirer une valeur soit de l’urne 1 avec probabilité α0α+n soit de l’urne 2 avec probabilité α0n+n de façon non exhaustive et on ajoute un réplicat de la valeur tirée (quelle que soit son origine) dans l’urne 2. L’urne 2 contient donc n + 1 valeurs.

2. On tire une seconde valeur dans le mélange d’urne 1 et 2-modifiée avec les α0 probabilités respectives α0 +n+1 soit de l’urne 2-modifiée avec probabilité n+1 α0 +n+1 . 3. Le tirage avec remise est itéré jusqu’à l’obtention d’un échantillon de taille fixée r. Le cas de non-information a priori où α0 = 0 s’obtient en ne considérant que l’urne 2 et ses modifications successives. Si p est petit devant n le tirage Polya est proche de la méthode du bootstrap classique non bayésien. Lo, 1984, a utilisé la distribution prédictive en relation avec la technique de mélange d’Antoniak, en vue de l’estimation bayésienne de densités par noyaux.

Chapitre 9

Les méthodes asymptotiques Prologue Dans ce chapitre, nous nous limitons au cas où l’information x = {x1 , x2 , ...xn } est un n-échantillon iid (indépendant, identiquement distribué) de telle sorte que la vraisemblance s’écrit : [x|θ] =

i=n 

[xi |θ]

i=1

Les méthodes asymptotiques bayésiennes utilisent un développement limité de la distribution a posteriori [θ|x] lorsque n est assez grand. Les propriétés asymptotiques seront alors utilisées comme approximation de ce posterior. L’hypothèse asymptotique a été utilisée très tôt en statistique. Le premier utilisateur a été Laplace qui, indépendamment de son auteur historique, a retrouvé la formule de Bayes et utilisé les principes d’inférence bayésiens (Laplace, 1847). L’usage du mode a posteriori et les développements de la distribution au voisinage de ce mode lui sont dus. À l’époque moderne, les méthodes asymptotiques ont permis d’étendre les applications de l’approche bayésienne à des problèmes où l’information disponible était supposée suffisante en quantité. Ce chapitre montre d’abord pourquoi on peut se placer au voisinage du mode a posteriori : que le paramètre soit scalaire ou vectoriel, et comment le posterior est approximé par un développement limité où l’on reconnaît une loi normale. Nous illustrons alors sur quelques applications (dont un exemple de cas réel) comment mettre en œuvre l’approximation normale.

9.1

Utilisation des modes a posteriori

Un mode a posteriori est une valeur du paramètre θ = θˆ (éventuellement multidimensionnel) pour laquelle la fonction θ −→ [θ|x] atteint un maximum

172

Le raisonnement bayésien

local. Il se peut que cette distribution possède plusieurs modes. La recherche des modes multiples possibles est un problème délicat dont la solution peut passer soit par un algorithme déterministe (voir par exemple la méthode bien connue de Newton-Raphson ) soit par des techniques de simulation. Nous considérons par la suite le cas où il est raisonnable de supposer un seul mode θˆx réel pour la loi a posteriori [θ|x]. D’un point de vue décisionnel comme celui du chapitre 3, ce mode a une propriété intéressante d’optimalité. Si on adopte un coût d’erreur d’estimation nul dans [θ − , θ + ] et égal à 1 à l’extérieur, c’est-à-dire : C(d, θ) = 1d∈[θ−,θ+] alors le mode θˆx est l’estimateur de Bayes de  θ (la décision optimale) qui minimise le coût moyen a posteriori Cx (d) = C(d, θ)[θ|x]dθ lorsque l’écart  à θ (en-deçà duquel le coût est nul) est suffisamment petit. Ceci signifie que le mode est un estimateur localement optimal pour ce coût moyen appelé quelquefois 0/1. Il donne donc une information intéressante sur une caractéristique importante de la distribution a posteriori dans ce cas. Dans le cadre asymptotique, le mode a aussi une propriété utile. Il se confond souvent avec le mode de la vraisemblance dans le cas où la densité a priori est plate au voisinage du mode. C’est ce qui survient lorsque l’information apportée par la vraisemblance l’emporte sur la distribution a priori comme dans le cas de prior non informatif et de taille n d’échantillon assez grande. Application 9.1 (Poisson) Poisson :

: Supposons que [xi |θ] est une distribution de

[xi |θ] =

e−n(θ−xi log(θ)) xi !

(9.1)

La vraisemblance s’écrit alors : [x|θ] =

e−n(θ−¯x log(θ)) i=n i=1 xi !

où x ¯ est la moyenne du n-échantillon. Considérons un prior normal sur log (θ) . Posons ψ = log (θ) distribué comme N (m, σ). La distribution lognormale n’est pas un prior conjugué du modèle de Poisson mais son emploi peut être réaliste et commode pour assurer que θ soit positif. Comme la transformation logarithmique est monotone croissante, on peut raisonner directement sur ψ dont la densité a posteriori est : ψ

[ψ|x, m, σ] ∝ e−n(e

−¯ xψ)−

(ψ−m)2 2σ 2

On pourra vérifier que cette distribution possède un seul mode ψˆ qui vérifie : d[log ψ|x, m, σ] ψ−m ¯) − =0 = −n(eψ − x dψ σ2

9. Les méthodes asymptotiques

173

Le tableau 9.1 prend l’exemple où x ¯ = 2, 5, m = 1, 7, σ = 0, 5 avec différentes valeurs de n. Il fournit quelques solutions numériques à cette équation en utilisant les outils standards d’optimisation. On constate que lorsque n augmente, θ = eψ tend vers x ¯ (∀m, σ différent de 0 selon la formule). n θˆx

5 2, 985

10 2, 772

20 2, 645

100 2, 53

Table 9.1 – Calculs numériques du mode a posteriori pour la distribution de Poisson avec prior normal (¯ x = 2, 5, m = 1, 7, σ = 0, 5 ).

Bien entendu, ce type de résultats s’obtient également pour des paramètres vectoriels.

Comportement de la distribution a posteriori au voisinage du mode avec prior négligeable

9.2

Comment la distribution a posteriori se comporte-t-elle au voisinage du mode (dans un intervalle de petite amplitude  par exemple) et ceci pour une taille d’échantillon n assez grande ? La réponse conditionne la portée pratique de l’utilisation de ce mode comme caractéristique de la distribution pour de grands échantillons. On considérera le cas où la contribution de la distribution a priori est négligeable. C’est  le cas où le prior est sensiblement constant dans   ˆ un voisinage de θx (tel que θ − θˆx  ≤  pour θ réel) et donc : [θ|x] ≈ const × [x|θ] On posera pour simplifier l’écriture : log[x|θ] = L(θ). Notons d’emblée que le mode a posteriori θˆx est ici pratiquement égal au mode de cette log-vraisemblance L(θ).

9.2.1

θ est un paramètre réel scalaire

Soit le développement limité de Taylor pour L(θ) au voisinage de θˆ : log[θ|x] = const + L(θ) = const + L(θˆx ) + (θ − θˆx ) (θ − θˆx )2 ˆ I(θx ) + R(θ, x) 2 i=n 2 ∂ 2 L(θ) ∂ log[xi |θ] avec I(θ) = − = − ∂θ2 ∂θ2 i=1 ... −

∂L(θ) | ˆ ... ∂θ θ=θx

(9.2) (9.3)

174

Le raisonnement bayésien

(I(θˆx ) est nécessairement positif si θˆx est le mode). Le reste R(θ, x) du développement est tel que :     pour tout θ − θˆx  |R(θ, x)|



ε, ∀ε petit

(9.4)

→ 0 en probabilité quand n → ∞

(9.5)

Cette propriété résulte des propriétés classiques des estimations du maximum de vraisemblance (voir Lehman, 1983). Ce résultat permet de ne conserver le développement que jusqu’aux termes du second ordre inclus si n est assez grand. Le développement se simplifie en ˆ remarquant que ∂L(θ) ∂θ |θ=θˆx = 0 puisque θx est le mode de L. En revenant à la distribution a posteriori, on a donc : ˆ

[θ|x] ≈ const × e−I(θx )

ˆx )2 (θ−θ 2

C’est dire que, si n est assez grand, [θ|x] est approximativement une distribution normale d’espérance égale au mode θˆx de la vraisemblance et de variance égale à [I(θˆx )]−1 . Supposer n assez grand revient à se mettre dans les conditions de répétabilité des observations justifiant le paradigme statistique classique puisqu’on a admis ici l’hypothèse iid. C’est pourquoi un certain nombre de propriétés asymptotiques classiques sont applicables et s’interprètent aussi dans le cadre bayésien : inférences classiques et bayésiennes se rejoignent souvent à ce niveau. C’est ainsi qu’on peut démontrer, sous des conditions assez générales qui justifient par ailleurs le développement 9.2, la convergence en probabilité de la somme définissant I(θ) dans un voisinage de θˆx quand n → +∞ : ∂ 2 log[Xi |θ] 1 1 ∂ 2 log[xi |θ] → −E( ) I(θ) = − 2 n n i=1 ∂θ ∂θ2 i=n

2

2

L(θ) i |θ] ) = −E( ∂ ∂θ ). si bien qu’on peut remplacer I(θ) par IF (θ) = −nE( ∂ log[X 2 ∂θ 2 Attention, dans toutes ces expressions, l’espérance mathématique E(.) se prend sur la variable aléatoire X sachant θ. IF (θ) est connue comme la quantité d’information de Fisher. En fait, on a deux approximations asymptotiques possibles et leur performances comparées dépendent de cas d’espèce.

Application 9.2 (Poisson-suite) : Retour à l’exemple du modèle de Poisson où : i=n  L(θ) = − log( xi !) − n(θ − x ¯ log(θ)). i=1

9. Les méthodes asymptotiques

175

Donc : x ¯ θ2 1 IF (θ) = θ et θˆx = x ¯ I(θ) =

Ici I(θˆx ) et IF (θˆx ) sont égales : les deux approximations se rejoignent mais ce n’est pas le cas général.

9.2.2

θ est un paramètre k-dimensionnel

Appelons toujours θˆx le vecteur mode a posteriori. Le développement limité (9.2) se généralise et on l’écrit sous sa forme simplifiée où le coefficient de θ − θˆx est nul : 1 log[θ|x] = const − (θ − θˆx )T Σ(θˆx )−1 (θ − θˆx ) + R(θ, x) 2 où le reste a les mêmes propriétés que précédemment. Il en résulte que [θ|x] est asymptotiquement une loi multinormale d’espérance θˆx et de matrice de covariances Σ(θˆx ) telle que : i=n     ∂ 2 log[x |θ]   ∂ 2 log[Xi |θ]    i −1  (9.6) E( ) Σ (θ) = I(θ) = −   ≈ −n     ∂θk ∂θl  ∂θk ∂θl i=1 La notation Akl désigne ici la matrice composée d’éléments Akl en ligne k et colonne l avec 1 ≤ k, l ≤ n. D’autres méthodes asymptotiques basées sur les développements dits de Laplace sont présentées par exemple dans Robert, 1992. Dans certains cas, elles peuvent donner des approximations plus pré cises d’intégrales du type : U = u(θ)[θ|x]dθ pour θ réel. Cependant, ces cas sont assez spécifiques et nous nous bornons ici à la présentation de méthodes ayant une généralité et des possibilités d’application plus étendues. D’ailleurs les intégrales de type U seront, en pratique, plus adéquatement traitées par les méthodes de simulation présentées plus loin. Nous illustrerons les développements plus simples exposés plus haut sur le calcul d’un quantile d’une loi de Gumbel dont on possède un n-échantillon indépendant. Soit un n-échantillon indépendant de réalisations xi d’une variable dite de Gumbel, avec une densité paramétrée classiquement comme : [xi |ρ, u] = ρ. exp(−ρ(xi − u) − e−ρ(xi −u) ) Pour remplacer u, nous utiliserons un couple de paramètres θ = {μ, ρ} différent en posant u = logρ μ : [xi |ρ, u] = μρ exp(−ρxi − μe−ρxi )

176

Le raisonnement bayésien

La vraisemblance du couple de paramètres ρ, μ : [x|ρ, μ] = μn ρn exp(−ρ

n

n xi − μ( e−ρxi ))

i=1

i=1

Exemple 11 : Dans un but de prévision des conséquences des avalanches en montagne, il importe d’étudier les événements déclenchants. Parmi-ceux ci figurent les hauteurs totales de neige extrêmes cumulées sur 3 jours consécutifs, considérées généralement comme très significatives. C’est ainsi que pour caractériser le risque sur ces variables, les spécialistes en nivologie s’accordent le plus souvent sur l’utilisation du modèle de distribution de Gumbel, classique modèle des valeurs extrêmes que l’on applique sur le maximum à l’échelle annuelle des enregistrements de ces variables. Dans le cas de La Plagne, station des Alpes françaises, on dispose des données sur les chutes journalières de neige dont on a pu déduire celles de plus de trois jours dont le total maximal sur trois jours dépasse le seuil u = 50 cm au cours de la saison hivernale octobre - avril de 1972 à 1999. Le tableau 9.2 présente les totaux maximaux X observés au cours de cette période de 28 ans et rangés par ordre croissant.  47

48 58 58 60 66 67 68 69 69 78 78 79 87 88 89 97 100 102 102 103 108 109 112 115 137 137 154

Table 9.2 – Données ordonnées des chutes maximales de neige à la Plagne.

Pour traiter cet exemple, les pratiques courantes d’ingénierie s’appuieraient sur les seuls 28 maxima annuels, dont l’ajustement pour le modèle Gumbel est présenté sur la figure 9.1 en utilisant le logiciel Hyfran, 2000. Pour de telles données, la loi de Gumbel constitue un modèle acceptable. En effet, c’est un cas particulier de la loi généralisée des extrêmes présentée au chapitre 4 page 77. Écrivons la log-vraisemblance et les équations définissant le mode conjoint (μ, ρˆ) : n L(μ, ρ) = nlog μ + n log ρ − nρ¯ x − μ i=1 e−ρxi n ∂L n −ρxi =0 i=1 e ∂μ = μ − n ∂L n x + μ i=1 xi e−ρxi = 0 ∂ρ = ρ − n¯ μ =  n ne−ρxi  n i=1 −ρ(x −¯ i x). i=1 e −ρ(xi −¯ x). (x −¯ x ).e i i=1

ρˆ = −  n

On voit que l’équation définissant ρˆ est implicite et celle définissant μ est explicite si on connaît ρˆ. La matrice I s’écrit : n   n − i=1 xi e−ρxi 2 μ n  I= n − i=1 xi e−ρxi ρn2 + μ i=1 x2i e−ρxi

9. Les méthodes asymptotiques

177

Figure 9.1 – Ajustement de Gumbel aux chutes de neige maximales annuelles

de 3 jours. Il faut en prendre l’inverse pour obtenir les variances et covariances asymptotiques a posteriori des paramètres {μ, ρ}. Nous allons appliquer les formules asymptotiques précédentes pour déterminer la densité a posteriori asymptotique du quantile x0,9 (la hauteur de neige qui n’est dépassée, en moyenne annuelle, qu’une fois sur 10) ainsi qu’un intervalle de crédibilité à 90 %. Le quantile est relié aux paramètres du modèle par : xp =

log(μ) − log(− log(p)) avec p = 0, 9 ρ

Pour appliquer des formules asymptotiques approchées, on écrit le dévelopˆ, ρˆ : pement à l’ordre 1 de xp autour de μ μ, ρˆ)+ xp ≈ xp (ˆ

∂xp ∂xp ˆ)+ μ, ρˆ)+A(μ− μ ˆ)+B(ρ− ρˆ) |μ=ˆμ (μ− μ |ρ=ρˆ(ρ− ρˆ) = xp (ˆ ∂μ ∂ρ

C’est une relation linéaire approchée d’où l’on déduit que, si n est assez grand, xp est approximativement distribuée selon une loi normale d’espérance xp (ˆ μ, ρˆ) et de variance : V = A2 Var(μ) + B 2 Var(ρ) + 2ABCov(μ, ρ) Cette formule, dans laquelle les variances et covariances asymptotiques ont été obtenues par l’inverse de la matrice I (équation (9.6)), a permis le traçé

178

Le raisonnement bayésien

de la densité de la figure 9.2. Le tableau 9.3 donne l’intervalle de crédibilité asymptotique symétrique à 90 %. Cet intervalle se déduit de la distribution normale approchée de xp et est défini par [xp inf , xp sup ], avec : 1 − 0, 90 = 2



xp inf

−∞



+∞

[xp |x]dxp =

Quantile p = 90 % Borne inférieure xp 106, 8

[xp |x]dxp xp sup

Borne supérieure 145, 8

Table 9.3 – Intervalle de crédibilité asymptotique à 90 % pour le quantile 90 %

d’une distribution de Gumbel. Ce genre de calcul asymptotique est souvent employé en pratique pour donner une estimation de xp mais, hélas, sans qu’on en donne généralement la précision, alors que l’approximation normale asymptotique permet relativement facilement d’y associer une fourchette d’incertitudes.

Figure 9.2 – Distribution a posteriori asymptotique de x0,9 .

 L’exemple se poursuit page 197 par une autre méthode d’évaluation d’une valeur de projet.

9. Les méthodes asymptotiques

179

Épilogue Introduites très tôt par Laplace, les méthodes (bayésiennes) asymptotiques ont été pendant longtemps utilisées pour les applications en dehors des quelques modèles classiques, binomiaux et normaux des précurseurs. Si l’introduction des conjuguées naturelles permettait d’étendre le champ des méthodes analytiques, le praticien pouvait rester sur sa faim de méthodes réalistes dans de nombreux cas. Trop souvent, les méthodes asymptotiques furent utilisées en faisant fi des circonstances nécessaires à leur application correcte : pas assez de données, structure de la répartition donnant une très lente convergence vers une loi normale, etc. Le résultat de cette négligence était généralement une sousestimation de la variabilité des estimateurs allant de pair avec un optimisme fallacieux quant à leur précision. On verra au chapitre 10 que la précision du quantile décennal des hauteurs de neige est moins grande que ne le laisse supposer le tableau 9.3. Le champ calculatoire bayésien allait être complètement modifié au cours des dernières années par le développement considérable des méthodes de simulation. Le chapitre suivant entrouvre cette boîte de Pandore.

Notes de lecture Reprenons le cadre des hypothèses de ce chapitre où on dispose d’un néchantillon indépendant. Les propriétés asymptotiques des distributions a posteriori de paramètres réels ou vectoriels θ se rattachent à la théorie classique des estimateurs du maximum de vraisemblance qui elle-même se rattache aux développements du théorème de la limite centrale classique du calcul des probabilités. Une bonne présentation de ces propriétés peut être trouvée dans Lehman, 1983, ainsi que dans Loève, 1962. Théorème 9.1 (Lindeberg, Feller) : Soit une suite {Xi } de variables centrées indépendantes (de fonctions de répartition Fi ) et de variances respectives σi2 , i=n i=n et soit Sn = i=1 Xi et s2n = i=1 σi2 alors Ssnn converge en loi vers une distribution normale centrée réduite si et seulement si, pour tout ε > 0  1 x2 dFi (x) → 0 quand n → ∞ (9.7) s2n |x|≥εsn La condition ci-dessus, dite de Lindeberg, est notamment vérifiée si les Fi sont toutes identiques et donc possèdent une variance σ 2 constante. Ce théorème a une version multidimensionnelle (convergence en loi d’un vecteur moyen vers une loi normale de matrice de covariance Σ). Maintenant supposons que les variables soient donc identiquement distribuées selon F (x, θ) dépendant d’un paramètre pouvant être vectoriel. Comme

180

Le raisonnement bayésien

ci-dessus, nous appelerons L(θ) la log vraisemblance et θˆn une solution de l’équation ∂L(θ) ∂θ = 0. La validité des théorèmes ci-dessous demande que soient vérifiés des ensembles de conditions techniques. Ces conditions de régularité mathématique, non explicitées ici, sont à la fois nombreuses et complexes. Mais, en dehors de cas pathologiques ad hoc, elles sont généralement vérifiées par les modèles courants. Cependant, une de ces conditions mérite d’être soulignée : le support des variables Xi ne doit pas dépendre des paramètres θ. Par exemple, la loi GEV utilisée pour les modèles d’extrêmes (voir chapitre 4) ne respecte pas cette exigence. Théorème 9.2 Sous des conditions de régularité de la vraisemblance, il existe une solution θˆn de l’équation ∂L(θ) ∂θ = 0 qui maximise L(θ), dite estimateur du maximum de vraisemblance et qui est tel que si ∀θ0 tel que les Xi sont distribués selon F (x, θ0 ) alors θˆn

→ θ0 en probabilité (estimateur convergent) quand n → ∞

Théorème 9.3 Sous des générale de régularité mathématique et si  conditions   ∂2L ˆ ˆ I(θ) = −E( ∂θ2 ), alors I(θn ) θn − θ0 converge en loi vers une distribution normale centrée réduite quand n → ∞. En mots, ces théorèmes expriment le fait que, si n est grand, la vraisemblance est proportionnelle à une densité normale pour θ, centrée sur θˆn et de variance I(θ1ˆ ) . Elle peut donc, dans ce cadre, remplacer la vraisemblance dans n la formule de Bayes. C’est le sens heuristique de l’approximation de la vraisemblance que nous avons utilisé dans le développement 9.2. Bien entendu, ces résultats s’étendent au cas θ vectoriel. Sur le plan de l’amélioration de l’approximation asymptotique par le résultat limite, des efforts ont été entrepris vers ce qu’on appelle des développements de Laplace. On trouvera dans Robert, 1992, des précisions sur ces méthodes. Plus généralement, Dempster et al., 1978, ont introduit l’algorithme itératif EM (espérance-maximisation) pour le calcul des modes a posteriori aussi bien que pour les maxima de la vraisemblance (estimateurs classiques du maximum de vraisemblance). Cet algorithme très puissant est à l’origine des méthodes itératives modernes qui, couplées avec la simulation, permettent maintenant les calculs d’inférence sur les modèles les plus complexes comme la suite le montrera. Une bonne réfèrence pour une présentation et des applications de cette méthode est Gelman et al., 1995.

Chapitre 10

Méthodes de simulation Monte Carlo avec indépendance Prologue Á l’origine, l’objectif des méthodes de simulation de Monte Carlo était de simuler des échantillons de réplicats indépendants de distributions de probabilités. La simulation Monte Carlo permet d’estimer les moments de tous ordres de distributions de variables aléatoires, trop complexes pour être étudiées de façon analytique, en utilisant des algorithmes numériques itératifs de génération. Dans ce chapitre, on simule des suites de valeurs considérées comme des réalisations indépendantes de ces variables. On approche les caractéristiques voulues avec autant de précision qu’on le souhaite. Ce principe s’applique en particulier à des systèmes complexes pour lesquels l’état de la nature est formé de grandeurs inconnues de grande dimension. Nous rappellerons d’abord les bases de ces méthodes classiques avant d’aborder une méthode plus élaborée (l’acceptation-rejet) et de mettre l’accent sur la plus prometteuse d’entre elles (l’échantillonnage pondéré).

10.1

Nombres au hasard

Toutes les méthodes de simulation reposent sur le concept de suite au hasard . En elle-même la notion de nombre au hasard n’a pas de sens même si on fait référence au mécanisme physique d’obtention de ce nombre. En effet, deux nombres ne sauraient se distinguer statistiquement selon le procédé qui les a produit. La même difficulté conceptuelle s’applique d’ailleurs à toute suite de nombres quelle que soit sa longueur. La seule définition opérationnelle est liée

182

Le raisonnement bayésien

au procédé de génération d’une suite dont les propriétés statistiques ressemblent à ce qu’on voudrait qu’elles soient. Note 10.1 Nous re-introduisons les notations F, f, ... pour représenter la répartition et la densité de probabilité d’une grandeur aléatoire θ quand il s’agit d’algorithmes de techniques de génération aléatoire. On appelera souvent f la loi à simuler. Parfois on fera même appel à une autre densité de probabilité que celle cherchée, notée par exemple g et définie sur le même support. La notation [θ|x] demeure la notation réservée au concept probabiliste d’une inférence dans le cadre d’un modèle. L’objectif que l’on se fixe est l’estimation de distributions de probabilité f ˜ : plus précisément, il s’agit de pouvoir approximer toute intégrale d’une fonction  (mesurable) h selon f du type E (h) = f (θ)h(θ)dθ par la limite des sommes f n 1 i=1 h(θi ) quand n tend vers ∞. n

10.2

Du déterminisme à l’aléatoire

Paradoxalement tous les générateurs utilisés aujourd’hui sur nos ordinateurs sont quasi-uniquement déterministes1 . Soit une suite de nombres entiers u1 ...ur−1 , ur , ur+1 , ...un . Les enchaînements déterministes ur = D(ur−1 ) utilisés sont généralement du type congruentiel ; une suite de nombres de p chiffres au hasard s’obtiendra en général par l’application en chaîne de fonctions de récurrence du type suivant : ur = D(ur−1 ) = (aur−1 + b) modulo(p + 1) On remarquera que si on veut générer des nombres compris entre 0 et 1, ur avec une précision de p décimales, il suffira de passer de ur à 10 p . Ainsi, les nombres réels sont approximés de fait par des rationnels. Généralement p est déterminé par la structure interne du logiciel de génération. Définition 10.1 On appelle séquence pseudo-aléatoire une séquence finie de taille n : u1 ...ur−1 , ur , ur+1 , ...un telle que l’hypothèse de distributions uniformes identiques et indépendantes n’a pu être rejetée par l’application d’un ensemble T de tests convenablement choisis. En ce sens, la séquence est statistiquement indiscernable d’une séquence théoriquement distribuée selon le modèle uniforme. On notera que cette définition est relative à la fois à la taille de la suite utilisée et à l’ensemble C des tests choisis (généralement il s’agit d’une batterie de procédures comprenant des tests d’équirépartition des chiffres composant les nombres, d’adéquation de la loi uniforme et d’indépendance des chiffres 1 Très récemment, des procédés issus de résultats d’expérience de physique quantique ont été proposés.

10. Simulation Monte Carlo avec indépendance

183

et des nombres). Mais quel que soit le générateur utilisé, la suite produite et l’ensemble C, on ne peut exclure l’existence d’un autre test plus efficace qui rejetterait l’hypothèse... Définition 10.2 La période Tg d’un générateur de séquence pseudo-aléatoire est le plus petit entier T tel que : ur+T = ur ce qui implique certaines régularités dans les suites générées puisqu’alors elles se reproduisent à l’identique par cycle à l’encontre de l’objectif souhaité. Malheureusement, tout générateur congruentiel a nécessairement une période finie mais il existe certaines techniques (ré-initialisation des suites par exemple) qui évitent les périodes trop courtes. On ne doit pas perdre de vue que la mise en œuvre des techniques de calcul bayésien utiles demandera généralement des collections de 103 à 105 de nombres pseudo-aléatoires, voire dans certains cas de taille encore plus conséquente !

10.3

La distribution uniforme sur l’intervalle [0,1]

La distribution uniforme U[0,1] est la distribution de base dont sont déduites toutes les autres distributions. Tout logiciel de calcul possède des fonctions préprogrammées de génération automatique déterministes à partir de cette loi. Comme nous l’avons dit, cette suite est produite par l’algorithme déterministe conguentiel normé sur l’intervalle [0, 1]. Application 10.1 (Uniforme) : Observons le générateur aléatoire uniforme d’un logiciel scientique, tel que R ou MATLAB. À titre d’exemple, un échantillon de 1 000 valeurs a ainsi été produit et représenté sur la figure 10.1.

10.4 10.4.1

Distribution réelle discrète ou continue de fonction de répartition F (θ) Par méthode d’inversion −1

Soit F (u) la fonction inverse de la fonction de répartition. u = F (θ). De façon précise, on écrira cette fonction : F −1 (u) = inf{θ telle que F (θ) ≥ u} Alors si U[0,1] est une variable aléatoire uniforme, θ = F −1 (U[0,1] )

(10.1)

184

Le raisonnement bayésien

Figure 10.1 – Histogramme sur 20 classes d’un 1 000-échantillon uniforme.

est distribuée selon la loi de f.r. F. En effet : [θ ≤ z] = [F −1 (U[0,1] ) ≤ z] = [F [F −1 (U[0,1] )] ≤ F (z)] [θ ≤ z] = [U[0,1] ≤ F (z)] = F (z) Les égalités de probabilités successives résultent du fait que la probabilité d’une inégalité ne change pas lorsqu’une même transformation croissante (en l’occurrence la transformation F (.)) est appliquée de part et d’autre de cette inégalité. Connaissant cette fonction inverse toute suite iid de réplicats de θ se déduit d’une suite iid de U . La méthode basée sur cette propriété est appelée méthode d’inversion ou inverse sampling pour le terme anglais. Application 10.2 Il est intéressant de comprendre comment générer une variable de Bernoulli [0, 1] avec [θ = 1] = p qui peut être à la base de production de séquences binomiales (addition de variables de Bernoulli indépendantes). L’application de la forme discrète de la fonction inverse donne immédiatement : θr = {

0 si U[0,1] > p 1 si U[0,1] ≤ p

Application 10.3 (exponentielle-Gumbel) La figure 10.2 donne la simulation d’un échantillon iid d’une variable exponentielle simple de fonction de répartition : F (θ) = 1 − e−θ et d’une variable de Gumbel F (θ) = exp(−e−θ ) θ˜ = − log(U[0,1] ) est distribuée selon une exponentielle simple. θ˜ = − log(− log(U[0,1] )) est distribuée selon une Gumbel. La méthode d’inversion forme la base de la plupart des générations de modèles où la fonction F −1 est facilement calculable. Des procédés particuliers

10. Simulation Monte Carlo avec indépendance

185

Figure 10.2 – Application de la méthode d’inversion de la fonction de répartition

pour simuler les distributions exponentielle (à gauche) et Gumbel (à droite). adaptés aux propriétés de certaines distributions (loi normale par exemple) sont souvent plus économiques et efficaces (en temps de calcul et nombres de valeurs simulées pour une précision donnée).

10.4.2

Simulation d’un échantillon iid d’une variable normale N (0, 1)

Soit un couple θ1 , θ2 de variables normales centrées, réduites, indépendantes ; appelons R > 0 et ψ (0 ≤ ψ ≤ 2π) les coordonnées polaires du point (θ1 , θ2 ) . Il vient θ1 = R cos ψ, θ2 = R sin ψ ; alors on peut voir par changement de variables que : [R, ψ]dRdψ = R.e−

R2 2

dRdψ 2π

2

ψ ce qui signifie que R2 et 2π sont indépendamment distribuées selon des distributions respectivement exponentielle et uniforme. En appliquant la méthode d’inversion à chacune de ces variables, on utilisera deux variables uniformes indépendantes U1 , U2 , et un couple θ1 , θ2 indépendant qui en résulte, d’après le changement de variable et l’exemple précédent :

 U2[0,1] −2 log U1[0,1] cos 2π  U2[0,1] θ2 = −2 log U1[0,1] sin 2π θ1 =

186

Le raisonnement bayésien

Ainsi la méthode procède par simulation de couples indépendants de variables uniformes pour générer des variables aléatoires normales.

10.5

La méthode d’acceptation-rejet

Une autre méthode générale de simulation est importante et couramment employée. Il s’agit de la méthode d’acceptation-rejet dont nous donnerons la forme la plus utilisée en pratique. Soit à générer un échantillon d’une distribution continue de densité f (θ). La méthode d’acceptation-rejet suppose qu’on puisse trouver une variable aléatoire auxiliaire θ˜ de densité g(θ), de domaine Θ identique à celui de f , dite densité instrumentale (elle doit être aisément simulable), et une constante M (≥ 1) telles que la densité f (θ) vérifie pour toute valeur θ : f (θ) ≤M g(θ) Pour suivre le raisonnement on s’intéressera à la figure 10.3 et à la zone en grisé sur cette figure.

Figure 10.3 – Méthode AR acceptation-rejet.

Soit θ˜ la variable aléatoire de densité g et l’événement θ < θ˜ ≤ θ + Δθ dont la probabilité selon g est : [θ < θ˜ ≤ θ + Δθ] ≈ g(θ)Δθ On prend un intervalle Δθ fini pour visualiser la bande hachurée mais Δθ doit être suffisamment petit pour que l’approximation ci-dessus soit valable, ce qui est toujours possible. Associons à la variable aléatoire θ˜ (qui prend donc la valeur courante θ), la réalisation v d’une variable V˜ uniforme sur le segment [0, M g(θ)], d’étendue

10. Simulation Monte Carlo avec indépendance

187

égale à la hauteur de la zone M g(θ) ; V˜ s’écrit : V˜ = M g(θ) × U[0,1] U[0,1] est bien entendu indépendante de θ. Alors on a : f (θ)) [θ < θ˜ ≤ θ + Δθ et V˜ ≤ f (θ)] = [θ < θ˜ ≤ θ + Δθ et U[0,1] ≤ ] M g(θ) (10.2) ≈ g(θ)Δθ

f (θ)) f (θ) = Δθ M g(θ) M

C’est la probabilité qu’un point {θ, v} appartienne à la partie de la bande hachurée inférieure à la courbe inférieure de la figure 10.3. Maintenant la règle des probabilités totales permet d’écrire :  +∞ f (θ)) 1 1 f (θ)dθ = [U[0,1] ≤ |∀θ] = M g(θ) M −∞ M C’est la probabilité qu’un point simulé quelconque (quel que soit θ) soit situé sous la courbe inférieure. Donc, d’après la règle des probabilités conditionnelles : f (θ)) [θ < θ˜ ≤ θ + Δθ | U[0,1] ≤ ]≈ M g(θ)

f (θ) M Δθ 1 M

= f (θ)Δθ

C’est la probabilité qu’un point simulé appartienne à la bande, sachant qu’il est situé sous la courbe inférieure. C’est donc, d’après (10.2), la probabilité que θ˜ appartienne à l’intervalle ]θ, θ + Δθ]. Ainsi, tirer un événement aléatoire selon la densité en θ (réalisation de g), f (θ)) conditionnellement à l’événement U[0,1] ≤ M g(θ) , donne en fait une réalisation de f (θ). Pour réaliser en pratique une suite de tels événements conditionnels, il suffit d’annuler les tirages successifs où cet événement de conditionnement n’est pas satisfait. On peut donc proposer l’algorithme dit d’acceptation-rejet suivant qui est équivalent à un générateur de suites de réalisations de f (θ) dont chaque étape est : Algorithme 5 (algorithme d’acceptation-rejet) 1. Générer θ selon g(θ), et u selon U[0,1] de façon indépendante, (θ) , considérer θ comme une réalisation de la variable aléatoire 2. Si u ≤ Mf g(θ) ˜ θ de densité f (θ)

3. Sinon rejeter θ, revenir à l’étape 1 et itérer jusqu’à obtention du nombre de réalisations souhaité.

188

Le raisonnement bayésien

Figure 10.4 – Échantillon bêta par méthode d’acceptation-rejet.

Une propriété importante est l’efficacité de la méthode dont un des aspects est mesuré par le nombre moyen de couples (θ, u) nécessaires pour générer une valeur conservée comme réalisation de f (θ). Ce nombre moyen est proportionnel à la probabilité d’accepter un θ en un passage et qui est égale à 1/M . M doit donc être nécessairement plus grand que ou égal à 1 comme le montre d’ailleurs la figure précédente, support du raisonnement. On remarquera que l’algorithme d’acceptation-rejet permet de simuler des densités f (θ) seulement connues à un facteur multiplicatif près. Seule une borne M de f /g doit être connue. C’est particulièrement utile pour les distributions a posteriori où la constante d’intégration, dénominateur de la formule de Bayes n’est souvent pas connue numériquement exactement. Insistons encore sur le fait que f (θ) et g(θ) doivent avoir le même support. On notera aussi que la démonstration de l’algorithme d’acceptation-rejet n’est pas limitée au cas θ réel. On peut l’appliquer au cas d’un vecteur k-dimensionnel, auquel cas l’axe des θ est remplacé par Rk et le point θ, toujours associé à un U réel, est un point de cet espace. Application 10.4 (bêta) Soit une distribution bêta : f (θ) =

1 θa−1 (1 − θ)b−1 B(a, b)

Soit a = 4 et b = 3. Prenons g(θ) = bˆ eta(1, 1) c’est-à-dire une distribution uniforme ; on choisit pour M l’ordonnée du mode de la bˆ eta(4, 3) soit M = 2, 0736. La figure 10.4 montre la comparaison de la méthode d’ acceptationrejet et de l’algorithme de génération directe d’une loi bêta, codé en interne dans un logiciel scientifique comme R ou Matlab, pour 1 000 réalisations. La partie gauche de la figure 10.4 montre les 471 valeurs retenues sur 1 000 réplicats. La partie droite montre 1 000 valeurs obtenues par la procédure directe.

10. Simulation Monte Carlo avec indépendance

10.6

189

Méthode d’inversion générale : extensions aux densités multivariables

Les cas de paramètre unidimensionnel sont peu fréquents quand on travaille sur des problèmes réels et l’étude statistique d’un paramètre unidimensionnel peut généralement être traitée par des méthodes analytiques ou de calcul numérique classique. Les modèles réalistes comportent eux, des vecteurs θ de plusieurs paramètres θ1 , ...θj , ...θk pour lesquels la simulation conjointe multivariable peut être indispensable. Il est clair que le cas nouveau et intéressant est celui où les coordonnées θj du vecteur θ sont dépendantes en probabilité. La méthode de simulation standard est la suivante. Soient les fonctions de répartitions conditionnelles Fj et les anamorphoses uniformes généralisant (10.1) que nous écrirons pour le cas continu : F1 (θ1 ) = U1 F2 (θ2 |θ1 ) = U2 ..... Fk (θk |θ1 , θ2 ...θk−1 ) = Uk Les Uj distribuées uniformément sur [0, 1] sont supposées mutuellement indépendantes en probabilité. L’algorithme de simulation de vecteurs θ, k-dimensionnels, est alors le suivant : Algorithme 6 (simulation par inversion) 1. Générer k réalisations uniformes indépendantes U[0,1] , 2. Utiliser les fonctions inverses des membres de gauche des équations pour résoudre successivement en θ1 , θ2 (connaissant θ1 ) ...θj , ...θk (connaissant θ1 , θ2 ...θk−1 ). Dans certains cas, on peut utiliser d’autres distributions initiales que la loi uniforme, comme la distribution normale dans l’exemple suivant. Notons qu’il y a k! possibilités de décomposer une loi conjointe en conditionnelles et l’ordre utilisé pour décomposer le vecteur selon ses coordonnées peut jouer un rôle important dans la facilité de simulation. Application 10.5 (binormal) Soit un vecteur bidimensionnel normal {θ1 , θ2 } dont la loi a pour paramètre (m1 , m2 , σ1 , σ2 et ρ) où (mi , σi ) sont respectivement les moyennes et écarts-types de chaque composante i = 1, 2 et où ρ est le coefficient de corrélation. On rappelle une propriété de la distribution binormale.

190

Le raisonnement bayésien

Figure 10.5 – Simulation d’une loi binormale par décomposition conditionnelle.

Soit τ1 = τ2 =

θ1 −m1 la variable σ1 (θ1 −m1 )

ρσ θ2 −m2 − σ 2 1

σ2



1−ρ2

aléatoire dite marginale réduite et

la conditionnelle réduite.

τ1 et τ2 sont des réalisations indépendantes d’une densité normale centrée 2 réduite g(τ ) = √12π e−τ /2 Il en résulte que si {t1r , t2r } est une suite de couples indépendants de tirages normaux, les couples {θ1r , θ2r } s’obtiennent de la façon suivante : θ1r = m1 + σ1 t1r   ρσ2 θ2r = m2 + (θ1r − m1 ) + σ2 1 − ρ2 t2r σ1 Les graphiques de la figure 10.5 montrent les ajustements marginaux normaux et le diagramme de corrélation de 1 000 réalisations de la loi binormale avec (m1 = 0, m2 = 0, σ1 = 1, σ2 = 1, ρ = 0, 9) générées par l’algorithme précédent.

10.7

Intégration par échantillonnage simple

Il s’agit d’estimer par simulation des espérances et autres caractéristiques de distribution si l’on dispose d’un n-échantillon iid θ1, ...θr−1 , θr , θr+1 , ...θn obtenu par simulation de la variable θ˜ de densité f (θ). Ces moments caractéristiques sont généralement définis par des intégrales comme :  U= u(θ)f (θ)dθ (10.3) Θ

10. Simulation Monte Carlo avec indépendance

191

Rappelons que le cas particulier de l’évaluation d’une probabilité a posteriori associée à un sous-domaine A, comme un intervalle réel θ ∈]θ1 , θ2 ] d’une distribution marginale, rentre dans ce cas général, car il donne lieu à une intégrale de cette forme (avec une fonction indicatrice IA (θ)) : u(θ) = IA (θ) = {

1 si θ ∈ A 0 si θ ∈ /A

Ainsi, mathématiquement traduit, notre objectif est dans cette partie le calcul pratique de f (θ) = [θ|x] et des intégrales de la forme U . Sous des conditions très générales de régularité de la fonction connue u( ), un estimateur convergeant de U est la moyenne donnée par la loi des grands nombres : n ˆ= 1 U u(θr ) n r=1 Cette méthode est celle de l’échantillonnage classique. Un algorithme de simulation de f est nécessaire, la technique d’acceptation-rejet par exemple, mais le rendement de celle-ci peut être limité.

10.8

Échantillonnage pondéré ou préférentiel

L’échantillonnage pondéré suppose que l’on dispose d’une distribution instrumentale g(θ) dont on a obtenu un n-échantillon simulé θ1, ...θr−1 , θr , θr+1 , ..θn que l’on utilise complétement (sans rejets). L’appellation anglo-saxonne est importance sampling abrégée par la suite en IS. On peut en effet obtenir un estimateur de U sous la forme :

! U avec wr

=

r=n r=n 1 f (θr ) 1 u(θr ) wr × u(θr ) = n r=1 g(θr ) n r=1

= w(θr ) =

(10.4)

f (θr ) g(θr )

La figure 10.6 décrit bien le mécanisme de l’échantillonnage pondéré. Le point θr à gauche est sur-représenté par la fonction d’exploration g par rapport (θr ) à la densité cible f. La pondération qui lui est affectée w(θr ) = fg(θ est donc r) inférieure à 1. Sur cette figure, le point θs sur la droite est dans une situation inverse : il est sous-représenté par la fonction d’exploration g relativement à la densité cible f. La pondération que lui affecte l’importance sampling, w(θr ) = f (θr ) g(θr ) , plus grande que 1, va donc corriger cette sous-représentation. De plus, ! U est un estimateur sans biais de U puisque son espérance mathématique est : ˜ × u(θ)) ˜ = Eg (w(θ)

 u(θ) Θ

f (θ) g(θ)dθ = U g(θ)

192

Le raisonnement bayésien

Figure 10.6 – Mécanisme de l’échantillonnage pondéré (importance sampling).

On en rappelle ici les propriétés pratiques utiles, notamment celle de l’expression de l’estimateur de la variance d’échantillonnage :

!) ≈ Var(U

r=n 1 ˜ ]2 [u(θr )wr − U n2 r=1

L’estimateur de U , lui, est ainsi sans biais et convergent quel que soit le choix de g pour autant que le support de f soit inclus dans le support de g. De plus, pour n assez grand, la distribution d’échantillonnage est approchée par une ! )). Ces propriétés sont valables notamment distribution normale N (U, Var(U f (θ) 2 sous la condition que Ef (u (θ) g(θ) ) existe. Ces résultats permettent de contrôler la précision du calcul de U, et notamment de déterminer le n minimal nécessaire pour atteindre une précision donnée en utilisant un échantillon d’essai préalable pour estimer la variance. Elles constituent un avantage indéniable de la méthode IS par rapport à certaines méthodes pour lesquelles l’appréciation de la précision peut être plus difficile.

10. Simulation Monte Carlo avec indépendance

10.8.1

193

Choix de la distribution instrumentale

On a la liberté du choix de g(θ). Il existe d’ailleurs une densité g(θ) optimale (minimisant la variance théorique) qui cependant suppose U connu, ce qui rend ce résultat optimal sans utilité pratique puisque U est ce que l’on cherche. Le choix de g(θ), cependant très souvent efficace du point de vue de la réduction de la variance d’échantillonnage, reste donc empirique. Cependant, certaines précautions sont nécessaires : – si sup fg = ∞, g doit être rejeté ; – si sup fg = M fini, IS peut être utilisé mais quelquefois en concurrence avec la méthode d’acceptation-rejet directe sur f. ! est aisément calculable. On peut donc compaOn a vu que la variance de U rer les performances de plusieurs distributions g possibles. D’autres techniques de réduction de la variance existent. Elles consistent généralement à contrôler la variabilité de la fonction à intégrer numériquement par des densités ou autres informations instrumentales. Elles se rattachent également aux concepts de sondages stratifiés. Notons enfin qu’on peut utiliser le même échantillon tiré de g une fois pour toute pour effectuer l’intégration de différentes fonctions h et f .

10.8.2

Méthode IS approchée

Il est immédiat de voir que :  E(wr ) =

f (θr ) g(θr )dθr = 1 g(θr )

(10.5)

On peut ainsi démontrer en prenant u = 1 dans l’équation (10.4) que : r=n 1 wr → 1 presque sûrement quand n → ∞ n r=1r

(10.6)

Considérons alors l’estimateur de U approché, en rectifiant par la somme des pondérations au dénominateur : ˆ= U

r=n u(θ )w r=1 =n r r r=1 wr

(10.7)

Ce sera un estimateur biaisé de U mais cependant un estimateur convergent ! sans que quand n → ∞. De plus, sa variance pourra être inférieure à celle de U cela soit une règle générale. On notera aussi que la fonction f (θ) n’a besoin d’être connue qu’à une constante près pour le calcul de la pondération relative   w r  =n wr . Cette propriété justifie son utilisation dans les calculs bayésiens. r=1

194

10.8.3

Le raisonnement bayésien

Calcul bayésien de la distribution a posteriori par échantillonnage pondéré

Prenons pour f une densité a posteriori [θ|x], on a :  U= u(θ)[θ|x]dθ Θ

Sous cette forme, U est une intégrale attachée à la distribution a posteriori. Si pour g on choisit alors le prior [θ], en supposant que celui-ci soit propre, la pondération wr s’écrit : wr =

[x|θr ][θr ] [x|θr ] = [θr ][x] [x]

(10.8)

Cette pondération est donc directement proportionnelle à la vraisemblance [x|θr ] puisque [x] n’est pas une fonction de θ. Ecrivons l’estimateur IS approché 10.7 sous la forme : ˆ U

=

r=n

u(θr )w ˆr

(10.9)

r=1

avec

w ˆr

=

w r=nr r=1

wr

(10.10)

Appliquée à l’expression de U pour la distribution a posteriori, cette formule donne : ˇ U

=

r=n

u(θr )w ˇr

(10.11)

[x|θ ] r=n r r=1 [x|θr ]

(10.12)

r=1

avec

w ˇr

=

Les pondérations sont donc les vraisemblances normées telles que leur somme est égale à 1. Cette formule fait apparaître la difficulté principale de maints calculs concernant la distribution a posteriori. La distribution a priori [θ] est souvent très diffuse vis-à-vis de la vraisemblance des données expérimentales ; c’est le cas des distributions peu informatives ou élicitées par un expert très imprécis. Dans ce cas, le support des {θr } peut être très large vis-à-vis des valeurs vraisemblables selon l’échantillon d’observations. Ceci signifie que pour certains θr la vraisemblance pourra être très petite sinon nulle. Ces θ ne contribueront donc quasiment pas au calcul de l’estimateur. Ce comportement peut avoir une incidence notable sur la précision du calcul de certains U . Ce sera le cas de certains indicateurs d’intervalles :  1 si θ ∈ [τ − 2 , τ + 2 ] u(θ) = (10.13) 0 sinon

10. Simulation Monte Carlo avec indépendance

195

dont l’espérance est la probabilité de l’intervalle correspondant. Si cet intervalle intéresse les queues de distributions a posteriori notamment, les θ simulés a priori pourront être faiblement représentés dans cet intervalle et ne donneront qu’une faible précision au calcul de 10.11

10.8.4

Ré-échantillonnage

La méthode de ré-échantillonnage suivante (Rubin, 1988) peut pallier dans une certaine mesure les difficultés évoquées précédemment, on l’appelle dans la littérature anglo-saxonne sampling importance resampling (SIR) : Algorithme 7 (sampling importance resampling (SIR)) 1. Considérer un n-échantillon {θ1 , θ2 , ...θr , ...θn } tiré du prior [θ] comme une population finie dont à chaque valeur θr est attribuée la probabilité [x|θr ] w ˇr =  r=n [x|θr ] . r=1

2. Tirer (avec remises) de la population finie précédente (dont les probabilités, inégales, sont calculables) un échantillon de m valeurs indépendantes θs , s=m 1  3. Calculer : U  = m s=1 u(θs )

Figure 10.7 – Mécanisme du sampling importance resampling.

L’avantage de cette méthode illustrée par la figure 10.7 est d’obtenir un véritable échantillon (tous les points générés retrouvent le même poids). Son défaut est de produire un grand nombre de doublons, ce qui appauvrit les possibilités d’exploration du support de f .   Rubin a démontré que si n, m → ∞, U est un estimateur convergent de U = u(θ)f (θ)dθ. Appliqué ainsi à la distribution a posteriori et à toute fonction

196

Le raisonnement bayésien

indicatrice d’intervalle, ce résultat démontre que si le ré-échantillonnage est effectué sur la base de la vraisemblance, l’échantillon des θ¨s peut être considéré comme un échantillon indépendant de réalisations de la distribution a posteriori [θ|x].

10.8.5

Méthodes générales de ré-échantillonnage

 On vient de voir que des intégrales du type U = Θ u(θ)[θ|x]dθ pouvaient être décomposées selon la formule de Bayes et calculées selon la méthode de ré-échantillonnage de Rubin. Mais cette décomposition est plus générale s’il existe des densités instrumentales « supports » g(θ|x), dépendant ou non de x, [θ|x] et des densités proportionnelles à h(θ|x) = g(θ|x) telles que : 

 u(θ)[θ|x]dθ =

U= Θ

u(θ)g(θ|x)h(θ|x)dθ

(10.14)

Θ

Dans Carpenter et al., 1999, le couple [g, h] est appelé mesure aléatoire et a été introduit dans les méthodes particulaires où ces calculs d’intégrales sont faits séquentiellement pour des processus θt . Cette technique, dite de filtrage, est utilisée à chaque étape selon l’algorithme suivant : Algorithme 8 (ré-échantillonnage) 1. Considérer un n-échantillon {θ1 , θ2 , ...θr , ...θN } tiré de g(θ|x) comme une population finie dont chaque à valeur θr est attribuée la probabilité w ˇr = h(θ|x)  r=N . h(θ|x) r=1

2. Tirer (avec remise) de la population finie précédente (dont les probabilités sont inégales) un échantillon de m valeurs indépendantes θ¨s , 3. Calculer :

s=m ¨= 1 U u(θ¨s ) m s=1

(10.15)

C’est d’ailleurs sous cette forme générale que Rubin a présenté la méthode SIR en 1987. L’efficacité de l’algorithme est en effet très liée au choix de la densité support g(θ|x). Si on utilise directement des densités a priori trop diffuses vis-à-vis du posterior, le rendement, en termes de proportion de valeurs θ rééchantillonnées, risque d’être faible. Notons que Rubin suggère de prendre N égal à un multiple de m (allant jusqu’à 10) pour lutter contre cette perte de rendement. Cependant, si N est assez grand, l’avantage de prendre m < N n’est pas si apparent en pratique comme cela a été souligné par Carpenter et al., 1999.

10. Simulation Monte Carlo avec indépendance

10.9 10.9.1

197

Applications Évaluation de quantile pour la loi de Gumbel de l’exemple 11

Reprenons l’exemple 11, présenté page 178. La vraisemblance du couple de paramètres ρ, μ pour la loi de Gumbel, s’écrit : [x|ρ, μ] = μn ρn exp(−ρ

n

n xi − μ( e−ρxi ))

i=1

i=1

Le quantile qp est défini comme : 1 log p yp + log μ )= qp = − log(− ρ μ ρ avec yp = − log(− log p) Le modèle de Gumbel n’est pas de type exponentiel, mais pour des raisons de conjugaisons partielles, nous utilisons pour prior de ρ, μ un couple de distributions gamma indépendantes : − bρρ

[ρ, μ] ∝ e

− bμμ

ρaρ −1. e

μaμ −1.

de telle sorte que la distribution a posteriori conjointe s’écrit : [ρ, μ|x] ∝ ρaρ +n−1 μaμ +n−1 exp(−ρ(1/bρ +

n

xi ) − μ(1/bμ +

i=1

n

e−ρxi ))

i=1

La distribution a posteriori marginale de ρ est obtenue aisément :  n xi )) [ρ|x] = [ρ, μ|x]dμ ∝ ρaρ +n−1 exp(−ρ(1/bρ +  ×

i=1

μaμ +n−1 exp(−μ(1/bμ +

n

e−ρxi ))dμ

i=1

Soit : [ρ|x] ∝

n ρaρ +n−1. exp(−ρ(1/bρ + i=1 xi )) n −ρx a +n (1/bμ + i=1 e i ) μ

En utilisant la formule [μ|ρ, x] = [ρ,μ|x] [ρ|x] , on obtient la distribution a posteriori de μ, conditionnelle pour ρ fixé ; c’est une distribution gamma : μ ∼ gamma(aμ + n,

1/bμ +

1 n i=1

e−ρxi

)

La distribution [qp |ρ, x], conditionnelle pour ρ fixé, de qp s’obtient aisément par changement de variable puisque dans ce cas μ s’exprime comme une fonction croissante de qp : μ = eρqp −yp

198

Le raisonnement bayésien

Méthode brutale On peut dans un premier temps réaliser le calcul de la distribution marginale de qp par intégration numérique de la loi conjointe [qp , ρ|x] = [ρ|x][qp |ρ, x] sur une grille bidimensionnelle de valeurs de ces paramètres. Assez peu élégante, cette méthode a toutefois l’avantage d’une certaine précision (fonction de la finesse de la grille). Plusieurs essais pour régler le centrage et l’étendue de cette grille sont nécessaires. Avec un prior non informatif (aμ = aρ = 0, 1/bμ = 1/bρ = 0), l’intervalle de crédibilité exact à 90 % est :

q0,9

Limite inférieure 112, 1

limite supérieure 145, 4

Le calcul asymptotique donne une courbe la plus aplatie que le calcul a posteriori car il est valable pour n grand, thérie qui a été détaillé au chapitre 9. Les deux courbes sont cependant assez proches pour p = 0, 9. Néanmoins les écarts s’accentueraient si on prenait un quantile avec p plus grand comme la valeur usuelle p = 0, 99. En particulier, la distribution asymptotique est symétrique autour du mode, alors que la distribution exacte ne l’est pas. Cette dissymétrie s’accentue d’autant plus que p est fort. De façon systématique, l’approximation asymptotique ne peut prendre en compte cette dissymétrie. Sur d’autres modèles de distribution, on observe généralement que les recettes classiques (approximation normale et la linéarisation du quantile au voisinage du mode) sous-estiment les valeurs caractéristiques des distributions a posteriori des quantiles.

10.9.2

Intégration par échantillonnage

La recherche pratique d’une densité marginale à partir d’une loi conjointe est une intégration numérique. C’est ainsi que la distribution d’un quantile du modèle Gumbel des chutes de neige de la Plagne (exemple 11) est obtenue par une intégration du type de l’équation (10.3) :  [qp |x] = uqp (ρ)[ρ|x]dρ avec ici uqp (ρ) = [qp |ρ, x] On peut approcher [qp |x] avec toute précision désirée en déterminant l’histogramme marginal de qp calculé sur les simulations de couples [qp , ρ|x]. Cependant, une économie de simulation peut être obtenue puisqu’ici (cas de la loi de Gumbel voir page 176), on connaît analytiquement uqp (ρ) que l’on peut calculer sur une grille de valeurs de qp et ainsi calculer [qp |x]. En chaque point de cette grille [qp |x] peut donc être obtenue par échantillonnage simple dans la distribution [ρ|x] et intégration numérique. C’est ainsi que la densité simulée dite lissée de la figure 10.8 a été calculée à partir d’un échantillon de seulement 200 réplicats indépendants de ρ. Ceux-ci ont été obtenus par la méthode IS

10. Simulation Monte Carlo avec indépendance

199

Figure 10.8 – Distributions a posteriori exacte et simulée d’un quantile Gumbel.

200

Le raisonnement bayésien

appliquée à la distribution de ρ approchée par une fonction en escalier sur une grille adéquate. La comparaison de cette estimation avec la distribution exacte montre l’excellent accord entre les deux méthodes, ce qui illustre la puissance des méthodes de simulation. L’accord est également bon en ce qui concerne l’intervalle de crédibilité simulé lissé à 90 % comparé à l’intervalle exact, comme le montre le tableau 10.1 : Quantile Borne inférieure xp (exact) 112, 1 xp (estimation) 112, 9

Borne supérieure 145, 4 147, 1

Table 10.1 – Comparaison de l’ intervalle de crédibilité à 90 % obtenu par

simulation avec sa valeur exacte.

10.9.3

Évaluation d’un prior informatif pour l’exemple 4

Reprenons le cas du loto sportif (exemple 4, laissé inachevé page 165) où, pour des raisons de clarté, nous ne considérons que quatre équipes de football : Montpellier, Lyon, PSG, Marseille notées ici en abrégé Mo, Ln, Pn, Me. L’ information x est fournie par les résultats d’une confrontation directe entre ces équipes donnés dans le tableau 10.2. Cet exemple illustre aussi qu’expertise et i rencontre j

1 :Mo

2 :Ln n+ 12 = 1 n= 12 = 0

Mo

-

Ln

-

-

Pn

-

-

3 :Pn n+ 13 = 0 n= 13 = 1 n+ 23 = 0 n= 22 = 1 -

4 :Me n+ 14 = 1 n= 14 = 0 n+ 24 = 0 n= 24 = 0 n+ 34 = 0 n= 34 = 0

Table 10.2 – Données de confrontation entre quatre équipes.

information quantifiée jouent un rôle similaire pour l’apprentissage statistique bayésien : si ce tableau est issu d’une expérience de pensée, on cherche à mettre en place un prior informatif tandis que s’il s’agit de résultats de rencontres réelles, on a affaire à un posterior. On va simplifier le modèle des probabilités − + = (πij , πij , , πij ) du chapitre 2, en prenant κ = 1, ce qui signifie qu’en cas d’égalité des forces des deux équipes en présence, la probabilité de match nul est 13 . Les forces intrinsèques de chaque équipe sont codées par les quatre paramètres θi , i = 1, 2, 3, 4, tels que Δij = θi − θj .

10. Simulation Monte Carlo avec indépendance

+ πij = πij − πij

201

exp(Δij ) exp(−Δij ) + 1 + exp(Δij ) 1 = π = (Δij ) = κ exp(−Δij ) + 1 + κ exp(Δij ) κ exp(−Δij ) = π − (Δij )) = κ exp(−Δij ) + 1 + κ exp(Δij ) = π + (Δij ) =

Dans l’esprit du modèle échangeable présenté au chapitre 5 (figure 5.12), nous utilisons des prior s indépendants normaux N (0, 1) pour les θi . Quant à la vraisemblance, elle est proportionnelle à :  + n+ + = n= = n− (πij ) ij ) ij (πij ) ij (1 − πij − πij

(10.16)

i,j

Avec ce prior, pris comme distribution instrumentale, la méthode IS est assez performante (moins de 100 secondes pour 30 000 tirages). Seule la nécessité de limiter la taille de l’exposé nous empêche de faire varier le prior et multiplier les rencontres et équipes. La figure 10.9 présente l’inférence sur les paramètres θ (les prior s sont les courbes en cloche et symétriques autour de 0).

Figure 10.9 – Distributions a priori et a posteriori des θi .

202

Le raisonnement bayésien

Pour la pratique du modèle, il est important de donner quelques résultats prédictifs comme la moyenne prédictive de la probabilité du résultat d’une rencontre future entre deux équipes i, j, par exemple : + – Mo - Ln : E(πM o−Ln | x) = 0, 709 (prior = 0, 385) quant à la probabilité = de match nul E(πM o−Ln | x) = 0, 204 (prior = 0, 230) + – Ln -Me : E(πLn−M e | x) = 0, 537(prior = 0, 385) Ces estimations prédictives reflètent les estimations a posteriori des forces respectives θij des équipes pour lesquelles plus d’informations, notamment sur les résultats de rencontres avec d’autres équipes, permettraient d’améliorer encore les prévisions. Conclusion 5 L’inférence de l’exemple 4 se met en œuvre sans difficulté grâce à la technique d’échantillonnage pondéré. D’une certaine façon, la méthode peut également constituer une étape d’élicitation du prior informatif d’un expert, par expérience de pensée (le tableau des rencontres serait en quelque sorte virtuel), à partir d’un prior non informatif comme celui présenté ici en point de départ. Comme prior informatif, on adopterait pour la suite une approximation multinormale des θ inférés par ce premier travail.

10.9.4

Rendement de la méthode SIR de Rubin

Reprenons ici le cas très simple du modèle de Poisson P (θ) du chapitre 8 où un échantillon de n = 10 observations a donné le résumé exhaustif x ¯ = 2, 5 avec un prior normal N (m, σ) sur le paramètre transformé ϕ = log(θ). La vraisemblance est : L ∝ exp(−n exp(ϕ) − x ¯ϕ))

(10.17)

La figure 10.10 donne un premier groupe de graphiques où m = 5, 47, σ = 0, 5. Elle illustre le rendement de la méthode avec la courbe cumulée des vraisemblances normées (utilisées pour le ré-échantillonnage) et l’histogramme a posteriori pour θ. Le recyclage des valeurs simulées a priori n’est que de l’ordre de 30 %. Un second groupe (figure 10.11) a été réalisé avec m = 2, 72, ’est-à-dire supérieur à la moyenne observée x ¯ et σ = 0, 5. Le recyclage est de l’ordre de 70 %. Cette différence de recyclage est accompagnée d’une différence dans les évaluations de la distribution a posteriori. De fait, le prior du premier cas s’écarte très nettement de l’information. La sensibilité de la méthode SIR au choix des prior s apparaît nettement sur ces cas. Dans le premier cas, particulièrement, on note un appauvrissement important de l’échantillon initial en valeurs disponibles pour le ré-échantillonnage. Cet appauvrissement est une particularité constante de ces méthodes.

10. Simulation Monte Carlo avec indépendance

203

Figure 10.10 – Courbe cumulée des vraisemblances normées et histogramme a

posteriori (évalué par importance sampling). θ est le paramètre d’une loi de Poisson.

Figure 10.11 – Courbe cumulée des vraisemblances normées et histogramme

a posteriori (évalué par importance sampling resampling). θ est le paramètre d’une loi de Poisson.

204

Le raisonnement bayésien

Épilogue Les méthodes de simulation présentées dans ce chapitre sont des techniques classiques depuis les années 1950. Elles sont à la base de l’intégration par échantillonnage. Les méthodes présentées dans ce chapitre, dites sans dépendance markovienne ou classiques, ont eu un grand développement en physique et en économie. Dans le domaine statistique bayésien cependant, la forme même des distributions a posteriori (connues seulement à une constante près) n’a pas permis pendant longtemps une application aisée des algorithmes de simulation hormis celui de l’échantillonnage pondéré. Toutefois, les fondements théoriques de ces méthodes sont très importants à comprendre et éclaireront en plus les bases des autres algorithmes abordés dans les chapitres suivants. Place donc aux méthodes de simulation avec dépendance, souvent plus efficaces, qui sont appelées, elles, algorithmes de Monte Carlo par Chaînes de Markov (MCMC).

Notes de lecture La plupart des outils de simulation des distributions usuelles de la statistique sont inclus comme routines standards dans les logiciels actuels. R ou MATLAB, par exemple, en présentent plus de 20 et, généralement, le praticien évite de reconstruire les algoritmes de simulations de base des distributions intervenant dans les applications. Il n’est pas possible de dresser un inventaire exhaustif du domaine de la simulation Monte Carlo qui a donné naissance à une littérature abondante. Seules les méthodes les plus courantes ont été présentées. Pour le lecteur curieux, l’inventaire, peut-être le plus complet à ce jour, des techniques classiques de simulation d’échantillons des variables aléatoires peut être trouvé dans Devroye, 1985. Un exposé plus élémentaire avec de nombreux exemples illustrés est donné dans Rubinstein, 1981 ou dans Ripley, 1987. Le livre de Robert et Casella, 1998, constitue une référence excellente pour des exposés théoriques plus approfondis. Des applications avancées de la technique d’importance sampling se trouvent dans Celeux et Robert, 2003, Gelfand et Smith, 1992, Gelman et Meng, 1982, et dans Carlin et Louis, 1997. Signalons enfin que le développement récent de techniques issues des algorithmes dits particulaires (Carpenter et al., 1999) comme le ré-échantillonnage de Rubin a donné une nouvelle jeunesse à l’application des méthodes de ce chapitre (quand on les associe avec les méthodes markoviennes des prochains chapitres). Cette concurrence avec les méthodes markoviennes, leurs extensions et leurs utilisations récentes montrent qu’elles restent actuelles et constituent un outil privilégié dans le domaine bayésien. Nous en reparlerons à la fin du chapitre 14 où nous donnerons plus de détails quant à leur construction.

Chapitre 11

Chaînes de Markov et simulations Monte Carlo Prologue Générer des suites aléatoires θ1, ...θr−1 , θr , θr+1 , ..θn indépendantes et identiquement distribuées n’est pas la seule technique statistique à permettre les estimations de densité d’une distribution π(θ) (plusprécisément, il s’agit d’évaluer des grandeurs caractéristiques de π telles que π(t)h(t)dt pour une fonction h quelconque, mais mesurable selon π) grâce à la loi des grands nombres :  n   r=1 h(θr ) E(h) = π(t)h(t)dt = lim n→∞ n Des tirages dépendants, provenant de la trajectoire de chaînes de Markov homogènes, peuvent jouir d’une propriété similaire. Il faut, pour cela, que ces chaînes de Markov possèdent une limite ergodique invariante égale à π(θ), notion essentielle que nous caractériserons dans ce chapitre. Une chaîne de Markov homogène peut être envisagée comme un mécanisme itératif aléatoire générant des suites de réalisations dépendantes ...θr−1 , θr , θr+1 , ... selon le schéma markovien, c’est-à-dire telles que : [θr+1 ∈ A|θr , θr−1 , θr−2 , ....] = [θr+1 ∈ A|θr ] = K (θr , A) où K est un noyau de transition. Vue par un informaticien, la vertu essentielle de ce mécanisme aléatoire est qu’il s’agit d’un algorithme simple : il suffit de réinjecter à l’entrée d’une même routine informatique (appelant une fonction random) la sortie de l’itération précédente. Cette qualité provient de la propriété caractéristique d’une chaîne de Markov : la probabilité conditionnelle des itérations futures θr+1 , θr+2 , ... connaissant toutes les valeurs passées θ1 , ...θr−2 , θr−1 et la valeur présente θr , ne dépend en fait que de la dernière valeur obtenue θr .

206

Le raisonnement bayésien

Vue par un mathématicien, la vertu essentielle du mécanisme markovien est l’existence d’un point fixe : sous des conditions techniques générales, il existe une distribution πK invariante, c’est-à-dire que si la quantité θr était générée selon la distribution de probabilité πK alors θr+1 , valeur obtenue par le mécanisme markovien de noyau K à partir de θr , pourrait, elle aussi, être considérée comme un tirage aléatoire selon cette même loi πK . Comment se comporte, à court terme et à long terme, une chaîne de Markov ? Dans ce chapitre, notre objectif est de donner sans démonstration, mais en illustrant de façon la plus précise possible, les bases probabilistes qui fondent les méthodes générales de simulations markoviennes présentées à partir du prochain chapitre. Traditionnellement, ces propriétés de base sont exposées en focalisant sur les différentes classes possibles où se rangent les états constituant la chaîne. Dans ce contexte, développé avec les premiers exemples illustratifs présentés, on s’attache généralement beaucoup au sens phénoménologique accordé à tel ou tel état, qui représentera par exemple un régime sec ou un régime humide, et à propos duquel on se posera des questions utiles à l’ingénierie, par exemple : Quelle est la probabilité de persistance d’un état sec plus de deux périodes consécutives ? En fait, il faut aller au-delà de cette interprétation, et on insistera ici plutôt sur les propriétés de cet objet mathématique général, c’est-à-dire les propriétés des séquences de visite de chaque état possible. Ce sont bien sûr ces propriétés de chaîne qui importent pour la justification des algorithmes de simulation. On peut les considérer comme des caractéristiques du comportement à long terme de la chaîne. Certaines chaînes de Markov oublient, au cours des itérations successives, leur état initial et s’approchent d’une répartition limite πK , élément invariant du noyau K de la transition aléatoire : sur quelques exemples, il n’est pas difficile d’identifier la répartition πK de façon explicite. Nous rattacherons alors le comportement de ces exemples illustratifs aux propriétés théoriques des chaînes de Markov afin de persuader le lecteur que ce comportement est général : sous des conditions techniques généralement vérifiées, les séquences de réalisations de chaînes de Markov ...θr−1 , θr , θr+1 , ... se répartissent asymptotiquement selon une distribution limite, dite ergodique invariante.

11.1

Quelques illustrations de chaînes de Markov

Illustration 11.1 (chaîne markovienne à deux états) Le cas le plus simple de chaîne markovienne à états finis est la chaîne homogène à deux états (que nous nommerons E1 et E2 ) à laquelle est associée la matrice des probabilités de transitions avec 0 ≤ α ≤ 1, 0 ≤ β ≤ 1 :  P =

1−α β

α 1−β

 =

r \ r+1 E1 E2

E1 1−α β

E2 α 1−β

(11.1)

11. Chaînes de Markov et simulations Monte Carlo

207

Dans un exemple de modèle pluviométrique simplifié des jours secs ou humides successifs ; E1 peut ainsi désigner la pluie et E2 un temps sec avec α, la probabilité qu’un jour pluvieux soit suivi d’un jour sec valant 0, 25 et β = 0, 6 fixant la probabilité qu’il pleuve aujourd’hui sachant qu’hier était une journée sans pluie. Dans ce type de modèle, on fait l’hypothèse d’une dépendance du type de temps sur celui du jour précédent, sans pousser la mémoire hydrométrique au-delà d’une journée. P est appelée matrice stochastique car les sommes en lignes sont toutes égales à 1. Quand on itère l’équation, on génère une séquence d’états.

Figure 11.1 – Comportement des itérées d’un modèle sec-humide : persistence

et possible stabilité ? Le premier schéma de la figure 11.1 visualise 100 itérations d’une telle séquence pour le modèle d’alternance sec-humide avec α = 0, 25 et β = 0, 6. On constate tout d’abord une tendance à la persistance, plus nette que si les tirages aléatoires des événements jour sec ou jour humide avaient été effectués indépendemmant dans une urne de Bernoulli. Ce sont les probabilités 1 − α et 1 − β qui caractérisent la persistance de chaque état (probabilités de nontransition). Ensuite, sur le second schéma de la figure 11.1, on a calculé au fur et à mesure des itérations en allant cette fois jusqu’à 1 000 journées, l’évolution de la fréquence empirique des jours de pluies (c’est-à-dire le nombre de fois où la chaîne a visité l’état E1 divisé par le nombre d’itérations effectuées jusque-

208

Le raisonnement bayésien

là). Y aurait-il (malgré la persistance mise en évidence sur le premier schéma) une limite stable à cette fréquence d’apparition des jours de pluie ? Illustration 11.2 (stock) Une illustration plus générale mais concrète de chaîne à états finis est donné par un stock de marchandises identiques comportant au maximum SM ax unités. Ce stock, contenant initialement s0 unités, est alimenté par des apports extérieurs aléatoires, successivement indépendants Ar tels que : [Ar = a] = pr (a). Le gestionnaire du stock connaît, à chaque époque r, le nombre d’unités Dr qu’il doit déstocker (pour satisfaire une certaine demande par exemple). La demande Dr peut être une variable aléatoire, ou le résultat d’une consigne d’opération ou une commande de régulation, par exemple une fonction du stock et des apports. Au cours du temps r, l’évolution du stock Sr est régie par l’équation : Sr+1 = Sr + Ar − Dr Cette évolution satisfait cependant les contraintes suivantes : – si Ar − Dr > SM ax − Sr , la fraction des apports qui ne peut être stockée est perdue (le stock est plein, ca déborde !) ; – si Dr − Ar > Sr , la demande ne peut être complétement satisfaite et Sr+1 = 0.(rupture de stock). Si les Dr successifs sont indépendants en probabilité, l’évolution du stock est ainsi représentée par une chaîne de Markov à SM ax + 1 états telle que : [Sr+1 = j unités|Sr = i unités] = pr+1 (j − i + Dr+1 ) [Sr+1 = M unités|Sr = i unités] = pr+1 (M − i + Dr+1 ) + pr+1 (M − i + 1 + Dr+1 ) + ... [Sr+1 = 0|Sr = i unités] = pr+1 (0) + pr+1 (1) + ... + pr+1 (Dr+1 − i) Ce genre de modèle est très utile pour aider à évaluer les probabilités de ruptures de stocks et pour mettre en place des stratégies d’approvisionnement. Un cas très particulier bien connu de ce modèle est celui de la ruine d’un joueur. Un joueur de fortune initiale égale à une unité, joue contre une banque de fortune Smax . L’état du système est sa fortune Sr qui évolue au cours du jeu. À chaque pas de temps r, soit il gagne avec une probabilité p auquel cas Ar = 1 et Dr = 0, soit il perd avec probabilité q = 1 − p auquel cas Ar = 0 et Dr = 1. Mais lorsqu’il a tout perdu à l’itération r (Sr = 0), il ne peut plus miser et Sr+1 = 0. De façon symétrique, le jeu s’arrête si la banque est ruinée quand Sr = Smax + 1 alors Sr+1 = Smax + 1

11. Chaînes de Markov et simulations Monte Carlo

209

Figure 11.2 – Modèle de diffusion entre deux compartiments.

Illustration 11.3 (diffusion) Considérons un modèle de mélange par diffusion de deux milieux gazeux à travers une paroi délimitant deux compartiments. On remplit le compartiment de gauche avec nG molécules de type A et le compartiment de droite avec nD molécules de type B et on laisse les échanges s’effectuer entre les deux compartiments. La figure 11.2 décrit la structure d’un modèle de diffusion classique pour représenter ces échanges. Faisons l’hypothèse que nG < nD (le comportement de gauche est plus petit) et appelons xt le nombre de molécules de type A dans ce compartiment de gauche (0 ≤ xt ≤ nG ). Les concentrations au temps t de chaque type de molécules dans chaque compartiment sont données par le tableau 11.1 : Concentrations compartiment G compartiment D

type A xt nG nG −xt nD

type B

nG −xt nG nD −(nG −xt ) nD

Table 11.1 – Échanges entre compartiments.

210

Le raisonnement bayésien

Du temps t au temps t + 1, les deux compartiments échangent une molécule à la fois ou restent en l’état (aucun échange). Ces échanges se font avec une intensité proportionnelle à la concentration dans le compartiment de départ et au manque de molécule de ce type dans le compartiment d’arrivée : ainsi pour (0 < xt < nG ). – xt+1 = xt −1 (transfert d’une molécule de type A de gauche à droite) avec G −xt ) , en effet nxGt est la concentration probabilité de transition nxGt × nD −(n nD des molécule de type A dans le compartiment de départ tandis que la G −xt ) concentration en trous de type A dans l’espace d’arrivée est nD −(n nD (et une molécule de type B va effectuer le mouvement en sens inverse) ; – xt+1 = xt + 1 (transfert d’une molécule de type A de droite à gauche) t) t avec probabilité de transition (nGn−x × nGn−x ; G  D (nG −xt ) nG −xt G −xt ) × nG + nxGt × nD −(n – xt+1 = xt avec probabilité 1 − nD nD c’est-à-dire aucun échange ne s’effectue entre A et B avec la probabilité (nG −x)(nD −nG +2x) . nD nG On constate que ces formules conservent un sens dans le cas général où 0 ≤ xt ≤ nG puisque la probabilité de transition vers xt+1 = xt + 1 est nulle si xt = nG (compartiment déjà rempli), de même que la probabilité de transition vers xt+1 = xt − 1 est nulle si xt = 0 (compartiment de gauche déjà vide en molécule de type A). On peut, par simulations, suivre l’évolution stochastique de ce système. La physique du problème nous incite à penser qu’il va exister une situation limite d’équilibre lorsque le système sera homogénéisé par les transferts successifs entre compartiments. Comment se traduit cette intuition physique en termes mathématiques ? Illustration 11.4 (marche aléatoire discrète) Imaginons des positions régulièrement espacées sur une demi-droite et repérées par les entiers naturels i = 0, 1, 2... On appelle θt la position occupée à l’instant t et on considére le mécanisme de déplacement aléatoire suivant : Si θt = 0 – θt+1 = θt + 1 avec probabilité p avec 0 < p < 1 – θt+1 = θt − 1 avec probabilité q = 1 − p Si θt = 0 alors θt+1 = 0, c’est-à-dire que la position 0 est une barrière absorbante. On peut considérer ce modèle comme un cas particulier de l’exemple de la ruine d’un joueur lorsque la fortune de la banque est infinie (illustration 11.2). Un tel modèle peut représenter les déplacements d’un ivrogne le long d’une route (il fait un pas en avant avec probabilité p ou un pas en arrière avec probabilité 1 − p), mais il s’agit d’une route issue d’un quai de port, représentant la position 0 du modèle où peut se noyer notre stochastique ivrogne. Comment varient ses chances de survie en fonction de la valeur de p ? De quelle façon dépendent-elles de sa position initiale ?

11. Chaînes de Markov et simulations Monte Carlo

211

Figure 11.3 – Modélisation autorégressive de l’accroissement de chiffre d’affaires.

Illustration 11.5 (normal autorégressif ) Considérons une entreprise nouvellement implantée sur un marché qui cherche à prévoir son supplément de chiffre d’affaire par mois. Un modèle couramment utilisé dans un tel cas consiste à supposer que l’accroissement au mois r de chiffre d’affaire θr appartient à une suite aléatoire réelle définie par : θr = ρθr−1 + σr

(11.2)

où les r constituent une suite normale iid de densité individuelle (pour chaque r) N (0, 1). La première valeur θ0 est prise arbitrairement à un nombre égal à μ0 , par exemple μ0 = 0. C’est une représentation d’un modèle dit autorégressif d’ordre 1 . Les deux schémas de la figure 11.3 tracés avec σ = 1 montrent que le comportement d’un tel modèle peut être qualitativement très différent pour deux valeurs de paramètres pourtant très proches ρ = 1, 01 ou ρ = 0, 97. L’étude des comportements à long terme du modèle en fonction de ses paramètres sera réalisée dans ce chapitre. Le cas |ρ| = 1 est intéressant : au cours des itérations, contrairement à la variance (qui augmente linéairement), la moyenne reste constante et égale à la valeur initiale. C’est un cas particulier de marche au hasard semblable

212

Le raisonnement bayésien

aux positions successives d’un ivrogne (encore un !) sur un chemin linéaire (ici sans trous absorbants) mais dont les déplacements seraient cette fois distribués normalement. Ce concept de marche au hasard peut être utile dans la construction d’algorithmes stochastiques d’exploration de la loi a posteriori en inférence bayésienne qui nous occupera au prochain chapitre (technique de MetropolisHastings). Le cas |ρ| = 1 est aussi un cas d’école important. En effet, avec nos hypothèses, on peut écrire : E(θr |θr−1 , θr−2 , θr−3 , ... ) = θr−1 ( ∀ θr−2 , θr−3 , ...)

(11.3)

Si on généralise cette propriété (en prenant une suite de grandeurs pas forcément normales mais vérifiant l’équation (11.3) ), la suite aléatoire correspondante est appelée martingale. Ce nom a été donné par analogie avec le comportement de la suite des gains d’un joueur (à un jeu équitable) qui remettrait en jeu à chaque partie, ses gains présents sans tenir compte des résultats antérieurs. Illustration 11.6 (chaîne normale markovienne bidimensionnelle) Un exemple de chaîne normale markovienne bidimensionnelle est représenté par la structure itérative (11.2) : θ1r = ρ1 θ1r−1 + α1 Zr + 1r θ2r = ρ2 θ2r−1 + α2 Zr + 2r

(11.4)

avec 1r , 2r couples de v. a. normales indépendantes N (0, σ1 ), N (0, σ2 ) et {Zr } une séquence de variables normales centrées réduites N (0, 1) indépendantes. Dans l’équation (11.4), la variable aléatoire normale Zr est une composante commune aux deux blocs itératifs qui crée une structure de dépendance entre θ1r et θ2r . Illustration 11.7 (barrage) La figure 11.4 montre que l’on peut généraliser le type de modèle décrit par l’illustration 11.2 aux cas où les niveaux de stock prennent des valeurs continues, comme dans le cas d’un barrage hydraulique où le niveau du réservoir varie continuement entre 0 et la hauteur de l’ouvrage. On a aussi rendu compte du fait que la demande soit une fonction (ici linéaire) du stock. Les apports sont indépendants entre chaque pas de temps et aléatoires. On fait souvent l’hypothèse qu’ils suivent la même distribution. Dans la réalité, pour de nombreux cas (tels les grands réservoirs hydrauliques interannuels), les apports ainsi que la demande sont saisonniers. Le comportement sur le long terme de ces systèmes intéresse au plus haut point l’ingénieur : est-ce que par exemple cela a un sens de parler de la probabilité de débordement ou de celle de passer sous un niveau critique de remplissage (indépendemment des conditions initiales et de la durée de vie de l’ouvrage) ?

11. Chaînes de Markov et simulations Monte Carlo

213

Figure 11.4 – Le modèle markovien de stocks à états discrets est généralisable à un contexte d’états continu, comme pour le cas des niveaux successifs d’un barrage réservoir.

214

11.2 11.2.1

Le raisonnement bayésien

Éléments constitutifs des chaînes de Markov États

Appelons de façon générique θ, la grandeur caractéristique qui évolue au cours des itérations de la chaîne. L’itération courante est notée par l’indice r ; cet indice d’itération est souvent le temps, mais il n’est pas toujours nécessaire de lui attacher une interprétation phénoménologique. Les valeurs possibles pour chacun des θr sont appelées états. L’ensemble Θ où varient les θr est appelé espace d’états (il est continu ou discret selon la nature des θr ). Ici chaque θr peut être soit : – discret, ce qui est illustré par les exemples illustratifs de ce chapitre (11.1),(11.3), (11.2). La chaîne (11.1) à deux états est une chaîne de Markov à espace d’états discret ( Θ = {E1 , E2 }). L’espace d’état sur lequel est construit l’exemple illustratif (11.3) de la diffusion entre deux compartiments est plus grand ( Θ = {0, 1, ..., nA }) ; – soit infini dénombrable comme l’espace d’états de la marche aléatoire (illustration (11.4) pour lequel Θ = N ; – soit réel scalaire : l’exemple illustratif (11.5) de la chaîne normale autorégressive est une chaîne de Markov à espace d’états continu (et il en est de même pour l’exemple illustratif (11.7) ) ; – soit vectoriel k-dimensionnel à composantes réelles (comme dans l’illustration (11.6)) ou discrètes. Enfin, cet ouvrage se restreint aux chaînes de Markov pour lesquelles l’indice r est discret. Le cas plus général où l’on considère un indice dans un ensemble continu fait l’objet de la théorie des processus stochastiques.

11.2.2

Propriété de Markov

Considérons un échantillon (ou trajectoire) d’une chaîne de Markov : θ1, . . . θr−1 , θr , θr+1 , . . . θn (on peut se référer aux itérées des exemples pour visualiser la notion de trajectoire). La propriété qui définit une chaîne de Markov est la suivante : Imaginons que le déroulement des indices représente le temps et que l’indice r pointe l’état présent, la probabilité conditionnelle de l’état futur ( θr+1 ), connaissant le présent et le passé ( r, r − 1, r − 2, ...), ne dépend que de l’état présent (θr ). [θr+1 |θr , θr−1 , θr−2 ...] = [θr+1 |θr ]

11.2.3

Homogénéité (ou stationnarité forte)

Une chaîne est homogène si la loi conjointe de tout sous-ensemble (θr1 , . . . θrk ) conditionnée sur un événement antérieur θr0 , est invariante par translation de tous les indices :

11. Chaînes de Markov et simulations Monte Carlo

215

[θr1 , . . . θrk |θr0 ] = [θr1 −τ , , . . θrk −τ |θr0 −τ ]; ∀k, τ Tous les exemples illustratifs présentés sauf possiblement celui des stocks (illustration 11.2) sont des chaînes de Markov homogènes. L’exemple 11.2 le devient si les apports et les demandes sont des variables iid donc obéissent à un même mécanisme indépendant du temps. Dans ce cas particulier des chaînes de Markov homogènes, si A est un sousensemble (d’arrivée) de l’espace des états et si θ est une valeur de départ, la probabilité de transiter de θ dans A est la même à chaque itération. À partir de maintenant, nous ne nous intéresserons plus qu’aux propriétés des chaînes de Markov homogènes.

11.2.4

Le noyau d’une chaîne de Markov (homogène) décrit la transition aléatoire entre deux états successifs

La première notion utile est celle de noyau car une chaîne de Markov homogène est entièrement (de manière biunivoque) définie par : – son noyau ; – la loi initiale de θ0 (ou sa valeur initiale). Définition 11.1 Noyau d’une chaîne de Markov Le noyau est une fonction à deux variables qui caractérise les probabilités de transition de θr à θr+1 . La forme dite intégrale du noyau est : Kr (θ, A) = [θr+1 ∈ A|θr = θ] A étant un sous-ensemble mesurable du domaine Θ de θr+1 . Pour une chaîne homogène, on notera simplement K(θ, A) au lieu de Kr (θ, A). Ainsi, pour tout couple (θ, A), K(θ, ·) est une mesure de probabilité sur l’espace Θ indexée par la valeur θ et K(·, A) est une fonction mesurable comprise entre 0 et 1, indexée par les sous-ensembles mesurables de Θ. Dans la plupart des cas, la mesure de probabilité K(θ, ·) aura une densité k(θ, θ ) par rapport à une mesure support adéquate (indépendante de r pour une chaîne homogène) et telle que : k(θ, θ ) = [θr+1 = θ |θr = θ ] Dans les cas où aucune confusion n’est possible, k(θ, θ ) est aussi appelé noyau (différentiel) de la chaîne. Ce qui vaut pour la forme intégrale vaut pour la forme différentielle et profitons-en pour souligner encore une fois la double nature du noyau k(θ, θ ) : – vue comme une fonction de son premier argument, le deuxième argument étant fixé, c’est une fonction qui, à un point de départ, associe une valeur positive (laquelle se trouve être la densité de probabilité du point d’arrivée du noyau) ;

216

Le raisonnement bayésien

– le premier argument étant fixé, c’est une densité de probabilité définie sur l’espace d’arrivée (conditionnelle au premier argument du noyau). Dans les exemples précédents, les transitions ont été définies de façon constructive par récurrence. On peut facilement en donner les expressions sous forme de noyau. Application 11.1 (transition selon la loi normale) Dans le cas du modèle normal (illustration(11.5)) décrit par θr = ρθr−1 + σr , c’est très simple : la transition à partir de θr−1 fixé est décrite, au facteur σ près, par la distribution normale de r qui est N (0, 1). Donc le noyau s’écrit : k(θr−1 , θr ) = √

1 −1 exp[ 2 (θr − ρθr−1 )2 ] 2σ 2πσ

(11.5)

Dans le cas du modèle normal bidimensionnel (11.6), la transition est décrite par le modèle bidimensionnel des variables α1 Zr + 1r et α2 Zr + 2r qui suit une loi binormale :   α1 .α2 N2 (0, 0, α12 + σ12 , α22 + σ22 ,  2 ) (α1 + σ12 )(α22 + σ22 ) Pour θ1r−1 , θ2r−1 fixés, le couple θ1r , θ2r est alors distribué selon une densité binormale. Le noyau s’écrit alors :  k

θ1r−1 θ2r−1

 −1    2 σ 2 + σ 2 α2 + σ 2 σ 2 ) (α 1 2 1 2 1 2 θ 1r , = × (11.6) θ 2r 2π     1 θ1r − ρ1 θ1r−1 θ1r − ρ1 θ1r−1 −1 Σ exp − θ2r−1 − ρ2 θ2r−1 θ2r−1 − ρ2 θ2r−1 2 

avec Σ =

α12 + σ12 α1 α2

α1 α2 α22 + σ22



Application 11.2 (chaîne à deux états) Dans le cas de la chaîne de Markov à deux états (illustration (11.1)), le noyau s’écrit facilement sous la forme intégrale : K(θ, A) = [θr+1 ∈ A|θr = θ]. On identifiera donc souvent le noyau K avec la matrice de transition P . Si on veut être purement formel, on passera par les sous-ensembles mesurables du domaine Θ de θr+1 ; ce sont ici {E1 }, {E2 }, {∅ = E1 ∩ E2 }, {Θ = E1 ∪ E2 } et on écrit : K(E1 , Θ) = 1 = K(E2 , Θ) K(E1 , ∅) = 0 = K(E2 , ∅) K(E1 , {E1 }) = 1 − α ; K(E1 , {E2 }) = α K(E2 , {E1 }) = β ; K(E2 , {E2 }) = 1 − β

11. Chaînes de Markov et simulations Monte Carlo

217

En introduisant la distribution de Dirac, on peut traiter le cas particulier des espaces d’états discrets dans un même formalisme mathématique : le système d’équations précédentes se ré-écrit sous la forme différentielle d’un noyau généralisé grâce à la distribution de Dirac :

k(E1 , θ ) = α + δE1 (θ ) − 2αδE1 (θ )

k(E2 , θ ) = β + δE2 (θ ) − 2βδE2 (θ ) k(θ, θ ) = (αδE1 (θ) + βδE2 (θ)) + δθ (θ ) − 2 (αδE1 (θ) + βδE2 (θ)) δθ (θ )

Ainsi pratiquement comme toute densité, k(θ, θ ) sera, soit une probabilité élémentaire pour un espace d’états discret, soit une densité classique pour un espace d’états continu. Mais les probabilités de transitions représentées par un noyau peuvent également se présenter sous la forme d’une distribution mixte, c’est-à-dire un mélange discret-continu. Par exemple, un noyau de transition peut prendre la forme : k(θ, dθ ) où p(θ, θ ) et δθ (dθ )

= p(θ, θ )dθ + p0 (θ)δθ (dθ ) = (1 − p0 (θ))g(θ, θ ) (p(θ, θ) = 0) = 1 si θ ∈]θ , θ + dθ ], δθ (dθ ) = 0 sinon

(11.7) (11.8)

g(θ, θ ) est la densité de probabilité de la partie continue de la transition.  1 − p0 (θ) =

Θ

p(θ, θ )dθ = [θr+1 = θ] probabilité finie.

Il s’agit ici du mélange (1 − p0 , p0 ) de deux distributions : l’une continue, a pour densité g, l’autre possède une masse ponctuelle égale à 1 associée à la valeur θ de conditionnement (état r antérieur θ = θr ).

11.2.5

Équations de Chapman-Kolmogorov

Les probabilités de transitions d’un état à un autre en plusieurs étapes vérifient les équations dites de Chapman-Kolmogorov : Soit Pr(n) (θ ∈ A|θ) =Π(n) (θ, A) la probabilité de transition d’une étape 1, dont l’état est supposé fixé à θ, à l’étape n en n − 1 transitions élémentaires amenant dans le sous-ensemble A. En supposant que le noyau puisse s’exprimer sous forme différentielle grâce à une densité k(θ, θ ), on peut écrire la relation de récurrence en passant par le point intermédiaire θ = t, Pour n = 2, on appelle alors k (2) (θ, θ ) le noyau différentiel correspondant

218

Le raisonnement bayésien

à Π(2) (θ, A) Π(2) (θ, A) =





k(θ, t)k(t, θ )dtdθ

t∈Θ θ  ∈A

k

(2)





k(θ, t)k(t, θ )dt

(θ, θ ) = t∈Θ

Par récurrence : Π

(n)

 (θ, A) =

k (n) (θ, θ )dθ

θ  ∈A

avec la convolution itérée : k (n) (θ, θ ) =



k(θ, t)k (n−1) (t, θ )dt

t∈Θ

Plus généralement pour tout (m, n) :  (n+m) (θ, A) = k (n) (θ, t)Π(m) (t, A)dt Π t∈Θ

Application 11.3 (chaîne sur espace d’états de cardinal fini) Reprenons l’illustration (11.1) de la chaîne de Markov à deux états à partir de l’équation de représentation sous la forme matricielle (11.1). Les équations de ChapmanKolmogorov s’écrivent ici sous forme matricielle, ce qui est un résultat général dans le cas des espaces à états discrets (en nombre fini). En effet, on reconnaît une équation de multiplication matricielle dans : [θn = j] = [θn−1 = i] × [θn = j |θn−1 = i ] i∈Θ

=



[θn−1 = i] × K(i, j)

i∈Θ

Il suffit de convenir de représenter le noyau K sous forme d’une matrice d’éléments K(i, j) ou i désigne la ligne et j la colonne, et de représenter [θn ] sous

forme de vecteur ligne : [θn ] = [θn = 1] ... [θn = j] [θn = j + 1] ... , il vient alors : [θn ] = [θn−1 ] × K On peut vérifier par récurrence et en appliquant la propriété de Markov que la loi conditionnelle de l’état visité à la ne itération conditionnellement à la répartition initiale [θ0 ] est : [θn ] = [θ0 ] × K (n)

(11.9a)

11. Chaînes de Markov et simulations Monte Carlo

219

Dans l’exemple illustratif (11.1), la distribution initiale est ici formée par le couple de probabilités que la chaîne se trouve dans chacun des deux états E1

et E2 à l’itération 0, soit [θ0 ] = [E1 ]0 [E2 ]0 , L’équation de Chapman-Kolmogorov s’obtient par :

er´ ees ] [E1 |n it´

[E2 |n it´ er´ ees ]

=



[E1 ]0

[E2 ]0

× Pn

Il est parfois plus commode de présenter les vecteurs sous forme de colonnes si bien que :     er´ ees ] [E1 |n it´ [E1 ]0 = P n [E2 |n it´ er´ ees ] [E2 ]0 Un résultat classique (obtenu facilement par décomposition en éléments propres de la matrice P dont les deux valeurs propres sont 1 et 1 − α − β) est le suivant :  n 1−α α P (n) = (11.10) β 1−β   β α α α n n α+β + α+β (1 − α − β) α+β − α+β (1 − α − β) = α−β(α+β) β β α n (1 − α − β)n−1 α+β − α+β (1 − α − β) α+β + α+β La représentation matricielle est commode pour les chaînes à états discrets (de cardinal fini), comme c’est le cas pour l’illustration (11.3), mais elle est facilement généralisable au cas dénombrable illustré par l’exemple (11.4) après définition de matrice de taille infinie. Application 11.4 (chaîne autorégressive) Pour l’exemple illustratif(11.5), en supposant que θ0 suive une loi normale de moyenne μ0 et de variance v02 , on montre facilement par récurrence que θt obéit marginalement à une loi normale de moyenne μt et de variance vt2 données respectivement par : μr = ρr μ0 vr2 = ρ2r v02 + σ 2

r

ρ2(k−1)

k=1

1 − ρ2r = ρ2r v02 + σ 2 1 − ρ2 il suffit en effet d’écrire que : θ1 = ρθ0 + σε1 θ2 = ρθ1 + σε2 = ρ2 θ0 + ρσε1 + σε2 ... θr = ρr θ0 + ρr−1 σε1 + ... + σεr

220

Le raisonnement bayésien

ainsi : (r)

Π

 

(θ0 , A) = z∈A



1 2r

2πσ 2 1−ρ 1−ρ2

1 (z − ρr θ0 )2 exp − 2 σ 2 1−ρ2r2

 dz

1−ρ

On aurait pu obtenir ce même résultat, de façon beaucoup moins élégante, en itérant les convolutions du noyau ; en notant πr (y) la densité de probabilité à la valeur y prise par la chaîne à la ie itération, c’est-à-dire πr (y) = [θr = y], on voit que :  πr−1 (x)k(x, y)dx (11.11) πr (y) = x∈Θ

L’équation (11.11) correspond, en temps continu, à l’équation (11.9a). On peut convenir de l’écrire formellement, comme l’équation (11.9a) : [θn ] = [θn−1 ] × K ce qui souligne le côté linéaire de la transformation régie par le noyau différentiel k : c’est grace à la multiplication de matrices que l’on écrit les équation de Chapman-Kolmogorov dans le cas d’espace d’états discrets, tandis que la même opération correspond à la convolution de fonctions dans le cas d’espace d’états continus.

11.2.6

Motivations pour passer à la limite

On comprend alors l’intérêt d’étudier les solutions de l’équation : [θ] = [θ] × K

(11.12)

Le mathématicien a déjà rencontré ce type de problème en algèbre linéaire. Ces solutions sont le ou les vecteurs propres, quand ils existent, associés à la valeur propre 1 de la transformation effectuée grâce à l’opérateur linéaire : [θ] −→ [θ] × K Si on poursuit sur ce chemin de l’analyse vectorielle, on rentre dans le domaine de l’analyse spectrale (le spectre d’un opérateur linéaire est la collection de ses valeurs propres). Le mathématicien appliqué choisira plutôt d’itérer la dynamique du système markovien [θ]n = [θ]n−1 × K : en effet, s’il existe un comportement limite [θ] pour la répartition des états par ce mécanisme d’itération, alors à la fois [θn ] et [θn−1 ] (qui vérifient l’équation (11.9a)) ressembleront de plus en plus à [θ] (qui devra nécessairement vérifier l’équation (11.12)).

11. Chaînes de Markov et simulations Monte Carlo

11.2.7

221

Que peut-il se passer quand on itère une chaîne de Markov ?

Observons un type de comportement à long terme d’une chaîne de Markov sur l’exemple illustratif (11.1) de la chaîne àdeux états.  On vérifie sur la formule [E1 ]0 entre les états E1 ou E2 (11.10) que, si on part d’une répartition [E2 ]0 à l’étape initiale 0, et si |1 − α − β| < 1, la répartition des états futurs se rapproche de plus en plus de la répartition π∞ donnée par : α α+β β π∞ (E2 ) = α+β π∞ (E1 ) =

et oublie l’état initial. En effet :  ⎛   α n−1 β−α(α+β) + (1 − α − β) [E1 ]0 − [θn = E1 |θ0 ] α+β  α+β =⎝ β β−α(α+β) n−1 [θn = E2 |θ0 ] [E1 ]0 − α+β − (1 − α − β) α+β

β α+β (1 β α+β (1

− α − β)[E2 ]0 − α − β)[E2 ]0

 ⎞  ⎠

On se rapproche de l’état limite caractérisé par la répartition π∞ d’autant plus rapidement que la persistance |1 − α − β| est faible. On peut voir sur l’exercice proposé en fin de ce chapitre que, pour α + β ≤ 0. 9, les limites de répartition sont pratiquement atteintes dès que n > 100. Enfin et surtout, la répartition π∞ possède une propriété d’invariance : si on tire au hasard un état initial selon π∞ et qu’on lui applique la transition probabiliste décrite par la matrice P de l’équation (11.1), la répartition probabiliste du résultat restera π∞ . L’illustration (11.5) exhibe le même type de comportement pour certaines valeurs de ses coefficients caractéristiques. Les équations de Chapmann-Kolmogorov que l’on sait calculer explicitement pour cet exemple montrent que θr obéit marginalement à une loi normale N (μr , vr2 ) : μr = ρr A r 1 − ρ2r vr2 = σ 2 ρ2(k−1) = σ 2 1 − ρ2 k=1

Par conséquent, quand |ρ| ≥ 1, la suite des variables aléatoires est explosive : la variance augmente exponentiellement ainsi que la moyenne (si |ρ| > 1). Il n’y a donc aucun espoir d’obtenir une loi limite. Le cas |ρ| < 1 est, lui, le cas intéressant : quand r tend vers l’infini, la loi de la variable aléatoire normale θr itérée par opérations aléatoires homogènes successives à partir de θ0 = A, tend rapidement vers la loi normale N (μ∞ , v∞ )

222

Le raisonnement bayésien

avec : μ∞ = 0 2 v∞ =

σ2 1 − ρ2

D’autre part si θr−1 était tirée au hasard selon la loi normale N (μ∞ , v∞ ) et injectée dans la formule (11.2), θr serait encore un tirage dans une même loi N (μ∞ , v∞ ). En conclusion, pour |ρ| < 1 il y a donc une forme d’attraction en loi des itérées vers la loi limite N (μ∞ , v∞ ), qui, elle-même, exhibe une forme de stabilité, d’invariance vis-à-vis de l’algorithme de construction itératif (11.2).

11.2.8

Distribution invariante

En effectuant les itérations pour les exemples de la chaîne autorégressive normale et sur celui de la chaîne homogène à deux états, nous avons remarqué que les itérées se stabilisent selon une loi de probabilité limite. Les définitions suivantes précisent ces propriétés. Définition 11.2 On appelle distribution invariante Π∗ une distribution telle que :  Π∗ (A) = K(θ, A)Π∗ (dθ) (11.13) dθ∈Θ

 Dans le cas continu où K a une densité classique k, Π∗ (A) = A π ∗ (t)dt et K(θ, A) = A k(θ, t)dt pour tout sous-ensemble A ⊂ Θ, et on passe à une relation sur les densités :  ∗  π (θ ) = π ∗ (θ)k(θ, θ )dθ Θ

En mots, cette propriété signifie que lorsqu’on injecte dans la dynamique markovienne un point de départ θ tiré au hasard selon la densité de probabilité π ∗ , on retrouve, généré par le noyau, un point de sortie θ qui suit lui-même cette même loi de probabilité π ∗ . Nous avons constaté cette propriété sur les exemples illustratifs de la chaîne autorégressive normale et sur celui de la chaîne homogène à deux états. Remarquons que l’exemple illustratif (11.4) possède lui aussi une distribution invariante : il est facile de vérifier que la distribution qui charge l’état 0 et accorde une probabilité nulle aux autres états est invariante par cette marche aléatoire discrète. Application 11.5 (loi invariante de l’autorégressif bidimensionnel) Dans l’illustration (11.6), comme pour le schéma itératif monodimensionnel (11.2), on peut montrer que les couples d’itérés de l’algorithme (11.4) tendent en loi vers une loi limite binormale sous des conditions de non explosion (|ρ1 | < 1, |ρ2 | < 1).

11. Chaînes de Markov et simulations Monte Carlo

223

Il n’est pas difficile de vérifier que la loi limite est constituée par la distribution binormale de moyenne nulle et de matrice de variance-covariance Σ∞ : ⎞ ⎛ 2 2 Σ∞

=⎝

α1 +σ1 1−ρ21 α1 α2 1−ρ1 ρ2

α1 α2 1−ρ1 ρ2 α22 +σ22 1−ρ22



(11.14)

On peut également simuler la récurrence (11.4) par un algorithme écrit dans un langage scientifique comme R ou Matlab, par exemple. Les histogrammes et le diagramme de corrélation, estimés sur des trajectoires avec ou sans prise en compte d’un échantillon de chauffe, sont donnés par les figures (11.5) et (11.6) pour le cas : ρ1 = 0, 9, ρ2 = 0, 5, a1 = 0, 5, α2 = 1, σ1 = 1, σ2 = 1. Les valeurs initiales arbitraires ont été prises égales à 0.

Figure 11.5 – Période initiale de 500 tirages d’une chaîne de Markov bidimen-

sionnelle. On notera la différence assez nette des diagrammes de corrélation. Cet exemple est intéressant pour illustrer les méthodes de simulations MCMC qui ont cependant pour intérêt de traiter les cas multidimensionnels (≥ 2). L’existence d’une distribution invariante Π∗ pour l’équation (11.13) est loin d’être garantie (cela dépend de K). La chaîne normale autorégressive (illustration(11.5) ne possède pas de loi invariante quand |ρ| ≥ 1. Le cas échéant, se pose ensuite la question de son unicité. Sur l’illustration (11.2), dans le cas de la ruine du joueur, la probabilité qui concentre toute la masse sur l’état 0 et rien sur les autres valeurs est invariante. Il en va de même pour la distribu-

224

Le raisonnement bayésien

Figure 11.6 – Distribution ergodique de la chaîne de Markov bidimensionnelle.

tion qui donne probabilité 1 à l’état ruine de la banque et zéro ailleurs. Tout mélange de ces deux distributions particulières est lui-même invariant. Bref, il y a ici une infinité de solutions invariantes. La section suivante cherche quelles sont les bonnes propriétés des chaînes de Markov qui garantissent l’existence et l’unicité de cette distribution invariante.

11.3

Étude du comportement des chaînes de Markov sur l’espace d’états de cardinal fini

Le tableau final en annexe C liste nombre de définitions permettant la compréhension des énoncés mathématiques des propriétés les plus importantes des chaînes de Markov. Leurs démonstrations mathématiques se trouvent par exemple dans Revuz, 1984. Cependant, du point de vue de la mise en œuvre du calcul bayésien, le lecteur devra plutôt s’intéresser au contenu concret de chacune de ces définitions, également rappelé dans le tableau. Ce contenu concret permet d’ailleurs une classification très parlante des comportements d’une trajectoire markovienne, notamment la classe importante des chaînes positives récurrente. En mots, ce sont celles qui visitent tous les états (lesquels peuvent tous communiquer entre eux quand est réalisée la propriété d’irréductibilité), infiniment souvent (récurrence) et avec un temps de retour moyen non nul (positivité), de telle sorte que les estimations de fréquences et moyennes faites

11. Chaînes de Markov et simulations Monte Carlo

225

directement sur leurs trajectoires aient un sens. Nous les retrouveront ultérieurement pour valider des algorithmes d’inférence bayésienne. Nous ne developpons ici que les extraits de l’annexe C définissant directement les propriétés opérationnelles utiles pour les algorithmes de simulations. Il faut distinguer deux situations : – l’espace des états est discret ou dénombrable ; – l’espace des états est un continuum. Nous traitons d’abord du cas où l’espace d’état est discret ou dénombrable, en complétant le cas échéant pour le cas continu, les définitions utiles à l’étude du comportement des chaînes de Markov.

11.3.1

Irréductibilité pour les espaces d’états discrets ou dénombrables

On dit que l’état θ est subséquent à l’état θ, s’il existe un chemin (un morceau de trajectoire de la chaîne) qui partant de θ nous amène en θ (en un nombre fini d’itérations, on inclut dans la définition un nombre d’itération nul de telle sorte que θ est subséquent à lui-même). Deux états θ et θ communiquent si θ est subséquent à θ et θ est subséquent à θ . La relation binaire θ et θ communiquent est une relation d’équivalence et l’on peut donc partitionner l’ensemble des états en classes d’équivalence. Á l’intérieur d’une classe d’équivalence, les états communiquent entre eux (ou bien il s’agit d’une classe ne comprenant qu’un singleton). Définition 11.3 La chaîne est dite irréductible (en classes d’équivalence) s’il n’y a qu’une seule classe d’équivalence, l’espace des états tout entier. En mots, une chaîne est irréductible si tous les états peuvent communiquer entre eux, c’est-à-dire : si ∀θ, θ ∈ Θ il y a une probabilité non nulle que partant de θ, on aboutisse à θ en un nombre fini d’étapes. On veut maintenant décrire la façon dont les états sont visités : sont-ils visités infiniment souvent ? Une fois qu’une trajectoire a quitté un état, combien faut-il attendre d’itérations pour qu’elle y revienne ? Pour cela, il est nécessaire d’étudier les propriétés caractéristiques des visites.

11.3.2

Propriétés caractéristiques des visites

Temps de premier passage pour une chaîne à espace d’états discrets ou dénombrable Définition 11.4 On appelle τθ→θ temps de premier passage en θ depuis θ, l’époque de premier passage en θ lorsque la chaîne part de l’état initial θ. C’est une variable aléatoire définie par : τθ→θ = Inf {r ≥ 1; θr = θ , θ0 = θ}

226

Le raisonnement bayésien

Dans le cas d’états définis sur un continuum, cette définition s’étend au passage sur un sous-ensemble A : τθ→A = Inf {r ≥ 1; θr ∈ A, θ0 = θ} Probabilités de premier passage après n itérations pour une chaîne à espace d’états discrets ou dénombrable Appelons Q(n) (θ, θ ) = [θn ∈ θ |θ0 = θ, θ1 = θ, ...θn−1 = θ] la probabilité que partant de l’état θ, on arrive à l’état θ pour la première fois en n itérations. Q(n) (θ, θ ) = [τθ→θ = n] Il est facile de montrer la relation suivante, dite équation du renouvellement, qui s’obtient en décomposant Π(n) (θ, θ ) sur tous les temps de premier passage possibles : n Π(n) (θ, θ ) = Q(n) (θ, θ )Π(n−k) (θ , θ ) k=0

On montre (en utilisant les transformées de Laplace définies pour |t| < 1, ∞ ∞  1 ˘ ˘ =  Q(k) (θ , θ )tk qui vérifient Π(t) ˘ Π(t) = Π(k) (θ , θ )tk et Q(t) = 1−Q(t) ) ˘ k=0

k=0

le théorème suivant, obtenu par continuité du passage à la limite quand t → 1 : Théorème 11.1

∞  n=0

∞ 

Π(n) (θ, θ ) < ∞ si et seulement si

n=0

∞ 

Π(n) (θ, θ ) = ∞ si et seulement si ∞ 

Q(n) (θ, θ ) = 1 et

n=0

Q(n) (θ, θ ) < 1

n=0

Nombre de passages pour une chaîne à espace d’états discrets ou dénombrable et quantités liées Soit IA (θ) la fonction indicatrice du sous-ensemble A. Définition 11.5 Le nombre de passages de {θr } en θ à partir de θ0 = θ est ∞ la variable aléatoire ηθ→θ = r=1 Iθ (θr ). Dans le cas d’états définis sur un continuum, cette s’étend au nombre de passages sur un sous-ensemble définition ∞ A par ηθ→A = r=1 IA (θr ). Définition 11.6 L’espérance du nombre de passages (sur toutes les trajectoires possibles de la chaîne démarrant en θ0 = θ) est le nombre moyen de visites de l’état θ à partir de l’état initial θ0 = θ : Vθ→θ = E(ηθ→θ )

(11.15)

11. Chaînes de Markov et simulations Monte Carlo

227

Compte tenu des équations de Chapman-Kolmogorov, le nombre moyen de visites s’écrit aussi : Vθ→θ = E(ηθ→θ ) =



Πr (θ, θ )

r=1

Pour les espaces d’états de cardinal infinis, on utilise Vθ→A = E(ηθ→A ) =



Πr (θ, A

r=1

La fréquence de visites de A à partir de θ jusqu’à l’itération n est la quantité n Πr (θ, A) n πθ→A = r=1 n et la fréquence de visite est : n πθ→A = lim (πθ→A ) n→∞

La figure 11.7 montre pour illustration une trajectoire de chaîne de Markov à état continu. Les époques de passages en un intervalle A ont été notées et on voit par conséquent trois réalisations de τθ→A pour un point de départ θ ∈ A. Si on se limite à cette trajectoire et pour θ ∈ A, une estimation de πθ→A est égale à 3/200. Définition 11.7 La probabilité de passage en θ en un nombre fini d’étapes depuis l’état θ est : B

θ→θ 



= [τθ→θ < ∞] =

Q(n) (θ, θ )

n=0

On définit également le temps de retour. Définition 11.8 Le temps de retour Tθ→θ est l’espérance du nombre d’itérations nécessaires pour que partant de l’état initial θ0 = θ on accède en θ : Tθ→θ = E (τθ→θ ) =



Q(n) (θ, θ ) × n

n=0

Considérons l’exemple illustratif ( 11.4) de la marche aléatoire sur N où l’état 0 joue le rôle particulier d’état absorbant : quand on est en θ = 0 on ne bouge plus donc, si 0 ∈ /A τ0→A = ∞ et V0→A = 0, B0→A = 0 Sinon V0→{0} = ∞ et B0→{0} = 1.

228

Le raisonnement bayésien

Figure 11.7 – Époques de passages en A.

Intéressons-nous maintenant aux trajectoires qui démarrent en θ = 0. Bk→{0} est la probabilité d’atteindre l’origine (puis d’y rester) par itérations de la chaîne de Markov. On a la relation de récurrence pour k > 1, avec p = 1 − q : Bk→{0} = pBk+1→{0} + qBk−1→{0} Les solutions de l’équation du second degré : x = px2 + q fourniront une  solution sous la forme de suite géométrique. On trouve x = 1 1±(1−2p) = 1−p . La solution générale est une combinaison linéaire de ces 2p p  k . La condition initiale suites géométriques de base : Bk→{0} = λ1 1k + λ2 1−p p B0→{0} = 1 impose λ1 + λ2 = 1. On voit que si p < 12 la seconde racine est plus grande que 1, ce qui conduit à ne retenir que la solution Bk→{0} = 1,∀k, afin de garantir que les probabilités soient toujours inférieures ou égales à 1. De façon symétrique, si p > 12 la probabilité de retour à l’origine depuis le point k k  . est Bk→{0} = 1−p p

11. Chaînes de Markov et simulations Monte Carlo

11.3.3

229

Chaîne récurrente quand l’espace d’états est discret ou dénombrable

Définition 11.9 Une chaîne irréductible est récurrente si l’espérance du nombre de visites qu’elle accorde à chaque état est infinie. ∀(θ, θ ), Vθ→θ = E(ηθ→θ ) =



Πr (θ, θ ) = ∞

(11.16)

r=1

Grâce au théorème précédent, on montre qu’une condition équivalente est : ∞

Qr (θ, θ ) = 1 = Bθ→θ

r=1

La chaîne est récurrente si et seulement si, pour tout couple d’états (θ, θ ) on a 100 % de chances d’atteindre θ depuis θ en un nombre fini d’itérations. Remarquons que dans le cas discret (espace d’états de cardinal fini), il est facile de montrer que toute chaîne irréductible est récurrente : en effet, le nombre d’états étant fini, il existe au moins un état qui est visité infiniment souvent quand on itère la chaîne à l’infini. Cet état étant connecté à tous les autres, chacun des états est visité infiniment souvent. La question de la récurrence ne se pose donc réellement que lorsque l’espace d’états est infini, ce qui laisse une possibilité aux trajectoires de s’échapper à l’infini.

11.3.4

Chaîne apériodique

On appelle période T d’un état θ appartenant à une chaîne discrète, le plus grand commun diviseur des valeurs de r ≥ 1 telles que les probabilités de transition Πr (θ, θ) en r étapes sont positives. Ceci implique que θ ne peut être de nouveau atteint tant que r < T. Définition 11.10 Une chaîne est dite apériodique si elle est irréductible et tous ces états sont de période 1. Par exemple, la chaîne engendrée par la gestion des stocks peut ne pas être apériodique si les apports ont une structure saisonnière.

11.3.5

Chaîne positive quand l’espace d’états est dénombrable

Pour les chaînes récurrentes, on va considérer la fréquence de visite de tous les sous-ensembles A à partir d’un état de départ θ. Deux cas peuvent se produire : – cette fréquence est nulle (on dit que la chaîne est nulle récurrente) ; – ou alors cette fréquence est strictement positive, et nous avons alors un candidat à une distribution invariante de la chaîne (on dit que la chaîne est récurrente positive).

230

Le raisonnement bayésien

Définition 11.11 Une chaîne irréductible récurrente est positive si le temps de retour est fini pour chaque couple d’ états. Tθ→θ = E (τθ→θ ) =



Q(n) (θ, θ ) × n < ∞

(11.17)

n=0

Le théorème suivant forme la base de l’analyse du comportement d’une chaîne de Markov sur un espace d’états discret ou dénombrable : Théorème 11.2 Soit une chaîne de Markov irréductible, apériodique, récurrente positive alors : ∀θ0 , lim Πn (θ0 , θ) = n−→∞

1 Tθ0 −→θ

Par conséquent, si l’on pose π(θ) = Tθ 1−→θ , alors cette répartition vérifie la 0 condition d’invariance, elle est unique et complétement déterminée par le jeu d’équations : π(θ) = 1; π(θ) ≥ 0; π(j) = π(i) × K(i, j) θ∈Θ

i∈Θ

Notons que pour les chaînes à états discrets de cardinal fini, l’irréductibilité garantissait la récurrence. On peut démontrer qu’elle suffit également pour garantir la positivité.

11.4

Comportement des chaînes de Markov pour les espaces d’états de cardinal infini

Dans le cas continu, dire qu’une chaîne est irréductible si tous les états peuvent communiquer n’est plus une définition rigoureuse, car il existe la même difficulté que celle d’une variable aléatoire continue pour laquelle la probabilité est nulle de passer par une valeur fixée. Ce sont alors les concepts de passage et de retour en un sous-ensemble A qui permettent de caractériser de façon très parlante nombre de propriétés des chaînes homogènes pour les espaces d’états de cardinal infini. Regardons d’abord l’adaptation de la définition de l’irréductibilité. Dans le cas général d’espace d’états continus, on doit d’abord supposer que les ensembles A sont probabilisables c’est-à-dire qu’il existe une mesure ϕ(.) dite de référence telle que ϕ(A) > 0. Cette condition exclut ainsi les sous-ensembles de mesure nulle vis-à-vis de ϕ.

11.4.1

ϕ−Irréductibilité

Définition 11.12 Une chaîne est ϕ−irréductible si pour tout point de départ θ, tout sous-ensemble d’arrivée A -de mesure non nulle pour ϕ (tel que ϕ(A) > 0)a une chance non nulle d’être atteint après un nombre fini d’itérations, c’està-dire Bθ→A > 0.

11. Chaînes de Markov et simulations Monte Carlo

231

C’est dire qu’il y a une probabilité strictement positive de retour en un nombre fini d’étapes dans l’ensemble A de mesure de référence non nulle. Pour le cas (11.5) autorégressif normal, une mesure de référence est la mesure traditionnelle de Lebesgue. La chaîne est alors irréductible pour les sousensembles de mesure non nuls : il est même possible d’effectuer une transition de tout θ vers tout sous-ensemble A en une seule fois, puisque au vu de l’écriture du noyau, la probabilité d’atteinte de A en une itération est strictement positive. Dans le cas des chaînes à états discrets, on prend pour A des singletons et on retrouve l’irréductibilité grâce à la propriété Bθ→{θ } > 0 ∀θ, θ ∈ Θ. C’est le cas, bien sûr, de l’exemple illustratif (11.1) de chaîne à deux états quand α et β sont non nuls. L’exemple de la diffusion (11.3) est légérement plus compliqué : tous les états communiquent, mais quand ils sont séparés de plus de trois niveaux, il faut plusieurs itérations pour passer de l’un à l’autre. Quant à l’exemple illustratif (11.4), il possède un état absorbant 0, et donc il n’est pas irréductible stricto sensu si on adopte la définition Bθ→{θ } > 0. Pourtant à bien y regarder, la définition générale de ϕ−irréductibilité est satisfaite si on prend pour mesure de référence ϕ la mesure pathologique qui place toute la masse de probabilité en 0 et rien sur les autres états ! Du point de vue de la mise au point d’algorithmes itératifs d’inférence, la condition d’irréductibilité d’une chaîne de Markov est nécessaire pour garantir le bon mélange des trajectoires, assurant l’indépendance vis-à-vis des conditions initiales et l’exploration du champ complet de Θ, ce qui sera indispensable quand on cherchera à construire une estimation convergente des caractéristiques de la fréquence de visite de chacun des états possibles pour θ.

11.4.2

Chaîne récurrente

Pour justifier théoriquement les estimations statistiques calculées sur les trajectoires, il faut aller plus loin dans les propriétés de régularité demandées à une chaîne de Markov. Il s’agit notamment des répétitions du retour de ces trajectoires dans les divers sous-ensembles A d’états possibles. La fonction Vθ→A (voir eq11.15) qui donne l’espérance du nombre de passages en A à partir de θ joue ici un rôle essentiel ainsi que Bθ→A , la probabilité de retour en A en un nombre fini d’étapes depuis l’état θ : Définition 11.13 Une chaîne ϕ−irréductible est récurrente si ∀A ⊂ Θ avec ϕ(A) > 0 on vérifie les conditions suivantes (1) Bθ→A > 0, ∀θ ∈ Θ (ϕ−irréductibilité) (2) Vθ→A = ∞, ∀θ sauf éventuellement pour quelques θ ∈ A tels ϕ(A ) = 0. Les exemples (11.5) et (11.6) de chaînes normales (avec ρ < 1) ainsi que la chaîne discrète à 2 états sont récurrents selon cette définition. La marche au hasard de l’exemple illustratif (11.5) où ρ = 1 et E() = 0 est également récurrente.

232

Le raisonnement bayésien

La marche au hasard discrète avec barrière absorbante en 0 de l’illustration (11.4) est ici également récurrente : dans la définition précédente, considérons pour loi ϕ la mesure pathologique qui concentre toute la masse de probabilité en 0. Le seul ensemble candidat d’arrivée tel que ϕ(A) > 0 est alors A = {0}. La première sous-condition est vérifiée car quelle que soit la valeur du point de départ θ = 0, 1, 2, ..., -avec la probabilité d’aller vers la gauche q = 0- il existe une probabilité non nulle d’atteindre A = {0}. La seconde sous-condition demande de vérifier V0→0 = ∞, condition bien évidemment vérifiée puisque partant de l’état 0 on reste à chaque itération dans cet état absorbant d’où d’ailleurs π0→0 = 1. La définition autorise à ne pas se préoccuper de Vθ→0 pour θ = 0 car ces points forment un sous-ensemble de mesure nulle pour ϕ. Définition 11.14 S’il existe des A tels que l’espérance du nombre moyen de visites est fini quand on part de θ dans A, c’est-à-dire Vθ→A < ∞, alors ces sous-ensembles sont dits transients. Remarquons que pour les états transients, la fréquence moyenne de visite πθ→A ne peut être que nulle.

11.4.3

Harris-récurrence

On veut parfois renforcer la propriété de récurrence en se débarrassant de la possibilité que le nombre de visites ne soit pas infini pour certains points de départ d’un ensemble de mesure nulle. On impose alors une condition plus stricte. Définition 11.15 Une chaîne est récurrente au sens de HARRIS si elle est irréductible et si [ηθ→A = ∞] = 1 pour tout A mesurable et pour tout point de départ θ ∈ Θ Avec cette définition, le comportement de la marche aléatoire discrète (illustration 11.4) est à rediscuter : – Elle est ϕ irréductible avec ϕ tel que ϕ({0}) = 1 tandis que ϕ({1, 2, ...}) = 0; – elle est récurrente ; – elle est Harris-récurrente si p < 1/2 car la probabilité d’arriver sur l’origine depuis un état θ = k (puis ensuite d’y rester et de la visiter infiniment souvent) est 1 ; elle n’est pas Harris-récurrente si p > 1/2 car la probabi k lité d’arriver en 0 est alors pq < 1.

11.4.4

Chaîne positive récurrente

Définition 11.16 Une chaîne irréductible et récurrente est récurrente positive si elle possède une distribution de probabilité invariante. Sinon elle est nulle récurrente.

11. Chaînes de Markov et simulations Monte Carlo

233

On peut démontrer le théorème suivant : Théorème 11.3 Si une chaîne de Markov est ϕ−irréductible et qu’elle possède une distribution invariante π, alors : – – – –

π et ϕ ont les mêmes sous-ensembles de mesure nulle ; la chaîne est π−irréductible ; π est l’unique distribution invariante de la chaîne ; la chaîne est récurrente positive.

11.5 11.5.1

Théorème général de convergence ergodique Moyenne empirique le long d’une trajectoire

Définissons pour une fonction h quelconque la variable aléatoire suivante : n hnθ =

h(θr ) ; θ0 = θ n+1

r=0

La récurrence est suffisante pour montrer le théorème suivant, dit théorème d’ergodicité : Théorème 11.4 Si une chaîne de Markov est ϕ−irréductible et qu’elle possède une distribution invariante π, alors elle est π-recurrente positive (d’après le théorème précédent) et les propriétés suivantes sont vraies pour tout point de départ θ, sauf éventuellement ceux d’un sous-ensemble B de mesure nulle, θ ∈ B ⊂ A, π(B) = 0 : – convergence en fréquence moyenne sur toutes les trajectoires :   n lim Sup |¯ πθ→A − π(A)| = 0 n→∞

A⊂Θ

n c’est-à-dire que l’espérance de la fréquence de visite de tout état π ¯θ→· et la distribution de probabilité π(·) finissent par coïncider. – convergence en comptage le long d’une trajectoire : ⎛ ⎞  lim ⎝|hnθ − h(t)π(t)dt|⎠ = 0 n→∞

t∈Θ

c’est-à-dire que Eπ (h), l’évaluation de l’intégrale d’une fonction h π−mesurable peut être effectuée par moyenne le long d’une seule trajectoire quelconque. En particulier si h = 1A on évalue π(A).

234

Le raisonnement bayésien

– si la chaîne est apériodique, on a un résultat plus fort :   (n) lim Sup |Π (θ, A) − π(A)| = 0 n→∞

A⊂Θ

c’est-à-dire que la chaîne oublie son état initial (à condition que θ ne fasse pas partie de l’ensemble de mesure vide pour π pour lequel ce résultat est sûrement faux) et que la répartition des états possibles après n itérations ressemble directement de plus en plus à la distribution de probabilité limite π.

11.5.2

Recours à la Harris-récurrence

L’exemple de la marche aléatoire discrète (illustration 11.4) montre bien les ennuis créés par le fait que ces propriétes peuvent être fausses pour certains points de départ. En effet le seul ensemble de points de départ pour lesquel la propriété π(θ) > 0 est vraie est θ = {0}. Si on part du point 0 et si on itère la chaîne, on reste en 0, et, évaluant π par comptage le long d’une trajectoire on n n = 1, π ¯0→A = 0 si 0 ∈ / A. Si par contre, on part d’un point k trouve bien π ¯0→0 autre que l’origine et que p > 1/2, alors il existe des trajectoires issues de k qui ne passent jamais par l’origine (puisque la probabilité d’arriver en 0 n’est que de  k n  q 1 < 1). Sur une telle trajectoire on évaluera toujours 1{0} (θr ) = 0 = p n r=1

π(0). Pour éviter de tels comportements, on impose généralement la Harrisrécurrence, afin que ces propriétés soient valables quel que soit le point de départ.

11.5.3

Interprétation de la propriété ergodique

L’existence d’une distribution invariante unique et la possibilité de construire une chaîne possédant une telle distribution de forme donnée sont les bases des méthodes MCMC. On vient de voir les hypothèses sous lesquelles des chaînes possédaient ces propriétés. Si la chaîne est récurrente, il existe une unique distribution invariante π ∗ . De plus la ne itérée des probabilités de transitions (formule de Chapman Kolmogorov) converge vers π ∗ dans le sens suivant : Quel que soit θ à l’étape initiale, Π(n) (θ, A) =



π(t)dt = Π∗ (A)

(11.18)

t∈A

quel que soit θ à l’étape initiale Pour certains lecteurs la lecture du théorème mathématique ne suffit pas à traduire ce que signifie concrètement la récurrence positive. En termes informels, on peut dire aussi que chaque état de Θ est revisité infiniment souvent mais dans des proportions qui se stabilisent.

11. Chaînes de Markov et simulations Monte Carlo

235

Cette propriété qu’à l’étape n la distribution des états de la chaîne de Markov est indépendante des conditions initiales pour n assez grand est appelée propriété ergodique et la chaîne elle-même est qualifiée d’ergodique. Cette propriété est à la base de tous les algorithmes itératifs, car elle signifie qu’en pratique : toute chaîne de Markov ergodique oublie le passé pour autant que le nombre de transitions intermédiaires soit grand. La fréquence de visite de chaque état (ou d’un sous-ensemble fixé quelconque de Θ) d’une chaîne de Markov ergodique est la même pour toute trajectoire réalisée par la chaîne. L’image du papillon illustre cette propriété très forte d’équivalence entre un comportement temporel (une seule trajectoire) et la répartition probabiliste de tous les comportements possibles d’un objet aléatoire. Imaginons qu’un papillon se promène au hasard selon un mouvement régi par une chaîne de Markov dans un espace (les lieux de cet espace forment les états de la chaîne de Markov et pour la commodité pédagogique les temps d’observation sont discrets). Alors, pour caractériser la probabilité de présence du papillon en chaque lieu de cet espace, la propriété d’ergodicité annonce l’équivalence de deux moyens d’évaluation : 1. on effectue une série (en théorie une infinité) de clichés photographiques du même papillon à des instants différents et l’on compte la fréquence de visites de chaque lieu (état du système) ; 2. on lâche un grand nombre de papillons identiques qui n’interfèrent pas les uns avec les autres (en théorie une infinité) et au même instant, en une seule fois, on évalue la densité papillonnesque en chaque lieu. Les premiers exemples (11.2), (11.4) et (11.1) exhibaient cette propriété d’ergodicité que l’on avait démontrée directement : – ils possèdent une distribution unique invariante ; – en itérant la chaîne, la fréquence des visites de chacun des états s’effectue asymptotiquement selon cette distribution. Mais la formule 11.13 est plus générale car elle s’applique à toutes sortes de noyaux, y compris ceux mélangeant des distributions continues et des répartions sur des ensembles discrets.

11.5.4

Intégrer par échantillonnage le long d’une trajectoire markovienne

Revenons au calcul d’une intégrale de la forme :  U=

h(θ)π(θ)dθ

(11.19)

Θ

On dispose d’une suite : θ1 , θ2 , . . . . θn0 , θn0 +1 , . . . . . θn0 +n . . . qui peut être considérée comme une suite de réalisations d’une chaîne de Markov homogène ergodique de variables aléatoires, éventuellement multidimensionnelles.

236

Le raisonnement bayésien

On considère alors la moyenne sur une sous-suite commençant en n0 + 1 et terminant en n0 + n : ! (n0 , n) = 1 U n

r=n 0 +n

h(θr )

r=n0 +1

! (n0 , n), comportant n termes est limitée Remarquons que la sommation de U inférieurement par l’indice n0 +1. Le choix de n0 assez grand est nécessaire pour que la chaîne se trouve dans les conditions ergodiques limites. Alors sous des conditions générales (Robert 1996) impliquant l’ergodicité, on a la convergence presque sûre : r=n0 +n 1 lim [ h(θr )] = U (11.20) n0 ,n→∞ n r=n +1 0

pour autant que π(θ) soit la densité de la distribution invariante de la chaîne de Markov. Ces conditions, assez techniques, font appel aux chaînes récurrentes au sens de Harris. La propriété (11.20) est de fait la base de l’utilisation des méthodes Monte Carlo par Chaînes de Markov (ou MCMC) dont le principe est de construire et simuler une chaîne de Markov ergodique dont la distribution invariante possède f (θ) comme densité. Dans les applications MCMC ultérieures cependant, nous verrons que les propriétés de convergence des séries simulées, si elle sont assurées théoriquement, demandent toutefois que soit garantie la rapidité de convergence vers l’état ergodique pour que les estimations des diverses intégrales recherchées aient la précision et l’absence de biais souhaités. Nous en discuterons au moment de chaque application notable.

11.6 11.6.1

Rapidité de convergence A-t-on atteint le régime stationnaire ?

Application 11.6 (chaîne à deux états) Simulons deux trajectoires de l’exemple illustratif (11.1) en associant la valeur 1 à l’ état E1 et la valeur 2 à l’état E2. Les probabilités α, β de tirages dans les urnes conditionnelles sont prises respectivement à 0, 7 et 0, 3. La figure 11.8 illustre les propriétés de cette chaîne en calculant sur deux trajectoires la suite des fréquences d’apparition de l’état 1. Selon la théorie, ces deux séries de fréquences convergent toutes β = 0, 3 dans ce cas. Soulignons que, deux vers la valeur limite ergodique α+β contrairement à la chaîne de base, la suite des {fr } forme une chaîne, certes, mais non homogène. Sur le même graphique est reporté en noir une trajectoire des fréquences de β , modèle qu’on appelera tirages indépendants dans une urne de probabilité α+β

11. Chaînes de Markov et simulations Monte Carlo

237

Figure 11.8 – Trajectoires des fréquences de l’état 1 d’une chaîne de Markov à

deux états et comparaison avec une trajectoire indépendante. modèle ergodique. On doit noter que la fréquence de l’état 1 forme, encore ici, une suite markovienne non homogène. Pour l’instant, remarquons seulement l’effet des conditions initiales engendrant des trajectoires très différentes et dont les variations sont beaucoup plus lentes que dans le cas indépendant qui β décroît rapidement pour se rapprocher de la valeur α+β = 0, 3. Application 11.7 (chaîne à deux états) La figure 11.9 présente deux trajectoires de 1000 réalisations simulées de cette chaîne autorégressive avec ρ = 0, 9,σ = 1 − (0, 9)2 (de telle sorte que v∞ = 1) en partant de μ0 = 0 et de μ0 = 3. La figure 11.10 présente les histogrammes sur 20 classes des 500 premières valeurs du cas μ0 = 0, des 500 premières valeurs du cas μ0 = 3 et d’un cas où 2 000 réalisations supplémentaires au-delà des 1 000 premières. On y a fait figurer aussi les distributions normales ajustées sur la moyenne et la variance empiriques. Pendant que certains écarts apparaissent sur les 500 premiers tirages, les 2 000 derniers pour μ0 = 3 montrent un certain lissage par la distribution normale de moyenne 0,048 et d’écart-type 0,947 proche de la loi limite. En effet, pour cette chaîne de Markov la limite ergodique existe puisque |ρ| ≤ 1 et c’est la loi normale centrée réduite (espérance nulle, écart-type égal à 1).

238

Le raisonnement bayésien

Figure 11.9 – Trajectoires markoviennes d’un auto-régressif.

Figure 11.10 – Histogrammes de réalisations d’un autorégressif et loi invariante.

11. Chaînes de Markov et simulations Monte Carlo

239

La moyenne et l’écart-type pour les 500 premiers tirages de ce cas sont respectivement 0, 363 et 1, 118 et l’on constate un écart inacceptable pour l’évaluation de la moyenne. Les histogrammes ainsi que les moyennes et variances illustrent la convergence vers la distribution limite après élimination de l’échantillon de chauffe des 1 000 premières valeurs pour le cas μ0 = 3. L’exercice donné en fin de chapitre permet de vérifier qu’en poursuivant les itérations, la situation s’améliore et se rapproche de ce que prévoit la théorie : les caractéristiques se rapprochent plus nettement de celles de N (μ∞ , v∞ ).

11.6.2

Contrôler la rapidité de convergence

Il nous faudrait une propriété plus forte que la simple convergence en probabilité de la quantité calculée sur une trajectoire hnθ vers la quantité théorique recherchée h(t)π(t)dt pour toute fonction h. Comme pour la loi des grands t∈Θ  nombres, il existe un théorème qui porte sur l’écart (hnθ − h(t)π(t)dt) : t∈Θ

on peut montrer que cet écart se comporte asymptotiquement comme une loi normale d’écart-type fixé, mais au prix d’hypothèses plus fortes sur le comportement régulier de la chaîne de Markov, par exemple, que la chaîne soit géométrique. Définition 11.17 Une chaîne récurrente positive est géométriquement ergodique s’il existe un réel λ, 0 ≤ λ < 1 et une fonction H > 1 sur l’espace d’état Θ tel que :  (n)  Sup Π (θ, A) − Π∗ (A) < H(θ)λn A⊂Θ Sous cette condition d’ergodicité géométrique, on peut montrer le théorème d’approximation normale asymptotique suivant : Théorème 11.5 Soit une chaîne récurrente positive géométriquement ergodique de limite π, pour toute fonction h intégrable, il existe une constante positive σh telle que la loi normale N (0, 1) soit la répartition asymptotique (n −→ ∞) de l’écart-normalisé :  (hnθ0 − Θ h(t)π(t)dt) 1

σh n 2 On a noté hnθ0 la valeur moyenne prise par la fonction h sur les n premières itérations de la chaîne démarrant en θ0 . On peut calculer σh en calculant la variance de hnθ0 quand n −→ ∞, on trouve : σh2

= varπ (h(θ)) + 2

∞ r=1

covπ (h(θr ), h(θr+1 ))

240

Le raisonnement bayésien

Une incursion dans l’analyse spectrale des noyaux permet de comprendre l’idée qui sous-tend l’approche. Dans le cas d’un espace d’états de cardinal fini p + 1, le noyau est un opérateur matriciel qui possède des valeurs propres {λ0 , λ1 , ...λk , ...λp } (éventuellement complexes) et les vecteurs propres à gauche {φ0 , φ1 , ...φk , ...φp } tels que : λk φκ (θ) =

p

φk (θ )K(θ , θ)

θ  =0

Il possède aussi des vecteurs propres à droite {ψ0 , ψ1 , ...ψk , ...ψp } associés aux mêmes valeurs propres et orthogonaux aux vecteurs propres à gauche tels que λψκ (θ) =

p

ψk (θ )K(θ, θ )

θ  =0

Sous des conditions de régularité du noyau K, il existe une formule de reconstitution sous la forme, dite représentation spectrale : K (n) (θ, θ ) =

p

ψk (θ)φk (θ )λnk

k =0

Pour le noyau d’une chaîne ergodique, la plus grande valeur propre doit être λ0 = 1, elle est de multiplicité 1 (le sous-espace associé est une droite), et le vecteur propre à gauche considéré φ0 vaut alors π, tandis qu’on vérifie facilement que le vecteur propre à droite associé ψ0 prend la valeur 1 pour toutes ses coordonnées. Les autres valeurs propres sont toutes de module strictement inférieur à l’unité. Par conséquent : K (n) (θ, θ ) = π(θ ) +

p

ψk (θ)φk (θ )λnk

k =1

et on retrouve le comportement d’ergodicité géométrique (toutes les valeurs propres λ1 , ...λk , ...λp ont un module inférieur à 1). On comprend aussi que c’est la seconde plus forte valeur propre qui règle la vitesse de convergence de K (n) (θ, θ ) vers π(θ ). Le cas d’espace d’états de cardinal infini dénombrable ou le cas d’un espace d’états formant un continuum est plus compliqué : il y aura un nombre infini de valeurs propres complexes, toutes inférieures ou égales à 1 en module (le spectre). La reconstruction du noyau sous la forme de série infinie de produits scalaires requiert des conditions techniques plus spécifiques et comme il peut y avoir cette fois un continuum de valeurs propres plus petites que 1 en module, c’est le suprémum des valeurs propres strictement inférieures à 1, (en pratique souvent difficile à évaluer) qui sera la clé de réglage de la vitesse de convergence.

11. Chaînes de Markov et simulations Monte Carlo

11.6.3

241

Réversibilité

Il est utile d’avoir une condition suffisante pour qu’une distribution π(θ) soit invariante pour la chaîne. On connaît une telle condition suffisante appelée condition de réversibilité et définie comme : π(θ) × p(θ, θ ) = π(θ ) × p(θ , θ)

(11.21)

où p(θ , θ) est ici la partie continue du noyau définie par l’équation générale (11.13) où interviennent également des probabilités de transition finie. On peut démontrer cette condition suffisante en suivant Chib et Greenberg (1995) qui utilisent la forme mixte du noyau. Considérons le membre de gauche de (11.13) ; on a d’après (11.7) : 

 K(θ, A)π(θ)dθ =

Θ

 (

Θ

 p(θ, t)dt)π(θ)dθ +

t∈A

Θ

Θ

A

π(θ)p0 (θ)dθ

  ( p(θ, t)π(θ)dθ)dt + π(θ)p0 (θ)dθ

 =

t∈A

par permutation des intégrations : 

 K(θ, A)π(θ)dθ =

Θ

t∈A

  ( p(t, θ)π(t)dθ)dt + Θ

π(θ)p0 (θ)dθ

t∈A

en appliquant la réversibilité, mais :

p(t, θ) = (1 − p0 (t))g(t, θ)  p(t, θ)π(t)dθ = (1 − p0 (t))g(t, θ)π(t)dθ = (1 − p0 (t))π(t) donc Θ Θ  g(t, θ)dθ = 1 puisque Θ    K(θ, A)π(θ)dθ = (1 − p0 (t))π(t)dt + p0 (θ)π(θ)dθ il vient Θ t∈A θ∈A   K(θ, A)π(θ)dθ = π(t)dt = Π∗ (A) cqfd 

Θ

t∈A

Par exemple, l’équation, 11.21 pour le premier exemple de modèle autorégressif σ2 d’ordre 1, est vérifiée par la densité normale centrée N (0, (1−ρ 2 ) ) qui est par conséquent une densité invariante pour la chaîne ergodique (11.2). Du point de vue de l’analyse spectrale, la réversibilité entraîne que toutes les valeurs propres sont réelles.

242

11.7

Le raisonnement bayésien

Simulations informatiques

Certains lecteurs trouveront rassurant de retrouver de visu, les propriétés générales d’ergodicité d’une chaîne de Markov, que l’on a démontrées dans les cas particuliers pour l’autorégressif normal et la chaîne à deux états. Il s’agit ici de simuler les deux modèles (11.2) et (11.1) suffisamment longtemps et de vérifier la propriété (11.18). Pour cela, on simulera chacun des modèles et l’on observera la dépendance vis-à-vis des conditions initiales et la vitesse d’atteinte du régime stationnaire (11.13). Les deux programmes à écrire, dans un langage au choix du lecteur, sont élémentaires, mais nous encourageons le lecteur à faire le lien entre les propriétés de l’objet mathématique (11.13) et l’algorithme de simulation par chaînes de Markov. Le cas de l’illustration (11.3), légérement plus compliqué de la diffusion de molécules entre deux compartiments, peut faire l’objet de plusieurs traitements : – informatique : simuler des trajectoires et évaluer numériquement des fréquences d’apparitions de chaque état (prendre nG et nD de l ordre de quelques unités seulement) ; – calculer mathématiquement la répartition limite ergodique invariante en résolvant l’équation (11.13) ; – vérifier que l’intuition physique suivante est correcte. Á l’équilibre après homogénéisation, il s’agit de répartir nR molécules entre nG + nD emplacements ; il y a CnnGG+nD manières de procéder. Si on choisit d’affecter x molécules dans le compartiment de gauche où il y a nG places (il faudra parallélement disposer nG − x molécules dans le compartiment de droite où il y a nD places), on peut procéder de CnxG × CnnDG −x façons différentes. La répartition d’équilibre associe donc à l’état x molécules à gauche la probabilité : CnxG × CnnDG −x CnnGG+nD

Épilogue L’exposé des propriétés markoviennes figure dans tout cours d’initiation aux probablilités comme dans Montfort, 1988. Nous avons voulu, dans ce chapitre, plus montrer, illustrer et faire sentir que démontrer ces propriétés. Un bon exposé de ces propriétés se trouve dans Karlin, 1966. Connaître ces propriétés (même selon une approche non théorique) est un préliminaire d’une grande aide pour bien comprendre le problème qui intéressera le statisticien appliqué, à savoir le problème inverse, c’est-à-dire comment construire une séquence markovienne telle qu’elle converge vers une loi f (θ) déterminée (en analyse bayésienne, on vise la loi a posteriori [θ |x ]) : en termes pratiques, il s’agit de construire un noyau de transition K tel que πK = f . Nous avons rappelé de façon heuristique quelques-unes des définitions et

11. Chaînes de Markov et simulations Monte Carlo

243

propriétés de base des chaînes de Markov. Ces notions sont classiques en calcul des probabilités. Elles sont importantes pour comprendre la portée et les limites des méthodes de calcul MCMC qui constituent le thème majeur des chapitres 12, 13 et 14. Le lecteur qui voudra approfondir ces notions pourra se référer par exemple à Robert et Casella, 1998. Le résultat théorique essentiel pour les applications est constitué par la formule 11.20 qui fonde donc le calcul de toutes les intégrales de la forme U pour autant que la suite de Markov simulée ait π(θ) comme densité invariante. Il existe, par ailleurs, d’autres versions plus ou moins élaborées de ce résultat (Robert, 1996). Il reste cependant à s’assurer de la convergence pratique des estimations obtenues. La suite présentera les applications du principe et quelques-unes des méthodes de contrôle de la convergence en s’attachant plus à la pratique de ces techniques qu’à la rigueur mathématique des résultats de convergence. La lecture des articles de Tierney, 1996, et de Roberts, 1996, est utile pour mieux comprendre la relation entre ce chapitre et les algorithmes que nous allons mettre en œuvre dans les trois chapitre suivants. La figure 11.11 résume l’idée principale du chapitre. Elle suggère que lorsqu’on considère un noyau de transition comme un algorithme que l’on itère, il existe, sous des conditions techniques générales, une distribution limite vers laquelle la fonction de répartition des états visités converge en loi. Autrement dit, on visualise directement sur la réalisation de la chaîne, les caractéristiques de l’objet mathématique limite, c’est-à-dire la distribution invariante. Nous montrons au chapitre suivant comment exploiter ces propriétés pour conduire l’inférence des paramètres d’un modèle par l’algorithme de Metropolis-Hastings.

244

Le raisonnement bayésien

Figure 11.11 – Une chaîne de Markov vue en tant qu’algorithme itératif avec un

tirage stochastique.

Chapitre 12

Construction par Metropolis-Hastings d’une chaîne de Markov pour simulation Monte Carlo vers une distribution donnée Prologue Voilà les algorithmes de calcul d’inférence les plus efficaces fondés sur les méthodes Monte Carlo par chaînes de Markov (MCMC ). Ils ont provoqué les développements spectaculaires récents de la statistique bayésienne. Assez paradoxalement, ces méthodes étaient connues des physiciens dès les années 1950, mais les moyens informatiques n’en avaient pas permis alors une large diffusion (Metropolis et al., 1953). Les statisticiens ont découvert, sur le tard, les avantages qu’ils pouvaient tirer de ces techniques et ils les utilisent abondamment depuis les années 1990 (Gilks et al., 1996). Sous des conditions générales, le chapitre précédent a montré qu’on peut construire des séquences de réalisations de chaînes de Markov ...θr−1 , θr , θr+1 , convergeant vers une distribution limite, dite ergodique invariante. Comme nous le suggère la figure 12.1 l’idée de ce chapitre est de s’attaquer au problème inverse : comment conduire cette convergence de telle sorte que la loi cible [θ|x] puisse être considérée comme cette répartition limite ergodique ? Il en résulte un algorithme de génération markovienne de séquences dépendantes ...θr−1 , θr , θr+1 , ... dit algorithme MCMC. Qui plus est, il ne demande pas de connaître la constante de normalisation de la répartition cible, ce qui est, en pratique, le cas des lois a posteriori de l’approche bayésienne. Après avoir éli-

246

Le raisonnement bayésien

miné les sous-séquences intiales dépendantes des valeurs de départ arbitraires (séquences de chauffe), la (ou les) séquence(s) terminale(s) permettent des estimations de [θ|x] par simple comptage ou des évaluations d’intégrales du type U = E(u) = u(θ)[θ|x]dθ par simple sommation.

Figure 12.1 – Problème inverse : comment construire une chaîne markovienne

qui converge vers une répartition ergodique donnée ? La méthode de Monte Carlo par chaînes de Markov (MCMC ) la plus courante, dite de Metropolis-Hastings (MH ), est décrite dans ce chapitre.

12.1

Une méthode MCMC générale : MetropolisHastings

La méthode de Metropolis-Hastings est historiquement la première des méthodes MCMC. Elle se fonde sur le choix d’une distribution de transition instrumentale conditionnelle g(θr |θr−1 ) généralisation de la distribution indépendante g(θr ) de l’algorithme d’acceptation-rejet. Elle jouit de la propriété remarquable de n’imposer que peu de limitations théoriques au choix de la fonction d’exploration. Elle est aussi généralisable aisément à des variables multidimensionnelles comme ce sera le cas de la plupart de nos exemples. Cependant, les comportements pratiques et notamment la rapidité d’atteinte de l’état limite ergodique doivent être considérés avec attention car ils dépendent fortement du choix de la loi instrumentale g.

12. Algorithme de Metropolis-Hastings

247

Note 12.1 Dans tout ce chapitre, nous conservons la notation π(θ) -encore appelée loi cible- pour désigner la fonction de densité de probabilité à simuler [θ|x]. L’algorithme de Metropolis-Hastings (MH ) peut être présenté comme une généralisation de l’algorithme d’acceptation-rejet.

12.1.1

L’algorithme d’acceptation-rejet revisité

Remarquons que, dans l’énoncé de la méthode acceptation-rejet, la variable auxiliaire uniforme U[0,1] n’a pour rôle que celui d’accepter ou non une réalisation de g(θ). On peut donc représenter le résultat de l’algorithme d’acceptationrejet comme la trajectoire d’un processus stochastique θr à temps discrets r tel que, à chaque étape r, on observe deux variables aléatoires : – une réalisation θ de loi auxilliaire g(θ), indépendante des précédents tirages ; – une réalisation de Bernoulli B[0, 1] telle que [B = 1] = ρ. Plus précisément, on réalise l’algorithme suivant : Algorithme 9 (algorithme d’acceptation-rejet revisité) 1. On génère t (qui sert de candidat) selon g(t) et parallélement B (qui sert de filtre d’acceptation du candidat) selon la distribution de Bernoulli, de paramètre ρ = M in[ Mπ(t) g(t) , 1] 2. On prend :θr = t avec probabilité ρ si B = 1, sinon retour à l’étape 1 avec probabilité 1 − ρ si B = 0

12.1.2

Limitations de l’algorithme d’acceptation-rejet et motivations de MH

Les méthodes de Monte Carlo classiques font apparaître certaines difficultés. Définissons le rendement comme le rapport du nombre de valeurs obtenues selon la loi cible sur le nombre de valeurs nécessaires devant être engendrées par l’algorithme. Quand la loi π est connue et que sa fonction de répartition F est facilement inversible, on peut atteindre un rendement de 100 % en simulant directement π (par inversion de F dans le cas monodimensionnel). Mais en général, π est une loi a posteriori obtenue suite à l’application de la formule de Bayes si bien que π n’est connue qu’à une constante près et d’ailleurs la variable aléatoire à simuler est multidimensionnelle, si bien que les techniques de simulation par inversion de la fonction de répartition ne sont plus d’aucune utilité. On peut, certes, avoir recours à l’algorithme d’acceptation-rejet, en utilisant un aléa auxiliaire mais le rendement peut alors devenir très médiocre. Peut-on échapper à ce choix entre deux méthodes insatisfaisantes ? Pour répondre à cette question, la représentation de l’algorithme de simulation sous la forme d’une chaîne aléatoire (θr ) est la clef. Dans la formulation

248

Le raisonnement bayésien

d’acceptation-rejet initiale, les réalisations successives de θi sont indépendantes. La décision de considérer une réalisation t issue de g comme réalisation candidate de π ne peut être prise que sur les données présentes (de l’étape r). C’est donc une décision par tout ou rien entraînant un déchet. Pour un rendement plus grand, une décision plus nuancée est nécessaire. Cette décision ne peut s’appuyer que sur l’utilisation complémentaire d’informations antérieures sur la chaîne aléatoire (θr ). Ceci implique donc que la suite {θr } ait alors une structure de mémoire. La structure la plus simple que l’on peut envisager est celle de chaîne de Markov (M C). Il serait possible (au moins théoriquement) d’utiliser d’autres structures de mémoire plus complexe. À partir de cette chaîne dépendante, il faut pouvoir tirer toutes les caractéristiques statistiques de la loi π(θ), au moins à partir d’un certain rang r = n0 . Ce serait le cas si π(θ) était la distribution limite ergodique invariante de la chaîne de Markov. Pour construire une chaîne qui possède cette propriété, modifions la condition d’acceptation de l’algorithme d’acceptation-rejet, où l’acceptation de θ est réglée par une variable de Bernoulli définie par la probabilité ρ. En respectant la structure markovienne, on peut construire cette règle de choix par différentes altérations de la procédure d’acceptation-rejet : – À l’étape r, et plutôt que recommencer un autre tirage de Bernoulli si la condition n’est pas satisfaite, on peut utiliser une prévision de θr . Dans un cadre markovien stationnaire, cette prévision peut être θr−1 ; on aurait donc :  θr =

le candidat t de loi g(t) si B = 1 la valeur précédente θr−1 si B = 0

– Toujours dans un cadre markovien, on peut utiliser un tirage dans une loi conditionnelle de densité g(t/θr−1 ) pour proposer un candidat au lieu d’un tirage indépendant de loi g. Dans ce cas, le rapport π/g est à remplacer par π(t)/g(t/θr−1 ). – Le choix de M est important. On a certes avantage à ce que ρ soit proche de 1 donc π(t)/M g(t|θr−1 ) proche de 1. M est constant dans l’algorithme d’acceptation-rejet. Il n’est pas interdit de songer à le rendre adaptatif en fonction de ce que l’on connaît à l’étape r avant de générer θr , c’est-àdire une fonction de θr−1 et de t proche de π/g. De façon à assurer la réversibilité de la chaîne, gage d’ergodicité comme on l’a vu au chapitre 11, M doit être remplacé par le rapport : π(θr−1 ) g(θr−1 /t) où les rôles de t et θr−1 sont intervertis. Nous verrons la démonstration plus loin.

12. Algorithme de Metropolis-Hastings

12.1.3

249

Algorithme de Metropolis-Hastings

La synthèse de ces propositions est faite dans l’algorithme de MetropolisHastings (MH ) : Algorithme 10 (algorithme MH) 1. À l’étape r (où on connaît θr−1 ), générer le candidat t selon g(t/θr−1 ) et une réalisation de Bernoulli B[0, 1] telle que [B = 1] = ρ pour contrôler le rejet éventuel. 2. Décider : θr = {

t si B = 1 on conserve le candidat θr−1 si B = 0 on reconduit la valeur précédente

avec ρ = ρ(θr−1 , t) donné par M in[

π(t)g(θr−1 |t) , 1] π(θr−1 )g(t|θr−1 )

On notera la différence avec l’algorithme d’acceptation-rejet où on rejetait les tirages avec probabilité 1 − 1/M jusqu’à l’obtention d’une nouvelle valeur, disons ici θr . Avec MH et si la condition de rejet est réalisée, on conserve la valeur θr−1 précédemment simulée. Par rapport à la technique d’acceptationrejet, on réalise un énorme gain en temps de calcul (le rendement est 100 %), au prix d’une légère perte en variance d’estimation (à taille d’échantillon fixé) pour des calculs du type 11.19. La trajectoire ainsi engendrée est celle d’une chaîne de Markov dont le noyau est un mélange qui vérifie l’équation : ⎛ ⎞  k(θ, dθ ) = g(θ |θ)ρ(θ, θ )dθ + ⎝1 − ρ(θ, t)g(t|θ)dt⎠ δθ (dθ ) t

Rappelons ici l’interprétation heuristique : δθ (dθ ) vaut 1 si θ ∈]θ , θ + dθ ], et 0 sinon. Par abus de notation, on peut écrire : k(θ, θ ) k(θ, θ)

= g(θ |θ)ρ(θ, θ ) si θ = θ ⎛ ⎞  = ⎝1 − ρ(θ, t)g(t|θ)dt⎠ sinon t∈Θ

On vérifie que le noyau peut être interprété comme une densité conditionnelle puisqu’ainsi : ⎛ ⎞    k(θ, dθ ) = 1 = g(θ |θ)ρ(θ, θ )dθ + ⎝1 − ρ(θ, t)g(t|θ)dt⎠ θ

θ  =θ

t∈Θ

250

Le raisonnement bayésien

Reste à justifier la probabilité d’acceptation ρ(., .) et à fixer si nécessaire la fonction d’exploration g(.|.). On va imposer au noyau k(θ, dθ ) d’être réversible vis-à-vis de π, de telle sorte que la chaîne laissera la loi cible π invariante. Sous condition d’irréductibilité et d’apériodicité (voir définitions en annexe C qui complète le chapitre 11), la chaîne construite par itérations du noyau k sera alors ergodique (voir page 234) et la distribution des itérées de la chaîne convergera en loi vers la distribution invariante π.

12.1.4

Conditions de π-réversibilité pour l’algorithme de Metropolis-Hastings

Soit une densité conditionnelle instrumentale générale g(θ |θ) c’est-à-dire une densité générant une valeur θ candidate, quand la trajectoire du processus à l’étape antécédente est en θ. On va chercher, à fonction d’exploration g(.|.) fixée, sous quelle condition sur ρ le noyau k(θ, dθ ) est π-réversible. Selon l’équation (11.21), cette condition de réversibilité pour le noyau implique , ∀θ, ∀θ , θ = θ : π(θ)g(θ |θ)ρ(θ, θ ) = π(θ )g(θ|θ )ρ(θ , θ) Par conséquent, la forme de la probabilité d’acceptation ρ(θ, θ ) doit être telle que : π(θ )g(θ|θ ) ρ(θ, θ ) = (12.1)  ρ(θ , θ) π(θ)g(θ |θ) La formule de Metropolis Hastings : ρ(θ, θ ) = M in[

π(θ )g(θ|θ ) , 1] π(θ)g(θ |θ)

(12.2)

vérifie la condition (12.1) et l’algorithme correspondant (dit de MetropolisHastings) génère alors un processus réversible avec π(θ) comme limite invariante ergodique unique quand le noyau k est irréductible apériodique (en pratique, on construit souvent le noyau tel que k(θ, θ ) = 0 ∀(θ, θ )). La beauté théorique du résultat (12.2) dû à Metropolis et al., 1953, est sa validité qui s’étend à toute densité conditionnelle g(t |θr−1 ). Historiquement, Metropolis n’avait considéré que les fonctions d’exploration g symétriques pour lesquelles la formule ci-dessus se simplifie en : ρ(θ, θ ) = M in[

π(θ ) , 1] π(θ)

Hastings, 1970, l’a ensuite étendue à l’équation (12.2). La portée d’application pour l’analyse bayésienne est décrite par Gelfand et Smith, 1990. En pratique, on utilise encore souvent comme Metropolis une marche aléatoire : t=θ+ε

12. Algorithme de Metropolis-Hastings

251

où ε est généré par tirages indépendants d’une loi fixée facile à simuler (en général uniforme ou normale). Dans ce cas, une analogie physique permet de comprendre pourquoi g est souvent appelée fonction d’exploration : le candidat t est recherché dans un voisinage du point initial θ. Le diamètre moyen d’exploration autour de θ est réglé par la variance de ε. Finalement, la condition (12.1) exhibe une propriété qui va être essentielle pour l’application au calcul bayésien des lois a posteriori : il est suffisant de connaître la loi cible π à une constante près pour mettre en œuvre l’algorithme de Metropolis-Hastings ! Enfin, on appelle souvent réplicats (sous-entendu « de valeurs aléatoires » tirées de la loi π) les tirages générés par l’algorithme, par abus de langage, car pour que cette appelation acquière une certaine légitimité, il faudrait d’abord montrer que le régime stationnaire périodique a été atteint.

12.1.5

Pratique de l’algorithme de Metropolis-Hastings

Application 12.1 Considérons le modèle linéaire : y ε

= θ1 + θ2 x + ε ∼ N (0, θ32 )

Les paramètres inconnus θ1 , θ2 , θ3 , désignent respectivement les coordonnées à l’origine, la pente et l’écart-type de l’erreur autour de la droite de régression de la variable à expliquer y en fonction de la variable explicative x (par exemple, le temps). Les données artificielles du tableau 12.1 ont été générées un générateur aléatoire normal pour créer les réalisations de l’erreur ε, en prenant θ1 = 0, θ2 = 2, θ3 = 1. La figure 12.2 montre l’ajustement réalisé. Temps (x) y

1 1,57

2 2,33

3 6,12

4 8,29

5 8,85

6 13,19

7 15,19

8 15,96

9 18,33

10 20,17

Table 12.1 – Données générées pour l’estimation MCMC des coefficients de la

régression. Cet exemple est un cas d’école de régression linéaire. Avec le prior non informatif choisi, on connaît les distributions a posteriori exactes de θ1 , θ2 qui sont des lois de Student et la loi de θ3 qui se rattache simplement à la loi gamma inverse. Les propriétés théoriques générales ont été données en annexe A. Le prior non informatif est un cas particulier limite des conjuguées naturelles utilisées dans cette annexe. Son calcul numérique par Metropolis-Hastings (MH ) n’est pas sans intérêt pédagogique, pour montrer la cohérence profonde des outils d’inférence. On insiste souvent sur la cohérence rationnelle de l’approche bayésienne. En voici une illustration simple.

252

Le raisonnement bayésien

La mise en œuvre d’un algorithme complexe, et il n’est pas douteux que MH peut en être un aux yeux d’un praticien débutant en statistique, peut éclairer celui-ci sur les obscurités de ses hypothèses et leur portée. Le cas d’école proposé veut répondre à ces objectifs. Revenons donc au modèle en utilisant les notations vectorielles habituelles du modèle linéaire (voir annexe A au chapitre 7) : ⎛ ⎞ ⎞ ⎛ 1 x1 y1 X = ⎝ ... ... ⎠ ; y = ⎝ ... ⎠ ; y10 1 x10 et on note θˆ1 , θˆ2 , θˆ3 les estimateurs classiques des moindres carrés :   θˆ1 −1 = (X  X) X  y ˆ θ2 " #  2  #1  θˆ1   θˆ3 = $  y − X  8 θˆ 2

Figure 12.2 – Ajustement d’un modèle linéaire sur dix données artificielles.

Lorsqu’on prend un prior non informatif [θ1 , θ2 , θ3 ] = θ13 , on sait que l’analyse bayésienne complète permet le calcul explicite de la loi a posteriori [θ1 , θ2 , θ3 |X, y ] en s’appuyant sur les propriétés de conjugaison. Plus spécifiquement, avec ce prior, on rappelle que (voir chapitre 8 et annexe page 332) :

12. Algorithme de Metropolis-Hastings

253

– la loi marginale a posteriori [θ3 |X, y ] est telle que la variable z = (10 −  2 ˆ 2) θθ33 suit une loi du chi-deux à 8 degrés de liberté (2z suit une loi gamma de paramètre de forme égale à 16) ; – la loi marginale a posteriori du couple [θ1 , θ2 |X, y ] est une loi de Student bidimensionnelle centrée sur θˆ1 , θˆ2 avec un facteur d’échelle θˆ3 (X  X)−1 et huit degrés de liberté.(cf. résultats du chapitre 8 concernant la distribution de Student multidimensionnelle compte tenu des propriétés générales du modèle de régression linéaire de l’annexe B qui complète le chapitre 8). On va vérifier ces propriétés, connues de tout apprenti bayésien, en traçant sur le même graphe l’histogramme des distributions marginales de chacun des paramètres obtenus par un algorithme MH et la densité de probabilité limite ici connue. Les figures 12.3, 12.4 et 12.5 correspondent respectivement à cette étude pour chacun des paramètres θ1 , θ2 , θ3 . Elles montrent que le praticien peut se rassurer vis-à-vis de l’emploi de cet algorithme MCMC, car sur le modèle linéaire, brique angulaire de nombreux modèles plus élaborés, l’ajustement est très correct.

Figure 12.3 – Comparaison des distributions marginales a posteriori de θ1 théo-

rique et obtenue par Metropolis-Hastings. Les figures 12.3, 12.4 et 12.5 ont été obtenues en prenant les mille dernières itérations d’un algorithme MH, travaillant directement sur θ1 , θ2 mais sur le logarithme de θ3 avec une fonction d’exploration normale tridimensionnelle. La

254

Le raisonnement bayésien

Figure 12.4 – Comparaison des distributions marginales a posteriori de θ2 théo-

rique et obtenue par Metropolis-Hastings.

Figure 12.5 – Comparaison des distributions marginales a posteriori de θ3 théo-

rique et obtenue par Metropolis-Hastings.

12. Algorithme de Metropolis-Hastings

255

matrice de variance-covariance de cette distribution de proposition de candidats utilise les premières 9 000 générations écartées pour se « recaler ». En codant l’algorithme de Metropolis-Hastings sous forme informatique, on s’apercevra qu’il ne comprend que quelques instructions, et que pour rendre les phases du calcul plus claires, on a intérêt à créer une fonction qui renvoie la logvraisemblance lorsqu’on lui fournit une proposition de paramètres. La section suivante va discuter comment régler plus précisément les algorithmes MH.

12.2

Réglages de l’algorithme Metropolis-Hastings

La convergence théorique de l’algorithme de Metropolis-Hastings est prouvée par Roberts et Smith, 1993. Pratiquement, cependant, la rapidité avec laquelle la limite ergodique est atteinte dépend du choix de g. Il existe des g pour lesquelles la convergence est extrêmement lente et donc inutilisable pratiquement. L’utilisation de l’algorithme MH demande beaucoup de précautions et le choix de la distribution instrumentale performante est délicat. On peut choisir : – g(t |θi−1 ) = g(t) le tirage du candidat se fait indépendamment du point de départ θi−1 . (comme dans l’algorithme d’acceptation-rejet) ; – g(t |θi−1 ) = g(t − θi−1 ) c’est-à-dire une marche aléatoire homogène. On notera dans ce cas que le choix d’une fonction g symétrique : g(u) = g(−u) a pour conséquence une définition plus simple de ρ : ρ = M in[

π(t) , 1] π(θr−1 )

– des processus de densité de transition autorégressive plus généraux, etc. ; – la méthode de l’enveloppe adaptative qui consiste à utiliser comme candidat g(t), une fonction majorante de π(t) log-concave par morceaux. Le domaine Tn , où cette fonction majorante est utilisée, est adapté en fonction de l’occurrence de nouveaux t (Robert, 1996, méthode ARMS). Application 12.2 (binormal revisité) : Reprenons un cas normal bidimensionnel comme dans l’exemple 11.6. Il s’agit de générer la loi normale bivariée [θ1 , θ2 ] de moyenne (0, 0) et de matrice de variance covariance Σ∞ définie par l équation 11.14, en utilisant seulement un générateur de lois normales monodimensionnelles. Dans ce qui suit, on définira Σ∞ en choissant les valeurs numériques ρ1 = 0, 9, θ2 = 0, 5, α1 = 0, 5 ,α2 = 1, σ1 = 1, σ2 = 1. On va étudier l’algorithme de Metropolis avec g marche aléatoire générant des ε indépendants, binormaux N2 (0, V 2 I) où I est la matrice identité. Dans le cas présenté on a pris V = 2. C’est une chaîne de Markov de même loi ergodique que la chaîne définie par la récurrence (11.4). Les deux graphiques de gauche de la figure 12.6 intitulés θ1 direct et θ2 direct sont les cas de 1 000 simulations indépendantes issus du modèle binormal vrai,

256

Le raisonnement bayésien

donnés à titre de comparaison avec les distributions marginales de θ1 et θ2 (histogrammes de droite), obtenues pendant une période de chauffe de 1 000 tirages

Figure 12.6 – Distribution de θ1 et θ2 pendant la période de chauffe.

Les deux graphes de la figure 12.7 donnent la chronologie de la fréquence d’acceptation d’un tirage de la loi instrumentale de l’algorithme MH et celle des moyennes des deux séries en fonction du nombre de tirages déja effectués pendant cette période de chauffe. Rappelons que la limite ergodique des moyennes est ici connue et égale à 0. Ceci montre que la période de chauffe devrait être au moins égale à 1 000 sur cette simulation. Les quatre graphes de la figure 12.7, analogues à ceux de la figure 12.6, concernent une série de 2 000 tirages effectués au-delà de la période de chauffe. Nous traiterons succinctement plus loin du problème important du choix de n0 et de n et de la rapidité de convergence de l’algorithme. Nous évoquerons seulement ici le cas de la réactualisation de la distribution instrumentale. Prenons l’exemple binormal inféré par l’algorithme MH avec distribution instrumentale g normale indépendante (moyenne nulle, écart-type V). La rapidité de convergence vers l’état ergodique dépend de g. C’est ainsi que, pour cet exemple au moins (mais c’est généralement le cas), le paramètre V 2 joue un rôle important car il règle l’extension du voisinage d’exploration. Or, à moins de connaître certaines propriétés de π, notamment quand π est une densité a posteriori, on a peu d’informations permettant un choix convenable de V 2 et on risque de se tromper d’où une trop grande lenteur de la convergence.

12. Algorithme de Metropolis-Hastings

257

Figure 12.7 – Distributions marginales de θ1 et θ2 en comportement limite ergodique et distributions vraies (1 000 tirages).

On peut essayer de corriger le mauvais choix initial en ré-estimant V 2 à partir de la variance observée des Zi sur p premières itérations. Ce procédé ne peut toutefois être répété périodiquement. Il a des limites car, ce faisant, le processus markovien Zi résultant n’est plus nécessairement homogène stationnaire. L’état limite ergodique à considérer est, en théorie, repoussé très au-delà du dernier changement de g. Application 12.3 (Gumbel revisité, suite)  Reprenons l’exemple 11 du chapitre 9, provisoirement abandonné page 197, et poursuivons l’estimation (avec prior non informatif ) de la distribution a posteriori du paramètre ρ du modèle de Gumbel des chutes de neige maximales à la Plagne, déjà étudiée au chapitre 10 grâce à la méthode d’échantillonnage pondérée à la page 200. On avait vu que cette distribution est connue analytiquement mais assez difficile à simuler par une méthode d’inversion de la fonction de répartition calculée sur une grille. Pour cette simulation, on a donc choisi Metropolis-Hastings en utilisant successivement deux distributions instrumentales g indépendantes, normales N (ˆ ρ, V (ρ)) et N (ˆ ρ, 2, 5 × V (ρ)). La première est la distribution a posteriori asymptotique et la seconde une distribution normale dont la variance est égale à la précédente multipliée par 2, 5. On voit ainsi que l’analyse théorique du problème peut suggérer des lois instrumentales possibles. Mais il apparaît que

258

Le raisonnement bayésien

les distributions asymptotiques, bien qu’utiles, doivent être adaptées pour servir de lois instrumentales. La figure 12.8 représente d’abord les trajectoires de chaque simulation après une période de chauffe telle que r ≤ 1 000. On remarque, sur la première chaîne MCMC, des périodes de trajectoire constante correspondant aux cas de nonraffraîchissement de la simulation, c’est-à-dire d’utilisation de la valeur antérieure. Ces périodes peuvent être longues même après 1 000 réplicats. D’autres simulations de trajectoires ont montré des périodes de non-rafraîchissement encore plus longues. Elles n’apparaissent pas sur la deuxième trajectoire, ce qui montre déjà que la seconde distribution instrumentale semble mieux adaptée. Cette différence

Figure 12.8 – Trajectoires de deux chaines MH pour ρ après 1 000 itérations de

chauffe. En haut, trajectoire avec une fonction d’exploration N (ˆ ρ, V (ˆ ρ)). En bas avec une fonction d’exploration N (ˆ ρ, 2, 5V (ˆ ρ)). est encore plus évidente sur les fréquences de renouvellement (acceptation d’une nouvelle valeur) cumulées sur l’ensemble des 2 000 réplicats (fig (12.9)). La figure 12.10 montre les résultats des deux estimations de la distribution de ρ comparées avec la densité théorique exacte (en traits plus fins). Pour la commodité des comparaisons, les histogrammes calculés sur les trajectoires ergodiques ont été lissés. Conclusion 6 Cet exemple nous apporte un enseignement supplémentaire de comparaison entre MCMC et techniques de simulations indépendantes, au moins

12. Algorithme de Metropolis-Hastings

259

Figure 12.9 – Fréquences de renouvellement des deux chaînes, pour une fonction d’exploration N (ˆ ρ, V (ˆ ρ)), à droite, et pour une fonction d’exploration N (ˆ ρ, 2, 5V (ˆ ρ)), à gauche.

en ce qui concerne le modèle de Gumbel. La simulation MH peut avantageusement remplacer un calcul exact de la distribution par quadrature sur une grille comme fait plus haut. On évite ainsi le problème délicat du choix de la grille adéquate car l’algorithme MCMC est auto-porté vers les zones de fortes densités de probabilité.

Épilogue Les méthodes de calcul applicables à l’approche bayésienne ainsi que les procédures de contrôle de convergence sont actuellement en fort développement. Un trait caractéristique de la plupart de ces méthodes est qu’elles sont issues d’algorithmes mis au point pour les besoins de la physique, que les statisticiens ont adoptés et adaptés. Avec l’algorithme de Metropolis-Hastings, le lecteur peut traiter un très large éventail de problèmes parmi les plus complexes de la statistique. Néanmoins, le praticien se pose nombre de questions sur comment choisir une fonction d’exploration appropriée à son cas d’étude. On verra dans le chapitre suivant que les procédures de Gibbs ne lui posent pas ce problème et que cette fonction d’exploration peut lui être, en quelque sorte, apportée sur un plateau par la structure même du problème.

260

Le raisonnement bayésien

Notes et exercices de maniement On ne peut se convaincre vraiment de l’efficacité des algorithmes MCMC qu’en les mettant en œuvre soi-même. Écrire de tels algorithmes ne prend que quelques instructions informatiques, selon le schéma universel de la figure 12.1. Le lecteur est invité à faire ses propres expériences et nous donnons ci-après quelques pistes faciles pour démarrer cet apprentissage.

Metropolis et les autres D’autres choix que celui de Metropolis peuvent satisfaire la condition de réversibilité (12.1). Ainsi en va-t-il de la règle de Barker ρ(θ, θ ) =

π(θ )g(θ|θ ) π(θ)g(θ |θ) + π(θ )g(θ|θ )

(12.3)



π(θ ) qui se simplifie en ρ(θ, θ ) = π(θ)+π(θ  ) quand la fonction d’exploration est symétrique. On peut construire d’autres règles d’acceptations qui vérifient la condition (12.1). La comparaison de l’efficacité de ces différentes règles sort du cadre de cet ouvrage. Le lecteur peut l’illustrer en programmant différentes règles sur le même exemple. Peskun, 1973, a démontré que la règle de Metropolis était optimale au sens d’un critère de variance portant sur l’expression donnée par l’équation 11.19. Ce théorème montre aussi que plus on reste au même endroit (ce qui se signale par une faible fraction ρ de candidats t acceptés), plus cette variance augmente, d’où l’idée de techniques MH adaptatives que nous évoquerons au chapitre 14.

Le modèle linéaire Le modèle linéaire se prête bien à un apprentissage des techniques MCMC. On connaît l’expression analytique exacte des lois a posteriori dans le cadre de la conjugaison. Dans ce chapitre, il a servi d’illustration à la mise en pratique de l’algorithme de Metropolis-Hastings. Il est également intéressant de faire l’estimation des lois a posteriori des paramètres par importance sampling. On peut, d’autre part, le généraliser à peu de frais : faire par exemple dépendre la variance d’une variable explicative, introduire une rupture, y ajouter un effet de dépendance temporelle (modèle auto-régressif sur les résidus), etc.

Convergence Le lecteur dispose maintenant d’un outil puissant d’inférence bayésienne. C’est en quelque sorte de la statistique au second degré : on utilise un algorithme fondé sur une propriété statistique (l’ergodicité d’une Chaîne de Markov) pour mener un calcul d’inférence statistique (étudier une loi a posteriori connue à une constante près). Malheureusement, c’est une méthode asymptotique : la théorie

12. Algorithme de Metropolis-Hastings

261

dit que la convergence a bien lieu à l’infini, mais combien de temps faudra-til laisser tourner l’algorithme pour légitimement exploiter les sorties de son régime stationnaire ? Une réponse pragmatique est de suivre graphiquement l’évolution de l’algorithme comme sur les figures 12.7 ou 12.9. Les questions de vitesse de convergence et de vérification pratique d’atteinte de la loi limite seront discutées plus avant au chapitre 14.

262

Le raisonnement bayésien

Figure 12.10 – Distributions a posteriori de ρ exactes et simulées, pour une fonction d’exploration N (ˆ ρ, V (ˆ ρ)), à droite, et pour une fonction d’exploration N (ˆ ρ, 2, 5V (ˆ ρ)), à gauche.

Chapitre 13

Méthode de Gibbs pour simuler une distribution a posteriori Prologue Le second groupe de méthodes de Monte Carlo par chaînes de Markov (MCMC ) est encore appelé échantillonnage de Gibbs. Plus intuitif pour certains praticiens, il ne demande pas de mettre en place une fonction d’exploration de l’espace des états de la nature. De plus, algorithme de Gibbs pour l’estimation et construction de modèle par conditionnement probabiliste forment souvent un mariage heureux. De fait, les méthodes de Gibbs utilisent plus complétement que ne le font les méthodes de Metropolis-Hastings, les structures conditionnelles des modèles. Nous illustrerons les avantages de ce mariage dans le présent chapitre.

13.1

Échantillonneur de Gibbs

Les méthodes de l’échantillonneur de Gibbs ne s’appliquent qu’aux cas où la grandeur à simuler θ est un vecteur de dimension k finie et où son domaine de définition Θ appartient à Rk . En cela, cette famille de méthodes est plus restrictive que les algorithmes MH. Néanmoins, ce cas de dimension finie est celui de la plupart des modèles statistiques. Nous verrons que ces méthodes exigent la connaissance pratique (c’est-à-dire la possibilité de simulation) des conditionnelles complètes de la loi conjointe f (θ) = [θ |x] , c’est-à-dire de la loi d’une composante de θ sachant toutes les valeurs fixées des k − 1 autres composantes.

264

Le raisonnement bayésien

Note 13.1 La méthode Gibbs est essentiellement basée sur les distributions conditionnelles comme les méthodes de modélisation bayésienne. Nous revenons donc à la notation de type [θ1 |θ2 ] utilisée en modélisation et que nous avions abandonnée pour exposer les méthodes MH. Plus exactement, pour les applications, il s’agira de lois a posteriori (conditionnelles complètes) de type [θ1 |θ2 , y] mais nous ne ferons pas apparaître le conditionnement sur les données y (il faut imaginer qu’il est toujours systématiquement sous-entendu) pour nous concentrer sur quantités d’intérêt θ. Seuls les arguments distingueront les types de densités concernées. Pour chacune des intégrales écrites, nous supposerons fixé le domaine Θ de chaque variable en cause.

13.1.1

Cas de deux coordonnées à valeurs continues

Supposons d’abord que le vecteur θ ait deux coordonnées. Les raisonnements qui suivent s’appliquent aussi bien à toute bipartition scalaire (k = 2) ou par blocs (k > 2) du vecteur θ de dimension k. En mathématiques (déterministes), on montre qu’une méthode de résolution  générale de l’équation intégrale : h(θ) = k(θ, θ ) h(θ )dθ (où h(.) est une fonction inconnue) repose sur la limite h(∞) (θ) des substitutions successives de  fonctions h(r) (θ) définies par la récurrence h(r) (θ) = k(θ, θ )h(r−1) (θ)dθ en partant d’une fonction initiale arbitraire h(1) (θ). Les propriétés des chaînes de Markov rappelées précédemment au chapitre 11 sont la traduction probabiliste de cette propriété mathématique bien connue. Elles impliquent la validité théorique des simples manipulations de ce qui suit. Soient deux valeurs courantes respectives θ1 , θ2 de chaque composante du vecteur θ La densité marginale [θ1 ] peut être écrite :   [θ1 ] = [θ1 , θ2 ]dθ2 = [θ1 |θ2 ][θ2 ]dθ2 Mais si on applique le même traitement à [θ2 ], on a :  [θ2 ] = [θ2 |θ1 ][θ1 ]dθ1 et si on reporte cette expression dans la première, on a :  [θ1 ] = avec la fonction k1 (θ1 , θ1 ) =



k1 (θ1 , θ1 )[θ1 ]dθ1

(13.1)

[θ1 |θ2 ][θ2 |θ1 ]dθ2

θ2

on aurait un résultat symétrique, avec une équation intégrale de même type pour la loi marginale [θ2 ].

13. Algorithme de Gibbs

265

Considérons le processus itératif suivant, appelé échantillonneur de Gibbs (à deux composantes ici) : Supposons que l’on connaisse les deux densités conditionnelles [θ1 |θ2 ] et [θ2 |θ1 ]. Considérons alors l’algorithme de simulation stochastique itératif sui(r) (r) vant en supposant connues les valeurs θ1 et θ2 à l’étape r. Décrivons alors l’étape r + 1 : Algorithme 11 (algorithme de Gibbs à deux composantes ) (r+1)

en simulant selon la loi [θ1 |θ2 ]

(r+1)

en simulant selon la loi [θ2 |θ1

1. Générer θ1

2. Générer θ2

(r)

(r+1)

] (1)

Le processus est initialisé en prenant une valeur quelconque de θ1 . (r+1) Il faut noter que c’est la nouvelle et dernière valeur simulée θ1 qui est (r+1) utilisée pour générer la seconde composante θ2 associée à la même étape.   (r+1)

θ1 } ainsi générés est clairement une chaîne (r+1) θ2 de Markov et son noyau est :      θ1 θ1 k , = [θ1 |θ2 ][θ2 |θ1 ] θ2 θ2 La suite des couples {

13.1.2

Condition d’invariance

On vérifie que ce noyau de Gibbs laisse la densité [θ] invariante ; en effet si on écrit θ comme un vecteur à deux dimensions θ1 , θ2 : 

[θ] k(θ, θ )dθ



θ



θ1 ,θ2

[θ1 |θ2 ][θ2 |θ1 ][θ1 , θ2 ]dθ1 dθ2

θ1 ,θ2



mais

 = θ1

[θ1 |θ2 ][θ2 |θ1 ][θ2 ]dθ2

θ2



donc θ

[θ1 |θ2 ][θ2 |θ1 ][θ1 , θ2 ]dθ1 dθ2

=

=







⎝ [θ1 |θ2 ][θ2 |θ1 ][θ2 ]dθ2 ⎠ [θ1 |θ2 ]dθ1 θ2

[θ2 |θ1 ]



[θ1 , θ2 ]dθ2 = [θ2 |θ1 ][θ1 ]

θ2

[θ] k(θ, θ )dθ

=

[θ2 |θ1 ][θ1 ]



[θ1 |θ2 ]dθ1 = [θ1 , θ2 ] = [θ ]

θ1

La chaîne est ergodique, car on peut montrer qu’est vérifiée la condition suffisante k(θ, θ ) = 0 ∀(θ, θ ) (positivité). Ainsi la méthode de Gibbs pour [θ1 , θ2 ], densité conjointe de deux variables réelles, est une méthode de génération d’une trajectoire markovienne homogène dont [θ1 , θ2 ] est la densité ergodique invariante. La méthode MH était cependant plus générale car elle ne requierait pas

266

Le raisonnement bayésien

que l’on sache simuler selon les conditionnelles complètes. La méthode de Gibbs apparaît plus commode d’emploi car elle ne demande aucun réglage d’une fonction d’exploration : le candidat proposé par la procédure itérative de Gibbs est accepté à chaque étape.

13.1.3

Échantillonnage de Gibbs d’un vecteur à k composantes

Peut-on généraliser l’échantillonneur de Gibbs à la simulation d’une suite de vecteurs à k composantes (pour k > 2) ? La généralisation la plus évidente est de bâtir un algorithme de simula(1) tion stochastique itératif suivant, en supposant connu le vecteur θr = {θr , (2) (j) (k) θr , . . θr . . .θr } à l’étape r. Algorithme 12 (algoritme de Gibbs général) Pour passer de l’étape r à l’étape r + 1 : (1)

(2)

(2)

(1)

(j)

(k)

1. Générer θr+1 en simulant selon la loi [θ(1) |θr , ...θr ...θr ] (3)

(k)

2. Générer θr+1 en simulant selon la loi [θ(2) |θr+1 , θr ...θr ] (j)

(1)

(j−1)

3. ...Générer θr+1 en simulant selon la loi [θ(j) |θr+1 , ...θr (k)

(1)

(j+1)

, θr

(k)

...θr ]

(k−1)

4. Générer θr+1 en simulant selon la loi [θ(k) |θr+1 , ...θr+1 ] Le processus schématisé à la figure 13.1 est initialisé en prenant une valeur (1) quelconque de θ1 . Ainsi l’étape r + 1 est scindée en k sous-étapes. Chaque sous-étape est un tirage au sort dans la distribution conditionnelle complète de chaque θ(j) connaissant l’ensemble des autres variables (ou groupes de variables). À l’origine de chaque étape, les valeurs simulées à l’étape précédente sont utilisées pour spécifier la première conditionnelle complète, celle de θ(1) . Ensuite, les valeurs de conditionnement sont progressivement remplacées par les nouvelles valeurs générées à l’étape r + 1. Bien entendu, le même ordre des θ(j) doit être conservé à chaque étape. Un nouveau vecteur θr+1 est ainsi généré à partir des éléments de θr à l’issue des k sous-étapes. Le résultat suivant est une extension du cas de deux composantes (la démonstration figure dans Roberts et Smith, 1993, et dans Robert, 1996). Théorème 13.1 La suite de vecteurs k−dimensionnels simulés {θi } par l’algorithme précédent est une une chaîne de Markov dont la distribution k-dimensionnelle invariante, limite ergodique de la chaîne, est la distribution conjointe : [θ] = [θ(1) , θ(2) , . . . θ(j) . . . θ(k) ] (j)

Il en résulte que chaque sous-suite {θr } a la distribution marginale [θ(j) ] comme densité limite ergodique.

13. Algorithme de Gibbs

267

Figure 13.1 – Schéma de l’algorithme de Gibbs.

Cependant, cette sous-suite n’est pas elle-même une réalisation de chaîne de Markov, contrairement à ce qui se passe pour k = 2. Gelfand et Smith, 1990 donnent une présentation heuristique de la démonstration. On peut démontrer (Robert, 1996) que l’algorithme de Gibbs correspond à la juxtaposition de k algorithmes MH de probabilités d’acceptation ρ(., .) uniformément égales à 1. Gelfand et Smith proposaient aussi d’estimer les distributions limites en échantillonnant m valeurs « limites » θr (m) (pour r assez grand) de m suites indépendantes obtenues à partir de m conditions initiales indépendantes. Mais on peut n’utiliser qu’une seule suite, pour autant que n et n0 soient assez grands. Si c’est le cas, le théorème ergodique assure que les sommes partielles ! (n0 , n) sont, à la limite, des estimations sans biais des intégrales U . U Il est vrai que les hypothèses de Gibbs, connaissance et possibilité de simulation des distributions conditionnelles complètes propres à chaque modèle des éléments d’un vecteur de dimension finie, sont plus restrictives que celles quasi absentes de la méthode M H. L’universalité théorique de cette dernière est cependant trompeuse sur le plan pratique (Casella et George, 1992). Un mauvais choix de la fonction d’exploration g(θ|θr−1 ) est possible malgré toutes les précautions pratiques. En grande dimensions, cela a des conséquences fâcheuses car un faux bond de l’algorithme MH affecte le vecteur tout entier des propositions quand le candidat se voit refusé. Au contraire, la méthode de Gibbs travaille composante par composante. Comme nous le verrons plus loin,

268

Le raisonnement bayésien

l’algorithme de Gibbs est particulièrement bien adapté au calcul et à l’estimation des modèles bayésiens, hiérarchiques notamment, et il exploite au mieux la structure conditionnelle des équations de modélisation, c’est-à-dire : – le conditionnement des observables par rapport aux paramètres ; – le conditionnement des niveaux de paramètres entre eux (modèles hiérarchiques) ; – le conditionnement des observables par rapport aux variables internes éventuelles (variables latentes).

13.1.4

Exemple d’application de l’échantillonneur de Gibbs

L’exemple de l’île de Terre-Neuve où vit une harde de cerfs que nul prédateur ne menace est inspiré de Robert, 1992. Application 13.1 Pour conserver l’équilibre écologique de l’île, il est nécessaire de réguler cette population en maintenant le nombre de cerfs inférieur à un seuil. Les cerfs en surplus sont abattus ou transférés sur le continent. On veut éviter de recourir à un recensement systématique de tous les cerfs de l’île. Une technique d’évaluation statistique de population (c’est-à-dire de recherche du nombre inconnu μ d’individus sur cette île) souvent utilisée en écologie s’appelle capture-recapture. Elle consiste à observer deux échantillons successifs de la population dans des conditions expérimentales identiques. Au cours de la première capture on obtient x cerfs. On les marque avec un bracelet numéroté inoffensif pour leur santé et on les relâche. Après une certaine durée qui permet aux cerfs marqués de réintégrer leur habitat et de reprendre les mêmes habitudes que leurs congénères non marqués (ces derniers sont en nombre μ − x), on effectue une nouvelle capture (même durée, même technique de capture, mêmes opérateurs et circonstances extérieures similaires). On fait l’hypothèse que, d’une expérience à l’autre, la probabilité π de capture d’un individu marqué ou non reste constante. La seconde expérience permet d’observer à la fois le nombre de recaptures y (individus marqués qui furent donc capturés deux fois) et le nombre z d’individus capturés non marqués (ces individus qui étaient passés au travers les mailles du filet la première fois, se sont faits prendre au cours de la seconde capture). On n’a, bien sûr, pas les moyens d’observer combien d’individus ont échappé aux deux captures (il y en a μ − x − z). S’il était besoin de fixer les idées, on peut prendre les valeurs numériques suivantes x = 10, y = 3, z = 9. 1. Calcul de la vraisemblance L’ensemble des états de la nature est le vecteur θ = (μ, π) formé des grandeurs inobservables inconnues quantité de cerfs et probabilité de capture d’un animal. Les informations forment le vecteur (x, y, z) qui nous renseigne sur θ. Les hypothèses possèdent une traduction vis-à-vis des propriétés du modèle que l’on va construire : chaque animal a la même probabilité π d’être capturé au cours des deux expériences, les captures

13. Algorithme de Gibbs

269

sont des événements indépendants et la probabilité de capturer un animal n’est pas influencée par le nombre de cerfs déjà capturés. La loi [X |μ, π ] est celle d’un tirage binomial de μ individus dont chacun à la probabilité élémentaire π d’être sorti de son milieu et marqué, tandis que [Y |x, μ, π ] est celle d’un tirage binomial de x individus déjà marqués dont chacun à la probabilité élémentaire π d’être sorti de son x! milieu et recapturé, soit [Y |x, μ, π ] = y!(x−y)! π y (1 − π)x−y . Enfin la loi [Z |x, y, μ, π ] est celle d’un tirage binomial de μ−x individus non marqués dont chacun à la probabilité élémentaire π d’être sorti de son milieu lors de la seconde expérience de capture sachant qu’il était déjà non marqué, (μ−x)! donc [Z |x, y, μ, π ] = z!(μ−x−z)! π z (1 − π)μ−x−z . La vraisemblance s’écrit, d’après la loi des probabilités composées, sous la forme : [X, Y, Z |μ, π ] = [Z |x, y, μ, π ] × [Y |x, μ, π ] × [X |μ, π ]

(13.2)

soit [X, Y, Z |μ, π ] =

μ! π x+y+z (1 − π)2μ−x−y−z y!(x − y)! z! ((μ − x) − z)! (13.3)

2. Prior et posterior On sait que les observations des années passées et la biologie de la reproduction et de la mortalité du cerf sur cette île permettent de dire qu’a priori : – le nombre total de cerf ne peut pas être inférieur à 37 ni supérieur à 44 ; – la probabilité de capture π suit une loi bêta de coefficients (a, b) connus en fonction des données observées d’efficacité de plusieurs expériences similaires de capture/marquage/recapture. La loi a posterori du vecteur paramètre inconnu s’obtient par la formule de Bayes : [π, μ |x, y, z ]

=

K(x, y, z, a, b) × μ! Γ(a + b) × (13.4) y!(x − y)! z! ((μ − x) − z)! Γ(a)Γ(b) 1H π x+y+z+a−1 (1 − π)2μ−x−y−z+b−1 8

en appelant H l’ensemble des μ tels que H = max(37, (x + z), (y + z)) ≤ μ ≤ 44 On voit que le problème réside dans le calcul du coefficient normalisateur,  −1   désigné ici par : K(x, y, z, a, b) = [x, y, z |π, μ ] [π, μ] dπdμ , π,μ

270

Le raisonnement bayésien

3. Conditionnelles complètes et algorithme de Gibbs On voit directement sur l’expression (13.4) que si le nombre μ de cerfs était connu, la loi conditionnelle a posteriori de π serait une loi bêta de coefficients (a , b ) tels que : a b

= x+y+z+a = 2μ − x − y − z + b

(13.5) (13.6)

De façon symétrique, le nombre de cerfs a priori peut prendre une des huit valeurs 37, 38, 39, 40, 41, 42, 43, 44 et, à π supposé connu, la loi conditionnelle a posteriori [μ |π, x, y, z ] est une loi discrète répartie sur les huit valeurs précédentes. La pondération de masse de probabilité a posteriori s’obtient en extrayant de l’expression (13.4) les termes qui dépendent de μ. On en déduit, par normalisation sur les huit valeurs possibles : [μ |π, x, y, z ] =

μ! 2μ ((μ−x)−z)! (1 − π) 1H μ=44  μ! 2μ ((μ−x)−z)! (1 − π) 1H μ=37

(13.7)

Les deux conditionnelles complètes sont faciles à simuler et nous suggèrent d’utiliser un algorithme de Gibbs pour générer un pseudo-échantillon a posteriori de la loi du couple (μ, π) sachant (x, y, z, a, b). On itère l’algoritme markovien suivant : ayant généré (π (i) , μ(i) ) à l’étape i, on tire successivement π (i+1) dans une loi bêta de paramètres (x+y+z+a, 2μ(i) − x − y − z + b) puis π (i+1) dans une loi multinomiale sur les huit valeurs 37, 38, 39, 40, 41, 42, 43, 44 en affectant à chaque valeur une probabilité (i+1) μ(i+1) ! élémentaire de tirage proportionnelle à ((μ(i+1) (1 − π)2μ 1H . −x)−z)!

13.2 13.2.1

Algorithme de Gibbs et modélisation graphique Le DAG : une représentation utile du problème

Le chapitre 5 a montré qu’un graphe orienté acyclique (DAG) est un outil visuel utile de construction des modèles bayésiens, même complexes ou de grandes dimensions. Le DAG représente les quantités par des nœuds, reliés par des flèches, indiquant les dépendances conditionnelles entre nœuds. Les flèches issues d’un nœud ν indique que ses enfants (notés ch (ν)) sont les nœuds sous l’influence directe de ν. Les flèches pénètrent dans chaque nœud ν en provenance de leurs ascendants directs (parents de ν, notés pa (ν)). Dans le graphe les nœuds sont des grandeurs probabilistes, soit fixées (c’est-à-dire observées) soit variables. Par convention graphique, on représente les grandeurs observées par des rectangles tandis que les nœuds aléatoires apparaissent comme des ellipses.

13. Algorithme de Gibbs

271

Propriété de l’indépendance conditionnelle Si un modèle bayésien peut être représenté sous la forme d’un graphe orienté acyclique (DAG), la distribution jointe de tous les nœuds, notée [V ], a une factorisation unique de forme : [V ] = Πv∈V [ν |pa (ν) ]

(13.8)

où des distributions conditionnelles dans le produit réduisent à [ν] les nœuds sans parents. C’est le cas pour les paramètres assignés à un prior. La conséquence fondamentale de cette propriété est qu’il suffit de préciser les priors [ν] et les relations conditionnelles entre les nœuds pour déterminer la loi jointe de toutes les variables structurées par le modèle.

13.2.2

Dans un modèle graphique orienté, les conditionnelles complètes impliquent seulement les nœuds parent et fils

Considérons comme dans la figure 13.2, une branche dans un modèle graphique orienté avec la variable aléatoire éventuellement multidimensionnelle A, regroupant l’ensemble des nœuds parents de B, qui à son tour est un nœud parent pour la quantité aléatoire C (éventuellement multidimensionnelle). On note ci-après (ABC)− l’ensemble des variables différentes de A, B ou C : sur la figure 13.2, cet ensemble est représenté par la zone entre les pointillés dans laquelle on a fait apparaître B, les nœuds parents de C différents de B. En travaillant sur le nœud C, avec toutes les autres variables fixées, la structure orientée du modèle traduit la représentation graphique de la propriété d’indépendance conditionnelle pour la conditionnelle complète de C :       C A, B, (ABC)− = C B, (ABC)− (13.9) Le nœud B est situé entre les ensembles de nœuds A (ses parents) et C (ses enfants) : la formule de Bayes, combinée avec l’équation (13.9), implique que la conditionnelle complète de B s’écrit :    B A, C, (ABC)− =

[B |A, (ABC)− ] × [C |A, B, (ABC)− ] (13.10) [C |A, (ABC)− ]       ∝ B A, (ABC)− × C B, (ABC)−       B A, C, (ABC)− ∝ [B |A ] × C B, (ABC)− Quand on considère cette expression en tant que fonction de B, le dénominateur de Bayes ne dépend pas de B : il s’agit d’une constante de normalisation qui garantit que l’intégrale sur tout le domaine de B vaudra 1. Le numérateur est exprimé par deux probabilités conditionnelles qui suivent la direction des

272

Le raisonnement bayésien

Figure 13.2 – La mise à jour bayésienne tire parti de la structure conditionnelle.

13. Algorithme de Gibbs

273

flèches : puisque c’est cette démarche même qui a créé le modèle, ces deux expressions sont donc explicitement connues ! Par conséquent, sur un modèle graphique orienté, les conditionnelles complètes sont connues à une constante normalisante près. L’échantillonnage issu de chacune de ces distributions conditionnelles complètes a posteriori n’est pas difficile à obtenir puisque chacune d’elles est une loi de probabilité et la constante normalisante est au pire une intégrale monodimensionnelle (que l’on peut brutalement calculer point par point ou atteindre par des algorithmes rapides de simulation). On peut aller plus loin en faisant intervenir B  les parents autres que B du nœud C. Quand dans l’expression (13.10), on va chercher à calculer [C |B, (ABC)− ] , il suffit de réitérer le raisonnement précédent avec C jouant le rôle de B et (B, B) jouant le rôle de A. Il vient :    C B, (ABC)− = Const × [C |B, B  ]

(13.11)

Dans l’équation (13.11), le terme Const n’est pas une fonction de B. Finalement, en combinant (13.10) et (13.11) et en ne gardant que les termes dépendants de B, la structure orientée du graphe permet une écriture plus simple de la règle de Bayes :    [B |A ] × [C |B, B  ] B A, C, (ABC)− =  [z |A ] × [C |z, B  ] dz

(13.12)

z

L’équation (13.12) est l’écriture locale de la règle de Bayes ; la relation liant un nœud B à ses parents A joue le rôle du prior et la relation liant ses enfants C aux parents (B, B) joue le rôle de la vraisemblance. Selon l’équation (13.12), la conditionnelle complète de chaque quantité aléatoire formant un nœud du graphe (observables, variable latente ou paramètre) du graphe est uniquement fonction des parents de ce nœud, de ses enfants et des co-parents de ses enfants. Cet ensemble conditionnant forme la couverture markovienne du nœud. Ainsi, si à partir du graphe acyclique orienté direct, on rajoute des liens fictifs entre les variables qui ont les mêmes descendants directs et si on transforme tous les liens en liens non orientés, on obtient un graphe qui traduit la structure de voisinage du conditionnement. Spiegelhalter et al., 1996 appellent avec humour cette opération « moralisation » car elle consiste à reformer les familles en « mariant » les parents et en regroupant les enfants.

13.2.3

Traitement des variables supplémentaires non observables

Le chapitre 5 a montré l’intérêt des variables dites latentes en modélisation et nous avons vu que les données manquantes (exemples des chapitres 5 et 8) pouvaient être traitées comme ces variables latentes. En fait, d’autres variables intervenant en modélisation comme les variables prédictives peuvent aussi y êre attachées. C’est pourquoi dans ce paragraphe nous appelerons génériquement

274

Le raisonnement bayésien

Z ces variables supplémentaires non observables à distinguer des données ou observables X. La considération de variables non observables n’est pas neuve en statistique classique. On peut prendre pour exemples les modèles linéaires avec erreurs sur les variables, les techniques de maximisation de la vraisemblance EM de Dempster et al., 1978, voir également Gelman et al., 1995, où de telles grandeurs non observables ou variables manquantes sont introduites pour des raisons de commodités de calcul. C’est le mérite de l’approche systémique notamment en modélisation du filtrage de Kalman d’avoir fait très explicitement la séparation entre variables observables X, paramètres θ et variables non observables Z dans la construction de modèles stochastiques. Le problème du statisticien classique est d’écrire la vraisemblance [x|θ] de l’échantillon des observables conditionnellement aux paramètres, base de l’inférence dans le paradigme fréquentiste. Ce faisant, il se heurte à un calcul d’intégration souvent difficile pour se débarrasser de ces non observables Z :   [x|θ] = · · · [x|θ, z][z|θ]dz z

Comment intégrer explicitement les variables supplémentaires dans une chaîne de Gibbs Pour effectuer cette intégration, Tanner et Wong, 1987, ont exploité le raisonnement conditionnel. La présentation systémique de tout modèle probabiliste comme une hiérarchie de niveaux (par un DAG notamment) met en évidence le rôle des variables latentes : – un niveau conceptuel : le modèle introduit des variables instrumentales Z définies sur un espace Z et de densité [Z|θ] ; – au niveau d’observation : les observables X sont reliées aux variables instrumentales par des fonctions de transfert déterministes ou stochastiques que l’on peut résumer dans les deux cas par la densité [x|Z, θ]. La vraisemblance, densité marginale des seules observables, s’écrit :  [x|θ] = [x/Z, θ][Z|θ]dZ Cette écriture est de portée générale et il est inutile de préciser ces densités, de détailler leur intégration ainsi que la structure des θ en fonction des divers cas possibles. En particulier, θ peut être partitionné en sousvecteurs spécifiques pour chaque distribution [x|Z, θ] ou [Z|θ]. Notons que si l’on dispose du prior [θ], ces distributions suffisent à inverser le conditionnement grâce à la formule de Bayes : [θ, Z|x] = 

[θ, Z|x] [Z|θ][θ] [θ, Z|x] [Z|θ][θ]dZdθ

(13.13)

13. Algorithme de Gibbs

275

et, par marginalisation, les distributions marginales a posteriori [θ|x] d’un côté, les distributions marginales prédictives [Z|x] de l’autre côté. À l’inverse de l’inférence fréquentiste, l’approche bayésienne traite donc les variables supplémentaires de la même façon qu’elle considère les paramètres. Au lieu de les éliminer par intégration, on considère explicitement leur loi a posteriori. Elles vont servir de pivot pour réaliser l’inférence. La distribution a posteriori des θ connaissant les seuls observables x s’obtient à partir de (13.13) par marginalisation :   [θ|x] = [θ, Z|x] dZ = [θ|Z, x] × [Z|x] dZ (13.14) La distribution marginale a posteriori des variables supplémentaires Z s’obtient également par marginalisation de (13.13) :  [Z|x] = [Z|θ , x] × [θ |x] dθ (13.15) où θ est un point courant du domaine de définition Θ de θ. En substituant cette expression dans la précédente, (13.14) devient :  [θ|x] = k(θ, θ ) × [θ |x] dθ (13.16) le noyau différentiel est donné par :   k(θ, θ |x) = [θ|Z, x] × [Z|θ , x] dZ

(13.17)

Le lecteur ne manquera pas de constater le parallélisme des raisonnements précédents avec ceux du développement de l’algorithme de Gibbs. On voit que 13.17 exprime ce noyau comme une convolution par rapport à Z des deux distributions conditionnelles complètes [θ|Z, x] et [Z|θ , x]. Ainsi, le processus de Gibbs voit son noyau k exprimé comme noyau du processus marginal en θ associé au processus complété {θ, Z} par le vecteur des variables supplémentaires Z. Au niveau du calcul, celles-ci doivent être considérées au même titre que les paramètres. Bien sûr, la variable auxiliaire Z est définie sur un espace des épreuves différent de celui des paramètres.

13.2.4

Traitement de l’exemple 6

 Reprenons l’exemple 6 des pluies mensuelles de février et août observées à la station météorologique tunisienne de Ghezala-barrage (voir aussi page 105). À partir des équations de construction (5.3) en suivant le raisonnement conditionnel, la statistique bayésienne introduit une vraisemblance complète où interviennent les quantités latentes (n nombre de pluies instantanées latentes d’intensité xi , i = 1..n), pivots de la structure du modèle :   N (μρ)n e−μn−ρ i=1 Xi [y, x, n|μ, ρ] = 1Y = N i=1 Xi

276

Le raisonnement bayésien

Les conditionnelles complètes peuvent être facilement déterminées. Prenons des priors gam(aμ , bμ ) pour le paramètre nombre moyen de pluies μ et gam(aρ , bρ ) pour le paramètre lié à l’intensité de la pluie ρ, indépendants et conjugués naturels pour le modèle complet. Notons l’année par l’indice j et appelons y = (y1 , ...yj , ..y34 ) et n = (n1 , ...nj , ..n34 ) : [μ|ρ, n, y]

= gampdf (μ, aμ +

[ρ|μ, n, y]

= gampdf (ρ, aρ +

[nj |μ, ρ, y] = [nj |μ, ρ,yj ] ∝



nj , bμ + 1/N ) nj , bρ + 1/ xj )

(μρyj )nj nj !(nj − 1)!

(13.18) (13.19)

nj = 1, 2, 3, ....∞ (13.20)

On remarque que [μ|ρ, n, y] est indépendant de ρ et que [ρ|μ, n, y] est indépendant de μ. L’équation (13.20) est une loi de Poisson de nj contrainte sachant que la somme des nj averses exponentielles indépendantes du mois est égale à yj . Il s’agit d’une distribution à valeurs discrètes. Elle n’est pas classique mais elle est aisément simulable (par la méthode d’inversion par exemple). Intercalée dans une séquence de Gibbs générant des couples μ, ρ selon les lois gamma précédentes, elle permet l’inférence bayésienne complète de la loi des fuites. L’algorithme de Gibbs a été appliqué avec 4 000 itérations dont 2 000 de chauffe. La longueur de ces séries de calcul peut paraître courte mais les résultats se sont avérés stables pour cette longueur (voir figure 13.3). Une validation partielle du modèle des fuites peut être donnée par la comparaison : probabilité modélisée - probabilité non paramétrique, en situation prédictive, ce que permet l’approche bayésienne (cf. Parent et Bernier, 2003). Conclusion 7 En utilisant le point de vue prédictif, on notera que la structure du modèle des fuites offre une bonne réprésentation des pluies du mois d’août comme de celles du mois de février, alors que les deux répartitions de pluies ont un comportement saisonnier très marqué vis-à-vis de l’occurrence des valeurs nulles.

13.2.5

Traitement de l’exemple 10

 Les résultats numériques de l’exemple des données incomplètes de l’un des trois sous systèmes énergétiques de l’Hydro-Québec présenté au chapitre 8 à la page 164 ont été obtenus grâce à l’algorithme de Gibbs. Rappelons la matrice de corrélation de X1 , X2 , X3 calculée sur la période commune. 1 0, 59 0, 68 − 1 0, 58 − − 1 indiquant une liaison assez moyenne entre les apports annuels des trois systèmes. Les données manquantes z sont d’abord jointes aux observables x pour

13. Algorithme de Gibbs

277

Figure 13.3 – Densités a posteriori marginales des paramètres ρ et μ du modèle de loi des fuites conditionnée sur 34 pluies mensuelles d’août à la station de Ghezala.

former la vraisemblance comme dans l’exemple précédent. Avec les notations de celui-ci, on a : [x, z|μ, Σ] =



−31/2

2π)−93 |Σ| ⎛

⎞ i=31 T − 12 tr( i=17 Σ−1 (xi − μ) (xi − μ)

T  ⎜ ⎟ −1 × exp ⎝ + i=31 μ1) + ... ⎠ i=1 Σ11 (x z − μ1 ) xz −

i=31 T + i=1 Σ−1 zi − μz(x) ) 33 (x) zi − μz(x)

Bien que le modèle multinormal puisse être traité exactement par ses propriétés analytiques, la prise en compte des variables latentes oblige le calculateur à utiliser ici un algorithme MCMC comme Gibbs reposant sur les conditionnelles complètes : La conditionnelle complète des données manquantes z est celle d’un 15−échantillon indépendant de la loi normale conditionnelle [z|x, μ, Σ] = N1 (μz(x) , Σ33 (x)) avec μz(x)

= μz + Σ−1 11 Σ12 (xz − μxz )

et Σ33 (x)

=

Σ33 − Σ31 Σ−1 11 Σ13

278

Le raisonnement bayésien

Figure 13.4 – Probabilité prédictive modélisée avec intervalle de crédibilité non paramètrique pour les pluies du mois d’août et de février (pluies mensuelles à Ghezala).

D’après le noyau 13.17, il faut joindre à cette distribution la conditionnelle complète des paramètres θ (ici μ, Σ) à x, z fixés, c’est-à-dire aux 31 données complétées. En utilisant un prior non informatif, la conditionnelle complète des paramètres est : – pour P = Σ−1 fixé, μ est conditionnellement distribué selon une multi1 normale N3 (¯ x, 31 P −1 ) ; – pour μ fixé, P est conditionnellement distribué comme un Wishart W3 (P |Hx , 30), x ¯ étant la moyenne des vecteurs observés x complétés par les z et la matrice Hx étant définie par la formule : Hx−1 =

n

T

(xi − x ¯) (xi − x ¯) + n(μ − x ¯)(μ − x ¯ )T

(13.21)

i=1

Développons l’application pour l’inférence de l’espérance μ3 et l’écart-type σ3 du système La Grande dont l’information est incomplète. L’algorithme de Gibbs sur 10 000 itérations dont 2 000 de chauffe a donné les résultats illustrés par les quatre graphiques de la figure 13.5. Ce sont les distributions a posteriori des paramètres du complexe La Grande compte tenu ou non de l’information complémentaire sur les 15 ans observés sur les sites voisins.

13. Algorithme de Gibbs

279

Figure 13.5 – Distributions a posteriori des paramètres des apports de La

Grande. À l’évidence, on constate une diminution de l’incertitude sur ces paramètres, un gain mesuré par le rapport des écarts-types des distributions sans et avec prise en compte de l’information complémentaire : gain sur la moyenne = 0, 74 gain sur l’écart-type = 0, 81 Ce gain est toutefois limité par les corrélations assez moyennes.

13.2.6

Traitement de l’exemple 7

 L’exemple 7 du chapitre 5 où on traitait deux séries de débits de rivière X, Y avec données incomplètes sur Y (page 108) n’est qu’un cas particulier du précédent. La corrélation ρ = 0, 54 entre les deux séries est assez faible. La conditionnelle complète des données manquantes z est celle d’un 13−échantillon indépendant de la loi normale conditionnelle : [z|x, μx , σx2 ]

= N1 (μz(x) , σ2 (x)) ρσ2 (xz − μ1 ) avec μz(x) = μ2 + σ1 et σ22 (x) = σ22 (1 − ρ2 )

280

Le raisonnement bayésien

En ce qui concerne les conditionelles complètes, on a les modifications suivantes :   −1   σ12  μ1  ρσ1 σ2      est conditionnellement – pour P =  fixé, μ =  ρσ1 σ2 σ22  μ1  1 x, 23 P −1 ) distribué selon une multinormale N2 (¯ – pour μ fixé, P est conditionnellement distribué comme un Wishart W2 (P |Hx , 30), où Hx est obtenue avec la même formule que 13.21 où les matrices sont de rang égal à 2. Les résultats intéressants concernant la variable S = X + Y ont été donnés au chapitre 5. Conclusion 8 La méthode bayésienne combinant algorithme de Gibbs et méthode d’augmentation des données permet le traitement cohérent des informations dissymétriques là ou la statistique classique éprouve des difficultés. C’est le cas notamment de l’estimation des variances et des covariances multidimensionnelles où les estimations partielles introduisent des biais comme les singularités des matrices Σ pour le cas général. La méthode de Gibbs évite le piège car toutes les valeurs de la matrice Σ simulées à chaque étape sont régulières par construction, au moins dans la phase ergodique. Nous n’avons traité qu’un cas simple où k = 2 mais les formules pour le modèle général ont été données et leur mise en œuvre est assez simple et les coûts de calcul limités.

13.3

Discussions et exercices de maniement

L’algorithme MCMC de type Metropolis-Hastings était, somme toute, passepartout : il suffisait d’écrire un noyau d’exploration de l’espace des états et inclure une condition d’acceptation d’un candidat fonction de la loi a posteriori. La pratique de l’algorithme de Gibbs est plus subtile, car les conditionnelles complètes sont spécifiques au problème (et à la façon dont les paramètres ont été regroupés en composantes du vecteur θ). Le schéma universel de la figure 12.1 s’applique encore, mais le lecteur doit maîtriser finement la structure probabiliste de son modèle pour mettre en place l’algorithme. Les exemples ci-après encouragent cette pratique.

13.3.1

Le modèle linéaire

On connaît l’expression analytique exacte des loi a posteriori du modèle linéaire dans le cadre de la conjugaison. Nous suggérons d’en refaire une vérification en employant un algorithme de Gibbs : les loi conditionnelles complètes (normale pour les coefficients de la régression et inverse gamma pour la variance de l’erreur) sont très faciles à simuler et ces distributions possèdent déjà des routines de générations aléatoires pré-programmées dans la plupart des langages informatiques. Il est également intéressant de comparer ces résultats, à nombre de simulations égal, avec ceux obtenus par algorithme de Metropolis-Hastings ou par importance sampling.

13. Algorithme de Gibbs

13.3.2

281

Capture/marquage/recapture

Nous suggérons de coder sous forme informatique le programme correspondant à l’exemple des cerfs utilisé dans ce chapitre. On pourra étudier sur ce programme l’influence des priors selon les valeurs de a et de b pour l’efficacité de la capture π et la gamme a priori pour la taille de la population μ. Il serait également utile d’observer la dépendance a posteriori entre ces deux grandeurs. Les performances de cet algorithme peuvent finalement être comparées à l’algorithme MC et non MCMC décrit ci-après. En fait, dans l’exemple des cerfs, la loi marginale a posteriori du nombre μ de cerfs est aussi une loi discrète sur huit valeurs possibles dont on peut facilement fournir les expressions des probabilités de tirage de chacune de ces valeurs en fonction de (a, b, x, y, z). On pourra chercher à montrer que :    [μ |x, y, z ] =

μ!1max(37,(x+z),(y+z))≤μ≤44 ((μ−x)−z)!

μ=44   μ=37

μ!1max(37,(x+z),(y+z))≤μ≤44 ((μ−x)−z)!

Γ(x+y+z+a)Γ(2μ−x−y−z+b) Γ(2μ+a+b)



Γ(x+y+z+a)Γ(2μ−x−y−z+b) Γ(2μ+a+b)



Ceci suggère l’algorithme Monte Carlo suivant : pour générer des couples (π (i) , μ(i) ) à l’étape i, on tire successivement μ(i) dans une la loi discrète multinomiale sur les huit valeurs 37, 38, 39, 40, 41, 42, 43, 44 en affectant à chaque valeur une probabilité élémentaire de tirage proportionnelle à    μ!1max(37,x,(y+z))≤μ≤44 Γ(x + y + z + a)Γ(2μ − x − y − z + b) ((μ − x) − z)! Γ(2μ + a + b)    puis on tire π (i) dans la loi conditionnelle π μ(i) , x, y, z) qui est une loi bêta de paramètres (x + y + z + a, 2μ(i) − x − y − z + b). On pourra facilement le programmer et vérifier que ce mode opératoire est bien plus avantageux que l’algorithme de Gibbs qui ne fournit qu’asymptotiquement la solution désirée après une période d’itérations de chauffe qui peut être plus ou moins longue. Ici a contrario, dès la mise en route de l’algorithme de simulation, chaque tirage fournit une valeur du couple (μ, π). Ensuite, du point de vue de la mise en pratique opérationnelle, les pondérations de la loi discrète multinomiale marginale a posteriori de μ sont ici calculées une fois pour toutes et non réévaluées à chaque itération comme dans l’algorithme de Gibbs.

Épilogue Les deux méthodes Metropolis-Hastings et Gibbs sont essentielles pour mener l’inférence bayésienne de modèles complexes. L’algorithme de Gibbs simplifie l’inférence en remplaçant un problème de simulation d’une loi jointe à n arguments (où n représente le nombre total d’inconnues) par les itérations d’une suite de n tirages aléatoires à une dimension.

282

Le raisonnement bayésien

Encore faut-il pouvoir exprimer les lois conditionnelles complètes. Or, sur les structures de graphe acyclique orienté, l’expression de ces lois conditionnelles est immédiate : on écrit localement la formule de Bayes en considérant l’influence des parents d’un nœud comme un prior et la loi conditionnelle du nœud sur ses enfants comme un modèle d’observation. Dans certains cas, il n’est même plus nécessaire d’écrire la distribution a posteriori complète ni la vraisemblance pour conduire l’inférence. On verra dans le chapitre suivant que les deux procédures sont complémentaires et peuvent être assemblées au sein d’un même algorithme hybride. On y abordera également les questions difficiles de temps d’atteinte du régime limite ergodique et les vérifications pratiques d’appartenance à ce régime.

Notes de lecture La première application convaincante de l’algorithme de Gibbs a été faite au traitement d’analyse d’images par Geman et Geman, 1984. Certains auteurs (par exemple Gelman et al., 1995, Carlin et al., 1992 ou Gilks et al., 1996) présentent l’algorithme de Gibbs comme un cas particulier des algorithmes MCMC. On trouvera dans Kuczera et Parent, 1998 et dans Torre et al., 2001, des applications à l’environnement. Un inventaire des outils graphiques a été fait par Gilks et al., 1994 et par Spiegelhalter et al., 1996. Ces auteurs introduisent des nœuds logiques en plus des nœuds stochastiques. Un nœud stochastique est une variable aléatoire dont la distribution est définie conditionnellement sur ses parents et un nœud logique est une fonction déterministe de ses parents. Une flèche continue vers un nœud indique la dépendance conditionnelle stochastique de ce nœud vis-à-vis de ses parents, et une flèche pointillée représente une dépendance logique. Nous évitons cette subtilité par la suite : on choisira le jeu de variables aléatoires principales sur lesquelles se fait la modélisation et on ne travaillera qu’avec celles-là.

Chapitre 14

Algorithmes MCMC et par-delà Prologue Le lecteur est maintenant familier avec les deux algorithmes de calcul d’inférence les plus efficaces fondés sur les méthodes MCMC : 1. les méthodes de Metropolis-Hastings ; 2. l’échantillonneur de Gibbs. En pratique, toutefois, ces deux algorithmes peuvent être utilisés de façon combinée ou (et) subir des adaptations et extensions, toutes méthodes participant à une véritable stratégie d’estimation des modèles de complexité variable. Ce chapitre présente quelques éléments de cette stratégie : d’abord on peut combiner des éléments de Metropolis-Hastings et de Gibbs pour construire des algorithmes plus puissants et mettre en place des estimateurs plus performants. On peut aussi améliorer la précision des algorithmes par des techniques annexes de lissage. On verra à cet égard comment des résultats théoriques de la statistique mathématique, comme le théorème de Rao-Blackwell, apportent une aide inattendue au calcul probabiliste numérique. Pour le praticien plus intéressé par les outils de calcul que par ces questions de recherche en développement, le chapitre comprend une revue de quelques logiciels d’estimation bayésienne, avec un exemple de mise en œuvre de notre favori, le logiciel WinBugs. Pourtant le praticien restera-t-il un peu inquiet malgré tout : il sait que ces algorithmes convergent vers la solution recherchée, mais quand et comment affirmer que l’algorithme est entré dans le régime stationnaire indispensable à l’obtention de la loi cible ? Ce chapitre aborde également de façon très pragmatique ces questions difficiles de rapidité d’atteinte du régime limite ergodique et les vérifications pratiques d’appartenance à ce régime. Nous donnons enfin un aperçu succint de la puissance d’estimation des méthodes particulaires, nouveaux outils

284

Le raisonnement bayésien

obtenus avec le retour en force de l’échantillonnage pondéré (IS) dopé grâce à son association avec les méthodes MCMC.

14.1

Méthodes hybrides

Les deux techniques Gibbs et MH ne sont pas exclusives l’une de l’autre et on peut construire des algorithmes hybrides. Si, par exemple, certaines conditionnelles complètes sont difficiles à échantillonner on peut utiliser pour la génération de la variable liée correspondante une sous-étape de MetropolisHastings (MH ). Robert, 1996, montre l’intérêt et la validité de ces algorithmes imbriqués. Application 14.1 La densité de la distribution de Weibull s’écrit : [xi |υ, λ] = υλxυ−1 exp(−λxυi ) i

(14.1)

On remarque la parenté entre la distribution de Weibull et la loi exponentielle : d (1 − exp(−λxυi )) [xi |υ, λ] = dx Soit un n-échantillon X (n= 30) indépendant obtenu par simulation Monte Carlo de cette distribution de Weibull : 13, 95 22, 48 3, 00 2, 74 10, 37 3, 32 8, 86 7, 75 3, 55 13, 04 7, 32 3, 84 6, 84 6, 37 11, 27 18, 64 8, 81 8, 35 17, 27 7, 37 18, 73 11, 18 3, 92 2, 99 7, 24 15, 51 7, 44 15, 52 10, 51 5, 24 On range cet échantillon par valeurs croissantes (i, xi ) et, sur la figure 14.1, i+1 on a représenté sur l’axe des ordonnées log(− log( n+1 )) en fonction de log(xi ), e la i mesure. On voit que les points sont globalement alignés, confortant l’acceptabilité d’une loi de Weibull. En effet, la fonction de répartition F d’une telle loi de Weibull vérifie la relation linéaire : log(− log(F (x))) = log(λ) + υ log(x) Nous allons traiter de l’inférence sur les deux paramètres υ, λ avec un prior non informatif : [υ, λ] ∝ λ1 . La distribution a posteriori et les deux conditionnelles complètes s’écrivent : log xi − λ xυi ) [υ, λ|x] ∝ υ n λn−1 exp((υ − 1) [λ|υ, x] ∝ λn−1 exp(−λ xυi ) [υ|λ, x] ∝ υ n exp((υ − 1) log xi − λ xυi )

(14.2) (14.3) (14.4)

Pour la conditionnelle complète de λ on reconnaît une distribution gamma gampdf (λ, n, 1xυ ). Par contre la conditionnelle complète de υ n’a pas une i

14. Algorithmes MCMC et par-delà

285

Figure 14.1 – Ajustement de Weibull sur un échantillon de 30 observations.

forme classique et peut poser quelques difficultés numériques. On s’orientera ici, pour ce paramètre, vers une sous-étape imbriquée de Metropolis-Hastings avec une distribution instrumentale adaptée (Gibbs modifiée). Pour le choix de cette distribution instrumentale, on peut utiliser une approximation normale de la distribution a posteriori complète (14.2) ainsi que le suggère Berger, 1985. Dans le chapitre 7, nous avons montré comment construire l’approximation asymptotique normale (pour n grand) déduite des propriétés du maximum de vraisemblance. La log-vraisemblance s’écrit ici : L = n log υ + n log λ + (υ − 1)



log xi − λ



xυi

(14.5)

Les estimateurs du max de vraisemblance sont les solutions de : ∂L ∂λ ∂L ∂υ

=

=

n υ − xi = 0 λ n log xi (xυi ) = 0 + log xi − λ υ

(14.6)

(14.7)

ˆ et υˆ vérifient En appelant g la moyenne géométrique des xi , les estimateurs λ les équations :

286

Le raisonnement bayésien

ˆ λ

=

log g

=

n  υˆ x i  υˆ log xi (xυiˆ ) − xυiˆ  υˆ xυiˆ

En suivant Berger (1985) et le chapitre 9, dans le cas non informatif asymptotique où la vraisemblance domine le prior, la loi a posteriori tend vers une loi limite normale dont on connaît l’espérance et la matrice de variance-covariance :    υˆ ˆ [υ, λ|x] = N (14.8) ˆ ,Σ λ    σ11 σ12  ˆ  = Pˆ −1  avec Σ =  (14.9) σ21 σ22    n    2 + (log xi )2 (xυ ) log xi (xυi )  i υ   où Pˆ =  (14.10) n υ   log xi (xi ) λ2 On peut déterminer les condionnelles complètes associées à ce posterior approché et qui sont : – [λ|υ, x]approx : inutile dans notre exemple d’application, car on dispose ici de la distribution exacte (une gamma) 2 ˆ σ11 − σ12 ) (λ − λ), – [υ|λ, x]approx. = normpdf (υ, υˆ + σσ12 σ22 22 L’étape t + 1 du cycle de Gibbs est alors faite, pour υ en simulant dans la loi [υ|λ(t+1) , x]approx précédente ; le tirage candidat υ˜ est ensuite accepté ou non selon le test de Metropolis-Hastings avec le rapport :

ρ =

[˜ υ |λ(t+1) , x] ˆ σ11 − normpdf (˜ υ , υˆ + σ12 (λ − λ), σ22

×

σ12 ˆ σ22 (λ − λ), σ11 [υ (t) |λ(t+1) , x]

normpdf (υ (t) , υˆ +

2 σ12 σ22 )



2 σ12 σ22 )

Chaque nouvelle réalisation de [υ|λ, x]approx est acceptée à l’étape t + 1 avec une probabilité pt+1 : pt+1 = min(ρ, 1)

(14.11)

On sait aussi que la variabilité de l’approximation asymptotique est souvent sous-estimée par rapport à la dispersion exacte. C’est pourquoi, quand on utilise la distribution asymptotique normale comme loi instrumentale, Gelman et al., 1995, préconisent de majorer la variance par un coefficient multiplicateur C > 1. On peut se demander pourquoi nous sommes allés chercher une approximation de la loi conjointe [υ, λ|x] alors que seule une loi instrumentale pour la

14. Algorithmes MCMC et par-delà

287

conditionnelle [υ|λ, x] est nécessaire. Il serait possible de trouver directement une approximation de cette dernière pour l’itération t + 1, en développant autour des valeurs des deux premiers moments centrés sur l’itération t. Ce faisant, on aurait une loi instrumentale toujours normale donc commode à manier, mais dont les paramètres changeraient avec le te tirage antérieur : on ne peut plus garantir la convergence ergodique, car on ne respecte plus l’invariance de la forme de la loi instrumentale, et on viole la condition d’homogénéité nécessaire à la validité de l’algorithme. Mise en œuvre La correction par un coefficient C > 1 n’a pas été nécessaire ici. Il faut cependant utiliser des suites importantes de tirages pour avoir une bonne convergence. Dans nos essais, nous avons utilisé 30 000 tirages mais l’exécution du programme correspondant sera rapide (de l’ordre de deux minutes sous un logiciel de type R ou Matlab). La figure 14.2 montre les histogrammes des deux paramètres calculés sur les 10 000 derniers tirages supposés « ergodiques » :

Figure 14.2 – Histogrammes a posteriori de λ et υ.

Notons que les moyennes a posteriori de υ et λ sont respectivement estimées à 1, 92 et 0, 012 alors que les estimations du maximum de vraisemblance donnaient 1, 90 et 0, 011.

288

14.2

Le raisonnement bayésien

Rao-Blackwell

Le théorème de Rao-Blackwell, bien connu en théorie de l’inférence statistique classique, est à l’origine d’une méthode améliorant les résultats des tirages MCMC, notamment ceux de Gibbs. La méthode est affublée du nom quelque peu barbare de Rao-blackwellisation. Décrivons-en les principes : Quand on calcule la valeur d’une intégrale de la forme :  U = E(u) = u(θ)[θ|x]dθ (14.12) Θ

utiliser les simulations provenant de l’échantillonneur de Gibbs peut permettre d’augmenter la précision de cette intégrale sans demander aucun effort accru. Considérons la dernière variable θ(k) inventoriée au cours d’un cycle de Gibbs et désignons par θ(−k) l’ensemble de toutes les autres variables de telle sorte que θ = {θ(k) , θ(−k) } ; on a :  U

=

U

=

u(θ(k) , θ(−k) )[θ(k) , θ(−k) |x]dθ

(14.13)

E(u(θ)|θ(−k) )[θ(−k) |x]dθ(−k)

(14.14)

Θ



où E(u(θ)|θ(−k) ) = u∗ (θ(−k) ) est l’espérance conditionnelle. Si cette espérance u∗ est connue de façon explicite, elle peut remplacer u(θ) et on peut lui appliquer la méthode d’estimation à partir de la seule suite générée par une procédure MCMC pour les θ(−k) (de limite ergodique [θ(−k) |x]). Cette méthode évite donc le calcul de simulation de la dernière variable de chaque cycle. Elle a de plus l’avantage d’accroître la précision de l’estimation de U grâce au théorème de Rao-Blackwell, au moins si on mesure cette précision en termes de variance ou plus généralement à l’aide d’une fonction de coût d’erreur convexe. Cette méthode est appelée Rao-blackwellisation. Théorème 14.1 de Rao-Blackwell L’énoncé classique complet de ce théorème célèbre en statistique mathématique classique concerne les estimateurs dits exhaustifs (voir Lehman, 1983). Nous ne donnerons ici que l’interprétation utile pour le calcul de U . Appelons t, t(k) , t(−k) les suites et sous-suites ergodiques sur lesquelles est estimée l’espérance a posteriori U de u(θ)˜ : la suite des t = {t(k) , t(−k) } constitue l’information issue de la distribution a posteriori de θ. Soit δ(t) un estimateur de U et son coût (d’erreur d’estimation) quadratique (on pourrait prendre une autre fonction convexe de δ) : C(δ, U ) = (δ − U )2

14. Algorithmes MCMC et par-delà

289

Construisons sur la suite {t} l’estimateur basé sur l’espérance conditionnelle de δ pour t(−k) fixé : δ ∗ (t(−k) ) = E(δ(t)|t(−k) ) Alors δ ∗ est meilleur que δ dans le sens où : E(C(δ ∗ , U )) ≤ E(C(δ, U ))

(14.15)

En effet C est une fonction convexe de δ, variable aléatoire puisque fonction de t, pour laquelle s’applique l’inégalité classique de Jensen : C(E(δ), U ))≤E(C(δ, U )) On peut appliquer cette inégalité à l’espérance conditionnelle à t(−k) fixé, soit : C(δ ∗ , U ) ≤ E(C(δ(t), U )|t(−k) ) Maintenant l’inégalité ne change pas quand on intègre par rapport à t(−k) et on retrouve alors 14.15. Notons qu’il s’agit ici d’un résultat d’optimalité concernant un critère classique d’estimation calculé sur une trajectoire a posteriori. Dans le cas de la ! simulation r=n0 +nMCMC δ sera généralement l’estimateur de comptage U (n0 , n) = 1 r=n0 +1 u(tr ) calculé sur la trajectoire ergodique. n Exemple 12 La figure 14.3 présente la courbe de jaugeage d’une petite rivière des Alpes (voir André, 1976). Les mesures concommittantes de débit et de hauteur d’eau sont données au tableau 14.1. Afin d’illustrer la Rao-blackwellisation, nous allons déterminer les distributions a posteriori des paramètres de cette courbe de jaugeage. Calée sur 16 mesures directes (jaugeages) du débit instantané q en relation avec l’observation h du niveau de l’eau concomitant, cette courbe est essentielle pour effectuer le suivi des débits de rivière en fonction de l’observation systématique du niveau en routine. Si les appareils hydrométriques mesurent la hauteur h de la rivière, c’est le débit q qui a un sens en hydrologie opérationnelle : en chaque point d’un tronçon de rivière sans apport extérieur, circule en effet le même débit q tandis que la hauteur est dépendante du profil en travers du site où la mesure est effectuée.  Hauteur (en m) Débit (enm3 / s) Hauteur (en m) Débit (enm3 / s)

0,25 0,16 091 6,31

0,38 0,40 0,98 8,00

0,40 0,48 0,98 8,60

0,43 0,54 0,99 8,05

0,44 0,66 0,99 8,70

0,48 0,55 1,01 8,75

0,63 1,95 1,02 9,20

0,70 3,10 1,10 9,30

Table 14.1 – Seize mesures de jaugeage.

Il s’agit ici d’un exemple artificiel où les résultats des jaugeages ont été supposés entâchés d’erreurs assez grandes. L’ordre de grandeur de ces erreurs

290

Le raisonnement bayésien

Figure 14.3 – Courbe de jaugeage hydrométrique calée sur 16 mesures.

peut atteindre 10 % pour les grands débits. Nous utiliserons cependant un modèle aléatoire classique avec erreurs additives pour illustration : q = α(h − h0 )β + avec = N (0, σ) Dans cet exemple, nous nous intéressons surtout aux aspects de calcul : ce cas est assez démonstratif de l’intérêt de l’échantillonneur de Gibbs amélioré par Rao-Blackwell pour l’inférence sur les paramètres θ = (α, β, σ). Ici nous ne considérerons pas h0 comme un paramètre et le supposerons fixé à h0 = 0, 15m. Pour le n-échantillon {h → q} observé avec n = 16, la vraisemblance s’écrit : [q|h, θ] = (2πσ 2 )−n/2 exp(−S/2σ 2 ) n avec S = (qi − α(hi − h0 )β )2 i=1

Pour simplifier l’exposé, nous utiliserons un prior non informatif, c’est-àdire : dαdβdσ [θ]dθ ∝ σ

Les distributions conditionnelles complètes sont déduites des méthodes pro-

14. Algorithmes MCMC et par-delà

291

babilistes standards déjà développées dans les chapitres précédents ; on obtient : 2β (14.16) hi )/2σ 2 ] [β|α, σ, q, h] ∝ exp[−(S(β) + (α − α ˆ )2  n q i hβ avec (S(β) = (qi − α ˆ (β)(hi − h0 )β )2 où α ˆ (β) =  βi hi i=1 σ2 [α|β, σ, q, h] = normpdf ( α(β), ˆ  2β ) hi et si τ =

1 σ2

[τ |α, β, q, h] = gampdf (

2 n−1 , )  2 (S(β) + (α − α ˆ )2 h2β i )

Ces distributions conditionnelles complètes sont aisément simulables. Pour les conditionnelles complètes de α et τ , distributions normales et gamma, la plupart des logiciels scientifiques proposent des fonctions standards. Pour la distribution 14.16, on a effectué un tirage par inversion de la fonction de répartition (construite à chaque itération) à partir d’une grille de valeurs prédéfinies. On peut donc procéder à la mise en œuvre de l’échantillonneur de Gibbs. Notons que cette commodité dépend aussi de la distribution a priori choisie (ici un prior non informatif). Si les lois a priori restent dans la classe des priors semi-conjugués (α normal, β normal, σ 2 inverse gamma), l’applicabilité des méthodes de calcul exposées persiste. Les chaînes ont été initialisées à des valeurs extrêmes (β = 2, 8, α = 14, σ = 1, 12). 2 000 réplicats ont été utilisés dont 1 000 de chauffe. La figure 14.4 des trajectoires montre que cet exemple est remarquable par l’atteinte rapide de l’état ergodique. Seules les premières valeurs semblent influencées par les conditions initiales. Le graphique 14.5 présente les histogrammes des paramètres α, β, σ sur la période supposée ergodique de 1 000 valeurs. La distribution de β, paramètre important qui règle l’extrapolation de la courbe de jaugeage, conserve une certaine imprécision et il apparaît opportun de lisser cet histogramme. La figure 14.6 présente le diagramme de corrélation du couple α, β. Sur cette visualisation de la loi jointe, les incertitudes qui portent sur ces deux paramètres apparaissent très liées. Le tableau 14.2 présente les intervalles de crédibilité à 90 % des trois paramètres calculés sur la série simulée ergodique. Lissage de Rao-Blackwell Le lissage de Rao-Blackwell peut s’appliquer au paramètre β du modèle de jaugeage. Une estimation précise de la distribution a posteriori est importante si l’on souhaite réaliser « une extrapolation fiable » de la courbe de jaugeage. Ce cas est intéressant car la distribution conditionnelle complète de β ne peut être calculée analytiquement que sur une grille.

292

Le raisonnement bayésien

Figure 14.4 – Trajectoires de trois chaînes simulées par l’échantillonneur de

Gibbs.

Figure 14.5 – Histogrammes simulés de β, α, σ.

14. Algorithmes MCMC et par-delà

293

Figure 14.6 – Diagramme des incertitudes jointes du couple α, β.

Paramètre β α σ

Borne inférieure 1,96 11,22 0,39

Borne supérieure 2,49 12,65 0,76

Table 14.2 – Intervalles de crédibilité à 90 % des paramètres de la courbe de

jaugeage.

Pour chaque valeur de cette grille, la méthode de Rao-blackwellisation consiste à utiliser tous les couples α, σ simulés de la phase considérée comme ergodique pour calculer (numériquement) la densité conditionnelle complète de β correspondante. On prend alors la moyenne de toutes ces densités ainsi calculées. La figure 14.7 montre le graphe ainsi lissé de la densité marginale de β. Cette figure est à rapprocher de la figure 14.5 où l’histogramme correspondant utilisait brutalement les résultats de la procédure d’estimation MCMC. Conclusion 9 Par rapport à l’histogramme brut, le lissage est remarquable. On constatera par exemple une légère dissymétrie positive de cette distribution, difficile à repérer sur l’histogramme. Toutefois la Rao-blackwellisation peut se révèler assez coûteuse en temps calcul, mais généralement sans que cela devienne prohibitif.

294

Le raisonnement bayésien

Figure 14.7 – Distribution a posteriori RB lissée de β.

14.3

Les logiciels d’analyse bayésienne

Le statisticien qui veut mettre en pratique ses modèles a le choix entre utiliser des programmes tout faits ou recoder les algorithmes d’inférence pour les différents modèles souhaités dans un langage de programmation flexible.

14.3.1

Écrire ses propres programmes

Annonçons tout de suite que cette dernière solution demande du temps, de la patience et de l’énergie quoique ces logiciels mettent souvent à disposition une bibliothèque de fonctions statistiques déjà implémentés comme XlStat, Gauss ou SAS. Nous ne citerons, parmi les logiciels qui peuvent être installés sur des ordinateurs décentralisés, que ceux offrant des outils bayésiens ou pouvant c permettre de les développer. Dans ce groupe, nos faveurs vont à MATLAB accompagné de sa « Statistics toolbox » et à ses clones compétitifs et gratuits (Scilab, Octave) ainsi qu’à S-Plus (et à son clone gratuit R). S-Plus et R ont été développés à partir d’un langage de haut niveau particulièrement adapté aux outils statistiques. R, surtout, mérite une mention très spéciale : c’est un logiciel libre et téléchargeable gratuitement, avec de puissantes fonctionalités graphiques, implémentant une panoplie variée de modèles statistiques. De plus, il a suscité l’intérêt de nombreux programmeurs à travers le monde, qui se regroupés pour échanger et mettre à disposition les uns des autres, leurs

14. Algorithmes MCMC et par-delà

295

réflexions et leurs développements informatiques. En se connectant sur ce R core team en constante évolution, l’utilisateur dispose d’une plateforme de manuels, d’exemples et de packages dans des domaines nombreux et variés. R est un langage à destination de statisticiens, rebutant pour les utilisateurs pressés car il n’offre pas de solution clés en main en quelques clics de souris. Pour pouvoir utiliser les différentes librairies, l’utilisateur doit bien connaître les modèles statistiques qui sont sous-jacents et investir du temps à programmer, à comprendre et assembler les divers modules. Selon notre expérience propre cet investissement est des plus rentables ! La R News, la lettre des utilisateurs, met en ligne régulièrement des articles précisant l’emploi de R pour le calcul statistique. Celle de mars 2006, volume 6/1, est entièrement consacrée à l’implémentation d’outils bayésiens.

14.3.2

Utiliser des packages bayésiens tout faits

En matière d’outils bayésiens disponibles, un monde très vaste apparaît lorsqu’on utilise le simple mot Bayes dans un moteur de recherche internet comme Google. Il est d’ailleurs remarquable de voir combien ce mot est considéré comme publicitairement très accrocheur dans la longue liste obtenue. C’est le cas de plusieurs sociétés ou d’individus l’utilisant pour présenter leurs activités. À titre anedoctique, il est intéressant de citer entre autres le bureau d’études - Bayesian Systems, Inc.- et sa profession de foi : “Bayesian Systems, Inc. is a leading provider of software for managing uncertainty based on a long overlooked but powerful principle called Bayes theorem. This theorem is the fundamental principle governing the process of logical inference. It determines what conclusions can be made with what degree of confidence based on the totality of relevant evidence available. Dans la même veine technico-commerciale, voici comment se présentent quelques logiciels utilisés par ces bureaux d’études : – WinAwardTM A business development decision and management system. The only commercial product of its kind for seeking and winning federal, state and local government contracts. – Bayes EngineTM Technology Accurately evaluates evidence in situations that are uncertain. Directs the user to the most probable conclusion. – Risk Assessment Software and Consulting Helps you solve risk, decision, and communication problems. Includes : methods development, custom software development and application of the Bayesian software engine Les logiciels d’intérêt général méritent beaucoup plus d’attention. Il y a deux classes de logiciels ou « packages » bayésiens disponibles, souvent gratuitement, sur Internet : 1. Les logiciels traitant essentiellement de l’inférence statistique (analyse a posteriori bien que certains calculs prédictifs y soient possibles mais

296

Le raisonnement bayésien sans aller jusqu’à l’analyse décisionnelle complète). Le représentant le plus connu et le plus utilisé de cette classe est WinBUGS, version 1.4 (http ://www.mrc-bsu.cam.ac.uk/bugs). L’outil Winbugs (qui utilise une part de la structure et du langage de S-plus et de R) est particulièrement commode et puissant, notamment grâce au maniement de la modélisation graphique des DAG. C’est le favori d’un grand nombre de modélisateurs utilisant l’approche bayésienne et nous l’utilisons dans la section suivante pour traiter l’exemple 8 présenté au chapitre 5 page 112. Signalons le package R BRugs, très utile pour lancer les calculs WinBUGS depuis R et pour en récupérer les résultats et les retravailler sous R. WinBUGS a donné le jour à de nombreuses extensions : OpenBUGS, une version libre et ouverte, GeoBUGS dans le domaine des statistiques spatiales, PkBUGS dans le domaine des biomathématiques traitant des modèles à compartiments, etc.

2. Les logiciels traitant des réseaux bayésiens (autre nom des DAG mais pour des nœuds avec variables discrètes) en mettant l’accent plus sur les propriétés de structure logique des graphes correspondants (Naïm et al., 2004). Les outils disponibles ressortent plus de l’analyse des données (data mining), classifications, etc. et des aspects décisionnels qui en résultent. Dans cette classe, on citera le package en français Bayesia Lab (www.bayesia.com). Cependant, certains outils d’inférence (MCMC ) y sont présents. Le représentant le plus typique de cette classe est BNT dont l’auteur K. Murphy (Univ. California Berkeley) a développé une « toolbox MATLAB » gratuite. Murphy dans « Software Packages for Graphical Models / Bayesian Networks » fait l’inventaire très fourni des logiciels de cette dernière classe et présente aussi sur Internet un projet développé pour R et nommé « gR » (www.ai.mit.edu/murphyk). Signalons enfin le reseau bayésien Hugin, très pédagogique (http ://www.hugin.com) ainsi que Netica (http ://www.norsys.com), produit très professionnel aux excellentes performances.

14.3.3

WinBUGS

L’algorithme d’échantillonnage de Gibbs est facilement réalisé grâce au logiciel WinBUGS (Spiegelhalter et al., 2000, disponible gratuitement sur : http ://ww.mrc-bsu.cam.ac.uk/bugs). WinBugs introduit une flexibilité extraordinaire dans le processus de modélisation. En fait, il évite l’exécution d’un cas spécifique d’algorithme de Gibbs en épargnant l’obligation de dériver à la main les distributions conditionnelles complètes. Il nécessite seulement la déclaration du modèle bayésien et la précision des données. La déclaration du modèle se compose de la densité du prior des variables inconnues, des distributions d’échantillonnage relatives aux données et variables et des équations déterministes liées aux variables. Des valeurs initiales pour toutes les inconnues sont aussi nécessaires pour démarrer le processus d’échantillonnage. WinBUGS autorise la simulation en parallèle de telles chaînes à partir de valeurs initiales

14. Algorithmes MCMC et par-delà

297

différentes : dans la pratique il est fréquent de prendre trois chaînes avec des valeurs initiales constrastées et c’est visuellement que l’on vérifie qu’après la période de chauffe, les chaînes se mélangent bien et explorent de la même façon l’espace des états de la nature.  À titre d’exemple, nous développons l’inférence du modèle hiérarchique de fiabilité pour les avions (exemple 8) de la page 117 du chapitre 5. Les nœuds du graphe (voir figure 5.11 page 117 ) sont x ¯j durée le la panne de l’avion j, ρj le paramètre de fiabilité de l’avion j ; nj le nombre de pannes de l’avion j est une variable explicative non aléatoire intervenant dans la distribution gamma de xj |ρj t et nous choisirons la conjuguée naturelle de la loi gamma, c’est-à-dire une loi gamma également comme distribution échangeable : h(ρ|ϕ) avec ϕ

αγ −αρ γ−1 e ρ Γ(γ) = {γ, α} =

(14.17) (14.18)

Chacune des composantes (γ, α) du vecteur ϕ des hyperparamètres sera supposées distribuées selon des lois gamma avec (aγ (paramètre de forme), bγ (paramètre d’échelle) et (aα , bα ) respectivement pour les deux paramètres. Pour représenter des distributions non informatives, le logiciel Winbugs recommande de prendre a = b = 0, 001 quel que soit le paramètre. Nous avons pris ici un nombre d’itérations important : 15 000 dont 5 000 de chauffe. En effet, la période initiale supposée non ergodique doit être augmentée dans le cas hiérarchique. Le choix ci-dessus nous a montré une bonne stabilité de la trace des itérations ergodiques de γ. Mais Winbugs donne également les autocorrélogrammes de γ et α. On notera la décroissance très lente des courbes des séquences qui, bien que supposées homogènes, sont encore très autodépendantes. La figure 14.9 trace à titre d’exemple l’autocorrélogramme des simulations du paramètre α. Ceci milite en faveur de l’adoption d’une longueur assez grande des séries sur lesquelles les statistiques sont effectuées pour avoir une bonne précision, justifiant un nombre important d’itérations afin que la chaîne ait le temps de visiter toutes les configurations possibles du vecteur des inconnues et d’en évaluer les poids relatifs. Le tableau 14.3 donne pour 12 avions l’espérance de la durée de panne moyenne, c’est-à-dire l’espérance de l’inverse des ρ. Sur ces valeurs la précision est de l’ordre de quelques millièmes en valeur relative sur les intervalles de temps moyens donnés. Nous donnons également à la figure 14.9, les distributions a posteriori de γ et α ainsi celle de M, intervalle de temps moyen global de 12 appareils supposés échangeables. L espérance a posteriori de M est ici de 102, 0.. Par le même script WinBUGS, on peut aisément traiter le cas d’hétérogénéité complète des ρi en imposant aux paramètres γ, α d’étre quasi non informatifs, par exemple : γ = α = 0, 001. On obtient la troisième ligne du tableau 14.3 :

298

Le raisonnement bayésien

Figure 14.8 – Autocorrélogramme de l’hyperparamètre α.

Figure 14.9 – Estimation bayésienne des hyperparamètres du modèle hiérar-

chique de fiabilité des avions.

14. Algorithmes MCMC et par-delà Avion Intervalle entre pannes moyen Intervalle entre pannes (hétérogénéité complète) Avion Intervalle entre pannes moyen Intervalle entre pannes (hétérogénéité complète)

299

1

2

3

4

5

6

94,15

128,3

78,75

107,1

132,5

68,75

98,45

154,3

73,93

119,3

168,9

61,57

7

8

9

10

11

12

82,7

73,69

157,2

105,4

106,6

88,77

79,52

66,81

225,0

127,5

118,0

87,65

Table 14.3 – Estimation des temps moyens interpannes.

Dans le cas d’hétérogénéité complète, la distribution a posteriori de la moyenne M globale est différente ; elle est centrée sur une espérance de 115, 1. Finalement, et pour être complet, le cas d’homogénéité ne comporte qu’un seul paramètre : le ρ identique. Il est intéressant de préciser l’inférence sur son inverse qui est alors le paramètre M commun, comparable aux M précédents. Winbugs en évalue facilement la distribution a posteriori, cette fois-ci elle est centrée autour de l’espérance 92, 6. On note une différence entre les diverses estimations du même paramètre, différence due aux structures différentes des modèles supposés. En comparant les lignes 2 et 3 du tableau de résultats on observe également une dispersion sensiblement plus grande du cas d’hétérogénéité vis-à-vis du cas échangeable. On peut mesurer cet effet par une erreur quadratique prédictive moyenne M EP Q (moyenne conditionnelle par rapport aux x ¯j fixées) : 12

M EP Q =

1 12 j=1

 (¯ xj −

1 2 ) [ρj |x]dρj ρj

(14.19)

C’est la moyenne des écarts quadratique des estimations x ¯j à leurs prévisions par l’espérance ρ1j selon les différents modèles : ρ échangeables ρ différents le même ρ

M = 961 M = 2 075 M = 1 810

(14.20)

Conclusion 10 Il apparaît donc que le modèle d’échangéabilité sur les ρ améliore notablement l’efficacité prédictive globale du modèle quand on juge celle-ci sur l’ensemble de 12 avions. Ce résultat s’observe généralement, avec même de plus grands écarts dans la plupart des problèmes de comparaison multiples analogues.

300

14.4

Le raisonnement bayésien

Calculs d’intégration et contrôles pratiques de la convergence

On a vu que l’on pouvait tirer parti des trajectoires ergodiques {θn0 ...θr ....θn } de chaînes MCMC ayant  une distribution f (θ) comme limite pour estimer des intégrales du type U = Θ u(θ)f (θ)dθ par des moyennes du type : ! (n0 , n) = 1 U n

r=n 0 +n

u(θr )

r=n0 +1

Bien entendu, l’intérêt pratique de ces méthodes dépend du choix convenable de n0 et n qui règlent à la fois l’indépendance vis-à-vis des conditions initiales et la précision de l’estimation finale de U . Les méthodes de contrôle de convergence ont déjà fait l’objet de nombreux travaux de recherche, mais beaucoup reste encore à développer. On trouve une revue intéressante de l’état de l’art en la matière dans Cowles et Carlin, 1996, et un site web avec liens vers les logiciels réalisant les tests de convergence décrit dans le papier de Mengersen et al., 1999. Nous ne présentons ici que quelques éléments parmi les plus utiles et référons notamment à Robert, 1996, pour une présentation plus systématique.

14.4.1

Contrôle par l’échantillonnage pondéré séquentiel

Une méthode par essais et erreurs peut permettre un choix de n0 de façon empirique. Robert suggère d’utiliser plusieurs estimations convergentes de U et de poursuivre les tirages jusqu’à ce que ces estimations coïncident. Parmi ces techniques d’estimation, la méthode de l’échantillonnage pondéré, déja vue, jouit d’une propriété intéressante. Nous l’appliquerons ici à la sous-trajectoire d’une chaîne de Markov en utilisant comme densité instrumentale une densité de transition g(θr |θr−1 ), ce qui généralise la méthode d’échantillonnage pondéré au cas des tirages instrumentaux dépendants : ! (n0 , n) = 1 soit U n

r=n 0 +n

u(θr )

r=n0

f (θr ) g(θr |θr−1 )

! (n0 , n). La Un indicateur intéressant de convergence est la variance de U connaissant, on peut contrôler l’erreur d’estimation par l’inégalité de BienayméTchebitcheff ou utiliser une approximation normale sous certaines conditions (voir chapitre 10). Mais : ! (n0 , n)) = Var( Var(U

1 n

r=n 0 +n r=n0

u(θr )

f (θr ) ) g(θr |θr−1 )

14. Algorithmes MCMC et par-delà

301

Pour le calcul de la covariance, on peut supposer sans perte de généralité U = 0. Posons : ωr =

f (θr ) f (θr ) et hr = u(θr ) g(θr |θr−1 ) g(θr |θr−1 )

Alors : Cov[ωr u(θr ), ωr+k u(θr+k )] = E[ωr u(θr ) × ωr+k u(θr+k )] (14.21)  f (t) Cov[ωr u(θr ), ωr+k u(θr+k )] = E[ωr u(θr ) u(t) g(t|θr+k−1 )dt] g(t|θr+k−1 ) = E[ωr u(θr ) × I] = 0 Or une identité classique nous dit : Var( hi ) = Var(hr ) + Cov(hr , hs ) r

s=r

Comme d’après (14.21) les termes de covariance s’annulent, on a : Var(

1 n

r=n 0 +n r=n0

u(θr )

f (θr ) 1 )= 2 g(θr |θr−1 ) n

r=n 0 +n r=n0

u(θr )

f (θr ) g(θr |θr−1 )

! (n0 , n) ≈ 1 Var(h(θ)) sur la partie ergodique de la trajectoire. D’où Var(U n On peut alors estimer cette variance sur un premier échantillon simulé pour déterminer ensuite, en fonction de cette variance, un nombre minimal de tirages nécessaires à une précision donnée. Rappelons que cette méthode s’applique uniquement à l’échantillonnage pondéré.

14.4.2

Approximation par un autorégressif pour déterminer le nombre de simulations

Une autre méthode, plus générale mais approximative, consiste à approcher le processus généré des u(θr ) par une chaîne markovienne linéaire stationnaire où ρ < 1 est le coefficient d’autocorrélation d’ordre 1 (chaîne autorégressive d’ordre 1). u(θr+1 ) = a + ρ(u(θr ) − a) + r+1 En pratique, cette approximation s’applique plutôt bien aux algorithmes de Gibbs mais ne convient pas aux chaînes de Metropolis-Hastings dont le noyau mixte introduit des discontinuités dans les variations des trajectoires difficiles à représenter par ce schéma autorégressif. Il faut bien voir aussi que, même pour Gibbs, les chaînes de Markov ne sont pas linéaires et cette approche n’est qu’une approximation. La figure 14.10 montre les autocorrélogrammes des séries ergodiques des trois paramètres du modèle de l’exemple de la courbe de jaugeage. Les courbes

302

Le raisonnement bayésien

plus lisses représentent les variations de la fonction d’autocorrélation théorique de ce modèle autorégressif d’ordre 1. La superposition des courbes, en pratique satisfaisante, permet d’utiliser le modèle pour estimer le nombre de réplicats nécessaires à une précision donnée sur U en utilisant un premier échantillonnage (supposé ergodique) d’essai. Il semble cependant que la décroissance de la corrélation autorégressive soit légèrement plus rapide.

Figure 14.10 – Autocorrélation observée et régressive pour α, β et σ de la courbe

de jaugeage. Si l’approximation autorégressive est possible pour u(θr ), alors on devrait vérifier une décroissance exponentielle de la fonction d’autocorrélation puisqu’en théorie : Corr[u(θr ), u(θr+k )] = ρk (14.22) Sur l’exemple, le calage du modèle autorégressif d’ordre 1 au processus de β par la méthode dite de Yule (souvent préprogramée dans la bibliothèque de fonctions statistiques de logiciels scientifiques) donne ρ = 0, 58. Prenons une valeur générée sur 10 (le logiciel WinBUGS par exemple permet de choisir un tel pas d’échantillonnage) ; alors l’autocorrélation de premier ordre avec ce lag est ρ10 = 0, 0043. Cette valeur est assez faible pour que les valeurs successives (à pas de 10) soient considérées comme quasiment décorrélées, de telle sorte que : ! (n0 , 10, n) = 1 u(θi ) = 2, 2298 U 100 à pas de 10

14. Algorithmes MCMC et par-delà

303

Prenons u(θ) = β. En admettant que les 1 000 réplicats équivalent à 100 résultats indépendants, la précision de l’estimation de E(β) est égale à : ±2.Ecart_type(β) √ = 0, 0326 100 Si cette précision est acceptable, ces 1000 réplicats ergodiques suffisent. Le facteur 2 appliqué à l’écart-type correspond à l’approximation par un intervalle normal contenant U avec 95 chances sur 100. Cette méthode peut être vérifiée et utilisée pour toute fonction simulée par l’échantillonneur de Gibbs. Il faut toutefois souligner que théoriquement une trajectoire engendrée par un algorithme de Gibbs n’a pas une fonction d’autocorrélation telle que l’équation (14.10) à décroissance exponentielle. Il existe donc de nombreuses applications où cette approximation n’est pas opérante.

14.4.3

Test pour contrôler que la phase ergodique est atteinte

Pour le praticien, le problème de la validation de la phase ergodique reste posé. Comment contrôler que les simulations utilisées pour le tracé des histogrammes et distributions, le calcul des caractéristiques globales, se situent bien dans la partie supposée ergodique des trajectoires ? Notons que si on dispose de plusieurs trajectoires issues de conditions initiales aléatoires et indépendantes, les parties ergodiques de celles-ci doivent être non seulement semblables, au sens où elles possèdent la même distribution limite, mais elles doivent être bien mélangées au sens où elles doivent être indiscernables sous tous leurs aspects statistiques (puisque les passages à la limite de la théorie des chaînes de Markov aboutissent à la convergence en loi). Cowles et Carlin, 1996 et Gilks et al., 1996, recommandent de commencer l’initialisation des chaînes MCMC par des valeurs contrastées de l’espace des paramètres et proposent de nombreux diagnostics de convergence basés sur la comparaison de plusieurs chaînes. La méthode la plus connue, celle de Gelman et Rubin, 1992 (modifiée par Brooks et Gelman, 1998), est habituellement réalisée sous WinBUGS et considérée comme satisfaisante dans les cas pratiques. Elle permet une vérification statistique de ce bon mélange entre les chaînes. Méthode de Gelman-Rubin dite GR Cette méthode de contrôle est basée sur S trajectoires ou suites parallèles de longueur n commençant chacunes par une valeur initiale différente que l’on suppose arbitrairement simulée selon une distribution initiale g(θ). S doit être bien sûr plus grand que 1, et en général on prend S = 3. Soit θrs (r = 1..., n; s = 1...S) les réalisations individuelles (on peut aussi bien utiliser des suites de u(θrs ) à la place des paramètres). On calcule :

304

Le raisonnement bayésien – la variance inter-suite : S

B=

n ¯ (θ.∗s − θ¯∗∗ )2 S − 1 s=1 n

avec

S 1 ¯ ¯ θ∗∗ = θ.∗s S s=1

1 θ¯.∗s = θrs n r=1

– la variance intra-suite ; W = avec ws2 =

S 1 2 w S s=1 s S

1 (θrs − θ¯.∗s )2 n − 1 s=1

et on forme le rapport : n−1 n W

+ n1 B W Gelman et Rubin, 1992, ont montré que le numérateur de ce rapport surestime la variance marginale de θ si la distribution g des valeurs initiales est surdispersée par rapport à la distribution ergodique mais tend vers la variance ergodique quand n tend vers l’infini. Le dénominateur devrait être initialement sous-dispersé tout en tendant à l’infini vers la variance ergodique. Le rapport ˜ en fonction devrait donc diminuer vers la valeur 1 à la limite. Le tracé de R de n permet donc un contrôle visuel de convergence. De plus, les parties ergodiques des différentes trajectoires doivent apparaître comme mélangées sans écarts significatifs. Mise en œuvre : Nous avons repris le problème de l’inférence sur le paramètre ρ du modèle Gumbel par l’algorithme Metropolis-Hastings appliqué avec la distribution instrumentale g asymptotique mais d’écart-type majoré (2e séquence). La figure 14.11 montre trois nouvelles trajectoires avec conditions initiales tirées de façon indépendante. Brooks et Gelman, 1998, ont proposé une généralisation de la méthode GR qui a été introduite dans les dernières versions du logiciel Winbugs. Il existe bien d’autres méthodes de validation des suites ergodiques des algorithmes MCMC. Un certain nombre a été introduit dans un package appelé CODA accessible par l’intermédiaire du logiciel Splus ou R. ˜= R

Application 14.2 Poursuite de l’étude de l’ajustement de Weibull commencé page 285 Une étude rapide de la convergence de l’algoritme MCMC est permise par l’examen des trajectoires obtenues au cours de la période de « chauffe » initiale adoptée (ici 20 000 tirages).

14. Algorithmes MCMC et par-delà

305

Figure 14.11 – Trois trajectoires bien mélangées de ρ.

Figure 14.12 – Examen des trajectoires des paramètres ν, λ et de la fréquence

d’acceptation pour le modèle de Weibull.

306

Le raisonnement bayésien

La stabilité des trajectoires semble apparaître sur les deux premières parties de la figure 14.12 dans la partie finale de ces trajectoires. Bien entendu une étude de convergence plus fine pourrait être utile ici. Pour la même période, le troisième graphique présente la fréquence d’acceptation du candidat pour la sous-étape MH. Elle avoisine ici les 20 %. C’est dire que, quatre fois sur cinq, le candidat proposé par la fonction d’exploration de MH est refusé et la valeur de l’itération précédente redoublée. Il est difficile de réussir à augmenter cette fréquence en jouant sur la variance de la fonction d’exploration de l’algorithme, en particulier par un choix différent de la constante C.

14.5

Introduction aux méthodes particulaires

Pour certains problèmes, l’utilisation des méthodes MCMC peut buter sur des difficultés. Malgré les propriétés théoriques, il n’est pas si facile d’ignorer les conditions initiales. Par ailleurs, l’état ergodique peut ne pas être aisément atteint. Notamment si la loi cible est multimodale - et ce cas se produit facilement en grandes dimensions - la chaîne générée par l’algorithme peut oublier de visiter certains des modes de la loi a posteriori, car la séquence n’a pas été lancée suffisamment longtemps même si l’analyste estime acceptable l’allure des histogrammes a posteriori. C’est par exemple le cas de l’inférence sur les modèles mixtes. Considérons un échantillon indépendant d’une variable X distribuée selon le modèle de mélange de deux densités gamma suivant : [x|λ, γ, α1 , α2 ] = λgampdf (x, γ, α1 ) + (1 − λ)gampdf (x, γ, α2 ) Les deux distributions (appelées plus loin états E1 et E2 ) ont le même paramètre de forme mais des paramètres d’échelle différents. λ est le paramètre caractérisant la probabilité d’occurrence du modèle gampdf (x, γ, α1 ) vis-à-vis du modèle gampdf (x, γ, α2 ) avec 0 ≤ λ ≤ 1. On va de plus ici supposer que λ et γ sont connus (λ = 0, 3 et γ = 4). La figure 14.13 représente les lignes de niveaux (iso-contours) d’une surface typique de réponse dans le plan des paramètres inconnus θ = (α1 , α2 ), dessinant la loi-cible a posteriori π(θ) = [θ|x], fonction de ces deux paramètres. Avec une seule chaîne MCMC pour conduire l’inférence du vecteur inconnu des paramètres θ = (α1 , α2 ), il arrive souvent qu’une trajectoire se retrouve piégée comme l’illustre la figure 14.13 autour d’un mode local de π.

14.5.1

Une étape d’échantillonnage pondéré

Dans ces problèmes comme dans beaucoup d’autres l’échantillonnage pondéré va apporter des solutions. L’intérêt est d’explorer toute la surface de réponse ainsi que le montre la figure 14.14 où N points {θ(1) , ..., θ(j) , ...θ(N ) } sont générés de façon indépendante selon la loi auxilliaire q(θ). Si on introduit les

14. Algorithmes MCMC et par-delà

307

Figure 14.13 – Trajectoire piégée d’une chaîne MCMC autour d’un mode local ;

l’autre mode n’est pas visité faute d’un nombre suffisant d’itérations. pondérations relatives j =

π(θ(j) ) q(θ(j) )

comme le montre la figure 14.15, on passe alors d’un échantillon de q à un échantillon pondéré de π.

14.5.2

Une étape de ré-échantillonnage

Si on veut obtenir un échantillon de π mais cette fois non pondéré, on peut effectuer un tirage multinomial avec les N points affectés de leur pondérations, c’est-à-dire un ré-échantillonnage de Rubin (méthode SIR, voir le chapitre 10). La figure 14.16 illustre un résultat possible de ce ré-échantillonnage. On constate hélas la présence de doublons qui marquent la présence de forts poids obtenus lors de l’échantillonnage d’importance. On peut avoir à faire face à un échantillon pauvre. Appliqué récursivement le simple ré-échantillonnage de Rubin précédent est affecté du syndrome d’appauvrissement de l’échantillon de particules. Si le rééchantillonnage génère peu d’individus, les valeurs de θ des queues de la loi cible n’ont guère de chance d’apparaître à nouveau dans le ré-échantillonnage multinomial. Par contre, les valeurs à forte vraisemblance seront en quelque sorte sur-représentées entraînant la présence de nombreux doublons. Ceci peut en-

308

Le raisonnement bayésien

Figure 14.14 – On éparpille des points selon une loi auxilliaire pour explorer la

densité de probabilité cible.

Figure 14.15 – Certains points sont plus plausibles que d’autres.

14. Algorithmes MCMC et par-delà

309

Figure 14.16 – On met tous les points dans un grand sac avec leur poids respectif

et l’on effectue un tirage avec remise. traîner un biais d’estimation. Pour voir apparaître ces θ rares dans l’échantillon simulé, il faut alors augmenter considérablement N . Rubin proposait de multiplier N par un facteur allant jusqu’à 10. Pourtant, d’après Carpenter et al., 1999, l’efficacité de facteurs supérieurs à 1 n’a pas été démontrée pratiquement.

14.5.3

Ajouter une transition à la mode MCMC

On sait que si on applique un noyau markovien à un échantillon issu de sa loi invariante, l’échantillon obtenu par cette transition constitue à nouveau un échantillon tiré dans la loi invariante du noyau. Or, il est facile de construire un noyau K laissant la loi π invariante : par exemple, on peut effectuer une itération (ou plusieurs) d’un algorithme de Metropolis-Hastings prenant π pour loi cible. La figure 14.17 montre le résultat de l’application d’un tel noyau π−invariant : par rapport au N −échantillon de π avec doublons de la figure 14.16, le noyau markovien a eu pour effet d’enrichir l’échantillon puisque des doublons initiaux ont toutes les chances de générer des images différentes.

14.5.4

Premières idées pour un algorithme particulaire

L’algorithme qui rassemble les étapes ci-dessus.

310

Le raisonnement bayésien

Figure 14.17 – On évite la dégénérescence de l’échantillon de π grâce à un enrichissement crée par un noyau de transition markovien.

Algorithme 13 (particules) 1. Explorer l’espace des inconnues avec une loi auxilliaire commode à simuler. 2. Calculer les pondérations de l’échantillonnage pondéré. 3. Réaliser l’importance sampling resampling de type bootstrap. 4. Disperser les doublons avec un noyau markovien laissant invariante la distribution cible. On peut facilement imaginer les analogies biologiques d’un cycle de vie des particules : survie des individus les mieux adaptés, reproduction, mutation. La tentation est alors grande de boucler l’algorithme enchaînant importance sampling, réechantillonnage pondéré, transition markovienne comme l’indique la figure 14.18. L’idée intuitive est de chercher à concilier les points forts : – de l’échantillonnage pondéré (méthode IS) : point n’est besoin d’attendre un régime stationnaire pour obtenir un échantillon de π. De fait, au cours d’un cycle on souhaite produire un N −échantillon de π ; – d’une certaine invariance de π à travers chaque étape de l’algorithme : en entrant un N −échantillon de π (la fonction d’importance q vaut alors la loi cible π) alors chaque poids vaudra 1/N et le rééchantillonnage uniforme, sera suivi de l’application d’un noyau. L’avantage de construire

14. Algorithmes MCMC et par-delà

311

Figure 14.18 – On dispose d’un degré de liberté pour boucler de l’échantillon

régénéré à la fonction d’importance pour l’exploration initiale du cycle suivant. un algorithme markovien ayant π pour loi invariante, c’est que la propriété ergodique (si elle s’applique) va le guider tout naturellement vers la visite des portions de l’espace des paramètres ayant une forte crédibilité. Mais au lieu d’une chaîne de valeurs successives de θ, on manie les trajectoires de collections de N valeurs du vecteur des paramètres et il faut préciser le langage. Il y deux indices : celui de l’étape de l’algorithme, appelons-le r et celui de la réalisation du vecteur θ au cours de l’itération r, qu’on notera j, j allant de 1 à N . Bref à l’étape r, on a à faire avec une collection ϕr de valeurs du vecteur des paramètres ϕr = {θr(1) , ..., θr(j) , ...θr(N ) } La suite {1, ..., r, ...} n’est pas nécessairement illimitée ni même très grande. Vu dans l’autre sens, à j fixé, on va suivre le devenir au cours des évolution de r (j) (j) à r + 1 de θr que l’on appelle une particule. La particule θ· change d’état au cours des itérations. Les méthodes particulaires étudient donc les propriétés des (j) trajectoires d’un faisceau de N particules θ· . En général, à certaines étapes r, on voudra que les particules adoptent le comportement d’un N −échantillon (j) de tirages indépendants θr (j = 1, ...N ) de loi cible πr (θ) (valant par exemple (j) πr (θ) = π(θ) = [θ|x] ). On dira alors que la particule θ· se trouve dans l’état πr (θ). Pour les N particules, il faudra donc considérer la distribution augmentée

312

Le raisonnement bayésien

associée à un N −échantilllon : πr⊗N (ϕr )

=

N 

πr (θ(j) )

j=1 (j) θ·

d’un système particulaires peuvent changer d’état de Les particules diverses manières durant l’itération r → r + 1. Si on suppose que ϕr = (1) (j) (N ) {θr , ..., θr , ...θr r } est un Nr échantillon iid de loi πr , comment faire en sorte que ϕr+1 soit un Nr+1 échantillon iid de loi cible πr+1 ? En fait les opérations possibles ont déjà été décrites à la figure 14.18. – Si πr+1 = πr = π et Nr+1 = Nr , il est facile de construire à l’aide d’un pas de l’algorithme MH décrit au chapitre 11 un noyau markovien (j) (j) (j) k(θr , θr+1 ) laissant π invariant pour chaque particule θr . En appliquant le noyau k, comme sur la figure 14.17, les particules évoluent, mais ne changent pas d’état. Dans cette transition terme à terme, elles n’interagissent pas puisque le noyau est appliqué Nr fois, particule par particule. Notons qu’il est facile de faire une construction similaire mais avec interactions, en utilisant une transition markovienne globale de ϕr vers ϕr+1 , laissant invariante la distribution augmentée πr⊗Nr . – En particulier quand πr+1 = πr on peut utiliser la méthode d’échantillonnage pondéré (figure 14.15) avec la distribution instrumentale q(θ) = πr . (j) On garde alors les mêmes valeurs θr mais on y associe les pondérations (j)

j =

πr+1 (θr ) (j)

πr (θr )

Une sous-étape de ré-échantillonnage de Rubin (voir aussi figure 14.16) fournit alors les Nr+1 valeurs iid de distribution πr+1 pour ϕr+1 = ) (N (1) (j) {θr+1 , ..., θr+1 , ...θr+1r+1 }. Selon le langage des particules, on remarque qu’il y a interaction, puisque au cours de ce tirage multinomial avec remise, chaque particule a influencé le devenir de ses voisines. Remarquons qu’en traitant chaque j e particule de façon séparée, on peut prendre pour distribution instrumentale de la phase d’importance sampling une autre distribution que πr . On va indicer cette étape préliminaire (j) par r + 21 . Imaginons par exemple qu’on génére d’abord chacun des θr+ 1 2

(j)

à partir des θr grâce à un noyau markovien qj (θ, θ) puis qu’on effectue (j) (j) les étapes de ré-échantillonnage pondéré des θr+1 à partir des θr+ 1 . Il faut 2 considérer dans ce cas les pondérations : (j)

wj =

πr+1 (θr+ 1 ) 2

(j) (j) qj (θr , θr+ 1 )

(14.23)

2

Remarquons aussi qu’il est également possible d’ajouter en sortie un pas d’un algorithme MCMC pour autant, bien sûr, que le noyau soit πr+1 invariant.

14. Algorithmes MCMC et par-delà

14.5.5

313

Un peu de théorie pour réconcilier échantillonnage pondéré et MCMC

L’extension des propriétés de l’échantillonnage pondéré au cas de tirages dépendants est fondé sur la propriété ergodique des chaînes de Markov (Andrieu et al., 2004) : – soit ϕ = (θ1 , θ2 , ...θr , ..θN ) un échantillon indépendant issu d’une densité π ⊗N ; – soit k(φ, φ ) le noyau d’une chaîne de Markov homogène de densité invariante ergodique π ⊗N Alors l’échantillon ϕ = (θ1 , θ2 , ...θr , ..θn ), obtenu à partir de ϕ = (θ1 , θ2 , ...θr , ..θn ) par un ré-échantillonnage Rubin de pondérations w(r) , suivi de transitions markoviennes de noyau k(ϕ, ϕ ) est approximativement distribué comme π dans le sens où la convergence, presque sûre, suivante se réalise quand n −→ +∞ : ¯= U

n

u(θr ) → U =



r=1

θ∈Θ

u(θ)πθ)dθ

(14.24)

Plus précisement, il faut construire le noyau k en effectuant pour chaque coordonnées θ(r) de ϕ une transition markovienne laissant π invariante. On conserve les pondérations w(r) et on a, comme dans le cas de tirages indépendants (voir le chapitre 10), une estimation convergente : ¯) E(U

= U

¯) ≈ Var(U

1 N2

(14.25) r=N

¯ ]2 [u(θr ) − U

(14.26)

r=1

Cette dernière formule s’appliquera de la même façon quand on prend les pondérations données par l’équation 14.23. Ce résultat que nous avions déja rencontré dans le paragraphe (Calculs d’intégration et contrôles pratiques de la convergence) est très important car si l’on utilise l’échantillonnage pondéré récursivement (comme dans le cas des processus) on peut compléter chaque étape par un tirage dans une chaîne MCMC : Metropolis-Hastings ou Gibbs laissant π invariant. L’intérêt de ce ré-échantillonnage dépendant est de combattre l’appauvrissement de l’échantillon. Si, notamment, le noyau est une densité continue, toutes les valeurs ré-échantillonnées sont donc différentes des valeurs de l’échantillon précédent (cf figure 14.19). C’est pourquoi la première idée est de préconiser l’échantillonneur de Gibbs à cet effet. Cependant, une procédure de Metropolis-Hastings, bien que son noyau soit un mélange discret/continu qui en théorie peut donc laisser des doublons persister, est souvent très efficace pour peu qu’on choisisse une distribution instrumentale bien « calée ».

314

Le raisonnement bayésien

Figure 14.19 – Réconcilier l’échantillonnage pondéré et les algorithmes marko-

viens.

14.5.6

Utilisation des algorithmes particulaires

On peut distinguer trois cas situations de nature différente pour l’application de l’algorithme décrit à la figure 14.18. 1 Le premier cas est celui de l’inférence classique, par conséquent la loicible ne bouge pas πr = πr+1 = π. On va réaliser un algorithme itératif laissant invariant la distribution produit π ⊗N . L’objectif est de se prémunir contre le risque de piégeage des méthodes MCMC et d’améliorer la qualité de la technique de l’échantillonnage pondéré. On va alors boucler l’algorithme en réutilisant directement le système de particules (1) (j) (N ) ϕr = {θr , ..., θr , ...θr } comme base de la fonction d’importance de l’étape r + 1. Les tirages sont ici des sous-séquences (étapes r) qui permettent chacune d’obtenir des approximations du posterior qu’on réintroduit dans la séquence suivante en contrôlant ainsi le N minimal nécessaire. Selon cette optique, l’échantillonnage pondéré séquentiel peut diminuer l’effet de tirages dans une distribution a priori arbitraire dont on souhaite que les résultats a posteriori soient le plus indépendants possibles.

14. Algorithmes MCMC et par-delà

315

Figure 14.20 – Les avatars d’un échantillonnage pondéré séquentiel ou dyna-

mique. La série des graphes 14.20 rappelle les séquences d’application à une loi a posteriori bimodale π de cet algorithme. En fonction de la distribution instrumentale choisie, on obtient une pondération laissant de coté les points auxquels la loi-cible accorde peu de poids. Le ré-échantillonnage répond à ce défaut en augmentant la probabilité de sélection de ces points. Toutefois, la méthode souffrirait du syndrome d’appauvrissement de l’échantillon si seul un souséchantillon de l’échantillon de départ était conservé et ceci d’autant plus que la distribution instrumentale est éloignée de la loi-cible. Le pas markovien utilisant des distributions instrumentales conditionnelles permet de lutter contre cet appauvrissement. On peut quelquefois améliorer l’algorithme en ne récupérant pas immédiatement les particules de l’itération précédente comme échantillon de la fonction d’importance, mais en leur faisant subir au préalable une transition qui les disperse (par exemple elles ont tendance à se repousser les unes les autres de façon à mieux explorer le relief de la loi-cible). 2 Le second cas est celui où la loi-cible bouge un petit peu entre le cycle r et le cycle suivant πr = πr+1 . Il s’agit, par exemple, d’une loi a posteriori qui a été mise à jour grâce à l’acquisition d’un (petit) nombre de données supplémentaires. Cela peut se produire pour des raisons opérationnelles (acquisition en temps réel) ou de commodité mathématique. Des échantillons de données trop importants peuvent entraîner des difficultés de calcul des distributions a posteriori. Dans l’exemple du modèle de mélange, la mise en œuvre de la vraisemblance des sous-modèles gamma pose souvent des difficultés de calcul même pour des échantillons de taille modérée

316

Le raisonnement bayésien car la fonction Γ(pγ) intervenant dans les posteriors devient rapidement numériquement indéfinie (c’est le cas par exemple avec MATLAB dès que pγ > 170). On peut alors avoir intérêt à découper l’échantillon de base x⊗p en sous-échantillons d’effectifs réduits. Ici l’indice r caractérisera le numéro de sous-échantillons. On profite alors de la propriété séquentielle d’apprentissage progressif de la distribution a posteriori (règle de Bayes) en appliquant l’importance sampling en sous-séquences successives et l’on bénéficie de la proximité entre la loi d’importance πr (θ) = [θ |x1 , x2 , ...xr ] et la loi cible πr+1 (θ) = [θ |x1 , x2 , ...xr , xr+1 ]. 3 Mais le cas le plus important est celui du filtrage en temps réel pour des modèles où la vraisemblance est du type [xt |θt ] avec l’index t ayant généralement la signification phénoménologique d’un temps (Gordon et al., 1993). C’est d’ailleurs pour ce cas que la terminologie particule a été spécialement introduite (Doucet et al., 2001). La caractéristique nouvelle des processus qui apparaît ici est le fait que l’espace des inconnues θt n’est plus invariant avec l’indice temporel mais qu’il peut varier avec lui (on se trouve dans le cas de processus non stationnaires). Dans l’exemple du modèle de mélange gamma, imaginons que des échantillons de Xt de taille nt (où n peut être égal à 1) sont observés de façon répétée à chaque époque t. Les paramètres du modèle [xt |λt , γt , α1t , α2t ] peuvent avoir une structure temporelle latente. Regardons par exemple une évolution telle que :

γt α1t α2t λt

= γt−1 = Aα1,t−1 + 1,t−1 = Bα2,t−1 + 2,t−1 = (C + ζt−1 )λt−1

(14.27)

où 1,t−1 , 2,t−1 , ζt−1 sont des variables aléatoires adéquates pour que les quantités α soient positives et les proportions de chaque état λ comprises entre 0 et 1. Le diagramme 14.21 décrit la structure temporelle du modèle de mélange gamma ainsi généralisé. Dans la mesure où l’indice t est censé représenter le temps on peut donc remplacer l’adjectif séquentiel par dynamique. Notons que les flèches reliant les Xt successifs indiquent le conditionnement possible des variations du processus lui-même et non pas seulement de ses paramètres comme par exemple celui d’un processus de Markov dont les marges seraient des distributions gamma. Pour retrouver une illustration plus classique ici, on pourra remplacer la distribution gamma par une distribution normale, où le rôle de γ serait joué par la variance σ 2 et celui des α joué par les espérances μj . (j = 1, 2). Cette situation de structure voisine de l’exemple devient alors un cas répertorié

14. Algorithmes MCMC et par-delà

317

Figure 14.21 – Diagramme du modèle dynamique de mélange de distributions

gamma. de la littérature de chaînes de Markov normales : cette structure appartient à la classe des modèles dynamiques étudié par West et Harrison, 1989. De façon générale, quelle que soit l’interprétation phénoménologique que l’on donne à t, l’algorithme de calcul particulaire se présente de telle sorte que les itérations r s’inscrivent dans le sillage de l’évolution temporelle des variables latentes θt . Il fait intervenir un deuxième indice, j allant de 1 à N (telle la répétitions des tirages d’un échantillonnage pondéré). Rappelons tous les niveaux de modélisation du processus dynamique en jeu. La suite d’observations xt est indicée par des temps discrets et appelons yt = (x1 , x2 , ...xt ) l’information disponible au temps t. Dans le cas le plus général, le processus est non stationnaire et fonction de paramètres θt euxmêmes évolutifs. Les modèle dynamiques caractérisent alors à la fois les vraisemblances [xt |θt ] et les probabilités d’évolution des inconnues indexées par t, [θt |θt−1, θt−2 , ...θt−k , ...]. Ici, comme dans la plupart des modèles courants de la littérature, nous simplifierons des variables latentes en nous restreignant au cas markovien : [θt |θt−1, θt−2 , ...θt−k , ...] = [θt |θt−1 ]

(14.28)

L’exemple de distributions gamma mélangées (eq (14.27) est une écriture particulière de la forme générale (14.28). Cette dernière est aussi l’écriture classique des modèles dynamiques au sens de West et Harrison, 1989. La figure 14.21 représente en fait le modèle par un graphe de Spiegelhater (DAG) en individualisant les nœuds de chaque étape t.

318

Le raisonnement bayésien

La progression stochastique de la séquence est décrite par les équations bayésiennes de mise à jour :  [θt+1 |yt ]

=

[θt+1 |θt ][θt |yt ]dθt

(14.29)

[θt+1 |yt+1 ]

=

[xt+1 |θt+1 ][θt+1 |yt ] [xt+1 |xt ]

(14.30)

c’est, bien sûr, la règle de Bayes appliquée étape par étape (contrairement à son application globale envisagée pour les systèmes paramétriquement invariants traités dans les chapitres précédents). En opposition à la méthode d’inférence de type Gibbs qui s’applique en remontant le graphe par calcul des conditionnelles complètes des distributions a posteriori des quantités inconnues, les méthodes particulaires s’appliquent en descendant le graphe c’est-à-dire en suivant le temps. Pour initialiser la démarche, on doit alors simuler n valeurs indépendantes (1) (2) (j) (n) (θ0 , θ0 ..., θ0 , ...θ0 ) de la distribution a priori initiale [θ0 ], dont on suit ensuite le comportement au cours du temps par le calcul numérique des diverses intégrales précédentes sur des échantillons successifs issus du premier par une méthode dite de filtrage (Rubin ou autres Carpenter et al., 1999). Chaque réa(j) lisation θ0 (qui est en général un vecteur de paramètres ou variables latentes) est appelée une particule d’où le nom de méthodes des particules donné à l’ensemble des techniques qui s’y rattachent comme nous l’avions déja souligné. Dans le contexte dynamique, le terme de filtrage est synonyme de tirages dans la distribution conditionnée par l’information présente (à t). Le premier type de filtrage auquel on peut penser est celui de la procédure de ré-échantillonnage de Rubin avec m = N . Ainsi dans la première étape, on tire avec remise un N-échantillon indépendant de la population fi(1) (2) (j) (N ) nie {θ0 , θ0 ..., θ0 , ...θ0 }. Chaque particule de cette population ayant pour probabilité : (j)

[x1 |θ0 ] (j) ω0 = n (j) r=1 [x1 |θ0 ]

(14.31)

dans le tirage multinomial avec remise d’où l’on fait apparaître successive(1) (j) (N ) ment : θ1 ..., θ1 , ...θ1 . Des procédures telles que celles décrites par les figures (14.16) et (14.17) peuvent également être mises en œuvre à l’étape initiale et pour les étapes suivantes, de façon à ce que progressivement aux cours des étapes de l’algorithme, les particules se mettent dans les états décrits par les équations (14.29) puis (14.30).

14. Algorithmes MCMC et par-delà

319

Épilogue Ce chapitre conclut la seconde partie de cet ouvrage, dévolue au calcul bayésien. Elle est loin d’être complète. Nous nous sommes limités dans la présentation des méthodes les plus usuelles. La panoplie des outils existant est particulièrement riche. Nous incitons le lecteur à oser écrire sans tarder son modèle et à ne pas hésiter à faire ses premiers pas dans le domaine de l’inférence. Winbugs constitue un précieux allié pour valoriser ces premiers essais. Gentleman, 1997, signale une réelle avancée dans l’exécution des analyses bayésiennes MCMC grâce à l’ensemble des logiciels BUGS (Gilks et al., 1994). Quelques cas d’études dans le domaine écologique illustrent le potentiel WinBUGS (Meyer et Millar, 1999 ; Durban et al., 2000 ; Link et al., 2002, ou Mäntyniemi et Romakkaniemi, 2002). L’ouvrage de Congdon, 2001, offre une véritable bibliothèque de structures de modèles, illustrées par des exemples pour chacun desquels le code WinBUGS est détaillé. Sur le plan de la théorie mathématique, nous n’avons réalisé qu’un survol très partiel des méthodes de contrôle de convergence encore en cours de développement. Nous n’avons fait qu’effleurer les méthodes d’intégration numériques. Mais nous croyons que le lecteur en a appris assez pour connaître le fondement, la portée et les limites des méthodes d’inférence et travailler en sécurité à l’intérieur de ces gardes-fous pour développer ses propres algorithmes. La lecture des ouvrages référencés, notamment le livre de Robert, 1996, pourra combler les omissions.

Notes de lectures La littérature concernant les méthodes MCMC, tant Metropolis-Hastings (MH ) que Gibbs est maintenant très abondante. Nous n’avons présenté que les méthodes de base et quelques-uns de leurs développements. Échantillonnage MH adaptatif, balayage aléatoire des états θ (Gibbs), balayage par tranches, algorithmes de Langevin, etc. sont d’autres variantes possibles. En ce qui concerne les problèmes de dimensions variables des espaces d’états (typique en choix de modèles), une mention spéciale doit être faite sur les algorithmes à sauts réversibles (Green, 1994), couplés ou non avec des processus instrumentaux markoviens de type naissance et mort.

Une synthèse Une excellente synthèse des méthodes Monte Carlo appliquées à l’analyse bayésienne se trouve dans Robert et Casella, 1998. Nous reprenons ici les arguments de comparaison des méthodes markoviennes (MCMC) vis-à-vis de l’échantillonnage par importance sampling (IS) et ses extensions particulaires : 1. IS génère un échantillon indépendant alors que MCMC fournit une chaîne de Markov.

320

Le raisonnement bayésien

2. Les performances de IS dépendent d’une distribution instrumentale comme certaines méthodes MCMC d’ailleurs mais la mémoire interne de ces dernières conditionne, en outre, les résultats. 3. IS est strictement sans biais alors que MCMC n’implique qu’une convergence vers la vraie distribution. 4. La variance de l’estimateur IS peut être contrôlée, alors que MCMC demande la construction de critères ad hoc. 5. Avec IS on peut recycler les simulations passées (comme priors) alors que MCMC impose une adaptabilité progressive avec abandon des premières valeurs. 6. IS est bien adaptée aux processus dynamiques et MCMC aux problèmes à grandes dimensions. 7. La validité de IS repose sur les arguments asymptotiques de la loi des grands nombres alors que la validité asymptotique de certains algorithmes MCMC peut être difficile à vérifier.

Extensions à l’optimisation Reprenons l’idée de la technique d’optimisation donnée par l’équation (3.33) : simuler des triplets (d, θ, y) tirés dans h, et chercher le mode de la marginale en d et en chercher le mode. Cette idée est détaillée dans Müller, 1999. On peut mettre en œuvre ce procédé en utilisant des méthodes particulaires (Cappé et al., 2004 ; Iba, 2000). Remarquons d’abord que l’on a intérêt à rendre pointue la marginale en d (proportionnelle à U (d) dont on cherche le maximum), ce que l’on peut réaliser en prenant une puissance de U (d). Mais U (d)J n’est plus proportionnelle à la marginale de (3.33). Il faut maintenant considérer la fonction des arguments (d, θ1 , y1 , θ2 , y2 ..., θi , yi , ..., θJ , yJ ) qui fournira la marginale recherchée : J 

hJ (d, θ1 , y1 , ..., θJ , yJ ) =

i=1

u(d, θi , yi ) [yi |θi , d ] [θi ]  J (U (t)) dt t∈D

(14.32)

La figure 14.22 montre l’effet d’accentuation du maximum par ce passage à la puissance, qui est analogue à une technique de recuit-simulé. Un algorithme particulaire est alors bien approprié pour effectuer cette recherche : Algorithme 14 (particules pour optimisation) 1. On lance d’abord des particules pour bien explorer l’espace initial en (d, θ, y). 2. On augmente petit à petit (en accroissant J d’une unité) le relief de la marginale en d : ceci se paie en augmentant la dimension de la particule qui passe de (d, θ1 , y1 , ..., θJ , yJ ) à (d, θ1 , y1 , ..., θJ , yJ , θJ+1 , yJ+1 ).

14. Algorithmes MCMC et par-delà

321

Figure 14.22 – Accentuation du relief par passage à la puissance de U (d).

L’accentuation du relief a pour effet de regrouper les particules autour de l’optimum recherché. La figure 14.23 schématise ces opérations. On trouvera dans Amzal et al., 2006 une mise en œuvre de ces idées sur des exemples d’applications très variés. Ces méthodes d’optimisation de type recuit simulé et autres ont un grand intérêt dans une perspective bayésienne complète de décision sous incertitude. La mise en œuvre des techniques de calcul demande des contrôles de convergence, des calculs de précision abordés dans le présent chapitre, mais qui doivent être étoffés pour s’adapter à la structure particulière de l’algorithme 14.

322

Le raisonnement bayésien

Figure 14.23 – Un algorithme pour résoudre un problème de décision optimale par simulations stochastiques.

Chapitre 15

Conclusions 15.1

Une démarche cohérente et des outils efficaces

La figure 15.1 présente la démarche scientifique selon Box, 1980. Le scientifique émet une conjecture, traduite sous la forme d’ hypothèses sur lesquelles s’édifie un modèle. Le modèle est renseigné par de l’expertise et nourri de données expérimentales. Les paramètres du modèle et leurs incertitudes sont évalués puis le modèle est utilisé pour l’aide à la décision. Un exemple particulièrement important d’aide à la décision est la fourniture de plans d’expériences fixant le nombre optimal de mesures à réaliser afin d’arbitrer entre coût d’échantillonnage et diminution des incertitudes. Le modèle avec ses paramètres renseignés fournit également des prédictions assorties de leur intervalles de tolérance. En les rapprochant d’un échantillon-test (n’ayant pas servi au calage), on peut vérifier l’adéquation du modèle à la réalité observée et, le cas échéant, en arriver à une remise en cause de la structure du modèle et des hypothèses qui la soutendent. Ceci amène à reformuler de nouvelles conjectures (avec éventuellement un complément de collecte de données) et la boucle de la démarche scientifique se trouve ainsi bouclée. Le statisticien est le coach du scientifique pour ce parcours difficile et son rôle consiste en quelque sorte à étayer la rigueur de la démarche. La statistique bayésienne apporte la cohérence : un même outil de quantification du doute, le calcul des probabilités est employé à chaque étape de la boucle de questionnement scientifique. La traduction opérationnelle du concept de probabilité sous la forme d’un pari permet au bayésien une connection immédiate avec la théorie de la décision sous incertitude. Dans cet ouvrage, nous avons essayé de convaincre le lecteur de l’importance de l’emploi constant et cohérent d’un mode de raisonnement conditionnel probabiliste au cours de la démarche bayésienne complète, tant pour la construction de modèles que pour l’inférence de leurs paramètres inconnus.

324

Le raisonnement bayésien

Figure 15.1 – Statisticien, drôle de métier.

Ce mode de raisonnement ne change pas avec la complexité du problème posé. Envoyons une petite pique à la statistique fréquentiste, la plus enseignée en France. L’invariance méthodologique distingue très fortement, à notre sens, l’analyse bayésienne de l’approche fréquentiste classique appliquée à quelquesunes des questions d’inférence de base. Prenons l’exemple des tests d’hypothèses traités sous l’angle classique : au départ l’objectif est posé en termes cohérents en recherchant le test uniformément le plus puissant (UPP) mais la solution peut ne pas exister. Alors on change de problème (et de méthode) en recherchant le test UPP sans biais, puis UPP semblable puis UPP invariant, etc. En quelque sorte, l’approche fréquentiste classique évite la difficulté en adaptant l’objectif et donc change de problème à chaque difficulté (lequel problème demeure nonobstant suffisamment délicat pour passionner les mathématiciens). A contrario, l’unicité méthodologique de l’approche bayésienne est inégalée et simplifie la vie du modélisateur. De plus, les outils adéquats d’inférence sont aujourd’hui disponibles et facilement utilisables. Dans ce livre, l’exposé de la statistique bayésienne a été scindé en deux parties : – D’abord, construire des modèles susceptibles de répondre à un questionnement et aider aux investigations scientifiques grâce à L’ANALYSE BAYÉSIENNE, CADRE THÉORIQUE où nous avons rassemblé les principes d’inférence conduisant à la décision sous incertitude. Il importe de comprendre comment ces principes conditionnent rationnellement les problématiques statistiques proprement dites, c’est-à-dire la modélisation et

15. Conclusions

325

l’inférence sur les paramètres des modèles. Les chaînes de raisonnement conditionnel interviennent à toutes les étapes : données–>modélisation–> inférence–>décisions. Ce livre traite en priorité de la phase inférentielle qui, enchaînée avec l’approche bayésienne conduite jusqu’à son terme, débouche sur la décision sous incertitude. Le cadre donné par quelques exemples reste bien sûr à compléter par le lecteur d’après ses propres expériences. – Ensuite maîtriser les techniques qui rendent ces modèles opérationnels grâce à la seconde partie LE CALCUL BAYÉSIEN : MÉTHODES ET ALGORITHMES D’ESTIMATION où sont décrites les méthodes pratiques de mise en œuvre de l’inférence et notamment les algorithmes de simulation Monte Carlo par chaînes de Markov et quelques-uns de leurs développement. Ces méthodes, ilustrées par des exemples simples, sont présentées de façon que le lecteur puisse les utiliser sur ses propres applications.

15.2

De la difficulté d’être statisticien

La lecture de cet ouvrage a permis au lecteur novice de faire ses premiers pas en modélisation statistique et de forger ses premières armes en inférence bayésienne. Se pose-t-il encore la question : Mais que font donc les statisticiens ? B. Efron, un des maîtres de la profession, a récemment montré combien le spécialiste pouvait éprouver de difficultés pour communiquer sur cette question (Efron, 2004). De fait, une journaliste la lui posait dans le cadre d’une série d’interviews consacrée aux professions des campus universitaires américains. Malheureusement, le tour du statisticien venait après celui d’un jardinier pour lequel les objets de ses travaux, comme les pelouses, fleurs, arbres,... abondaient dans l’environnement naturel de chacun. Mais qu’en est-il des objets dont se préoccupent les statisticiens ? Difficile de les rendre accessibles au grand public. Il faut plutôt parler de ce qui fait l’ordinaire de travail d’un statisticien. Voilà un manipulateur de concepts qui plane à au moins deux niveaux au-dessus de la simple description de la nature. D’abord, la description des données, résultats de prises de mesures souvent élaborées, n’est pas forcement immédiate. Mais ce n’est pas cette simple description analytique qui intéresse le statisticien, on a vu qu’il porte son attention sur des modèles synthétisant le phénomène générateur de données et sur les estimations qui en résultent. Il en résulte une première marche importante d’abstraction par rapport à la nature. Mais que dire du niveau supplémentaire d’abstraction que le spécialiste introduit, souvent sans y penser, celui de la conception et de la compréhension des outils généraux de modélisation, d’estimation, etc. ? Oublions enfin le troisième niveau, celui des articles spécialisés dans lesquels le statisticien explique à ses collègues la façon dont il a procédé pour mettre en place les deux premiers étages d’abstraction et de synthèse. Nous sommes donc conscients d’avoir été exigeants envers le lecteur : nous

326

Le raisonnement bayésien

lui demandons un effort d’apprentissage et surtout de ne pas se refuser à prendre du recul vis-à-vis du monde observable afin d’aller assez loin vers l’abstraction.

15.3

Jeter des ponts transdisciplinaires

Les problématiques de recherche intéressantes sont presque toujours apportées par des gens de terrain qui passent la plus grande partie de leur temps à la formulation du problème et à la récolte de données. Ce monde est multidisciplinaire. Ainsi, tel écologue veut utiliser l’analyse de flux de gènes pour décrire comment le paysage structure génétiquement la population et donc servir la société qui ne manquera pas de prendre des décisions adéquates visant à restaurer, autant que faire se peut, un écosystème de qualité. Dans une perspective de changement climatique, tel agronome voudra étudier grâce aux données satellitaires et un réseau au sol de pluviomètres, les précipitations pendant la période de croissance des céréales en Afrique de l’Ouest et partitionner le pays pour optimiser les récoltes. Ce monde des expérimentateurs est actuellement imperméable, pour ne pas dire rebelle aux discours tenus par les statisticiens. En gros, c’est un monde des gens qui ont des besoins méthodologiques mais peu d’outils ! A contrario, il existe un monde monodisciplinaire, celui des matheux. Dans ce monde, tous partagent le même intérêt et parfois le même enthousiasme pour disserter sur telle technique mathématique astucieuse, améliorer d’un fifrelin tel estimateur, découvrir et répertorier les cas pathologiques, etc. Bref, ici, c’est souvent le monde des gens qui ont des outils et peu de besoins ! Nous avons voulu faire partager au lecteur notre ambition de jeter un pont entre ces deux mondes. Il lui faudra hardiesse et persévérance : consacrer par exemple du temps à l’élaboration d’un modèle avec les spécialistes apporteurs de cas,... qui ne comprendront pas toujours que modéliser, c’est un vrai travail intellectuel, parfois lent et souvent difficile. Il lui faudra de plus tenir un positionnement professionnel délicat sur deux fronts. De façon regrettable, certains pros de la haute statistique mathématique ne trouveront peut-être que peu d’intérêt à ses travaux, car eux ne se soucient pas des spécificités des questions finalisées : c’est la difficulté mathématique du modèle qui les intéresse et non la manière de faire émerger un modèle d’un problème réel, rarement bien posé. D’un autre côté, beaucoup de néophytes des techniques statistiques jugeront ses constructions intellectuelles trop difficiles et n’en comprendront pas la portée. Ce commentaire nous ramène au lectorat visé par ce livre, que nous avons emmené gravir une pente difficile. Dans certains chapitres, il a pu ressentir quelquefois l’impression que, sans prévenir, le grimpeur se transforme en alpiniste. Ainsi nous avons par exemple essayé de convaincre le statisticien classique praticien de l’intérêt du paradigme bayésien. Le lecteur est supposé posséder de bonnes chaussures de marche, si possible au moins le niveau mathématique des premiers cycles universitaires. Quelquefois même notre ouvrage comprend des passages d’alpinisme de haute montagne. Mais le débutant peut gravir ces

15. Conclusions

327

cols d’altitude : s’il est porté sur le quantitatif et qu’il n’est pas rebuté par le raisonnement scientifique, il doit pouvoir profiter de ce texte. Pour lui faciliter l’accès et tenter de clarifier la portée et les limites des méthodes, nous nous sommes efforçés de présenter, sans démonstrations, les propriétés probabilistes de base, essentielles à la justification des méthodes. Nous lui avons demandé toutefois un certain effort qui n’est pas niable, mais qui sera, croyons-nous, valorisé par les fruits obtenus et la vision d’un panomara magnifique. Il lui faut donc se fixer un seuil d’exigence et s’y tenir : que le grimpeur vise toujours le sommet mais qu’il y accède à son rythme.

15.4

Du plaisir d’être statisticien

Un autre aspect de la statistique, également souligné par Efron, est qu’elle constitue une science de l’information, en fait la première science de l’information et qui a connu un développement considérable au XX e siècle. Ce développement s’est accompagné d’un développement parallèle des applications des méthodes d’inférence qui touchent maintenant à toutes les disciplines de la science et de la technologie. Si bien que le statisticien est partie prenante de ce mouvement de progrès et que nous partageons tout à fait le point de vue d’Efron : une réponse très légitime à la question : Mais que font les statisticiens ? serait, sans modestie ni complexe, TOUT ! Nous ne pouvions certes pas donner des exemples d’application sur tout. Dans ce livre, nous nous sommes bornés à présenter un assez large ensemble d’applications illustratives et immédiates, plutôt simples (le cas échéant, oserions-nous conseiller une relecture ?). Dans un autre livre, en cours de préparation, nous proposerons une série d’applications de l’approche bayésienne à des problèmes très pratiques de base, illustrées sur des cas concrets plus spécialement orientés vers les questions de descriptions géophysiques et d’ingénierie de l’environnement.

Annexes

Annexe A au chapitre 7 Les deux parties de cette annexe sont utiles pour manier, sans douleur, les méthodes analytiques exactes présentées dans le chapitre 7 : – l’une porte sur l’interprétation bayésienne d’une distribution importante en statistique : la distribution de Student sous ses formes centrée et décentrée. La construction de cette distribution présentée ici est tout à fait générale et intervient dans de nombeuses inférences, comme l’exemple des saumons nous l’a montré. Nous l’illustrerons sur un cas général important : celui du modèle de régression linéaire normal. – l’autre donne des compléments illustratifs concernant l’élicitation des distributions a priori du modèle classique gamma-normal, utilisé dans l’exemple des saumons.

LES DISTRIBUTIONS DE STUDENT CENTRÉES ET DÉCENTRÉES Soit une variable aléatoire U normale centrée réduite N (0, 1). Soit une variable aléatoire Y gamma G(a, 1) indépendante de U . On remarquera que le paramètre d’échelle de la distribution gamma est égal à 1. Donc : [u, y] ∝ y a−1 .e−y−

u2 2

Soit la variable aléatoire T , fonction de U et Y et dont les réalisations t sont définies par : √ u t = a√ y  Le changement de variable u, y → t, y de jacobien D(u,y) y/a donne la D(t,y) = densité jointe : t2

[t, y] ∝ y a−1/2 e−y(1+ 2a ) La distribution marginale de t s’en déduit simplement par intégration sur y: [t] = const ×

1 [1 +

t2 2a+1 2 2a ]

La constante est obtenue par la condition de distribution [t] =

Γ( 2a+1 ) 1 √2 t2 2a+1 Γ(a) 2aπ [1 + 2a ] 2

C’est la distribution de Student à 2a degrés de liberté.



[t]dt = 1, soit :

332

Le raisonnement bayésien

On peut généraliser ce résultat au cas où le numérateur u de t est une variable aléatoire toujours normale d’écart type 1 mais décentrée de moyenne δ, soit U = N (δ, 1). U est toujours indépendante de Y . La distribution marginale de t est alors la distribution de Student décentrée de paramètre de décentrement δ. La densité n’a pas de forme explicite simple. Mais, tout comme la loi de Student centrée, elle peut être calculée par les logiciels de statistique courants. Extension du résultat Supposons toujours Y distribué comme une gampdf (y, a, 1) mais U est une variable normale, non plus indépendante mais reliée conditionnellement à Y de telle sorte que [u|y] = normpdf (0, √1y ) et √ recherchons la distribution marginale de aU. En écrivant la règle des probabilités composées des lois marginale de y et conditionnelles de u sachant y on voit que les calculs de marginalisation sont complètement parallèles aux calculs précédents si bien que : √ aU est marginalement distribuée selon une loi de Student LE MODÈLE DE RÉGRESSION LINÉAIRE NORMAL Soient n variables aléatoires normales indépendantes Yi dont les variances sont constantes et égales à σ 2 mais les espérances sont liées linéairement aux (j) valeurs supposées connues de k covariables Xi (avec 1 ≤ j ≤ k). Si on appelle Y le vecteur dont les coordonnées sont les n valeurs Yi et X la matrice à n lignes et k + 1 colonnes dont chaque colonne j de j = 2 à j = k + 1 est constituée des n valeurs de la covariable X (j) . La première colonne est constituée de valeurs (1) toutes égales à 1, Xi = 1, pour représenter un effet constant ∀i. Avec ces conventions le vecteur espérance s’écrit : μ = E(Y ) = Xθ θ0 θ où θ est un vecteur 1 à k + 1 coordonnées. Ce modèle, qui appartient à ... θk une famille exponentielle, possède donc k + 2 paramètres. On peut écrire sa vraisemblance : L(Y |X, θ, σ)

= =

(Y − Xθ)T (Y − Xθ) 1 √ exp(− ) σ2 ( 2πσ)n  n (j) 2 1 i=1 (Yi − j θj Xi ) √ exp(− ) σ2 ( 2πσ)n

Considérons la statistique θˆ définie comme : θˆ = (X T X)−1 XY

Annexe A

333

chaque coordonnée de θˆ est une combinaison linéaire des éléments de XY dont les coefficients sont les lignes de la matrice inverse (X T X)−1 . Une identité classique de l’analyse linéaire nous dit que : ˆ T (Y − X θ) ˆ + (θ − θ) ˆ T X T X(θ − θ) ˆ (Y − Xθ)T (Y − Xθ) = (Y − X θ) Sans détailler tous les calculs on peut valider les assertions suivantes : Si on pose h = σ12 , le report de l’identité précédente dans la vraisemblance donne :  L(Y |X, θ, h) = (

ˆ h(θ − θ) ˆ ˆ T (Y − X θ) ˆ T X T X(θ − θ) h n h(Y − X θ) ) exp(− + ) 2π 2 2

La forme exponentielle de cette vraisemblance montre l’existence de distributions a priori conjuguées naturelles pour ce modèle : – une distribution gamma, écrite par commodité gampdf (h, n0 , 1/S0 ) pour h – par anticipation des modèles multidimensionnels de l’annexe suivante, pour h fixé une distribution conditionnelle multinormale à k + 1 dimensions Nk+1 (θ¯0 , Vh0 ) d’espérance θ¯0 et de matrice des variances V0 et dont on écrit la densité a priori : [θ|h] ∝ h

k+1 2

exp(

ˆ ˆ −1 (θ − θ) h(θ − θ)V 0 ) 2

Avec ce modèle les distributions a posteriori s’obtiennent aisément : – La distribution a posteriori de h est une gamma gampdf (h, a, b) avec : a = n0 + n − (k + 1) 1 ˆ ˆ T (Y − X θ) = S + (Y − X θ) b En d’autres termes, σ 2 est a priori distribuée selon une loi gamma inverse dont les paramètres se déduisent des précédents. – Pour h fixe’ la distribution conditionnelle de θ est une multinormale V Nk+1 (θ¯y , hy ) telle que : (Vy )−1 (Vy )−1 θ¯y

ˆ T X T X(θ − θ) ˆ + V −1 (θ − θ) 0 −1 ¯ T ˆ = X X θ + V0 θ 0 =

Une propriété caractéristique des multinormales est que leurs marges sont normales bidimensionnelles. Soit donc la coordonnée θj et la je coordonnée θ¯y (j) de l’espérance a posteriori θ¯y et l’élément Vy (j, j) de Vy qui est sa variance a posteriori. V (j,j) Donc, chaque θj est a posteriori distribué selon une loi normale N (θ¯y (j), y h ) conditionnellement à h.

334

Le raisonnement bayésien

 En appliquant le résultat du paragraphe précédent de l’annexe, on voit que n0 + n − (k + 1)(θj − θ¯y (j)) est marginalement distribué selon un Student (à un coefficient multiplicatif près, fonction des variances de h et des Vy (j, j)). On verra au chapitre 8 l’extension multidimensionelle de la loi de Student qui permet de caractériser les posteriors conjoints de plusieurs θj .

Élicitation a priori des paramètres de distributions normale, gamma et Student  Nous reprenons le problème d’élicitation a priori des paramètres du modèle normal général X ∼ N (μ, σ) par la méthode dite des quantiles, différente de la méthode des moyennes et écarts-types, utilisée dans le traitement précédent de l’exemple 3 des saumons à la page 142. Il s’agit donc, ici, de quantifier les paramètres a priori caractérisant un élément d’une famille de lois. Deux familles de distributions ont été envisagées. Toutes deux supposent marginalement une distribution gamma pour le paramètre τ = σ12 inverse de la variance σ 2 du modèle normal. Cependant, les deux priors diffèrent par la distribution conjointe des deux paramètres μ et τ : 1. le premier suppose l’indépendance de μ et τ (chapitre 2) ; 2. le second dans le présent chapitre suppose un prior conjugué, explicité en fonction d’hyperparamètres a, b, m, λ sous la forme : τ = gampdf (a, b)

√ μ = normpdf (m, / λτ ) donc V ar(μ) = λτ On a vu que la distribution a posteriori d’un n-échantillon indépendant est obtenu très aisément avec ce modèle de prior. Dans son travail d’élicitation, l’expert peut utiliser toute information annexe pertinente qu’il peut obtenir. Ainsi reprenons l’exemple des longueurs de saumons juvéniles échantillonnés par l’INRA, à l’aval, sur le site et en amont de la pisciculture de Pont Callec sur la rivière Scorff. Dans le cas présent, et outre son savoir propre, l’expert peut disposer des données recueillies sur d’autres sites de la rivière. Le tableau A.1 donne les résultats obtenus sur 16 sites (parmi les plus abondamment recensés sur le Scorff). Les variations géographiques de cette information pourraient mieux être prises en compte par un modèle bayésien dit hiérarchique dont la présentation dépasse cependant les limites du présent exposé. Notre propos est d’utiliser ces données comme un expert pourrait le faire pour éliciter le modèle normal utilisé précédemment pour traiter les données de Pont Callec. Il est clair que, du fait de la situation des sites, les distributions locales ne sont pas homogènes entre elles. Sans autres indications sur les facteurs d’hétérogénéité, on peut cependant considérer la distribution de l’ensemble des longueurs (figure A.1).

Annexe A Nombre 33 28 27 34 39 29 52 30 62 54 23 27 32 64 34 25 Ensemble 593

Moyenne 106,24 99,29 93,07 87,24 92,26 86,07 92,52 95,87 99,19 98,17 97,44 100,93 87,41 88,78 95,00 88,68

Écart-type 8,639 11,414 10,202 11,458 11,646 9,801 8,824 8,596 9,309 10,756 6,680 9,495 8,628 9,755 9,035 10,645

Médiane 107,0 103,0 96,0 88,5 96,0 86,0 95,0 96,5 99,0 99,5 97,0 102,0 87,5 89,0 97,0 88,0

Décile9 116,2 111,0 105,0 101,0 105,0 98,8 102,3 105,0 112,0 110,0 105,2 111,8 99,0 100,3 103,0 103,0

Décile9 - Méd. 9,2 8,0 9,0 12,5 9,0 12,8 7,3 8,5 13,0 10,5 8,2 9,8 11,5 11,3 6,0 15,0

94,250

11,0934

96,0

107,0

11,0

Table A.1 – Résultats de pêches sur 16 sites différents de Pont Callec.

Figure A.1 – Histogramme d’ensemble des longueurs de saumons.

335

336

Le raisonnement bayésien

Figure A.2 – Scorff : corrélation moyenne - écart-type.

Outre cet histogramme, l’expert peut considérer le diagramme de corrélation des 16 couples : moyennes et écarts-types. La première question que doit se poser l’expert (ou son conseil statistique) porte sur le modèle de prior à adopter : modèle avec μ et τ indépendants ou modèle conjugué ? Notons que ce dernier présuppose que l’incertitude sur μ est décroissante avec τ. Si cela devait se traduire sur les données du graphique précédent, la dispersion des moyennes autour d’une valeur constante devrait croître avec l’écart type. C’est loin d’être apparent sur la figure A.2. Il ne faut certes pas confondre cette variation de dispersion avec une variation décroissante en moyenne qui semble apparaître sur le graphique. Mais l’interprétation du diagramme est délicate car les tailles d’échantillons sont différentes selon les sites et la relation moyenne-écart-type est très sensible à l’hypothèse de normalité des longueurs de saumon, choisie ici surtout par commodité. Nous adopterons donc le modèle de prior conjugué. Par certains aspects, il apparaît plus naturel que le premier. En effet, ce modèle implique que les incertitudes sur μ soient proportionnées à la dispersion dûe à l’aléa naturel. Ainsi, si on demande à l’expert d’apprécier la longueur moyenne d’une population de saumons μS d’un côté ou de baleines μB de l’autre, il semble assez logique d’admettre que les incertitudes sur μS ne sont pas homogènes à celles

Annexe A

337

sur μB et, qu’au contraire, elles sont proportionnelles à la dispersion propre des longueurs respectives σS ou σB . Cependant, le choix d’une hypothèse de structure probabiliste du modèle de prior sera toujours difficile de la part d’un expert, comme on le voit sur l’exemple du Scorff, et on ne peut demander à celui-ci que ce qu’il peut donner c’est-à-dire un jugement sur les hyperparamètres du modèle, à travers les caractéristiques les plus compréhensibles pour lui des distributions a priori des paramètres μ et τ ici en laissant au statisticien le choix du modèle. Outre les moyennes et écarts-types utilisés précédemment, deux quantiles : médiane M , quartile supérieur Q3 (ou inférieur Q1 ), 9e décile D9 , etc. peuvent être plus facilement appréciés. Nous dirons que l’expert peut parier plus aisément sur les valeurs de ces hyperparamètres. Pour une distribution a priori à deux paramètres, deux paris sont nécessaires, par exemple médiane et quartile pour la loi normale (Bernier et al., 2000). Selon ces principes, le modèle de prior conjugué demande l’élicitation des hyperparamètres a et b de la distribution gamma du paramètre de précision τ par l’intermédiaire de deux quantiles : - la médiane Mτ et le quartile Q.τ,75 (ou décile Q.τ,90 par exemple) Selon les propriétés de la loi gamma et si u est distribué selon une gamma réduite gampdf (a, 1), alors : Mτ = bMu = b.gam.inv(0.5, a, 1) r75 ou r90

(A.1)

Q.τ,75 gam.inv(0.75, a, 1) = = Mτ gam.inv(0.5, a, 1) Q.τ,90 gam.inv(0.90, a, 1) = = Mτ gam.inv(0.5, a, 1)

Les abaques A.3 exprimant Mu et r en fonction de a, permettent l élicitation de a et b. De fait, la courbe est très proche de celle de la fonction M = a surtout pour a > 5. Les abaques A.4 donnent les logarithmes décimaux des deux rapports r75 et r90 précédents (r75 < r90 ) pour les deux gammes de valeurs de a. L’élicitation des hyparamètres m et λ de la distribution de Student du paramètre de précision μ par l’intermédiaire de deux quantiles : la médiane Mμ √ et le quartile Q.μ,75 (ou décile Q.μ,90 ). De façon précise 2λba(μ − m) est marginalement distribué selon une loi de Student à ν = 2a degrés de liberté où a et b sont les paramètres de la distribution gamma calée sur τ selon les indications précédentes.

338

Le raisonnement bayésien

Figure A.3 – Médiane d’une gamma en fonction de a.

Annexe A

339

Figure A.4 – Log10 des rapports r75 et r90 en fonction de a pour une loi gamma.

340

Le raisonnement bayésien

Compte tenu de la symétrie de la loi de Student on aura : Mμ = m 1 t.inv(0.75, 2a) 2λba 1 =m+ √ t.inv(0.90, 2a) 2λba

Q.μ,75 = m + √ ou Q.μ,90

soit en résolvant l’une ou l’autre de ces deux dernières équations en λ : 1 t.inv(0.75, 2a) 2 ] [ 2ba Q.μ,75 − Mμ 1 t.inv(0.90, 2a) 2 ] ou λ = [ 2ba Q.μ,90 − Mμ λ=

(A.2)

Plutôt que τ ou σ il peut arriver que l’expert veuille éliciter directement un quantile Xp tel que [X ≤ Xp ] conjointement à μ, qui, rappelons-le, est égal à la médiane du modèle normal. La prise en compte des quantiles marginaux n’est pas simple car elle nécessite la détermination conjointe de a et λ. Il est possible de tourner cette difficulté en demandant à l’expert une élicitation marginale directement de l’écart qp = Qp − μ. En raison des propriétés du modèle normal, on a : up Qp − μ = σ.up = √ τ où up = norm.inv(p, 0, 1) est connu si p est connu par exemple u0.90 = 1.2816 Donc, l’élicitation de Qp − μ (par exemple par la médiane et un quartile) up permet l’élicitation de deux quantiles de τ = ( Qp −μ )2 ce qui permet la détermination de a et b par la méthode précédente basée sur les propriétés de la loi gamma. Retour à l’exemple des longueurs de saumons juvéniles péchés dans le Scorff Nous achevons l’exemple des longueurs de saumons juvéniles échantillonnés par l’INRA à l’aval, sur le site et en amont de la pisciculture de Pont Callec sur la rivière Scorff. Après avoir choisi son modèle de prior, l’expert peut considérer la distribution d’ensemble des longueurs de saumons. La médiane de cette distribution peut donner une indication sur la valeur de la médiane de μ, soit : Mμ = m = 96

Annexe A

Figure A.5 – Quartile3 et décile9 de Student en fonction de 2a.

341

342

Le raisonnement bayésien

Par contre, cette distribution peut être surdispersée du fait de l’hétérogénéité des sites et les distributions individuelles doivent être considérées pour les paramètres et hyperparamètres de dispersion. Ainsi nous prendrons : Qμ,90 − m ≈ 12.8 valeur dépassée 2 fois sur 16 dans notre échantillon de sites, soit λ = d après (A.2)

1 t.inv(0.90,2a) 2 ] 2ba [ 12.8

En ce qui concerne le paramètre de précision τ , inverse de la variance, on peut toujours utiliser le tableau de résultats des 16 sites et considérer les médiane et premier décile de l’écart-type en utilisant la propriété QX,p = QY,1−p si Y est fonction décroissante de X. On évalue ainsi les quantités du tableau A.2. P = 50 % Qp

σ 9, 7

τ 0, 0106

P = 10 % Qp

σ 8, 6

τ 0, 0135

Table A.2 – Médiane et premier décile de l’écart-type.

Ainsi la valeur τ = 0, 0135 peut être considérée comme le dernier décile de la précision τ du modèle normal. Notons que cette méthode fait abstraction des différences de taille des séries de données. En appliquant les formules A.1 et les abaques A.3, on peut obtenir : log 10(r90 ) = 0.24 soit a ≈ 5 b ≈ 0.002 Et en utilisant les formules A.2 ci-dessus : m = 96 λ = 0.55 Le report de ces estimations dans les équations de la distribution a priori de l’écart δ = μb − μh (aval-amont de Pont Callec) montre une invariance pratique des conclusions par rapport à cette nouvelle élicitation des hyperparamètres a priori, malgré la légère différence de m et celle plus importante de b qui n’ont toutefois que peu d’effets, compte tenu de l’information utilisée sur le site même de Pont Callec. Conclusion 11 Après analyse de sensibilité sur la structure des priors et la façon de les éliciter, l’hypothèse d’effet de la pisciculture reste significativement validée par l’information objective de la campagne de pêches dont le poids est prépondérant dans cet exemple.

Annexe B au chapitre 8 Quelques propriétés des distributions multinormale et Wishart Dans ce paragraphe, nous rappelerons quelques-unes des propriétés de base de la loi multinormale. Les autres seront supposées connues (ou à rechercher par exemple dans Anderson, 1984). Nous supposerons aussi que toutes les matrices introduites ont les dimensions telles que les opérations présentées soient licites, sans rappeler toutes les hypothèses à chaque fois. Tous ces résultats sont tirés de Tiao et Zellner, 1964, de Anderson, 1984, ou de Scheffé, 1959. On y trouve notamment les expressions des jacobiens des changements de variables matricielles. Nous avons repris quelques-uns d’entre-eux qui seront utiles dans ce livre. Distributions marginales et conditionnelles Distribution multinormale Nk (μ, Σ) Soit un vecteur X de dimensions k×1 tel que X ∝ Nk (μ, Σ). Cette notation implique que μ est le vecteur k × 1 d’espérance et Σ une matrice de covariance symétrique k × k, régulière. On considère une bipartition quelconque X = {X1 , X2 } à laquelle correspondent les partitions respectives : μ = {μ1 , μ2 } %  Σ11 Σ12 Σ = Σ21 Σ22

(B.1) (B.2)

Alors : Propriété 1 : Toute marge X1 (k1 × 1) est distribuée marginalement selon une loi normale Nk1 (μ1 , Σ11 ), Propriété 2 : Conditionnellement à X1 = x1 fixée, X2 est distribuée selon une loi normale d’espérance linéaire et de covariances constantes : −1 [X2 |x1 ] ∝ Nk2 (μ2 − Σ21 Σ−1 11 (x1 − μ1 ), Σ22 − Σ21 Σ11 Σ12 )

(B.3)

Distribution de Wishart Soit X distribuée comme Wk (X|A, ν) (avec ν (entier)> k), c’est-à-dire X distribuée selon la densité de Wishart suivante :

[X|A, ν] =

1

(ν−k−1)/2

ν/2

K(ν, k) |A|

|X|

 

1 exp − tr XA−1 2

(B.4)

X est une matrice k×k définie positive, symétrique à valeurs dans R(k(k+1)/2) .

344

Le raisonnement bayésien

Pour que cette distribution soit régulière (non dégénérée) dans R(k(k+1)/2) on doit avoir ν > k. %  X11 X12 et la partition correspondante de Soit la partition : X = X21 X22 %  A11 A12 où A= A21 A22 A11 est une matrice symétrique p × p. Propriété 3 : Alors X11 est distribuée selon Wp (X11 |A11 , p). Un corollaire de cette propriété concerne le cas particulier p = 1 où X11 est, 11 cette fois, une variable aléatoire scalaire. Dans ce cas Y = X A11 est distribuée 2 selon un χ à ν degrés de liberté. Changements de variables Distribution multinormale On considère maintenant un vecteur normal centré z (espérances nulles) : z ∝ Nk (0, A) et soit u = Cz où C est une matrice p × k de rang p avec p ≤ k. Propriété 4 : u est distribuée selon Np (0, CACT ) Distribution de Wishart Reprenons l’expression et les notations de la distribution d’une variable X de Wishart B.4. Soit Y une matrice k × k régulière telle que Y = BX où B est k × k inversible, alors la distribution de Y = BX est distribuée selon Wishart Wk (Y |BA, ν). Propriété 5 : Considérons la variable Z = X −1 où X est Wishart Wk (X|A, ν). La densité de Z est :  −1 ν/2   A  1 −1 −1 −(ν+k+1)/2 [Z] = exp − tr Z A |Z| K(ν, k) 2 Cette distribution est appelée Wishart inverse W −1 (Z|A,ν). Cette notation n’est pas la plus usuelle mais, pour simplifier, nous utilisons la même paramétrisation pour Wishart et son inverse. Relation entre lois normale et Wishart Propriété 6 : Soient {z1,... , zi , ...zν } ν vecteurs (k × 1) aléatoires normaux centrés Nk (0, A) et indépendants. i=ν Alors X = i=1 zi .zi.T est distribuée selon une Wishart Wk (X|A, ν). Par anticipation sur le chapitre sur la simulation classique, nous mentionnons que ce résultat, qui permet de représenter une matrice de Wishart comme une combinaison non linéaire multidimensionnelle de variables normales indépendantes est utilisé pour la simulation d’échantillons de Wishart (voir le chapitre 8). Notons que pour simuler une matrice de Wishart il faut νk simulations normales N1 (0, 1). Dans tous les cas de figures, les méthodes de simulation d’une Wishart seront assez lourdes et coûteuses en temps de calcul surtout si on les insère dans une chaîne MCMC plus exigeante en tailles d’échantillonnage comme on le verra plus loin.

Annexe B

345

Introduction des lois de Student multidimensionnelles et Hotelling Ces lois sont les extensions très naturelles des distributions de Student bien connues dans les cas de variables réelles. Soit X ∝ Wk (X|A, ν) et la distribution conditionnelle pour X fixé d’un vecteur u est Nk (m, X−1 ). Quelle est la distribution marginale du vecteur u (k-dimensionnel) ? Pour répondre à cette question, nous allons expliciter les calculs matriciels. En effet, soit la loi conjointe :

[u, X] ∝ |X|

(ν−k−1)/2

1 1 1/2 exp(− tr[XA−1 ])×|X| exp(− tr[X(u−m)(u−m)T ] 2 2

Pour obtenir la distribution marginale du vecteur u, on doit intégrer cette conjointe par rapport à X. On commence par regrouper les termes avant d’intégrer par rapport à X, soit : 



1 exp(− tr[X[A−1 +(u − m)(u − m)T ]dX 2 (B.5) Selon une identité classique sur les formes quadratiques, on a :

[u] =

[u, X]dX ∝

|X|

(ν−k)/2

    B = A−1 +(u − m)(u − m)T  = [1 + (μ − mx )T A(μ − mx )] A−1  si bien que :  [u] ∝

|X|

(ν−k)/2

1 exp(− tr[XB])dX 2

(B.6)

On reconnaît l’intégration qui fournit la constante d’une distribution de Wishart, d’où : [u] ∝ la notation



1 (B.7) [1 + (u − m)T A(u − m)](ν+1)/2+1 signifie égal à une constante multiplicative près

Cette équation définit la densité de Student k-dimensionnelle tk (m, A, ν) à ν degrés de liberté et d’espérance mathématique m. La distribution de Hotelling Considérons la forme quadratique : T 2 = (u−m)T A(u−m). Par un résultat classique sur les formes quadratiques, il existe une matrice k × k non singulière P telle que P (A)P T = I (matrice unité).

346

Le raisonnement bayésien

Faisons le changement de variable : u − m = P z, et comme P est constant, on a : [z] ∝ ∝

1 − m)](ν−k+1)/2+1 1 1 = [1 + z T z](ν−k+1)/2+1 [1 + T 2 ](νx −k+1)/2+1 [1 + (μ −

m)T A(μ

où z T z = T 2 . Prenons comme nouvelles variables T 2 et les k−1 premiers w1 , w2 , ..., wk−1 , wk tels que zi = T wi (pour 1 ≤ i ≤ k) ; alors on peut écrire : [T 2 , w1 , w2 , ..., wk−1 ] ∝

(T 2 )(k−1)/2 g(w) [1 + T 2 ](νx −k+1)/2+1

Mais le domaine des w ne dépend pas de T 2 puisque la seule condition imposée aux w est wt w = 1. Donc en intégrant par rapport aux w, on a la distribution marginale de T 2 : [T 2 ] ∝

(T 2 )(k−1)/2 [1 + T 2 ](νx −k+1)/2+1

(B.8)

C’est la distribution marginale dite du T 2 de Hotelling. Par simple changement de variable on aboutit à : Théorème B.1 La distribution marginale de F = ν−k+1 T 2 est celle de Fisher k Snedecor à k et ν − k + 1 degrés de liberté. On retrouve le carré d’un Student unidimensionnel classique pour k = 1.

Quelques propriétés de la distribution de Dirichlet Relations entre distributions de Dirichlet et gamma Soient k variables Zi indépendantes et distribuées selon des gamma gampdf (ai , 1), Zi (paramètre d’échelle unité et de forme ai ), alors les k variables xi =  i=k Z i=1

i

sont distribuées conjointement selon la Dirichlet D(a, k). On observe que S =  i=k ai , 1) indépendante des xi . i=1 Zi est distribuée selon une gamma gampdf ( Cette propriété s’étend à un paramètre d’échelle quelconque mais unique pour tous les Z. Si donc réciproquement un vecteur x est Dirichlet D(a, k) et S une gamma gampdf (a, 1) indépendante des x alors les Zi = xi .S sont marginalement des gamma gampdf (ai , 1) indépendantes. Cette propriété s’étend à un paramètre d’échelle quelconque mais unique pour tous les Z.

Annexe B

347

Relations entre distributions de Dirichlet et bêta Considérons les coordonnées xi d’une Dirichlet D(a, k) dans un ordre fixé, alors : – x1 est distribuée selon une bêta(a1 , a − a1 ) conditionnellement à x1 fixée, – x2 est distribuée selon une variable (1 − x1 )×bêta(a2 , a − a1 − a2 ) – et plus généralement conditionnellement à x1 , x2 , . . . xj , fixées   ,xj+1 est distribuée selon une variable (1 − i≤j xi )×bêta(aj+1 , a − i≤j ai )

Annexe C au chapitre 11

Aide mémoire de définitions utiles

La liste suivante comporte deux sortes de définitions : celles de nature descriptive de l’apparence des trajectoires (temps d’arrêts,...) et celles de nature structurelle caractérisant les propriétés probabilistes du modèle. À cet égard, tous nos exemples sont de bons exemples de chaînes dont les réalisations permettent d’obtenir des estimations convergentes en probabilité par des fréquences calculées sur leur trajectoire c’est-à-dire : ce sont toutes des chaînes irréductibles constituées d’états tous récurrents.

Période T (θ) = plus petit commun diviseur des m tel que P (m) (θ, θ) > 0.

État θ

in-

Chaîne positive

Distribution variante

périodique

π invariant + chaîne irréductible = chaîne positive

k(θ, θ )π(θ)dθ

si L(θ, A) > 0∀θ et A de mesure ϕ > 0

Irréductibilité

Θ

ηA =nombre de transitions par A sur une suite infinie et U (θ, A) = Eθ (ηA )

Nombre de passages par A



Premier instant r où le processus pénètre dans A, L est la probabilité que τA reste fini ηA est le nombre total de passsages par A sur le domaine total du temps U est la valeur moyenne de ce nombre Tous les états communiquent entre eux avec probabilité non nulle

τω = inf(r ≥ 1, θr ∈ A) et L(θ, A) = [τA < ∞]

Temps d’arrêt relatif à A

π(θ ) =

Densité en θ à r + 1 sachant θ à r

k(θ, θ ) = [θ |θr = θ ]

Noyau

Le retour en θ n’est possible qu’après un délai égal à un multiple de T La densité ne change pas à r+1 si on lui applique la transition par le noyau Une chaîne est positive si tous les états communiquent et si elle possède une distribution invariante

CONTENU VERBAL Distributions conditionnelles invariantes par translation

ÉNONCÉ MATHÉMATIQUE [θr1 , . . . θrk |θr0 ] ≡ [θr1 −τ , , . . θrk −τ |θr0 −τ ], ∀k, τ

DÉFINITION Homogénéité

Les chaînes normales et à deux états sont positives ainsi que les chaînes MCMC en général

Les chaînes normales et à deux états sont irréductibles ainsi que les chaînes Metropolis-Hastings et Gibbs Une chaîne de gestion de stock peut inclure des états périodiques

Voir l’exemple et la figure 11.7

EXEMPLE la chaîne à deux états est homogène mais la chaîne des fréquences ne l’est pas Noyau normal : k(θr−1 , θr ) = −1 √1 − exp[ 2σ 2 (θr 2πσ 2 ρθr−1 ) ]

Annexe C 349

E(ηA ) = U (θ, A) = +∞

irréductible et si U (θ, A) = ∞

État récurrent

Chaîne rente

Chaîne récurrente au sens de Harris Chaîne ergodique

 Π(n) (θ, A) = t∈A π(t)dt = Π∗ (A), ∀θ à l’époque initiale si n assez grand

[θ ∈ A|θ] = ... = [ηA = ∞|θ] = 1 ∀θ ∈ A

Le nombre de retours en A ne peut être que fini en moyenne Le nombre de retours en A ne peut être qu’infini en moyenne Nb. de retours moyen en A est infini quel que soit A mesurable ∈Θ La prob. d’atteindre A et la prob. d’un nb. infini de retours en ω égalent 1 Toute chaîne ergodique oublie le passé pour autant que le nombre de transitions intermédiaires soit grand. La fréquence de visites de chaque A de θ est la même pour toute trajectoire réalisée par la chaîne.

E(ηA ) = U (θ, A) < +∞

État transient

récur-

CONTENU VERBAL p(θ, θ )est la partie continue du noyau de transition

ÉNONCÉ MATHÉMATIQUE π(θ) × p(θ, θ ) = π(θ ) × p(θ , θ)

DÉFINITION Réversibilité

Les chaînes normales, discrètes à deux états, apériodiques à k états (stocks), normales (ρ < 1), MCMC, sont ergodiques

EXEMPLE Les chaînes de Metropolis Hastings sont réversibles. Les chaînes de Gibbs le sont quand θ est bidimensionnel

350 Le raisonnement bayésien

Bibliographie Amzal, B., Bois, F., Parent, E., Robert, C.P. 2006. Bayesian Optimal Design Via Interacting Particle Systems. J. Am. Stat. Ass., 101(474), 773–785. Anderson, T.W. 1984. An Introduction to Multivariate Analysis. NY : Wiley. André, H., Audinet M. Mazeran G. Richer C. 1976. Hydrométrie pratique des cours d’eau. Paris : Eyrolles. Andrieu, C., Doucet, A., Robert, C.P. 2004. Computational Advances for and from Bayesian Analysis. Stat. Sci., 19(1), 118–127. Antoniak, C. 1974. Mixture of Dirichlet Processes with Applications to Bayesian Non Parametric Problems. Ann. Stat., 2. Arnolds, B.C., Castillo, E., Sarabia, J.M. 1999. Conditional Specification of Statistical Models. New York : Springer Verlag. Banerjee, S., Carlin, B. P., Gelfand, A.E. 2004. Hierarchical Modeling and Analysis of Spatial Data. Monographs on Statistics and Applied Probability. Chapman et Hall/CRC. Bardossy, A., Duckstein, L. 1994. Fuzzy Rule-Based Modeling in Geophysical, Biological and Engineering Systems. Boca Raton Florida : CRC Press. Bayes, T. 1763. Essay Towards Solving a Problem in the Doctrine of Chances. Phil. Trans. Roy. Soc. Lond., 53 et 54, 370–418 and 296–325. Réimprimé dans Biometrika, vol. 45, pp. 293-315, 1958. Berger, J. O. 1985. Statistical Decision Theory and Bayesian Analysis. New York : Springer-Verlag. Berger, J. O., Insua, D. Rios. 1998. Recent developments in Bayesian inference with applications in hydrology. Pages 43–62 of : Parent, E., Hubert, P., Bobée, B., Miquel, J. (eds), Bayesian Methods in Hydrological Sciences. UNESCO Publishing. Bernardo, J. M., Smith, A. F. M. 1994. Bayesian theory. 1 edn. London : Wiley. Bernier, J. 1998. Risque et décisions en gestion de l’eau Essai d’analyse de la rationalité du dialogue entre hydrologue et gestionnaire. Revue des Sciences de l’Eau, 11, 3–24.

352

Le raisonnement bayésien

Bernier, J. 2003. Décisions et comportement des décideurs face au risque hydrologique. J. Sci. Hydrol., 48(3), 301–316. Bernier, J., Parent, E., Boreux, J-J. 2000. Statistique de l’Environnement. Traitement Bayésien de l’Incertitude. Paris : Lavoisier. Bernoulli, D. 1738. Exposition of a New Theory of Measurement of Risk, Traduit du latin par L. Sommer (1954). Econometrica, 22. traduit du latin par L. Sommer. Besag, J. 1974. Spatial Interactions and the Statistical Analysis of Lattice Systems. JRSS B, 148, 1–36. Blackwell, D., Mac Queen, J. B. 1973. Scheme. Ann. Stat., 1, 353–355.

Ferguson Distributions Via Polya

Box, G. E. P., Tiao, G. T. 1973. Bayesian Inference in Statistical Analysis. Reading : Addison-Wesley. Box, G.E.P. 1980. Sampling and Bayes Inference in Scientific Modelling and Robustness (with Discussion). J. Roy. Statist. Soc. A, 143, 383–430. Brooks, S.P. 2003. Bayesian Computation : A Statistical Revolution. Trans. Roy. Statist. Soc., series A, 15, 2681–2697. Brooks, S.P., Gelman, A. 1998. General Methods for Monitoring Convergence of Iterative Simulations. J. Comput. Graph. Statist., 7(4), 434–455. Cappé, O., Guillin, A., Marin, J.M., Robert, C.P. 2004. Population Monte Carlo. J. Comput. Graph. Stat., à paraître. Carlin, B.P., Louis, A.T. 1997. Bayes and Empirical Bayes Methods for Data Analysis. Stat. Comp., 7, 153 – 154. Carlin, B.P., Gelfand, A.E., Smith, A.F.M. 1992. Hierarchical Bayesian Analysis of Change Point Problems. Applied Stat., 41, 389–405. Carpenter, J., Clifford, P., Fearnhead, P. 1999. An improved particle filter for non-linear problems. IEE proceedings - Radar, Sonar and Navigation, 146, 2–7. Casella, G., George, E. 1992. Explaining the Gibbs Sampler. Am. Stat., 46, 167–174. Celeux, G.and Marin, J.M., Robert, C.P. 2003. Iterated Importance Sampling in Missing Data Problems. Cahiers du Ceremade, 0326. Coles, S. 2001. An Introduction to Statistical Modelling of Extremes Values. Londres : Springer-Verlag. Coles, S. G ., Powell, E. A. 1996. Bayesian Methods in Extreme Value Modelling. Intern. Stat. Rev., 64(1), 119–136. Congdon, P. 2001. Bayesian Statistical Modelling. John Wiley. Cowell, R.G., Dawid, A.P., Spiegelhalter, S.L. Lauritzenand D.J. 1999. Probabilistic Network and Expert Systems. Springer-Verlag.

Bibliographie

353

Cowles, M.K., Carlin, B.P. 1996. Markov Chain Monte Carlo Convergence Diagnostics : A Comparative Review. J. Am. Stat. Ass., 91, 883–904. Cramer, H. 1946. Mathematical Models of Statistics. Princeton, N.J. : Princeton University Press. Cressie, N.A.C. 1993. Statistics for Spatial Data. revised edn. Wiley Series in Probability and Mathematical Statistics. John Wiley. Cristianini, N., Shawe-Taylor, J. 2000. An introduction to support vector machines (and other kernel-based learning methods). Cambridge UK : Cambridge University Press. Davison, A. C., Smith, R. L. 1990. Models for Exceedances over High Tresholds. J. Roy. Stat.Soc., 52(3), 393–442. Dawid, A. P., Stone, M., Zidek, J. V. 1973. Marginalization Paradoxes in Bayesian and Structural Inference (with Discussion. J.Roy. Stat. Soc., 35, 189–233. de Finetti, B. 1937. La prévision : ses lois logiques, ses sources subjectives. Paris : Institut Henri Poincaré. DeGroot, M.H. 1970. Optimal Statistical Decisions. New York : MCGraw-Hill. Dempster, A., Laird, N., Rubin, D. 1978. Maximum Likelihood from Incomplete Data Via the EM Algorithm. J. Roy. Stat. Soc., 40, 1–22. Devroye, L. 1985. Non Uniform Random Variate Generation. New-York : Springer Verlag. Dixon, P. 1996. Special Issue on Bayesian Inference. Ecological Applications, 6(4), 1034–1123. Doucet, A., de Freitas, N., Gordon, N. 2001. Sequential Monte Carlo Methods in Practice. New York : Springer Verlag. Droesbeke, J.-J., Fine, J., Saporta, G. (eds). 2002. Méthodes bayésiennes en statistique. Paris : Editions Technip, for Société Française de Statistique. Durban, J.W., Elston, D.A., Lambin, X., Thompson, P.M. 2000. A Role for Bayesian Inference in Cetacean Population Assessment. J. Cetacean Res. Manag., 2(2), 117–123. Efron, B. 2004. But What Do Statisticians Do ? Amstat News, April, 1–3. Efron, B., Tibshirani, R.J. 1984. An Introduction to the Bootstrap. London) : Chapman and Hall. Fahmy, T. 1997. Modélisation de la qualité bacteriologique de l’eau potable et optimisation des procédures de contrôle. Ph.D. thesis, ENGREF (France). Fahmy, T., Parent, E., Gatel, D. 2001. Controlling Three Levels of Uncertainties for Ecological Risk Models. Cambdridge University Press. Chap. 3, pages 76–85. Favre, A.C., El Adlouni, S, Perreault, L., Thiémonge, N.and Bobée, B. 2004. Multivariate hydrological frequency analysis using copulas. Water Resources Res., 40, W01101.

354

Le raisonnement bayésien

Feller, W. 1968. An Introduction to Probability Theory and Its Applications. 3rd edn. Vol. 1. New-York : Wiley. Ferguson, T. 1967. Mathematical Statistics, a Decision Theoretic Approach. Academic Press. Ferguson, T. 1973. A Bayesian Analysis of Some Nonparametric Problems. Ann. Stat., 1. Fisher, G.H., Molenaar, I.W. 1995. Rasch Models, Foundations, Recent Developpements and Applications. New-York, NY : Springer-Verlag. Fortin, V., Bernier, J., Bobée, B. 1997. Simulation, Bayes, and Bootstrap in Statistical Hydrology. Water Resources Res., 33, 439–448. Fourgeaud, C., Fuchs, A. 1967. Statistique. Paris : Dunod. Gamerman, D. 1997. Markov Chain Monte Carlo : Stochastic Simulation for Bayesian Inference. Boca raton, FL : Chapman and Hall/CRC Press. Gelfand, A.E., Smith, A.F.M. 1990. Sampling Based Approach to Calculating Marginal Densities. J. Am. Stat. Ass., 85, 398–409. Gelfand, A.E., Smith, A.F.M. 1992. Bayesian Statistics Without Tears : A Sampling-Resampling Perspective. Am. Stat., 46, 84–88. Gelman, A., Meng, X. L. 1982. Simulating normalizing constants : from importance sampling to bridge sampling to path sampling. Stat. Sci., 13, 163–185. Gelman, A., Rubin, D. B. 1992. Inference from Iterative Simulation Using Multiple Sequences. Stat. Sci., 7, 457–72. Gelman, A., Carlin, J. B., Stern, H. S., Rubin, D. B. 1995. Bayesian Data Analysis. London) : Chapman and Hall. Geman, S., Geman, D. 1984. Stochastic relaxation, Gibbs distributions and the Bayesian restoration of image. IEEE Trans. Pattern Anal. Mach. Intell., 6, 721–741. Genest, C., Rivest, L. 1993. Statistical Inference Procedure for Bivariate Archimedian Copulas. JASA, 1034–1043. Gentleman, R. 1997. A Review of BUGS : Bayesian Inferences Using Gibbs Sampling. Chance, 10(2), 48–51. Gilks, W. R., Thomas, A., Spiegelhalter, D. J. 1994. A Language and Program for Complex Bayesian Modelling. The Statistician, 43, 169–78. Gilks, W.R., Richardson, S., Spiegelhalter, D. 1996. Markov Chain Monte Carlo in Practice. London : Chapman and Hall. Goldstein, H. 1995. Multilevel Statistical Models. 2nd edn. Kendall’s Library of Statistics. London : Arnold. Gordon, N., Salmond, J., Smith, A.F.M. 1993. A Novel Approach to NonLinear/Non-Gaussian Bayesian State Estimation. IEEE Proc. Radar Signal Processing, 140, 107–113.

Bibliographie

355

Green, P.J. 1994. Reversible jump MCMC computation and bayesian model determination. Tech. rept. University of Bristol. Hastings, W.K. 1970. Monte Carlo Sampling Methods Using Markov Chains and their Applications. Biometrika, 57, 97–109. Haykin, Simon. 1998. Neural Networks : A Comprehensive Foundation (2 nd Edition). London : Prentice Hall. Hyfran. 2000. Hydrological Frequency Analysis Software Package. Tech. rept. INRS Eau, Univ. Québec, Chaire d hydrologie statistique. available at http ://www.inrs-eau.uquebec.ca/activites/groupes/chaire-hydrol. Iba, Y. 2000. Population-based Monte Carlo algorithms. Trans. Japanese Soc. Artificial Intell., 16(2), 279–286. Jaynes, E T. 1968. Prior Probabilities. IEEE Trans. Systems Sci. Cybernetics, vol. sec 4.( 3. Jaynes, E.T. 1998. Probability Theory : The Logic of Science. Cambridge University Press. Jeffreys, H. 1939. Theory of Probability. Oxford : Oxford University Press. Johnson, V.E., Albert, J.H. 1999. Ordinal Data Modeling. New-York, NY : Springer-Verlag. Jordan, M.I. 1999. Learning in Graphical Models. MIT Press. Kadane, J.B., Wolson, L.J., O’Hagan, A., Craig, K. 1998. Papers on Elicitation with Discussions. The Statistician, 3–53. Kaiser, M.S., Cressie, N. 2000. The Construction of Multivariate Distributions from Markov Random Fields. J. Multivariate Anal., 73, 199–220. Karlin, S. 1966. A First Course in Stochastic Processes. New York : Academic Press Inc. Kass, R.E., Raftery, A.E. 1994. Bayes factors. J. Am. Stat. Ass., 90, 773–795. Kaufman, A. 1973. Introduction à la théorie des sous-ensembles flous. Masson. Kibble, W.F. 1946. A Two-Variate Gamma Type Distribution. Sankhya, 5, 137–150. Kotz, S., Balakrishnan, N., Johnson, N.L. 2000. Continuous Multivariate Distributions. 2nd edn. Vol. 1. New York : Wiley. Kuczera, G., Parent, E. 1998. Monte Carlo Assessment of Parameter Uncertainty in Conceptual Catchment Models : The Metropolis Algorithm. J. Hydrology, 211(1), 69–85. Kullback, S. 1959. Information Theory and Statistics. Wiley. Kullback, S., Leibler, R. A. 1951. On Information and Sufficiency. Ann. Math. Stat., 22, 79–86. Laplace, P. S. 1847. Théorie analytique des probabilités : Tomes 1 et 2. Paris : Réedités en 1995 par J Gabay.

356

Le raisonnement bayésien

Lecoutre, B. 1997. C’est bon à savoir ! Et si vous étiez un bayésien qui s’ignore. Modulad, 18, 81–87. Lehman, E.L. 1983. Theory of Point Estimation. New-York : Wiley. Lejeune, Michel. 2004. Statistique. La théorie et ses applications. Paris : Springer Verlag France. Lindley, D.V. 1965. Introduction to Probability and Statistics from a Bayesian Viewpoint. Cambridge University Press. Link, W.A, Cam, E., Nichols, J.D., Cooch, E.G. 2002. Of BUGS and Birds : Markov Chain Monte Carlo for Hierarchical Modeling in Wildlife Research. J. Wildl. Manage., 66(2), 277–291. Lo, A. 1984. On a Class of Bayesian Nonparametric Estimates : Density Estimates. Ann. Stat., 12. Loève, M. 1962. Probability Theory. Princeton : D. Van Nostrand. Mäntyniemi, S ;, Romakkaniemi, A. 2002. Bayesian Mark-Capture Estimation with an Application to a Salmonid Smolt Population. Can. J. Fish. Aquat. Sci., 59, 1748–1758. Mengersen, K.L., Robert, C.P., Guihennec-Jouyaux, C. 1999. MCMC Convergence Diagnostics : A Reviewww (with Discussion). Pages 415–440 of : Bernardo, J.M., Berger, J.O., Dawid, A.P., Smith, A.F.M. (eds), Bayesian Stat. Oxford University Press. Metropolis, N., Rosenbluth, A.W., Rosenbluth, M.N., Teller, A.H, Teller, E. 1953. Equations of State Calculations by Fast Computing Machines. J. Chem. Phys., 21, 1087–1091. Meyer, R., Millar, R.B. 1999. BUGS in Bayesian Stock Assessments. Can. J. Fish. Aquat. Sci., 56, 1078–1086. Miquel, Jacques. 1984. Guide pratique d’estimation des probabilités de crues. Paris : Eyrolles. Montfort, A. 1988. Cours de calcul des probabilités. Paris : Economica. Müller, P. 1999. Simulation-based Optimal Design. Bayesian Statistics, 6, 459–474. Munier, B., Parent, E. 1998. Le développement récent des sciences de la décision : Un regard critique sur la statistique décisionnelle bayésienne. In : Parent, E., Hubert, P., Bobée, B., Miquel, J. (eds), Bayesian Methods in Hydrol. Sci. UNESCO Publishing. Munier, B., Rousseau, J-M. 1995. La rationalité face au risque. Revue d’économie politique. Naïm, P., Wuillemin, P., Leray, P., Pourret, O., Becker, A. 2004. Réseaux bayésiens. Paris : Eyrolles. Nelsen, R.B. 1998. An Introduction to Copulas. Lecture Notes in Statistics. Wiley.

Bibliographie

357

Neumann, J. Von, Morgenstein, O. 1953. Theory of Games and Economic Behaviour. New Jersey, USA : Princeton University Press. Parent, E., Bernier, J. 2001. Méthodes bayésiennes et modélisation des risques géophysiques extrêmes. La Revue de Modulad, 28, 1–26. Parent, E., Bernier, J. 2003. Bayesian POT Modeling for Historical Data. J. Hydrol., 274, 95–108. Perreault, L., Bobée, B., Rasmussen, P. 1997. Les Lois de Halphen. Rapport de Recherche 498. INRS-ETE, Québec, canada. Peskun, P. 1973. Optimum Monte Carlo Sampling Using Markov Chains. Biometrika, 60. Press, S. J., Tanur, J.M. 2001. The Subjectivity of Scientists and the Bayesian Approach. John Wiley. Proschan, F. 1963. Theoretical Explanation of Observed Decreasing Failure Rate. Technometrics, 5, 375–383. Raiffa, H., Schlaifer, R. 1961. Applied Statistical Decision Theory. Harvard : Harvard University Press. Revuz, D. 1984. Markov Chains. Amsterdam : North Holland. Ripley, B.D. 1987. Stochastic Simulation. New-York : Wiley. Rivot, E. 2003. Investigations bayésiennes de la dynamique des populations de Saumon Atlantique (Salmo Salar L.) : des observations de terrain à la construction de modèles pour apprendre et gérer. Ph.D. thesis, ENSAR (France). Robert, C. P. 1992. L’analyse statistique bayésienne. Paris : Economica. Robert, C. P. 1996. Méthodes de Monte Carlo par Chaînes de Markov. Paris : Economica. Robert, C. P. 2006. Le choix bayésien : Principes et pratique. Paris : Springer Verlag France. Robert, C.P., Casella, G. 1998. Monte Carlo Statistical Methods. SpringerVerlag. Roberts, G.O. 1996. Markov Chain Concepts related to sampling algorithms. London : Chapman and Hall. Pages 45–58. Roberts, G.O., Smith, A.F.M. 1993. Simple Conditions for the Convergence of the Gibbs Sampler and the Metropolis-Hastings Algorithms. Stochastic processes and their applications, 49, 207–216. Rubin, D. B. 1981. The Bayesian Bootstrap. Ann. Stat., 9, 130–134. Rubin, D.B. 1988. Using the SIR Algorithm to Simulate Posterior Distributions (with Discussion). Pages 395–402 of : Bernardo, J.M., DeGroot, M.H., Lindley, D.V., Smith, A.F.M. (eds), Bayesian Statistics. New-York : Oxford University Press.

Rubinstein, R.Y. 1981. Simulation and the Monte Carlo Methods. New York : Wiley. Saporta, G. 1990. Probabilités, analyse des données et statistique. Paris : Editions TECHNIP. Savage, L. J. 1954. The Foundations of Statistics. New York : Dover Publications. Scheffé, H. 1959. The Analysis of Variance. New-York : John Wiley. Sethuraman, J., Tiwari, R.C. 1982. Convergence of Dirichlet Measures and the Interpretation of their Parameter. New-York : Springer-Verlag. Pages 305–315. Sivia, D.S. 1996. Data Analysis : A Bayesian Tutorial. Oxford : Clarendon Press. Smeeton, N.C., Adcock, C.J. 1997. Sample Size Determination. The Statistician, 46(2). Spiegelhalter, D.J., Thomas, A., Best, N.G. 1996. Computation on Bayesian Graphical Models (Avec Discussion). Pages 407–425 of : Bernardo, J.M., Berger, J.O., Dawid, A.P., Smith, A.F.M. (eds), Bayesian Statistics. Clarendon Press. Spiegelhalter, D.J., Thomas, A., Best, N.G. 2000. WinBUGS Version 1.3. User Manual. MRC Biostatistics Unit. Tanner, M. H. 1992. Tools for Statistical Inference : Observed Data and Data Augmentation Methods. New York : Springer-Verlag. Tanner, M.A., Wong, W. H. 1987. The calculation of posterior distributions by data augmentation. J. Am. Stat. Ass., 82, 528–550. Tiao, G.C., Zellner, A. 1964. On the Bayesian Estimation of Multivariate Regression. J. Roy. Stat. Soc., 26(2), 277–285. Tierney, L. 1996. Introduction to general state-space Markov Chain Theoryr. London : Chapman and Hall. Pages 59–74. Torre, F., Boreux, J.-J., Parent, E. 2001. .The Metropolis-Hastings Algorithm, a Handy Tool for the Practice of Environmental Model Estimation : Illustration with Biochemical Oxygen Demand Data. Cybergéo, 34. disponible sur http ://www.cybergeo.presse.fr/. Tribus, M. 1972. Décisions rationnelles dans l’incertain. Paris edn. Masson. Ulmo, J., Bernier, J. 1973. Eléments de Décision Statistique. PUF. Vapnik, Vladimir. 1999. The Nature of Statistical Learning Theory. New York : Springer Verlag. Wald, A. 1950. Statistical Decision Functions. Wiley. West, M., Harrison, P. J. 1989. Bayesian Forecasting and Dynamic Models. New York : Springer Verlag. Ycart, Bernard. 2002. Modèles et algorithmes markoviens. Paris : Springer Verlag France.

Index a posteriori caractéristique, 126 densité a posteriori, 127, 135 distribution a posteriori, 44, 126 loi a posteriori, 127 posterior, 171 a priori connaissances, 30 distribution a priori, 22, 31 prior non informatif, 39, 133 acceptation-rejet, 186, 187, 247 accident, 57 aléa naturel, 41 algorithme MCMC, 283 à sauts réversibles, 319 acceptation rejet, 247 algorithme EM, 180 algorithmes enchaînés, 310 bootstrap bayesien, 167 bootstrap Polya, 170 Gibbs, 266 génération des données du lotofoot, 29 Metropolis-Hastings, 249 particulaire, 313 particules pour optimisation, 320 ré-échantillonnage, 196 sampling importance resampling, 195 simulation par inversion, 189 simulation pour loi de Dirichlet, 39 analyse

extensive ou a posteriori, 11, 54 normale ou prédictive, 12, 54 anamorphose, 120, 189 appauvrissement de l’échantillon, 308 asymptotique comportement, 17 technique, 128 théorèmes, 75 autorégressif approximation par, 301 aversion au risque, 69 barème de Kass et Raftery, 72 Bayes, 133 bayesien(ne), 125, 126, 294 formule de Bayes, 42, 64, 87, 155, 188, 271, 274, 295 Bessel fonction de, 101 biais estimateur sans, 70 bootstrap bayesien, 166, 167 capture/marquage/recapture, 281 chaîne de Markov Harris-récurrente, 350 positive, 349 récurrente, 350 chaîne de Markov, 205, 206, 214 apériodique, 229 équation de Chapman-Kolmogorov, 217 Harris-récurrente, 232, 234 homogéne, 214 irréductible, 224 positive, 229 positive récurrente, 224, 232 récurrente, 224, 229, 231 changement de variables, 344 choix de modèles, 71 coliformes, 9, 83 condition de réversibilité, 241 conjugaison Beta-binomiale, 43 gamma-normale, 45

360

Le raisonnement bayésien

gamma-Poisson, 47 multimodale, 306 conséquences, 53 normale a posteriori, 155 contrôle de la phase ergodique, 303 propre, 151 contrôle de la qualité, 4, 94 données manquantes, 105 convergence, 300 atteinte du régime stationnaire, 235, échangéabilité, 95, 116 échantillonnage pondéré, 125, 191, 306 236 distribution instrumentale, 193 convergence géométrique, 239 et MCMC, 312 ergodique, 233 séquentiel, 300 rapidité de convergence, 239 variance, 300 convolution, 79 échantillonneur de Gibbs, 283 coût écologie et Bayes, 17 fonction de, 53 élicitation, 31, 34, 67, 202, 334 crochets, 50 notation pour loi de probabilité, entropie, 83 maximale sous contraintes, 87 20 enveloppe adaptative, 255 crue ergodique centennale, 64 limite ergodique invariante, 205, de projet, 8, 63 206 de Finetti, 125, 133 phase, 129 décision, 3, 54 estimateur décision séquentielle, 12 admissible, 70 dépendance, 129 bayésien, 71 dialogue modélisateur-praticien, 73, 119 classique, 70 digue, 6, 61 convergent, 195 surélèvation, 66 de comptage, 289 distribution du max de vraisemblance, 180 a posteriori par échantillonnage pondéré, 194 voisinage du mode, 173 état, 206, 214 a priori non informatives , 151 état périodique, 349 conditionnelle, 343 état initial, 206 fonction de répartition , 189 état de la nature, voir paramètre, 23, conditionnelle complète, 46, 127, 74 284 exemple 1 : comment s’habiller le maconjointe, 41, 127 tin, 3 conjointe instrumentale, 286 choix du prior, 31 conjuguées naturelles, 128, 133, 134, collecte d’information, 11 136 décision, 6 ergodique invariante, 245 modèle, 23 instrumentale, 186, 249, 285 prior par introspection, 34 invariante, 222, 349 règle de décision, 13 localement uniforme, 151 variabilité, 20 marginale, 343 exemple 2 : surveillance de la qualité distributions mélangées, 137, 317 bactériologique, 4, 100, 110,

Index 139 asymptotique, 49 collecte d’informations, 11 décision, 8 informations, 9 loi a posteriori, 83 modèle, 23 prior par introspection, 34 règle de décision, 13 variabilité d’échantillonnage, 20 exemple 3 : les saumons en Bretagne et la pisciculture, 5, 142, 145 choix du prior, 31 collecte d’informations, 11 conclusions, 340 décisions, 8 informations, 8, 9 modèle, 24 posterior, 45 règle de décision, 14 variabilité d’échantillonnage, 20 exemple 4 : le loto sportif, 5, 100 choix du prior, 37 collecte d’informations, 11 décisions, 8 inférence, 165, 202 informations, 10 modèle multinomial, 26 prior échangeable, 118 règle de décision, 14 variabilité d’échantillonnage, 20 exemple 5 : construire une digue sur la Garonne, 6 collecte d’informations, 11 décisions, 8 étude décisionnelle, 61 informations, 10 modèle POT, 29 posterior, 47 prior par approximation, 36 règle de décision, 15 stochasticité, 20 exemple 6 : précipitations tunisiennes au barrage de Ghézala , 100 inférence, 275

361

exemple 7 : apports de la rivière Péribonka, 107, 279 exemple 8 : fiabilité d’air conditionné pour avions, 113, 297 exemple 9 : production énergétique globale du Québec, 147 bootstrap bayésien, 167 modèle multinormal, 161 exemple 10 : apports énergétiques du Québec données manquantes, 163 inférence, 277 exemple 11 : chutes de neige, 176, 197, 304 exemple 12 : courbe de jaugeage, 289 expérience, 3 expertise, 30 famille exponentielle, 16, 52, 87, 121, 128, 136, 155 vraisemblance, 136 filtrage index temporel, 315 flèche, 270 fonction indicatrice, 126 forme exponentielle, 140 Garonne, 6 Ghezala, 100 Gibbs, 129 graphe orienté acyclique ou DAG, 97, 99 Gumbel, 175 homogénéité, 349 hyperparamètre, 32, 134, 136 test d’hypothèse, 8 hypothèse d’homogénéité, 24 importance sampling, voir échantillonnage pondéré incertitude par essence, 41 par ignorance, 41 indépendance, 128 indépendance conditionnelle, 94

362

Le raisonnement bayésien

inégalité de Jensen, 289 inférence, 140, 155 information résumée, 15 information ou observable, 3, 8, 21 ingénierie, 57 intégration par échantillonnage, 190, 198, 235, 300 intervalle de crédibilité, 69 irréductibilité, 225, 230, 349 Jeffreys, 133 Laplace, 133 latente élimination des variables, 104 lissage de Rao-Blackwell, 291 log-vraisemblance, 173 logiciels, 294 loi de probabilité Bernoulli, 24 Beta, 35 binomiale, 24, 57, 133 binomiale négative, 82, 140 des dépassements POT , 78 des fuites, 101 Dirichlet, 52, 153, 346 discrète, 23 exponentielle, 30, 88, 113 gamma, 33, 88, 113 gamma inverse, 143 Generalized Extreme Values GEV, 77 Gumbel, 176 Halphen, 90 Hotelling, 160, 345 multidimensionnelle, 153 multinomiale, 26 multinormale, 153, 155, 158, 343 normale, 24, 32, 76, 89, 96, 107 comportement limite, 49 variable normale, 185 Pareto généralisée, 79 Poisson, 29, 76 Student, 80, 144

Student centrée, 331 Student décentrée, 147, 331 Student multivariable, 160, 345 uniforme, 183 Wishart, 157, 343 loi de probabilité famille de, 21 loi des grands nombres, 156 loi instrumentale voir distribution instrumentale, 246 loi marginale, 127 a posteriori, 253 densié marginale, 127 loto sportif, 5 marche aléatoire, 255 marginalisation, 275 MATLAB, 129 matrice stochastique, 207 médiane, 148 mélange, 79, 102 méthode asymptotique, 171 méthode d’inversion ou inverse sampling, 183 méthode de Gibbs, 263 algorithme, 265 conditionnelle complète, 270 échantillonnage de Gibbs, 263, 265 ergodique, 265 modélisation structure conditionnelle, 268 méthode de Metropolis-Hastings, 283 algorithme, 249 algorithme MH, 246 convergence, 255 réversibilité, 250 méthode des particules, 204 méthode hybride, 284 méthodes MCMC, 125, 129, 133 Metropolis - Hastings, 129 modèle modèle autorégressif, 211 construction de, 73 d’urne, 23 de Rasch, 52

Index dynamique, 108 dynamique linéaire, 169 hiérarchique, 111 climatiseurs d’avions, 115 marche au hasard, 211 martingale, 212 modèle Beta-Binomial, 153 modèle multinomial Dirichlet, 153 modèle Multinormal-Wishart, 159 multinormal-Wishart, 157 Multinomial-Dirichlet, 164 POT (Peaks over threshold), 29 renouvellement-dépassement, 62 statistique d’occurrence, 22 modèle d’expertise, 20 modèle dynamique modèle dynamique linéaire DLM, 316 modèle linéaire, 280 modèle statistique, 20 modélisation graphique DAG, 270, voir graphe oriente acyclique modes a posteriori, 171, 180 nœud, 270 parents, fils et coparents, 271 nombre au hasard, 181 nombre de passages, 226 non informatif gamma, 64 normal, 133 distribution gaussienne, 128 noyau, 349 noyau de transition, 205, 215 observable (voir information), 100 opportunity loss, voir regret optimisation, 320 paramètre, 21 de décentrement, 147 de précision, 138, 143 k-dimensionnel, 175 nœud sans parents, 100 naturel, 136

363

parcimonie du modèle du loto-foot, 26 particules, 125, 306 pénalisation linéaire, 56 quadratique, 56 période de retour, 62, 64 persistance, 207 pisciculture, 5 plan d’expérience, 68 pollution, 4, 57 Polya, 141 polynomes d’Hermite, de Laguerre, 121 prédiction, 141 prévisions météorologiques, 11, 20 prior, 115 informatif, 200 négligeable, 173 propre, 134 reference priors, 91 probabilité d’acceptation, 250 de transition, 206 règle des probabilités conditionnelles, 187 probabilité objective, 22 Processus de Poisson marqué, 104 propriété ergodique, 234 quantile, 56, 108 décennal, 148 normal, 146 R, 129 réversibilité, 350 Raifa et Schlaifer, 133 raisonnement conditionnel, 15, 97, 105, 118, 122, 125, 274, 275, 325 densité conditionnelle, 127 Rao-Blackwell, 288 Rao-blackwellisation, 288 rapport de Bayes, 71 ré-échantillonnage, 306

364

Le raisonnement bayésien

sampling importance resampling ou (SIR), 195 sampling importance resampling ou SIR, 195 recuit simulé, 320 règle de décision, 13, 59, 65 régression linéaire normale, 332 regret, 54 moyen a posteriori, 55 relation a priori –>a posteriori, 137 relation Dirichlet-Beta, 347 relation Wishart-Normale, 344 renouvellement, 226 réplicats, 251 risques pratique réglementaire, 69 prise en compte réglementaire, 59 saumons, 5 Savage, 125, 133 sensibilité étude de, 54 simulation Monte Carlo, 128, 205 indépendance, 181 statistique bayésienne, 16 classique, 16, 115 exhaustive, 88, 135 suite au hasard, 181 symétrie, 95 taille optimale d’échantillon, 68 temps d’arrêt, 349 de premier passage, 225 de retour, 227 théorème de Gibbs, 266 de Koopman-Darmois, 135 de la limite centrale, 76, 179 de normalité, 129 de récurrente positive, 233 de Rao-Blackwell, 288 de représentation (de Finetti), 95 du max de vraisemblance, 180

du renouvellement, 230 ergodicité, 233 Fisher Snedecor, 160 normale asymptotique pour convergence geometrique, 239 Student multivarié, 160 tirage inversion de la fonction de répartition, 291 tirage de Bernoulli, 249 trajectoire de simulation, 258 transition MCMC, 308 utilité fonction d’, 55, 67 variable latente, 100, 103, 117, 274 variables supplémentaires, 273 variance asymptotique, 177 d’échantillonnage, 192 vraisemblance, 24, 50, 134, 153 gamma, 139 moyenne a priori, 71 normale, 138 WinBUGS, 121, 129, 296

Achevé d’imprimer sur les presses de l’Imprimerie BARNÉOUD B.P. 44 - 53960 BONCHAMP-LÈS-LAVAL Dépôt légal : juillet 2007 - N° d’imprimeur : 705063 Imprimé en France