Analyse Des Donnees [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Analyse des données discrètes Fadoua BADAOUI

22 octobre 2017

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

1 / 142

Overview 1

Introduction et rappel

2

Tableau de fréquences univariées et loi multinomiale La loi multinomiale Test d'hypothéses dans une table à une entrée

3

Tableaux de fréquences à deux variables Tests d'association entre deux variables nominales

4

Tableaux de fréquences à trois variables Type et test d'indépendances entre 3 variables

5

Modèles log-linéaires Modèles à 2 variables Modèle à trois variables Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

2 / 142

Chap 1 :Introduction et rappel

Ce cours présente des méthodes statistiques usuelles pour l'analyse de données discrètes. Des données peuvent résulter, par exemple : d'un sondage d'opinion pour des consommateurs (ex. : niveau de satisfaction pour un service reçu) ; d'une étude dans le domaine de la santé cherchant à cerner les facteurs d'une maladie (ex. : variable réponse prenant la valeur `oui' pour les sujets malades, `non' sinon) ; etc.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

3 / 142

Introduction et rappel Plusieurs outils statistiques s'orent à nous pour analyser des données discrètes. Ce cours visent à présenter les méthodes classiques et celles les plus utilisées en pratique. Ce cours a pour objectif de cerner la bonne méthode statistique à utiliser, de l'appliquer correctement en comprenant les idées mathématiques de base derrière les méthodes et de bien interpréter les résultats obtenus. Les détails de certains calculs faits à la main pour de petits jeux de données sont présentés, pour s'assurer de bien comprendre les formules. En pratique, l'ordinateur fait pour nous tous ces calculs.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

4 / 142

Introduction et rappel Avant d'entrer dans le vif du sujet, rappelons certaines notions de statistiques souvent employées dans ce cours. Données : Des données sont des valeurs numériques (des nombres)

ou alphanumériques (des chaînes de caractères) représentant les observations de certaines variables sur certains individus. Population : La population est l'ensemble de référence sur lequel

porte l'étude dans le cadre de laquelle les données ont été recueillies. Individu ou unité statistique : Un individu est un élément de la

population. L'ensemble des individus constitue la population. Chaque observation est associée à un individu. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

5 / 142

Introduction et rappel Échantillon : L'échantillon est un sous-groupe de la population,

composé des individus pour lesquels des observations ont été recueillies. Si des mesures ont été prises pour tous les individus de la population, on parle de recensement. Variable : Le terme variable désigne la représentation d'une

caractéristique des individus. Ainsi, une variable n'est pas la caractéristique elle-même, mais plutôt une mesure de cette caractéristique. Observation : Une observation est l'ensemble des valeurs obtenues en

mesurant des variables sur un individu de la population. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

6 / 142

Échantillonnage

Lorsque l'on estime des paramètres de la population à l'étude à partir des observations d'un échantillon aléatoire de cette population, on fait de l' inférence statistique . Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

7 / 142

Dénition Une variable discrète ne peut prendre qu'un nombre ni de valeurs, ou bien une innité de valeurs si ces valeurs peuvent s'écrire sous la forme d'une suite

a1 , a2 , a3 , . . ..

Ainsi une variable dont les valeurs sont 0, 1/5, 2/5, 3/5, 4/5, 1 est discrète ; il en est de même d'une variable pouvant prendre comme valeurs tous les entiers non négatifs 0, 1, 2, 3, . . .. Le résultat du lancer d'un dé est une variable discrète (valeurs 1, 2, 3, 4, 5, 6). Le nombre de personnes frappées par la méningite dans une grande ville sur une période d'une année (valeurs 0, 1, 2, 3, . . .). Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

8 / 142

Remarque

Les données numériques ne sont pas forcément des observations d'une variable numérique. C'est le cas par exemple du niveau de satisfaction représenté par un nombre de 1 à 5, ou le chire 1 représente la catégorie  très insatisfait ,  insatisfait  est représenté par le chire 2 et ainsi de suite. Il n'est pas rare que des codes numériques soient utilisés pour représenter des modalités catégoriques de variables, car ils sont plus rapides à écrire ou taper que des chaînes de caractère.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

9 / 142

Expérience avec la loi Poisson La loi de Poisson permet de modéliser le nombre de réalisations d'un événement dans un intervalle de temps et/ou d'espace. Par exemple, la loi Poisson serait une bonne candidate pour modéliser les dénombrements suivants : le nombre de clients se présentant à un guichet automatique d'une banque en une heure ; le nombre d'accidents par années à une intersection de la ville de Québec ; le nombre de centenaires dans une communauté. On appelle parfois la loi Poisson  loi des évènements rares . Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

10 / 142

Expérience avec la loi Poisson La fonction de masse, aussi appelée fonction de probabilité, d'une variable aléatoire Poisson, notée

Y ∼ Poisson(λ),

P(Y = y ) =

λy exp −λ y!

est

y = 0, 1, 2, . . .

Le paramètre de la distribution est à la fois l'espérance et la variance de

Y

:

E [Y ] = Var [Y ] = λ. Aussi, il est pertinent de noter que la distribution Poisson peut être approximée par la loi normale lorsque

λ

est grand. Dans ce cas,

Poisson(λ) ∼ N(λ; λ). Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

11 / 142

Expérience avec la loi Binomiale Le contexte de la loi binomiale est le suivant : On fait une expérience qui peut prendre 2 résultats possibles : succès ou échec. On répète cette expérience de façon indépendante

n

fois, et on note

S

le

nombre de succès obtenus. Notez que chaque expérience a la même probabilité de succès On dit alors que d'essais) et

π

S

suit une loi binomiale de paramètres

n

π.

(nombre total

(probabilité d'un succès).

On note

Fadoua BADAOUI (INSEA)

S ∼ Bin(n, π).

Analyse des données discrètes

22 octobre 2017

12 / 142

Expérience avec la loi Binomiale

En résumé, les conditions pour qu'il y ait une expérience binomiale sont les suivantes :

n

essais ;

deux résultats possibles pour chaque essai : succès et échec ; toujours la même probabilité de succès indépendance entre chacun des

Fadoua BADAOUI (INSEA)

n



essais ;

Analyse des données discrètes

22 octobre 2017

13 / 142

Expérience avec la loi Binomiale Exemple : opinion sur l'avortement

Les Américains sont-ils plutôt favorables ou défavorables à l'avortement ? Pour répondre à cette question, on observe un échantillon de 1223 Américains interrogés en 2010 dans le cadre de l'Enquête Sociale Générale aux États-Unis. On a posé la question suivante aux participants : Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui ne veut plus d'enfants de se faire avorter légalement ? Au total, 587 personnes ont répondu oui à cette question, et 636 personnes ont répondu non.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

14 / 142

Expérience avec la loi Binomiale Exemple : opinion sur l'avortement ... suite

Ici, les 4 conditions d'une expérience avec la loi binomiale sont respectées : n = 1223 essais "individus sondés" ; 2 résultats possibles pour chaque essai : succès = oui, échec = non ; la probabilité de succès

π

est ici la proportion dans la population des

Américains favorables à l'avortement ; on peut supposer qu'il y a indépendance entre chacun des essais puisque les individus participants à l'étude ont été sélectionnés avec un plan de sondage se rapprochant beaucoup de l'échantillonnage aléatoire simple. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

15 / 142

Expérience avec la loi Binomiale La fonction de masse de la loi binomiale s'écrit de la façon suivante :

P(S = s) =

  Cns π s (1 − π)n−s ,

pour

 0,

sinon

L'espérance et la variance de

S

s = 1, 2, . . . , n; .

sont :

E [S] = nπ Var [S] = nπ(1 − π)

Remarque:

observer une seule variable

variables 11 ; . . . ; 1n iid

S=

Pn

Bin(1; π),

u=1 1u , une somme de

Fadoua BADAOUI (INSEA)

n

:

Bin(n; π)

revient à observer

n

soit la loi Bernoulli(π). On a alors

variables iid

Bin(1; π).

Analyse des données discrètes

22 octobre 2017

16 / 142

Expérience avec la loi Binomiale

Notez aussi que si

np(1 − p) ≤ 10,

n → +∞(n > 30), π → 0 (p ≤ 0, 1)

alors la loi

Bin(n; π)

tels que

tend vers la loi Poisson (nπ

= λ).

En d'autres mots,

n

lim P(S = s) = → +∞, π → 0

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

λs exp −λ s!

22 octobre 2017

17 / 142

Expérience avec la loi Binomiale

Notez que l'on peut approximer la loi binomiale par la loi normale lorsque

n

est grand en utilisant le résultat du Théorème Limite Central. Dans la pratique, lorsque

n ≥ 30, np ≥ 5

et

n(1 − p) ≥ 5,

l'erreur sur les

probabilités calculées est très faible.

asympt

S −−−−→ N(nπ; nπ(1 − π))

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

18 / 142

Méthode du maximum de vraisemblance Etant donné un échantillon issu d'une loi dont la pdf est

f (x, θ),

on appelle

fonction de vraisemblance la quantité

L(x1 , . . . , xn , θ) =

Qn

i=1

f (xi ; θ).

An de bien comprendre la motivation derrière la MMV, considérons un échantillon

X1 , . . . , Xn

f (x; θ) = Pθ {X1 = x}

issu d'une loi de probabilité discrète de fdf où

θ

est un paramètre inconnu. L'idée qui est à

l'origine de cette méthode est la suivante : Si l'on observe

(x1 , . . . , xn )

c'est que la

Pθ {(X1 , . . . , Xn ) = (x1 , . . . , xn )}

doit être assez grande. On prend alors comme estimateur de

θ

celui qui

maximise cette probabilité. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

19 / 142

Méthode du maximum de vraisemblance Exemple

Soit

θ ∈]0, 1[

la probabilité de succès d'une expérience à deux issues

possibles. On répète cette expérience échantillon

x =0

x1 , . . . , xn .

On a

ou 1. L'estimateur

rapport à

θ,

n

fois de manière à obtenir un

f (x; θ) = P{X1 = x} = θx (1 − θ)1−x ,

θb de θ

avec

par la MMV est obtenu en maximisant, par

la quantité

L(x , θ) = P{(X1 , . . . , Xn ) = (x1 , . . . , xn )} =

n Y

θxi (1 − θ)1−xi

i=1

(1)

= θnx (1 − θ)n(1−x) où

x = (x1 , . . . , xn ).

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

20 / 142

Exemple (suite)

En dérivant

L(x , θ)

par rapport à

θ

on obtient

L0 (x , θ) =

dL(x , θ) = nxθnx−1 (1 − θ)n(1−x) − n(1 − x)θnx (1 − θ)n(1−x)−1 . dθ

En posant

L0 (x , θ) = 0

on obtient

θnx (1 − θ)n(1−x) et puisque 0

< θ < 1,

 nx n(1 − x)  − = 0, θ 1−θ

on en déduit

nx n(1 − x) − = 0, θ 1−θ ce qui donne

θ = x.

Fadoua BADAOUI (INSEA)

L'estimateur de

θ

par la MMV est alors

Analyse des données discrètes

θb = X .

22 octobre 2017

21 / 142

Tests d'hypothèses Dénition Soit

θ∈Θ

un paramètre d'une loi de probabilité et

Θ0

Θ0 ∪ Θ1 = Θ.

et

Θ1

deux

sous-ensembles disjoints de

Θ

H0 : θ ∈ Θ0

sont appelées respectivement l'hypothèse

et

H1 : θ ∈ Θ1

tels que

Les assertions

nulle et l'hypothèse alternative.

Un test d'hypothèse ou test statistique est une démarche conduisant à élaborer une règle de décision permettant de faire un choix entre les deux hypothèses statistiques

Fadoua BADAOUI (INSEA)

H0

et

H1 .

Analyse des données discrètes

22 octobre 2017

22 / 142

introduction La situation générale est celle où l'échantillon est issu d'une population dont la loi dépend d'un paramètre conclure que

θ ∈ Θ0

ou

θ ∈ Θ1 ,

θ ∈ Θ ⊂ Rd , d ∈ N,



Θ0 ⊂ Θ

et

et on cherche à

Θ1 ⊂ Θ

sont

complémentaires.

Dénition Les hypothèses  H0

: θ ∈ Θ0 

et  H1

sous-ensembles complémentaires de

: θ ∈ Θ1 ,

Θ,



Θ0

et

Θ1

sont deux

s'appellent respectivement

l'hypothèses nulle et l'hypothèses alternative. Lorsque

Θi

est réduit à un seul élément, on dit que

simple, sinon

Hi

est une hypothèse composite (pour

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

Hi

est une hypothèse

i = 0, 1). 22 octobre 2017

23 / 142

Caractéristiques des tests d'hypothèses On utilise parfois les adjectifs suivants pour décrire les tests d'hypothèses : bilatéral ou unilatéral : Si l'hypothèse alternative

H1

comporte une

direction particulière, le test est dit  unilatéral. Si au contraire l'hypothèse alternative est le complément de l'hypothèse nulle, on qualie le test de  bilatéral . exact ou asymptotique : Si la distribution sous

H0

de

W,

la statistique

du test, est vraie peu importe la taille de l'échantillon, le test peut être qualié d' exact . À l'inverse, si la distribution sous

H0

de

W

utilisée

pour le test est vraie seulement lorsque la taille de l'échantillon est grande, on parlera d'un test  asymptotique . Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

24 / 142

Caractéristiques des tests d'hypothèses paramétrique ou non paramétrique : Un test est  paramétrique  si la

distribution de la statistique de test repose sur un postulat quant à la distribution des observations. Sinon, il est  non paramétrique . Dans ce cas, on doit typiquement seulement postuler l'indépendance des observations. Un test non paramétrique nécessite moins de postulats qu'un test paramétrique, ce qui représente un avantage. Cependant, les tests non paramétriques sont moins puissants que les tests paramétriques. Pour cette raison, les tests paramétriques sont souvent préférés. Cependant, pour de petits échantillons, ce sont les tests non paramétriques qui sont préférés. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

25 / 142

Types de tests d'hypothèses

Voici quatre types de tests d'hypothèses usuels. Ces types sont dénis en fonction de l'objectif des tests. Les tests de conformité Les tests d'adéquation ou d'ajustement Les tests d'homogénéité Les tests d'association.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

26 / 142

Types de tests d'hypothèses Les tests de conformité consistent à tester si un paramètre ou un vecteur de paramètres

θ

est égal à un vecteur de valeurs préétablies

exemple, si un seul paramètre

θ

θ0 .

Par

est testé, les hypothèses d'un test de

conformité sont formulées comme suit :

Si

θ

est de dimension supérieure à 1, il est compliqué de formuler une

hypothèse alternative incluant une direction. Dans ce cas, les tests bilatéraux sont plus simples.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

27 / 142

Types de tests d'hypothèses Les tests d'adéquation ou d'ajustement (en anglais goodness of t tests) permettent de tester si des observations s'ajustent bien à un certain modèle ou à une certaine distribution. Par exemple, le test F global en régression et en ANOVA teste l'ajustement du modèle, le test de Shapiro-Wilk teste l'adéquation d'observations à une loi normale. Les hypothèses d'un test d'adéquation sont typiquement formulées comme suit :

H0 H1

: le modèle s'ajuste bien aux données

: le modèle ne s'ajuste pas bien aux données

Ainsi formulé, il s'agit d'un test bilatéral. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

28 / 142

Types de tests d'hypothèses

Les tests d'homogénéité (ou de comparaison) visent à vérier si 2 échantillons ou plus proviennent d'une même population. Les tests de comparaison de moyennes en sont des exemples. Si un seul paramètre est comparé et qu'on a seulement deux échantillons, les hypothèses sont formulées ainsi :

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

29 / 142

Types de tests d'hypothèses Les tests d'association, en particulier les tests d'indépendance, servent à tester la présence d'un lien entre deux variables. Rappelons que le terme association est plus large que le terme dépendance. Un test d'association courant consiste à vérier si un coecient de corrélation ou encore un ou des paramètres d'un modèle sont nuls. Si on note

ρ

la corrélation entre

X

et

Y

, les hypothèses du test peuvent être

formulées de façon équivalente comme suit :

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

30 / 142

introduction

Dénition On appelle erreur de première espèce ou rejeter

H0

erreur de type 1 la décision de

alors qu'elle est vraie. La décision de

alors qu'elle est fausse s'appelle l'appelle

ne pas rejeter

H0

erreur de deuxième espèce ou

erreur de type 2.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

31 / 142

introduction

Le tableau ci-dessous résume la situation

H0 Rejeter

H0

Accepter

H0

Fadoua BADAOUI (INSEA)

vraie

H0

fausse

Mauvaise décision

Bonne décision

Bonne décision

Mauvaise décision

Analyse des données discrètes

22 octobre 2017

32 / 142

introduction Dénition Les probabilités des erreurs de première et deuxième espèce sont notées

• α = P{Rejeter H0 |H0

est vraie}

• β = P{Ne

H0 |H0

pas rejeter

> 0,

et

est fausse}

> 0.

Elles s'appellent respectivement risque de première espèce et risque de deuxième espèce.

La décision idéale est celle où ces deux risques seraient nuls, i.e.

α = β = 0.

Mais cela est, sauf dans des situations triviales, impossible.

Comme il est impossible de contrôler en même temps on cherche la décision pour laquelle Fadoua BADAOUI (INSEA)

β

α

et

β,

on xe

α

et

est minimum.

Analyse des données discrètes

22 octobre 2017

33 / 142

Dénition Un test d'hypothèses est une procédure, basée sur l'échantillon observé

x1 , . . . , xn ,

qui permet de déterminer un sous ensemble R de

Rn

tel que

Si

(x1 , . . . , xn ) ∈ R

alors on décide de rejeter

H0

et d'accepter

H1 ,

Si

(x1 , . . . , xn ) ∈ /R

alors on décide de rejeter

H1

et d'accepter

H0 .

et

L'ensemble R est appelé  région critique  ou  région de rejet  .

La fonction

φ(x) = IR (x),

dénie à partir de la région critique d'un test,

s'appelle la fonction test. Par abus de langage on notera par

φ

le test et sa

fonction test.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

34 / 142

Puissance de test Il est usuel de noter : Le risque de première espèce la valeur alors qu'elle est vraie) telle que :

H1

est vraie) telle que :

(la probabilité de rejeter

H0

P(X ∈ R|H0 )

Le risque de deuxième espèce la valeur alors que

α

β

(la probabilité d'accepter

H0

P(X ∈ R|H1 )

Dénition On appelle puissance d'un test la probabilité de rejeter

H0

eectivement fausse soit, dans les notations précédentes :

alors qu'elle est

P(X ∈ R|H1 )

.

La puissance, qui est la capacité à détecter qu'une hypothèse nulle est fausse, n'est rien d'autre que 1 Fadoua BADAOUI (INSEA)

− β.

Analyse des données discrètes

22 octobre 2017

35 / 142

Tests d'hypothèses

Remarque : La statistique du test

α = P{Rejeter H0 |H0

est vraie}

>0

est

la même que celle utilisée pour l'intervalle de conance. En général pour les lois discrètes il est dicile de trouver les valeurs critiques sur les tables des lois d'où le fait d'utiliser l'approximation normale dans les enquêtes dont la taille de l'échantillon est assez grande.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

36 / 142

Tests asymptotiques usuels

Soit

θ

un paramètre scalaire. On cherche à mener le test suivant sur ce

paramètre :

Nous utilisons fréquemment dans ce cours trois types de test asymptotiques usuels. Il s'agit des tests de Wald, score et du rapport de vraisemblance.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

37 / 142

Test du rapport de vraisemblance Pour le test du rapport de vraisemblance, nous allons nous ramener à un cas plus général où

θ

est un vecteur de paramètres. On cherche à tester :

H0 : θ ∈ Θ0

vs

H1 : θ ∈ Θc0

avec

(Θc0 = Θ Θ0 )

Notez que ce test possède uniquement une forme bilatérale. Le rapport de vraisemblance est déni comme suit :

Λ= Si

θb,

le MV de

θ

existe, et que

θb0

supθ∈Θ0 L(θ|x) supθ∈Θ L(θ|x) représente le MV sous l'espace

Θ0 ,

alors

le rapport de vraisemblance peut s'écrire plus simplement :

Λ= Fadoua BADAOUI (INSEA)

L(θb0 |x) b L(θ|x)

Analyse des données discrètes

22 octobre 2017

38 / 142

Test du rapport de vraisemblance Pour eectuer un test de rapport de vraisemblance, on utilise la statistique suivante :

LR = −2 ln(Λ) = −2 ln( L(θb0 |x) ) b

L(θ|x)

Sous

H0 ,

lorsque

n → ∞,

cette statistique suit une loi du khi-deux à

d

degrés de liberté (Casella et Berger, 2002) :

asympt

LR −−−−→ χ2d Le nombre de degrés de liberté d est dénie par : On rejette

H0

au seuil

Fadoua BADAOUI (INSEA)

α

ssi

d = dim Θ − dim Θ0 .

LR > χ2d Analyse des données discrètes

22 octobre 2017

39 / 142

Exemple : opinion sur l'avortement. Les Américains sont-ils plutôt favorables ou défavorables à l'avortement ? Pour répondre à cette question, on observe un échantillon de 1223 Américains interrogés. On a posé la question suivante aux participants : Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui ne veut plus d'enfants de se faire avorter légalement ? Au total, 587 personnes ont répondu oui à cette question, et 636 personnes ont répondu non. Pour déterminer si les Américains manifestent majoritairement une préférence pour ou contre l'avortement, nous pouvons tester contre

H0 : π = 0.5

H1 : π 6= 0.5.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

40 / 142

Exemple : opinion sur l'avortement. Nous avons

Bin(n, π).

s,

une observation de la variable aléatoire

La vraisemblance du paramètre

π

S,

qui suit une loi

est :

L(π|s) = Cns π s (1 − π)n−s La statistique du test de rapport de vraisemblance est : 0 |S) LR = −2 ln( L(π L(b π |S) )



π b

est l'estimateur du maximum de vraisemblance de

π.

Ainsi :

C s π s (1−π )n−s

0 LR = −2 ln( Cns πb0s (1−bπ0)n−s ) = −2(s ln( ππb0 ) + (n − s) ln( 11−π −b π ))

n

Sous

H0 ,

lorsque

degré de liberté :

n → ∞,

cette statistique suit une loi du khi-deux à 1

asympt

LR −−−−→ χ21

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

41 / 142

Exemple : opinion sur l'avortement. La valeur observée de

S

est ici

favorables à l'avortement

π

s = 587.

La proportion d'Américains

est donc estimée par

π b = 587/1223 = 0.48.

Eectuons maintenant le test du maximum de vraisemblance pour illustrer son fonctionnement. La valeur observée de la statistique de test est

5 0.5 ) + (1223 − 587) ln( 11−−00..48 ) = 1.9637 lr = −2(587 ln( 048 Le seuil observé du test (p-value) est

P(χ21 > 1.963730811) = 0.1611149 Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

42 / 142

Test de Wald

H 0 : θ = θ0

contre

H1 : θ 6= θ0

Le test de Wald compare l'écart entre le coecient théorique

θ0

valeur estimée par l'estimateur du maximum de vraisemblance

θb,

et sa sous

l'hypothèse que la diérence est distribuée approximativement selon une loi de Gauss. En pratique le carré de la diérence est comparé à un seuil de la loi du chi2. Dans le cas univarié, la statistique de Wald est

b 0 )2 (θ−θ b var (θ)

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

43 / 142

Test de Wald Si on compare la diérence à un quantile de la loi de Gauss, la statistique de test est

b 0 θ−θ b Se(θ) où

b Se(θ)

est l'écart-type de l'estimateur du maximum de vraisemblance.

Un estimateur raisonnable de cet écart-type est donné par



1 In (MLE )

, où In

est l'information de Fisher du paramètre. Dans le cas univarié, un test sur plusieurs paramètres simultanément est réalisé en utilisant une matrice de variance. Par exemple, on utilise ce test pour une variable catégorielle recodée en plusieurs variables dichotomiques. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

44 / 142

Exemple (Suite) : opinion sur l'avortement. Test de Wald sur une proportion Le test de Wald se base sur la statistique suivante :

Zw =

b−π0 qπ

π b(1−π b) n

asympt

−−−−→ N(0; 1)

On voit que la variance de l'estimateur est estimée dans

Zw .

La valeur observée de la statistique du test de Wald est :

zw = On a

q 0.48−0.5

0.48(1−0.48) 1223

= −1.459625.

(1.459625)2 < χ21,0.05 = 3.84.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

45 / 142

Exemple (Suite) : opinion sur l'avortement.

Le seuil observé du test bilatéral est le suivant :

2P(N(0, 1)

> | − 1.459625|) = 0.1443932.

Ce seuil observé étant supérieur au seuil théorique de 5%, on ne peut pas rejeter l'hypothèse selon laquelle les Américains sont divisés sur la question de l'avortement.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

46 / 142

Test score Les tests score (en anglais score tests), aussi appelés  tests du multiplicateur de Lagrange , sont dus au statisticien C.R. Rao. Ils se basent sur la statistique de test suivante :

asympt

S(θ0 ) √ −−−−→ N(0, 1) I (θ0 )



S(θ) =

I (θ0 )

∂ ∂θ

ln L(θ|x)

est la fonction score calculée au point

est la matrice d'information espérée (ici de dimension 1

au point

θ = θ0 .

θ = θ0 × 1)

et

calculée

Ce test comporte moins d'approximation que le test de

Wald puisque l'erreur-type se trouvant au dénominateur n'est pas estimée.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

47 / 142

Exemple (Suite) : opinion sur l'avortement. on a

∂ ln L(π|x) ∂π ∂ (ln(Cns ) + ln(π s ) + ln((1 − π)n−s ) = ∂π s n−s = − π 1−π s − nπ n(b π − π) = = avec π b = ns π(1 − π) π(1 − π)

S(π) =

(2)

Donc

S(π0 ) √ = I (π0 )

n(π b−π0 )

√π0 (1−π0 )

π0 (1−π0 ) n

asympt

−−−−→ N(0, 1)

ou encore

(S(π0 ))2 I (π0 ) Fadoua BADAOUI (INSEA)

=

n(b π −π0 )2 asympt π0 (1−π0 ) −−−−→

Analyse des données discrètes

χ21 22 octobre 2017

48 / 142

Exemple (Suite) : opinion sur l'avortement. La valeur observée de la statistique de test pour le test score est :

zw =

q0.48−0.5

0.5(1−0.5) 1223

= −1.401144.

Le seuil observé du test bilatéral est le suivant : 2P(N(0, 1)

> | − 1.459625|) = 0.1443932.

Le seuil observé du test unilatéral est le suivant :

P(N(0; 1) < −1.401144) = 0.08058547 > 5% On ne peut donc pas conclure que les Américains sont, en 2010, majoritairement contre l'avortement. On voit ici que le test unilatéral est plus puissant que le test bilatéral. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

49 / 142

Remarques :

Les seuils observés dièrent un peu entre les tests score et de Wald, mais l'inférence statistique est la même. Le test du rapport de vraisemblance aboutit à la même conclusion que le test score. Les seuils observés pour les 2 tests bilatéraux sont pratiquement égaux.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

50 / 142

Chap 2 :Tables de contingence.

Pour représenter les observations d'une variable catégorique, le principal outil est un tableau de fréquences, aussi appelé tableau de contingence. Ce tableau peut présenter une seule variable ou en croiser plusieurs. Ce cours présente plusieurs tests et mesures associés à des tableaux de fréquences à une, deux ou trois variables.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

51 / 142

À quoi servent ces outils statistiques ? Les outils statistiques présentés dans ce cours permettent de répondre à une question de recherche du type : Quel est le lien entre les caractéristiques A et B des individus de la population à l'étude ? Par exemple : Quel est le lien entre la couleur des cheveux et la couleur des yeux ? Est-ce que le niveau de scolarité est associé à la classe de revenu d'un individu ? Si oui, cette association est-elle positive ou négative ? Est-ce que le sexe d'une personne a une inuence sur son risque de développer un cancer du poumon ? Si oui, de quelle façon ? En termes statistiques, la question de recherche se traduit comme ceci : Quel est le lien entre les variables X et Y ? en supposant que X représente la caractéristique A et Y la caractéristique B. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

52 / 142

Tableau de fréquences univariées et loi multinomiale

Avant de présenter des méthodes qui permettent d'étudier le lien entre deux variables, voyons comment étudier une seule variable catégorique. Dans cette section, nous présenterons des outils permettant de répondre à la question de recherche suivante : Quel est le portrait de la caractéristique A dans la population à l'étude ? La reformulation statistique de cette question est la suivante : De quoi ont l'air les observations de la variable Y ? en supposant que la variable Y représente la caractéristique A.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

53 / 142

La loi multinomiale Le contexte de la loi multinomiale est le suivant. On fait une expérience qui peut prendre

r

résultats possibles

(m1Y , . . . , mrY ).

expérience de façon indépendante résultats

mjY

obtenus

n

(j = 1, . . . , r ).

l'échantillon découlant de ces

n

On répète cette

fois, et on note

Nj

le nombre de

En fait, on pourrait noter

expériences (souvent

n

Y1

à

Yn

individus sondés).

Valeur de Y

m1

Y

...

mj

Y

...

mr

Y

Fréquence

N1

...

Nj

...

Nr

On vient ainsi de créer un tableau de fréquences à une variable. Les fréquences sont ici représentées par des Fadoua BADAOUI (INSEA)

Nj .

Analyse des données discrètes

22 octobre 2017

54 / 142

La loi multinomiale Une réalisation des variables aléatoires notée

(N1 , . . . , Nr )

sera dans cette section

(n1 , . . . , nr ).

Pour chaque expérience,

πj

mjY : πj = P(Y = mjY ).

Ce contexte est similaire à celui pour une

représente la probabilité d'obtenir le résultat

distribution binomiale, à la diérence que le nombre d'issues possibles à l'expérience peut être supérieur à 2. On dit que le vecteur

N = (N1 , . . . , Nr ) d'essais) et

suit une loi multinomiale de paramètres

(π1 , . . . , πr )

n

(nombre total

(probabilités des résultats de chacun des types).

On a bien sûr les 2 contraintes suivantes :

N1 + . . . + Nr = n Fadoua BADAOUI (INSEA)

et

π1 + . . . + πr = 1

Analyse des données discrètes

22 octobre 2017

55 / 142

La loi multinomiale En raison de la première contrainte, les

Nj

ne sont pas des variables

indépendantes. On note

N ∼ Multinomiale(n; π1 , . . . , πr ). De façon marginale, on a

Nj ∼ Bin(n, πj ) pour

j = 1, . . . , r .

avec le vecteur

Notez que lorsque

N = (N1 , N2 )

r = 2,

il devient inutile de travailler

étant donné que la valeur d'une variable peut

être déduite de l'autre variable

(N1 = n − N2 ).

On dénit plutôt une des

deux modalités comme étant un succès (disons la modalité 1) et on travaille avec

N1 ∼ Bin(n; π1 ).

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

56 / 142

La loi multinomiale La fonction de masse de la loi multinomiale s'écrit de la façon suivante :

P(N1 = n1 , . . . , Nr = nr ) = pour

n1 n! n1 !,...,nr ! π1

(N1 , . . . , Nr ) ∈ Nr : n1 + . . . + nr = n,

naturels (entiers non négatifs) de dimension vaut

n.

. . . πrnr

soit l'ensemble des nombres

r,

tel que la somme des

L'espérance et la matrice de variance-covariance de

E [Nj ] = nπj

pour

Var [Nj ] = nπj (1 − πj ) 0

sont :

j = 1, . . . , r pour

Cov (Nj ; Nj ) = −nπj πj 0 Fadoua BADAOUI (INSEA)

N

nj

j = 1, . . . , r

pour

Analyse des données discrètes

j 6= j

0

22 octobre 2017

57 / 142

La loi multinomiale On veut répartir

Pr

i=1 ni

n

objets dans

r

groupes

E1 , . . . , Er ,

avec

card(Ei ) = ni

et

= n.

Question : Quel est le nombre de répartitions possibles ? Etape 1 : Catégorie

E1 ;

choix de

n1

parmi

n (Cnn1 )

Etape 2 : Catégorie

E2 ;

choix de

n2

parmi

n2 n − n1 (Cn−n ) 1

. . . Etape r : Catégorie

Er ;

choix de

nr

parmi

n − n1 − n2 − . . . − nr −1 (Cnnrr )

Le nombre de répartition possibles

n2 Cnn1 Cn−n . . . Cnnrr = 1 Fadoua BADAOUI (INSEA)

n! n1 !n2 !...nr !

Analyse des données discrètes

22 octobre 2017

58 / 142

La loi multinomiale

Cas particulier: r = 2,



n = n1 + n2

et

π1 + π2 = 1 n! π n1 π n2 n1 !n2 ! 1 2 n! = π n1 (1 − π1 )n−n1 n1 !(n − n1 )! 1

P(N1 = n1 , N2 = n2 ) =

N1 ∼ Bin(n1 ; π1 ).

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

59 / 142

La loi multinomiale

300 personnes ont été choisi au hasard. On a la répartition suivante selon la couleur des yeux. Ei

Bleus

Verts

Maron

Noirs

Ni

48

35

122

95

N = (N1 , N2 , N3 , N4 ) ∼ Multinomiale(300; π1 , π2 , π3 , π4 ). P(N1 = n1 , N2 = n2 , N3 = n3 , N4 = n4 ) =

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

n1 n2 n3 s4 n! n1 !n2 !n3 !n4 ! π1 π2 π3 π4

22 octobre 2017

60 / 142

Regroupement

Exemple : reprenons l'exemple de la couleur des yeux.

E1∗ = E1 ∪ E2

(yeux clair) ;



clairs

Foncés



83

217

Ei

Nj





(N1 , N2 )

Fadoua BADAOUI (INSEA)

E2∗ = E3 ∪ E4

(yeux foncés)

∼ M(300; π1∗ , π2∗ )

Analyse des données discrètes

22 octobre 2017

61 / 142

Regroupement Cas général : Soient avec

E1 , . . . , E r

et

E1∗ , . . . , Es∗

s ≤ r , Ej∗ = ∪i∈Ij Ei

deux systèmes complets de catégories.

et I1 , . . . , Is est une répartition de 1, . . . , r .

On a bien sûr les 2 contraintes suivantes :

P πj∗ = P(X ∈ Ij∗ ) = i∈Ij πi P Nj∗ = i∈Ij Ni (N1∗ , . . . , Ns∗ ) ∼ M(n; π1∗ , . . . , π2∗ )

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

62 / 142

Relation de la loi multinomiale avec la loi de poisson

Thèorème :

Soient

N1 , N2 , . . . , Nr ,

de Poisson

r variables aléatoires discrétes indépendantes de loi

Ni ∼ P(mi ), N =

Pr

i=1 Ni , alors la distribution de

(N1 , N2 , . . . , Nr /N = n) ∼ M(n, π1 , π2 , . . . , πr )

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

avec

πi =

Prmi

i=1

mi

22 octobre 2017

63 / 142

Démonstration : P(Ni = ni ) = N ∼ P(m) Notons

et

m=

(mi )ni exp(−ni ) avec ni !

N=

Pr

i=1 Ni ,

Pr

i=1 mi

A = (N1 = n1 , . . . , Nr = nr )

et

B = (N = n),

on a

A⊂B

Calculons

P(N1 = n1 , . . . , Nr = nr , N = n) P(N = n) P(N1 = n1 , . . . , Nr = nr ) = P(N = n) Qr mini exp(−mi ) Qr P(N = n ) i=1 i i ni ! = i=1 = mn exp(−m) P(N = n)

P(N1 = n1 , . . . , Nr = nr /N = n) =

n!

r Y mi n! = [ ( )ni ] Qr m i=1 ni ! i=1

r

=

Y mi n! ( )ni ∼ M(n, π1 , . . . , πr ) n1 ! . . . nr ! m i=1

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

64 / 142

Test d'hypothèses sur la valeur de π = (π1 , . . . , πr )

On cherche à tester ici les hypothèses suivantes.

H0 : π = π0

ou

(π1 , . . . , πr ) = (π0,1 , . . . , π0,r )

H1 : π 6= π0

ou

(π1 , . . . , πr ) 6= (π0,1 , . . . , π0,r )

Il s'agit d'un test bilatéral multivarié. Nous allons tester ces hypothèses avec un test de rapport de vraisemblance et un test qui reviendra à de multiples reprises dans ce cours : le test du khi-deux de Pearson

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

65 / 142

Test de rapport de vraisemblance sur la valeur de π Nous avons

N = (N1 , . . . , Nr ),

qui suit une loi

une observation de la variable aléatoire

Multinomiale(n, π). L(π|N) =

La vraisemblance de paramètre

n1 n! n1 !...nr ! π1

π

N,

est

. . . πrnr

Le logarithme de cette valeur est :

ln(L(π|N)) = ln( n1n! ...nr ) +

Pr

j=1 nj

ln(πj )

La statistique du test du rapport des vraisemblances est donc :

LR = −2(ln L(π0 |N) − ln L(b π |N)) P Pr r n! n! =-2(ln( πj ) j=1 nj ln(π0,j ) − ln( n1 !...nr ! ) − j=1 nj ln(b n1 !...nr ! ) + Pr asympt π0,j 2 2 =-2 j=1 nj ln( π bj ) −−−−→ χα,r −1 . On rejette H0 ssi LR > χα,r −1 Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

66 / 142

Test du khi-deux de Pearson sur la valeur de π

Dans le contexte d'un test sur les paramètres d'une loi multinomiale, Pearson a proposé d'utiliser la statistique suivante :

U=

Pr

j=1

(Nj −nπ0,j )2 asympt −−−−→ nπ0,j

Il a prouvé que sous l'hypothèse nulle

χ2r −1

H0 : (π1 , . . . , πr ) = (π0,1 , . . . , π0,r ),

cette statistique suit asymptotiquement une loi du khi-deux à

r −1

degrés

de liberté, tout comme la statistique du test de rapport de vraisemblance.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

67 / 142

Démonstration : On peut justier ce résultat de façon simple en considérant qu'une loi binomiale peut être approximée par une loi Poisson sous certaines conditions, d'où

Nj ∼ P(λj )

avec

λj = E [Nj ] = nπ0,j

On sait que pour de grandes valeurs de

(Nj −λj ) = Zj = √ λj

j = 1, . . . , r .

, on peut supposer que

(Nj −nπ0,j ) √ suit une loi normale centrée réduite. nπ0,j

Supposons pour l'instant que les la somme des

λj

pour

Zj2 = U

liberté. En réalité, les

r

v.a. sont indépendantes. On aurait donc

suit une loi asymptotique khi-deux à

r

r

degrés de

v. a. ne sont pas indépendantes puisqu'elles sont

soumises à la contrainte

Pr

j=1 Nj

= n.

On perd un degré de liberté à cause

de cette contrainte, qui représente la conversion de la loi Poisson à la loi multinomiale.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

68 / 142

Exemple :

Le journal La Presse publiait, le 31 octobre 2007, un article de Denis Lessard présentant les résultats d'un sondage sur les intentions de vote des Québécois. À l'époque, les trois principaux partis se partageant les intentions de vote étaient le Parti Québécois (PQ), le Parti libéral du Québec (PLQ) et l'Action démocratique du Québec (ADQ). Considérons ici uniquement ces partis. Les intentions de vote se répartissaient ainsi :

Parti politique

PQ

PLQ

ADQ

total

Fréquence observée

264

264

238

66

Tester si les votes sont vraiment répartis uniformément entre les partis politiques :

H0 : (π1 ; π2 ; π3 ) = (1/3; 1/3; 1/3) Fadoua BADAOUI (INSEA)

vs

H1 : (π1 ; π2 ; π3 ) 6= (1/3; 1/3; 1/3).

Analyse des données discrètes

22 octobre 2017

69 / 142

Exemple (Suite)

La statistique du test de rapport de vraisemblance prend la valeur suivante :

3 + 238 ln( 2381//3766 )) = 1.786 LRobs = −2(2 × 264 ln( 2641//766 Le seuil observé de ce test est donc

P(χ22 ≥ 1.786) = 0.40942.

Cette valeur est nettement plus grande que 0.05, on conclut donc au non-rejet de

H0 .

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

70 / 142

Exemple (Suite)

La statistique du test du khi-deux de Pearson prend quant à elle la valeur suivante :

Uobs = 2 ×

(264−(733/3)) 733/3

Le seuil observé de ce test est donc

+

238−(733/3) 733/3

= 1.765

P(χ22 ≥ 1.765) = 0.41375.

Cette valeur est aussi nettement plus grande que 0.05. Les deux tests nous mènent donc à la conclusion que les votes sont réellement répartis de façon uniforme entre les partis politiques.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

71 / 142

Chap 3 : Tableaux de fréquences à deux variables Pour étudier le lien entre deux variables, il est bon de procéder en suivant les étapes suivantes : 1

Visualiser les données : avec un tableau de fréquences à deux

variables et/ou des graphiques. 2

Tester l'association entre X et Y : on veut déterminer s'il existe un

lien entre les variables, on choisira le meilleur test en fonction du caractère nominal ou ordinal des variables, de la taille de l'échantillon et du nombre de modalités des variables. 3

Si elle est présente, décrire l'association : avec diérentes

statistiques et mesures d'association. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

72 / 142

Dénitions et outils descriptifs Le contexte traité dans ce chapitre est celui où l'on étudie deux variables catégoriques notées

X

et

mY1 , . . . , mYJ

X

et

Y

. Soit

mX1 , . . . , mXI

les modalités de

Y.

les modalités de la variable

On possède un échantillon de

n

observations indépendantes de ces deux variables. À partir de cet échantillon, on calcule un certain nombre de fréquences, que l'on représente dans un tableau comme suit :

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

73 / 142

Exemple d'emplacement de variables Dans le cadre de l'Enquête Sociale Générale aux États-Unis,

n = 980

personnes ont été interrogées à propos de leurs intentions de vote. L'enquête a aussi permis d'identier le sexe des votons. On a donc deux variables catégoriques nominales :  Femme , et Démocrate ,

mX2 =

mY2

X

mX1 =

= le sexe d'une personne, soit

 Homme  et

Y =

=  Indépendant  ou

le parti politique, soit

mY3

mY1

= 

=  Républicain .

Si une des deux variables inuence l'autre ici, c'est certainement le sexe qui inuence les intentions de vote, et non l'inverse. Ainsi, on dirait que la variable réponse est

Y,

et la variable explicative est

X.

donc placée en lignes dans le tableau de fréquences, et Fadoua BADAOUI (INSEA)

Analyse des données discrètes

La variable

Y

X

sera

en colonnes.

22 octobre 2017

74 / 142

Fréquences croisées Pour

i = 1, . . . , I

j = 1, . . . , J ,

et

la fréquence

nij

est le nombre total

d'observations dans l'échantillon pour lesquelles la valeur de la valeur de

Y

est

mYj

simultanément. Les

nij

n

est

n=

PI

i=1

est le nombre total d'observations dans l'échantillon. Ainsi,

même chose que

n.

Les

ni. =

PJ

j=1 nij et

mXi

et

sont ce que l'on appelle les

fréquences croisées. On a toujours la relation suivante : où

X

n.j =

PJ

n..

j=1 nij

est la

PI

i=1 nij représentent les

fréquences marginales.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

75 / 142

Fréquences conditionnelles

Les fréquences des modalités d'une variable en xant l'autre variable à une certaine modalité sont appelées fréquences conditionnelles. Par exemple, les fréquences de

X

sachant que

Y =2

sont

n12

à

nI 2 .

Exemple :

Les fréquences des modalités des intentions de vote rapport au fait d'être une femme sont

Y

en conditionnant par

(n11 = 279; n12 = 73; n13 = 225),

soit la première ligne du tableau de fréquences croisées.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

76 / 142

Fréquences relatives Les fréquences relatives croisées sont dénies par fij

i = 1, . . . , I

et

j = 1, . . . , J .

La somme de ces

I ×J

= nij /n

fréquences vaut 1.

Les fréquences relatives marginales se calculent par fi.

f.j = n.j /n.

La somme des

I

pour

= ni. /n

et

fréquences relatives de la marge verticale

vaut 1, tout comme la somme des

J

fréquences relatives de la marge

horizontale. les fréquences relatives conditionnelles de dénies par fi|j

= nij /n.j

pour une valeur de

les fréquences relatives conditionnelles de dénies par fj|i

= nij /ni.

Fadoua BADAOUI (INSEA)

X

Y

pour une valeur de

Analyse des données discrètes

par rapport à

j

sont

xe. De façon similaire,

par rapport à

i

Y

X

sont

xe. 22 octobre 2017

77 / 142

Exemple de fréquences relatives :

Les fréquences relatives croisées (fij pour marginales (fi. pour

i = 1, 2

et f.j pour

i = 1, 2

et

j = 1, 2, 3)

j = 1, 2, 3)

et

sont les suivantes :

La somme de toutes les fréquences relatives croisées vaut 1 et la somme des fréquences relatives dans chacune des marges vaut aussi 1.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

78 / 142

Exemple de fréquences relatives : Les fréquences relatives conditionnelles à la valeur de

X,

le sexe, sont les

suivantes :

La fréquence relative f1|i=1 nous dit, par exemple, que 48.35% des femmes de l'échantillon ont l'intention de voter démocrate. Ici, les fréquences relatives de chaque ligne somment à 1, car ces fréquences sont calculées en divisant les fréquences croisées par les fréquences dans la marge verticale. Cette marge est celle de la variable Fadoua BADAOUI (INSEA)

X.

Analyse des données discrètes

22 octobre 2017

79 / 142

Exemple de fréquences relatives : Les fréquences relatives conditionnelles à la valeur de Y , les intentions de vote, sont les suivantes :

Ici, les fréquences relatives de chaque colonne somment à 1, car ces fréquences sont calculées en divisant les fréquences croisées par les fréquences dans la marge horizontale. Cette marge est celle de la variable Y.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

80 / 142

Probabilités d'intérêt Les probabilités en lien avec un tableau de fréquences à deux variables

Y

sont les suivantes, pour

i = 1, . . . , I

Probabilités conjointes

et

j = 1, . . . , J

X

et

:

:

πij = P(X = miX , Y = mjY )

Probabilités marginaless

:

πi. = P(X = miX ) ; π.j = P(Y = mjY )

Probabilités conditionnelles

:

πi|j = P(X = miX |Y = mjY ) ; πj|i = P(Y = mjY |X = miX ) Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

81 / 142

Estimation des probabilités d'intérêt Les

πij

sont facilement estimables si les données proviennent d'un

échantillonnage multinomial simple. Dans ce cas, le vecteur de toutes les fréquences du tableau suit une loi multinomiale :

Probabilités conjointes

:

π bij =

Probabilités marginales

nij n

:

π bi. =

ni. n ;

Probabilités conditionnelles π bi|j = Fadoua BADAOUI (INSEA)

[nij ] ∼ M(n, [πij ])

π b.j =

n.j n

:

nij n. j ;

π bj|i =

nij ni .

Analyse des données discrètes

22 octobre 2017

82 / 142

Tests d'association entre deux variables nominales La question principale d'intérêt lorsque l'on étudie conjointement 2 variables nominales

X

et

Y

est de savoir si

X

et

Y

sont associées.

De façon générale, on dira qu'il y a un lien ou une association entre deux variables si modier la valeur d'une variable aecte la valeur de l'autre variable. Le terme  association  est plutôt général. Pour des variables catégoriques, si la fonction de densité d'une variable varie conditionnellement à la valeur de l'autre variable, on peut dire que la valeur d'une variable inuence la valeur de l'autre variable. Elles seraient donc associées.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

83 / 142

Test d'indépendance et test d'homogénéité

Selon le mode d'échantillonnage, cette association entre X et Y est représentée par diérentes hypothèses.

Échantillonnage multinomial simple :

On suppose que les totaux

des lignes et colonnes du tableau de fréquences croisant pas xés d'avance. Seul le total

n

X

et

Y

est xé ici. On veut tester si

X

ne sont et

Y

sont

indépendantes.

=⇒

Ce type d'hypothèses requiert un

Fadoua BADAOUI (INSEA)

test d'indépendance.

Analyse des données discrètes

22 octobre 2017

84 / 142

Exemple Lors d'une étude, 32574 femmes enceintes ont été suivies pendant leur grossesse. Par un questionnaire, leur consommation d'alcool pendant le premier trimestre de leur grossesse a été évaluée. Après la naissance des enfants, des médecins ont vérié si ceux-ci présentaient des malformations.

Question : Les mères qui consomment de l'alcool durant la grossesse augmentent-elles le risque de malformations de leurs enfants ?

Variable réponse Y : présence de malformations chez l'enfant à la naissance. Variable explicative X :

nombre moyen de verres d'alcool consommés par

jour par la mère.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

85 / 142

Exemple Les observations recueillies sont les suivantes :

Pour répondre à la question, on pourrait d'abord tester l'association entre les variables. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

86 / 142

Test d'indépendance et test d'homogénéité

Échantillonnage multinomial multiple :

Supposons que

l'échantillonnage multiple a été eectué en stratiant selon la valeur de la variable

X.

On considère donc que chaque valeur de

X

correspond à une

sous-population, c'est-à-dire que les totaux des rangées (les On veut tester si la distribution des valeurs de dans chacune des

=⇒

I

sous-populations de

est la même (

sont xes.

homogène )

X.

Ce type d'hypothèses requiert un

Fadoua BADAOUI (INSEA)

Y

ni.)

test d'homogénéité.

Analyse des données discrètes

22 octobre 2017

87 / 142

Exemple Une étude à propos de la relation entre la prise quotidienne d'aspirine et l'infarctus du myocarde a été menée à l'école de médecine de l'Université Harvard. Au total, 22071 médecins américains ont participé à l'étude, d'une durée de 5 ans. Les participants ont été attribués de façon aléatoire, en nombres presque égaux, à l'un des deux groupes d'exposition au facteur de risque : ceux qui prennent de l'aspirine quotidiennement et ceux qui n'en prennent pas. Pendant l'étude, tous les médecins devaient prendre une pilule par jour sans savoir s'il s'agissait d'une aspirine ou d'un placebo. On a observé si les participants ont été victimes ou non d'un infarctus pendant l'étude. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

88 / 142

Exemple Voici les résultats obtenus :

Ici, la variable explicative variable réponse

Y

X

est la prise quotidienne d'aspirine ou non. La

est la survenue ou non d'un infarctus. L'échantillonnage

est multiple, avec des sous-populations formées conditionnellement à la variable explicative

X.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

89 / 142

Dénition des concepts d'indépendance et d'homogénéité En termes statistiques, dire que les variables aléatoires discrètes

X

et

Y

sont indépendantes signie que :

πij = πi. × π.j L'homogénéité des

I

pour tous

i = 1, . . . , I

sous-populations de

masse conditionnelles de

Y

sachant

X

X

et

j = 1, . . . , J .

signie que les

I

fonctions de

sont toutes égales. Ainsi,

l'homogénéité des populations signie que :

(π1|i=1 ; π2|i=1 , . . . , πJ|i=1 ) = . . . = (π1|i=I ; π2|i=I , . . . , πJ|i=I ). Cette dénition correspond à :

πj|i = πj|i 0

pour toute paire

Fadoua BADAOUI (INSEA)

´ = 1, . . . , I (i, i)

et pour tout

Analyse des données discrètes

j = 1, . . . , J . 22 octobre 2017

90 / 142

Lien entre les concepts d'indépendance et d'homogénéité Les concepts d'indép. et d'homog. sont en fait équivalents, on a que :

indépendance ⇒ homogénéité

:

Par dénition des probabilités conditionnelles, on a que :

P(X = miX ; Y = mjY ) = P(Y = mjY |X = miX )P(X = miX ) Si

X

et

Y

:

sont indépendantes, on a donc :

P(Y = mjY |X = miX )P(X = miX ) = P(Y = mjY )P(X = miX ) P(Y = mjY |X = miX ) = P(Y = mjY ) Si les probabilités conditionnelles sont toutes égales aux probabilités marginales, alors elles sont toutes égales entre elles. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

91 / 142

homogénéité ⇒ indépendance

:

Par la loi des probabilités totales, on a :

P(Y = mjY ) = Sous l'hypothèse que les homogènes, tous les

PI

i=1 P(Y

I

= mjY |X = miX )P(X = miX )

sous-populations formées par

P(Y = mjY |X = miX )

P(Y = mjY |Xquelconque)

X

sont

sont égaux. Notons

la valeur commune de ces probabilités

conditionnelles. On a donc maintenant :

P(Y =

mjY )

=

I X

P(Y = mjY |Xquelconque)P(X = miX )

i=1

= P(Y = mjY |Xquelconque)

I X

P(X = miX )

i=1

= P(Y = Fadoua BADAOUI (INSEA)

mjY |Xquelconque)

Analyse des données discrètes

22 octobre 2017

92 / 142

Lien entre les concepts d'indépendance et d'homogénéité

Remarque :

Ainsi, si les vecteurs de probabilités conditionnelles sont tous égaux entre eux, ils sont forcément égaux au vecteur de probabilités marginales de En conséquence,

i = 1, . . . , I

et

P(Y = mjY |X = miX ) = P(Y = mjY )

j = 1, . . . , J ,

ce qui signie que

X

et

Y

Y.

pour tous sont indépendants.

Mathématiquement, il s'agit donc du même concept. On utilisera les mêmes statistiques de test pour eectuer ces deux types de test,

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

93 / 142

Formulation des hypothèses des tests

Test d'indépendance :

H0 : X

et

Y

sont indépendants ou

πij = πi. π.j ∀i, j H1 : X

et

Y

πij 6= πi. π.j

Fadoua BADAOUI (INSEA)

ne sont pas indépendants ou

pour au moins un couple

Analyse des données discrètes

(i, j)

22 octobre 2017

94 / 142

Formulation des hypothèses des tests Test d'homogénéité de sous-populations :

H0

I

: Dans les

Y

sous-populations déterminées par

X;

suit la même distribution ou 0

πj|i = πj|i 0 ∀i 6= i , j

ou

πj|i = π.j ∀i, j H1 : Y

ne suit pas la même distribution

dans les I sous-populations déterminées par X ou

πj|i 6= πj|i 0

pour au moins un couple

πj|i 6= π.j Fadoua BADAOUI (INSEA)

pour au moins un couple

Analyse des données discrètes

0

(i, i )

ou

(i, j) 22 octobre 2017

95 / 142

Construction des statistiques de test Pour eectuer ces tests, nous allons utiliser les statistiques a

I ×J

classes, les fréquences observées sont notées

espérées sous l'hypothèse nulle

H0

nij

LR

et

U.

Ici, on

et les fréquences

ebij

doivent être estimées et sont notées

.

Les statistiques sont donc maintenant notées comme suit : Statistique du khi-deux de Pearson :

U=

PI

i=1

PJ

j=1

(nij −b eij )2 ebij

Statistique du rapport de vraisemblance :

LR = 2

PI

i=1

PJ

j=1 nij

n

ln( ebijij )

Ces statistiques suivent, lorsque les fréquences du tableau sont grandes, une loi du khi-deux. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

96 / 142

Construction des statistiques de test Rappelons que le nbre de ddl de cette khi-deux, notés

d,

sont dénis par :

d = dim de l'espace des paramètres - dim de l'espace des paramètres ss H0 ; Test d'indépendance :

Ici, on est dans le cas d'un échantillonnage multinomial simple, donc les paramètres sont les probabilités paramètres est égale

π.j .

IJ − 1.

πij .

La dimension de l'espace des

Les paramètres libres sous

H0

sont les

πi.

et les

I + J . Cependant, elles doivent PJ j=1 π.j . On se retrouve donc avec

Ces paramètres sont au nombre de

respecter les contraintes

I +J −2

PI

i=1 πi. et

paramètres libres sous

H0 .

Ainsi,

d = (IJ − 1) − (I + J − 2) = IJ − I − J + 1 = (I − 1)(J − 1) Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

97 / 142

Construction des statistiques de test Test d'homogénéité de sous-populations :

Ici, à cause de l'échantillonnage multinomial multiple, les vecteurs

(ni 1 , . . . , niJ )

sont considérés indépendants et suivent une distribution

M(ni ; π1|i , . . . , πJ|i ).

La dimension de l'espace des paramètres est égale au

nombre total de probabilités

(π1|i , . . . , πJ|i ) vaille 1. Sous

πj|i

moins

I

parce que chacun de vecteurs

est soumis à la contrainte que la somme de ses éléments

H0 ,

tous les vecteurs

probabilités marginales

(π1|i , . . . , πJ|i )

(π.1 , . . . , π.J ),

sont égaux aux

aussi soumises à la meme contrainte.

La dimension de l'espace des paramètres sous

H0

est donc

J − 1.

Ainsi,

d = (IJ − I ) − (J − 1) = I (J − 1) − (J − 1) = (I − 1)(J − 1). Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

98 / 142

Construction des statistiques de test

Voyons maintenant comment estimer les fréquences espérées sous l'hypothèse nulle formulée. Test d'indépendance :

eij = nπij = nπi. π.j

par indépendance sous

H0

On estime donc les fréquences espérées par :

ebij = nb πi. π b.j = n( nni. )(

Fadoua BADAOUI (INSEA)

n.j n )

=

Analyse des données discrètes

ni. n.j n

22 octobre 2017

99 / 142

Construction des statistiques de test

Test d'homogénéité de sous-populations :

eij = ni πi|j =

ni π.j



ni

est xe à cause de l'échantillonnage multiple

par homogénéité des sous-populations sous

H0

On estime donc les fréquences espérées par :

ebij = ni π b.j = ni (

Fadoua BADAOUI (INSEA)

n.j n )

=

Analyse des données discrètes

ni n.j n

22 octobre 2017

100 / 142

Construction des statistiques de test On notera les statistiques de test, peu importe que l'on mène un test d'indépendance ou d'homogénéité des populations, par :

U=

PI

i=1

LR = 2 Les statistiques

χ2(I −1)(J−1) .

U

et

LR

PI

PJ

j=1

i=1

PJ

(nij −ni. n.j /n)2 ni. n.j /n

j=1 nij

n

ln( ni. n.jij /n )

suivent asymptotiquement une distribution

Ainsi, au seuil

α , H0

est rejetée si les valeurs observées de ces

statistiques sont grandes, c'est-à-dire si

Uobs > χ2α,(I −1)(J−1)

ou

LRobs > χ2α,(I −1)(J−1) . Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

101 / 142

Remarques :

On a présenté deux types de test d'association, on a cependant constaté que le test d'indépendance (motivé par l'échantillonnage multinomial simple) et le test d'homogénéité (motivé par l'échantillonnage multinomial multiple) sont, à un détail près, mathématiquement équivalents. Il est intéressant de formuler le test d'association en terme d'homogénéité de populations lorsque l'on soupçonne un lien de causalité entre les variables. Dans ce cas, on tend intuitivement à étiqueter l'une des variables comme étant explicative et l'autre comme étant une variable réponse.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

102 / 142

Exemple de test d'association

on s'interesse au nombre d'enfants (S) issus d'un pére en fonction du nombre de frères et soeurs (R) qu'il y a dans la famille. Peut-on dire que R et S sont indépendantes ?

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

103 / 142

Cas particulier des tableaux 2 × 2 Un tableau de fréquences 2

×2

est celui pour lequel les variables

X

et

Y

n'ont que 2 modalités possibles. C'est donc un cas particulier des tableaux

I ×J

lorsque

I =2

et

J = 2.

Un tableau 2

Montrer que

U=

×2

a la forme suivante :

n(N11 N22 −N12 N21 )2 n1. n2. n.1 n.2

Rq : Ici, les degrés de liberté de la distribution asymptotique de car

U

valent 1,

(I − 1) × (J − 1) = 1 × 1 = 1.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

104 / 142

Exemple de test d'association pour un tableau 2 × 2 : Rappelons que les données sont les suivantes :

Dans cette étude, la question de recherche était la suivante :

−→ Est-ce que l'aspirine réduit les risques d'infarctus ? ou encore :

−→ Est-ce que le risque d'infarctus dière entre ceux qui ont pris

quotidiennement de l'aspirine et ceux qui n'en ont pas pris ? Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

105 / 142

Exemple de test d'association pour un tableau 2 × 2 :

Les hypothèses du test sont :

H0 : (π1|i=1 , π2|i=1 ) = (π1|i=2 , π2|i=2 ) H1 : (π1|i=1 , π2|i=1 ) 6= (π1|i=2 , π2|i=2 ) Uobs = On a

22071(239×10898−10795×139)2 11034×11037×378×21693

Uobs  χ20.05,1 = 3.84.

= 26.9437.

On rejette donc l'hypothèse nulle. Il y a une

grande diérence de risque d'infarctus entre ceux qui prennent quotidiennement de l'aspirine et ceux qui n'en prennent pas.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

106 / 142

Test de comparaison de deux proportions Pour un tableau 2

× 2,

l'hypothèse nulle du test d'homogénéité des deux

sous-populations formées par la variable

X

s'écrit :

H0 : (π1|i=1 , π2|i=1 ) = (π1|i=2 , π2|i=2 ). Puisque

π1|i + π2|i = 1

pour

i = 1, 2,

cette hypothèse est équivalente à :

H0 : π1|i=1 = π1|i=2 . Le modèle statistique de l'échantillonnage multinomial multiple revient à dire qu'on a 2 v. a. binomiales indépendantes. On a donc :

n11 ∼ Bin(n1 = n1. , π1 = π1|i=1 )

nbre de succès dans la 1 ere population

n21 ∼ Bin(n2 = n2. , π2 = π1|i=2 )

nbre de succès dans la 2 eme population

Avec

π b1 = n11 /n1

et

Fadoua BADAOUI (INSEA)

π b2 = n21 /n2 .

Analyse des données discrètes

22 octobre 2017

107 / 142

Test de Wald de comparaison de deux proportions

La statistique du test de Wald de comparaison de deux proportions est la suivante (Agresti, 2002) :

Zw = où

π bi = ni 1 /ni

pour

Fadoua BADAOUI (INSEA)

r

π b1 −b π2 π b1 (1−π b1 ) π b (1−π b ) + 2 n 2 n1 2

asympt

−−−−→ N(0, 1)

i = 1, 2.

Analyse des données discrètes

22 octobre 2017

108 / 142

Exemple de test de Wald

An de répondre à la question  Est-ce que l'aspirine réduit les risques d'infarctus ? , nous pouvons tester l'égalité des proportions :

π1 = π1|i=1

= P(infarctus | placebo) et

π2 = π1|i=2

= P(infarctus | aspirine)

contre une hypothèse alternative unilatérale à droite :

H0 : π1 = π2 , H1 : π1 > π2 ,

Fadoua BADAOUI (INSEA)

l'aspirine n'a pas d'eet

l'aspirine réduit le risque d'infarctus.

Analyse des données discrètes

22 octobre 2017

109 / 142

Exemple de test de Wald

La statistique du test de Wald pour confronter ces hypothèses prend la valeur observée suivante :

Zw =

q

0.02166−0.01259 0.01259(1−0.01259) 0.02166(1−0.02166) + 11304 11307

= 5.193717.

Cette valeur est beaucoup plus grande que la valeur critique du test :

z0.05 = 1.645.

On peut donc encore conclure que l'aspirine réduit les

risques d'infarctus.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

110 / 142

Test score de comparaison de deux proportions

Le test de comparaison de proportions le plus souvent présenté dans un cours d'introduction à la statistique (Hines et al. (2012), Agresti (2002)) est le test score se basant sur la statistique suivante :

Zs =

asympt π b1 −b π2 q −−−−→ 1 1 π b(1−b π )( n + n ) 1



π bi = ni 1 /ni

pour

i = 1, 2

et

π=

N(0, 1)

2

n1 π b1 +n2 π b2 n1 +n2

=

n11 +n21 n1 +n2 est utilisé pour

calculer une variance groupée.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

111 / 142

Exemple de test score Une statistique similaire à la statistique de Wald que l'on vient de calculer est la statistique score suivante :

Zs = car

π b=

q 0.02166−0.01259 1 1 π b(1−b π )( 11304 + 11307 )

11304×0.02166+11307×0.01259 11304+11307

=

378 22071

= 5.190729

= 0.01712655.

La valeur observée de la statistique du test score

zs = 5.190729

est très

proche, mais pas tout à fait égale à celle de la statistique du test de Wald

zw = 5.193717.

Remarquez qu'en élevant au carré

exactement sur la statistique

2

(zs

2 Uobs

zs ,

on retombe

de Pearson

2 ). = 5.1907292 = 26.94367 = Uobs

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

112 / 142

Chap 4 : Tableaux de fréquences à trois variables

Dans ce chapitre, on s'intéresse encore au lien entre deux variables catégoriques

X

et

Y.

La nouveauté par rapport au précédent est que l'on

va maintenant tenir compte d'une troisième variable catégorique, notée Cette variable est peut-être liée à

X

et

Y,

mais on ne s'intéresse pas

vraiment à ces liens. On cherche plutôt à étudier le lien entre corrigeant pour l'eet confondant potentiel de

Fadoua BADAOUI (INSEA)

Z.

Z

Analyse des données discrètes

X

et

Y

en

sur ce lien.

22 octobre 2017

113 / 142

Tableaux de fréquences à trois variables Un tableau de fréquences à trois variables est en fait représenté par une série de tableaux de fréquences à deux variables, soit un tableau pour chacune des modalités de la troisième variable, notée cette variable seront notées

Dans ces tableaux, pour lesquels

nijk

mkZ

Les modalités de

k = 1, . . . , K .

représente le nombre d'individus dans l'échantillon

X = miX , Y = mjY

Fadoua BADAOUI (INSEA)

avec

Z.

et

Z = mkZ .

Ainsi,

Analyse des données discrètes

n..k =

PI

i=1

PJ

22 octobre 2017

j=1 nijk 114 / 142

Tableaux de fréquences à trois variables

Ces données se présentent sous forme d'un tableau de contingence croisant ces trois variables de terme général

nijk .

On s'intéresse aux relations existant entre ces trois variables : sont-elles indépendantes ou non dans leur ensemble ou une variable est-elle indépendante conditionnellement à une ou aux deux autres ? Autrement dit, on cherche à connaître la structure des liaisons entre ces données en tenant compte des interactions entre les 3 variables.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

115 / 142

Exemple de tableaux de fréquences à trois variables Aux États-Unis, le Département de Transport demande aux compagnies aériennes de recueillir les données concernant les vols d'avions qu'ils orent. Parmi les informations recueillies, pour 11 000 vols d'avions on retrouve, les variables suivantes :

X

: le nom de la compagnie aérienne ;

une indicatrice de départ en retard pour le vol ;

Z

Y

:

: la ville de l'aéroport.

Deux compagnies aériennes seront à l'étude : Alaska et America West Airlines. Les vols d'avions considérés partaient de 5 villes : Los Angeles, Phoenix, San Diego, San Francisco ou Seattle.

Question

: Est-ce qu'il y a une diérence entre les compagnies aériennes en

ce qui concerne le respect des heures de départ prévues de leurs vols ? Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

116 / 142

Exemple de tableaux de fréquences à trois variables Voici les tableaux conditionnels de fréquences observées pour cet exemple :

Il s'agit de 5 tableaux de fréquences croisées entre la valeur de

X

et

Y

, conditionnels à

Z.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

117 / 142

Deux critères

X

et

Y

sont indépendants ssi

P(Xi , Yj ) = P(Xi )(Yj ),

Trois critères

X, Y

et

Z

on note

Pij = Pi Pj , ∀i, j

sont indépendant,

P(Xi ∩ Yj ∩ Zk ) = P(Xi )P(Yj )P(Zk ),

X

on note

est partiellement indépendant du couple

P(Xi ∩ Yj ∩ Zk ) = P(Xi )P(Yj ∩ Zk ),on

X

et

Y

X ⊥Y ⊥Z

ssi

Pi,j,k = Pi Pj Pk , ∀i, j, k

(Y , Z ), X ⊥(Y , Z )

note

ssi

Pi,j,k = Pi.. P.jk , ∀i, j, k

sont indépendants conditionnellement à

Z , (X ⊥Y )/Z

ssi

P(Xi ∩ Yj /Zk ) = P(Xi /Zk )P(Yj /Zk ), ∀i, j, k ou encore

Pijk = Pi../k P.j./k

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

118 / 142

Relations entre les types d'indépendances

1

  X ⊥(Y , Z ) X ⊥Y ⊥Z ⇔  Y ⊥Z 2

X ⊥(Y , Z ) ⇔

 

X ⊥Y



 X ⊥Z /Y

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

 

X ⊥Z

 X ⊥Y /Z

22 octobre 2017

118 / 142

Test d'indépendance Pour tester l'indépendance entre 3 variables, soit la statistique de test du khi-deux de Pearson, dénie par :

U=

PI

i=1

PJ

j=1

PK

k=1

(nijk −b eijk )2 ebijk

∼ χ2ddl

On test les hypothèses :

H0 : Pijk = Pi.. P.j. P..k

vs

Hypothèses

ebijk = nb pijk

X ⊥Y ⊥Z

Ni.. N.j. N..k n2 Ni.. N.jk n Ni.k N.jk N..k

X ⊥(Y , Z ) (X ⊥Y )/Z Fadoua BADAOUI (INSEA)

H1 : Pijk 6= Pi.. P.j. P..k ddl de

χ2ddl

IJK − I − J − K + 2 (I − 1)(Jk − 1) (I − 1)(J − 1)k

Analyse des données discrètes

22 octobre 2017

119 / 142

Exemple Une enquête réalisée auprès de 97 étudiants classés selon 3 critères : R : comportement, S : Existence d'un risque familial et T : l'adversité du milieu scolaire.

Peut-on supposé l'indépendance de ces trois critères ? Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

120 / 142

Exemple Pour 2121 personnes classées selon leur taux de cholestérol (R) leur pression sanguine (S) et leur type de personnalité (T).

Peut-on supposé l'indépendance conditionnelle de R et S par rapport à T ?

H0 : Pij./k = Pi../k × P.j./k Fadoua BADAOUI (INSEA)

vs

H1 : Pij./k 6= Pi../k × P.j./k

Analyse des données discrètes

22 octobre 2017

121 / 142

Chap 5 : Modèles log-linéaires Le principe général de l'analyse log-linéaire est proche de celui de l'analyse de variance, en ce qu'elle permet de tester des eets de modalités de variables et d'interactions entre des modalités de deux ou plusieurs variables, mais elle en dière aussi fondamentalement, puisque ce ne sont pas des moyennes de variables qui sont prises en compte, mais des eectifs. Le point de départ est toujours un tableau de contingence, à deux ou plusieurs critères. Ce qu'on va expliquer, c'est l'eectif de chaque cellule. Deux aspects principaux se partagent l'attention de l'utilisateur : les tests de signication, et la modélisation.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

122 / 142

Modèles log-linéaires Les modèles log-linéaires permettent d'étudier et de modéliser les liaisons entre plusieurs variables nominales en tenant compte de leurs éventuelles interactions. Celui-ci a la particularité de ne pas nécessiter, a priori, de distinction entre la variable à expliquer et les variables explicatives. Pour cela, on ne parlera pas d'un modèle de régression, mais d'un modèle d'association. Soit

nijk

les eectifs observés de la table de contingence. La modélisation

log-linéaire vise à exprimer le logarithme de ces valeurs par une somme d'eets propres et d'interactions d'ordre 2 ou supérieur des variables.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

123 / 142

Modèles à 2 variables Soit une table de contingence qualitatives

X

à

I

(I × J)

modalités et

Y

à

J

issue du croisement de deux variables modalités et dont l'eectif total

n

est

xé. La loi conjointe des eectifs de paramètre

nij

de chaque cellule est une loi multinomiale

πij nij ∼ M(n, πij )

et d'espérance :

eij = E (nij ) = nπij Par dénition, les variables

X

et

Y

sont indépendantes si et seulement si :

πij = πi. π.j Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

124 / 142

Modèles à 2 variables le modèle log-linéaire décompose le logarithme népérien de l'espérance

eij

sous la forme :

ln(eij ) = ln(n) + ln(πi. ) + ln(π.j ) = µ + αi + βj Le modèle se décompose en une somme de coecients décrivant plusieurs eets :

µ,

l'eet global ;

αi ,

l'eet dû à la variable

X,

βj ,

l'eet dû à la variable

Y,

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

125 / 142

Modèles à 2 variables Si l'indépendance n'est pas vériée, on peut décomposer :

π

eij = nπij = nπi. π.j πi. πij .j L'intervention de la fonction logarithme permet de linéariser la décomposition précédente autour du modèle d'indépendance :

π

ln(eij ) = ln(n) + ln(πi. ) + ln(π.j ) + ln( πi. πij .j ) = µ + αi + βj + (αβ)ij Le terme

(αβ)ij

est l'eet dû à l'interaction entre les variables

X

et

Y.

Ce modèle est dit saturé car, présentant autant de paramètres que de données, il explique exactement celles-ci. Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

126 / 142

Modèles à 2 variables

An d'identier tous les paramètres, on ajoute les contraintes :

PI

i=1 αi

=

PJ

j=1 βj

= 0.

Ces contraintes garantissent l'unicité.

Il est intéressent d'illustrer la notation matricielle du modèle dans le cas, par exemple, où par

I =2

et

J = 3.

θ = (µ, α1 , β1 , β2 ),

Le vecteur des paramètres inconnues est donné

étant donné que

α2 = −α1

et

β3 = −β1 − β2 .

Ecrivez le modèle sous sa forme matricielle.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

127 / 142

Exemple

Le modèle se réécrit comme :

  ln(e11 )     ln(e12 )     ln(e13 )     ln(e21 )     ln(e22 )   ln(e23 )

Fadoua BADAOUI (INSEA)



1

1

1

0



    0 1  1 1     1 1 −1 −1  =   1 −1 1 0      1 −1 0 1    1 −1 −1 −1

Analyse des données discrètes



µ



    α1       β1    β2

22 octobre 2017

128 / 142

Le modèle saturé pour une table I × J Ce modèle s'écrit :

ln(eij ) = µ + αi + βj + (αβ)ij Il est indispensable, à présent, d'ajouter les contraintes :

PI

i=1 αβij

=

PJ

j=1 αβij

=0

Ecrivez le modèle sous sa forme matricielle, pour des paramètres inconnues est donné par qui est de la même dimension que

µ.

I =2

et

J = 3.

Le vecteur

θ = (µ, α1 , β1 , β2 , (αβ)11 , (αβ)12 )

Vu que le nombre de paramètres

indépendants est équivalent au nombre de cellules, on aura un ajustement parfait du tableau de contingence et donc un modèle saturé.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

129 / 142

Exemple

Le modèle se réécrit comme :



ln(e11 )



    ln(e12 )     ln(e13 )     ln(e21 )     ln(e22 )   ln(e23 )

Fadoua BADAOUI (INSEA)



1

1

1

0

1

0



    0 1 0 1  1 1     1 1 −1 −1 −1 −1  =   1 −1 1 0 − 1 0      1 −1 0 1 0 − 1   1 −1 −1 −1 1 1

Analyse des données discrètes



µ



     α1       β1       β2      (αβ)11    (αβ)12

22 octobre 2017

130 / 142

Modèle à 2 critères non indépendants et tests d'ajustement Le modèle s'écrit comme suit :

ln(eij ) = µ + αi + βj + (αβ)ij avec les contraintes :

PI

i=1 αi

=

PJ

j=1 βj

=

PI

i=1 αβi.

=

PJ

j=1 αβ.j

=0

En pratique, on s'intéresse essentiellement à l'étude de l'indépendance entre les deux critères de classication et on test l'hypothèse nulle :

H0 : X ⊥Y Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

131 / 142

Condition d'indépendance

Proposition :

Soit le modèle log-linéaire saturé suivant :

ln(eij ) = µ + αi + βj + (αβ)ij satisfaisant les contraintes

PI

i=1 αi

=

PJ

j=1 βj

alors

Fadoua BADAOUI (INSEA)

=

PI

i=1 αβi.

=

PJ

j=1 αβ.j

=0

X ⊥Y ⇔ (αβ)ij = 0, ∀i, j

Analyse des données discrètes

22 octobre 2017

132 / 142

Modèle à 2 critères non indépendants et tests d'ajustement Le rejet de l'hypothèse nulle (H0

RH0

si

LRobs

= (αβ)ij = 0) ou

s'eectue comme suit :

Uobs ≥ χ2ddl

où le

ddl = IJ − 1 − (I − 1) − (J − 1) = (I − 1)(J − 1) avec

P P n LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij ) P P (n −nb π )2 Uobs = Ii=1 Jj=1 ij nbπij ij Le non rejet de l'hypothèse nulle signie que le modèle retenu est le modèle non saturé suivant :

ln(eij ) = µ + αi + βj Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

133 / 142

Modèle à trois variables On considère une table de contingence de trois variables qualitatives

X,Y

et

(I × J × K )

Z.

obtenue par croisement

Le modèle saturé s'écrie :

ln(eijk ) = µ + αi + βj + γk + (αβ)ij + (αγ)ik + (βγ)jk + (αβγ)ijk Les termes

αi , βj

et

γk

représentent les eets principaux de

(αβ)ij , (αγ)ik

et

(βγ)jk

->Le nombre de paramètres : Les termes

(αβγ)ijk

Z.

sont les intéractions du 1

er ordre.

(I − 1)(J − 1), (I − 1)(K − 1), (J − 1)(K − 1)

sont les intéractions du second ordre.

-> Le nombre de paramètres : Fadoua BADAOUI (INSEA)

et

(I − 1), (J − 1), (K − 1)

->Le nombre de paramètres : Les termes

X,Y

IJK − 1

Analyse des données discrètes

22 octobre 2017

134 / 142

Types et tests d'indépendances -> Le modèle d'indépendance conditionnelle s'écrit :

ln(eijk ) = µ + αi + βj + γk + (αγ)ik + (βγ)jk L'hypothèse nulle à tester est :

H0 : X ⊥Y /Z ⇔ H0 : (αβ)ij = 0

-> Le modèle d'indépendance partielle s'écrit :

ln(eijk ) = µ + αi + βj + γk + (βγ)jk L'hypothèse nulle à tester est :

H0 : X ⊥(Y , Z ) ⇔ H0 : (αβ)ij = (αγ)ik = 0

-> Le modèle d'indépendance totale s'écrit :

ln(eijk ) = µ + αi + βj + γk on teste

H0 : X ⊥Y ⊥Z ⇔ H0 : (αβ)ij = (αγ)ik = (βγ)jk = 0

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

135 / 142

Relation entre les types d'indépendance

Soit le test d'indépendance mutuelle suivant : Si on rejette

H0,m ,

H0,m : X ⊥Y ⊥Z

on teste l'indépendance partielle

H0,p : X ⊥(Y ∩ Z ), H0,p : Y ⊥(X ∩ Z ), H0,p : Z ⊥(X ∩ Y ) Si on rejette

H0,p ,

on teste l'indépendance conditionnelle

H0,c : (X ⊥Y )/Z , H0,c : (X ⊥Z )/Y , H0,c : (Y ⊥Z )/X Si on rejette

H0,c

aucune simplication n'est possible, on garde le

modèle saturé.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

136 / 142

Modèles hiérarchiques

Un modèle log-linéaire est dit hiérarchique si la condition suivante est vériée : quand un coecient d'interaction est présent dans le modèle, les coecients des variables mises en jeu et toutes les interactions d'ordre inférieur sont aussi dans le modèle. Par exemple, si dans un modèle à 5 variables on trouve l'interaction alors le modèle, pour être hiérarchique, doit contenir au moins ainsi que les interactions d'ordre inférieur

Fadoua BADAOUI (INSEA)

X13 , X15

Analyse des données discrètes

et

Xl 35 ,

Xl , X3

et

X5

X35 .

22 octobre 2017

137 / 142

Modèles hiérarchiques Parmi les modèles log-linéaires possibles dans le cas d'un tableau de contingence à deux variables, certains modèles sont hiérarchiques :

ln(eij ) = µ + αi + βj + (αβ)ij ln(eij ) = µ + αi + βj et d'autres ne le sont pas :

ln(eij ) = µ + αi + (αβ)ij ln(eij ) = µ + βj + (αβ)ij ln(eij ) = µ + (αβ)ij Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

138 / 142

Estimation des paramètres

Les fréquences théoriques espérées

eijk

sont en général estimées par la

méthode du maximum de vraisemblance. Elle consiste à rechercher les paramètres qui maximisent la fonction de vraisemblance cela, on suppose que les variables aléatoires

nijk

`(nijk , eijk ).

Pour

suivent une loi

multinomiale.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

139 / 142

Tests d'ajustement

Pour comparer le tableau des fréquences estimées avec le tableau des fréquences observées, deux tests (voisins) sont généralement utilisés :

P P n LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij ) P P (n −nb π )2 Uobs = Ii=1 Jj=1 ij nbπij ij Plus ces statistiques sont voisines de zéro, meilleur est l'ajustement. Elles sont nulles pour le modèle saturé. On recherche le modèle le plus simple (peu de paramètres) et qui reste acceptable (bon ajustement).

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

140 / 142

Choix du modèle

Le choix du modèle log-linéaire est d'autant plus dicile que le nombre de variables est élevé. La méthode dite "combinatoire" est une des méthodes possibles pour obtenir un "bon" modèle. A partir du modèle saturé, on construit des modèles plus simples en retirant un à un les termes d'interaction. La statistique

LR

croît progressivement et l'on peut arrêter la

procédure lorsqu'elle augmente plus rapidement. On retiendra alors le modèle correspondant et l'on en déduira les liaisons importantes entre les variables.

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

141 / 142

Choix du modèle

Fadoua BADAOUI (INSEA)

Analyse des données discrètes

22 octobre 2017

142 / 142