37 0 2MB
Analyse des données discrètes Fadoua BADAOUI
22 octobre 2017
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
1 / 142
Overview 1
Introduction et rappel
2
Tableau de fréquences univariées et loi multinomiale La loi multinomiale Test d'hypothéses dans une table à une entrée
3
Tableaux de fréquences à deux variables Tests d'association entre deux variables nominales
4
Tableaux de fréquences à trois variables Type et test d'indépendances entre 3 variables
5
Modèles log-linéaires Modèles à 2 variables Modèle à trois variables Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
2 / 142
Chap 1 :Introduction et rappel
Ce cours présente des méthodes statistiques usuelles pour l'analyse de données discrètes. Des données peuvent résulter, par exemple : d'un sondage d'opinion pour des consommateurs (ex. : niveau de satisfaction pour un service reçu) ; d'une étude dans le domaine de la santé cherchant à cerner les facteurs d'une maladie (ex. : variable réponse prenant la valeur `oui' pour les sujets malades, `non' sinon) ; etc.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
3 / 142
Introduction et rappel Plusieurs outils statistiques s'orent à nous pour analyser des données discrètes. Ce cours visent à présenter les méthodes classiques et celles les plus utilisées en pratique. Ce cours a pour objectif de cerner la bonne méthode statistique à utiliser, de l'appliquer correctement en comprenant les idées mathématiques de base derrière les méthodes et de bien interpréter les résultats obtenus. Les détails de certains calculs faits à la main pour de petits jeux de données sont présentés, pour s'assurer de bien comprendre les formules. En pratique, l'ordinateur fait pour nous tous ces calculs.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
4 / 142
Introduction et rappel Avant d'entrer dans le vif du sujet, rappelons certaines notions de statistiques souvent employées dans ce cours. Données : Des données sont des valeurs numériques (des nombres)
ou alphanumériques (des chaînes de caractères) représentant les observations de certaines variables sur certains individus. Population : La population est l'ensemble de référence sur lequel
porte l'étude dans le cadre de laquelle les données ont été recueillies. Individu ou unité statistique : Un individu est un élément de la
population. L'ensemble des individus constitue la population. Chaque observation est associée à un individu. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
5 / 142
Introduction et rappel Échantillon : L'échantillon est un sous-groupe de la population,
composé des individus pour lesquels des observations ont été recueillies. Si des mesures ont été prises pour tous les individus de la population, on parle de recensement. Variable : Le terme variable désigne la représentation d'une
caractéristique des individus. Ainsi, une variable n'est pas la caractéristique elle-même, mais plutôt une mesure de cette caractéristique. Observation : Une observation est l'ensemble des valeurs obtenues en
mesurant des variables sur un individu de la population. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
6 / 142
Échantillonnage
Lorsque l'on estime des paramètres de la population à l'étude à partir des observations d'un échantillon aléatoire de cette population, on fait de l' inférence statistique . Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
7 / 142
Dénition Une variable discrète ne peut prendre qu'un nombre ni de valeurs, ou bien une innité de valeurs si ces valeurs peuvent s'écrire sous la forme d'une suite
a1 , a2 , a3 , . . ..
Ainsi une variable dont les valeurs sont 0, 1/5, 2/5, 3/5, 4/5, 1 est discrète ; il en est de même d'une variable pouvant prendre comme valeurs tous les entiers non négatifs 0, 1, 2, 3, . . .. Le résultat du lancer d'un dé est une variable discrète (valeurs 1, 2, 3, 4, 5, 6). Le nombre de personnes frappées par la méningite dans une grande ville sur une période d'une année (valeurs 0, 1, 2, 3, . . .). Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
8 / 142
Remarque
Les données numériques ne sont pas forcément des observations d'une variable numérique. C'est le cas par exemple du niveau de satisfaction représenté par un nombre de 1 à 5, ou le chire 1 représente la catégorie très insatisfait , insatisfait est représenté par le chire 2 et ainsi de suite. Il n'est pas rare que des codes numériques soient utilisés pour représenter des modalités catégoriques de variables, car ils sont plus rapides à écrire ou taper que des chaînes de caractère.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
9 / 142
Expérience avec la loi Poisson La loi de Poisson permet de modéliser le nombre de réalisations d'un événement dans un intervalle de temps et/ou d'espace. Par exemple, la loi Poisson serait une bonne candidate pour modéliser les dénombrements suivants : le nombre de clients se présentant à un guichet automatique d'une banque en une heure ; le nombre d'accidents par années à une intersection de la ville de Québec ; le nombre de centenaires dans une communauté. On appelle parfois la loi Poisson loi des évènements rares . Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
10 / 142
Expérience avec la loi Poisson La fonction de masse, aussi appelée fonction de probabilité, d'une variable aléatoire Poisson, notée
Y ∼ Poisson(λ),
P(Y = y ) =
λy exp −λ y!
est
y = 0, 1, 2, . . .
Le paramètre de la distribution est à la fois l'espérance et la variance de
Y
:
E [Y ] = Var [Y ] = λ. Aussi, il est pertinent de noter que la distribution Poisson peut être approximée par la loi normale lorsque
λ
est grand. Dans ce cas,
Poisson(λ) ∼ N(λ; λ). Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
11 / 142
Expérience avec la loi Binomiale Le contexte de la loi binomiale est le suivant : On fait une expérience qui peut prendre 2 résultats possibles : succès ou échec. On répète cette expérience de façon indépendante
n
fois, et on note
S
le
nombre de succès obtenus. Notez que chaque expérience a la même probabilité de succès On dit alors que d'essais) et
π
S
suit une loi binomiale de paramètres
n
π.
(nombre total
(probabilité d'un succès).
On note
Fadoua BADAOUI (INSEA)
S ∼ Bin(n, π).
Analyse des données discrètes
22 octobre 2017
12 / 142
Expérience avec la loi Binomiale
En résumé, les conditions pour qu'il y ait une expérience binomiale sont les suivantes :
n
essais ;
deux résultats possibles pour chaque essai : succès et échec ; toujours la même probabilité de succès indépendance entre chacun des
Fadoua BADAOUI (INSEA)
n
=π
essais ;
Analyse des données discrètes
22 octobre 2017
13 / 142
Expérience avec la loi Binomiale Exemple : opinion sur l'avortement
Les Américains sont-ils plutôt favorables ou défavorables à l'avortement ? Pour répondre à cette question, on observe un échantillon de 1223 Américains interrogés en 2010 dans le cadre de l'Enquête Sociale Générale aux États-Unis. On a posé la question suivante aux participants : Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui ne veut plus d'enfants de se faire avorter légalement ? Au total, 587 personnes ont répondu oui à cette question, et 636 personnes ont répondu non.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
14 / 142
Expérience avec la loi Binomiale Exemple : opinion sur l'avortement ... suite
Ici, les 4 conditions d'une expérience avec la loi binomiale sont respectées : n = 1223 essais "individus sondés" ; 2 résultats possibles pour chaque essai : succès = oui, échec = non ; la probabilité de succès
π
est ici la proportion dans la population des
Américains favorables à l'avortement ; on peut supposer qu'il y a indépendance entre chacun des essais puisque les individus participants à l'étude ont été sélectionnés avec un plan de sondage se rapprochant beaucoup de l'échantillonnage aléatoire simple. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
15 / 142
Expérience avec la loi Binomiale La fonction de masse de la loi binomiale s'écrit de la façon suivante :
P(S = s) =
Cns π s (1 − π)n−s ,
pour
0,
sinon
L'espérance et la variance de
S
s = 1, 2, . . . , n; .
sont :
E [S] = nπ Var [S] = nπ(1 − π)
Remarque:
observer une seule variable
variables 11 ; . . . ; 1n iid
S=
Pn
Bin(1; π),
u=1 1u , une somme de
Fadoua BADAOUI (INSEA)
n
:
Bin(n; π)
revient à observer
n
soit la loi Bernoulli(π). On a alors
variables iid
Bin(1; π).
Analyse des données discrètes
22 octobre 2017
16 / 142
Expérience avec la loi Binomiale
Notez aussi que si
np(1 − p) ≤ 10,
n → +∞(n > 30), π → 0 (p ≤ 0, 1)
alors la loi
Bin(n; π)
tels que
tend vers la loi Poisson (nπ
= λ).
En d'autres mots,
n
lim P(S = s) = → +∞, π → 0
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
λs exp −λ s!
22 octobre 2017
17 / 142
Expérience avec la loi Binomiale
Notez que l'on peut approximer la loi binomiale par la loi normale lorsque
n
est grand en utilisant le résultat du Théorème Limite Central. Dans la pratique, lorsque
n ≥ 30, np ≥ 5
et
n(1 − p) ≥ 5,
l'erreur sur les
probabilités calculées est très faible.
asympt
S −−−−→ N(nπ; nπ(1 − π))
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
18 / 142
Méthode du maximum de vraisemblance Etant donné un échantillon issu d'une loi dont la pdf est
f (x, θ),
on appelle
fonction de vraisemblance la quantité
L(x1 , . . . , xn , θ) =
Qn
i=1
f (xi ; θ).
An de bien comprendre la motivation derrière la MMV, considérons un échantillon
X1 , . . . , Xn
f (x; θ) = Pθ {X1 = x}
issu d'une loi de probabilité discrète de fdf où
θ
est un paramètre inconnu. L'idée qui est à
l'origine de cette méthode est la suivante : Si l'on observe
(x1 , . . . , xn )
c'est que la
Pθ {(X1 , . . . , Xn ) = (x1 , . . . , xn )}
doit être assez grande. On prend alors comme estimateur de
θ
celui qui
maximise cette probabilité. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
19 / 142
Méthode du maximum de vraisemblance Exemple
Soit
θ ∈]0, 1[
la probabilité de succès d'une expérience à deux issues
possibles. On répète cette expérience échantillon
x =0
x1 , . . . , xn .
On a
ou 1. L'estimateur
rapport à
θ,
n
fois de manière à obtenir un
f (x; θ) = P{X1 = x} = θx (1 − θ)1−x ,
θb de θ
avec
par la MMV est obtenu en maximisant, par
la quantité
L(x , θ) = P{(X1 , . . . , Xn ) = (x1 , . . . , xn )} =
n Y
θxi (1 − θ)1−xi
i=1
(1)
= θnx (1 − θ)n(1−x) où
x = (x1 , . . . , xn ).
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
20 / 142
Exemple (suite)
En dérivant
L(x , θ)
par rapport à
θ
on obtient
L0 (x , θ) =
dL(x , θ) = nxθnx−1 (1 − θ)n(1−x) − n(1 − x)θnx (1 − θ)n(1−x)−1 . dθ
En posant
L0 (x , θ) = 0
on obtient
θnx (1 − θ)n(1−x) et puisque 0
< θ < 1,
nx n(1 − x) − = 0, θ 1−θ
on en déduit
nx n(1 − x) − = 0, θ 1−θ ce qui donne
θ = x.
Fadoua BADAOUI (INSEA)
L'estimateur de
θ
par la MMV est alors
Analyse des données discrètes
θb = X .
22 octobre 2017
21 / 142
Tests d'hypothèses Dénition Soit
θ∈Θ
un paramètre d'une loi de probabilité et
Θ0
Θ0 ∪ Θ1 = Θ.
et
Θ1
deux
sous-ensembles disjoints de
Θ
H0 : θ ∈ Θ0
sont appelées respectivement l'hypothèse
et
H1 : θ ∈ Θ1
tels que
Les assertions
nulle et l'hypothèse alternative.
Un test d'hypothèse ou test statistique est une démarche conduisant à élaborer une règle de décision permettant de faire un choix entre les deux hypothèses statistiques
Fadoua BADAOUI (INSEA)
H0
et
H1 .
Analyse des données discrètes
22 octobre 2017
22 / 142
introduction La situation générale est celle où l'échantillon est issu d'une population dont la loi dépend d'un paramètre conclure que
θ ∈ Θ0
ou
θ ∈ Θ1 ,
θ ∈ Θ ⊂ Rd , d ∈ N,
où
Θ0 ⊂ Θ
et
et on cherche à
Θ1 ⊂ Θ
sont
complémentaires.
Dénition Les hypothèses H0
: θ ∈ Θ0
et H1
sous-ensembles complémentaires de
: θ ∈ Θ1 ,
Θ,
où
Θ0
et
Θ1
sont deux
s'appellent respectivement
l'hypothèses nulle et l'hypothèses alternative. Lorsque
Θi
est réduit à un seul élément, on dit que
simple, sinon
Hi
est une hypothèse composite (pour
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
Hi
est une hypothèse
i = 0, 1). 22 octobre 2017
23 / 142
Caractéristiques des tests d'hypothèses On utilise parfois les adjectifs suivants pour décrire les tests d'hypothèses : bilatéral ou unilatéral : Si l'hypothèse alternative
H1
comporte une
direction particulière, le test est dit unilatéral. Si au contraire l'hypothèse alternative est le complément de l'hypothèse nulle, on qualie le test de bilatéral . exact ou asymptotique : Si la distribution sous
H0
de
W,
la statistique
du test, est vraie peu importe la taille de l'échantillon, le test peut être qualié d' exact . À l'inverse, si la distribution sous
H0
de
W
utilisée
pour le test est vraie seulement lorsque la taille de l'échantillon est grande, on parlera d'un test asymptotique . Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
24 / 142
Caractéristiques des tests d'hypothèses paramétrique ou non paramétrique : Un test est paramétrique si la
distribution de la statistique de test repose sur un postulat quant à la distribution des observations. Sinon, il est non paramétrique . Dans ce cas, on doit typiquement seulement postuler l'indépendance des observations. Un test non paramétrique nécessite moins de postulats qu'un test paramétrique, ce qui représente un avantage. Cependant, les tests non paramétriques sont moins puissants que les tests paramétriques. Pour cette raison, les tests paramétriques sont souvent préférés. Cependant, pour de petits échantillons, ce sont les tests non paramétriques qui sont préférés. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
25 / 142
Types de tests d'hypothèses
Voici quatre types de tests d'hypothèses usuels. Ces types sont dénis en fonction de l'objectif des tests. Les tests de conformité Les tests d'adéquation ou d'ajustement Les tests d'homogénéité Les tests d'association.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
26 / 142
Types de tests d'hypothèses Les tests de conformité consistent à tester si un paramètre ou un vecteur de paramètres
θ
est égal à un vecteur de valeurs préétablies
exemple, si un seul paramètre
θ
θ0 .
Par
est testé, les hypothèses d'un test de
conformité sont formulées comme suit :
Si
θ
est de dimension supérieure à 1, il est compliqué de formuler une
hypothèse alternative incluant une direction. Dans ce cas, les tests bilatéraux sont plus simples.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
27 / 142
Types de tests d'hypothèses Les tests d'adéquation ou d'ajustement (en anglais goodness of t tests) permettent de tester si des observations s'ajustent bien à un certain modèle ou à une certaine distribution. Par exemple, le test F global en régression et en ANOVA teste l'ajustement du modèle, le test de Shapiro-Wilk teste l'adéquation d'observations à une loi normale. Les hypothèses d'un test d'adéquation sont typiquement formulées comme suit :
H0 H1
: le modèle s'ajuste bien aux données
: le modèle ne s'ajuste pas bien aux données
Ainsi formulé, il s'agit d'un test bilatéral. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
28 / 142
Types de tests d'hypothèses
Les tests d'homogénéité (ou de comparaison) visent à vérier si 2 échantillons ou plus proviennent d'une même population. Les tests de comparaison de moyennes en sont des exemples. Si un seul paramètre est comparé et qu'on a seulement deux échantillons, les hypothèses sont formulées ainsi :
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
29 / 142
Types de tests d'hypothèses Les tests d'association, en particulier les tests d'indépendance, servent à tester la présence d'un lien entre deux variables. Rappelons que le terme association est plus large que le terme dépendance. Un test d'association courant consiste à vérier si un coecient de corrélation ou encore un ou des paramètres d'un modèle sont nuls. Si on note
ρ
la corrélation entre
X
et
Y
, les hypothèses du test peuvent être
formulées de façon équivalente comme suit :
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
30 / 142
introduction
Dénition On appelle erreur de première espèce ou rejeter
H0
erreur de type 1 la décision de
alors qu'elle est vraie. La décision de
alors qu'elle est fausse s'appelle l'appelle
ne pas rejeter
H0
erreur de deuxième espèce ou
erreur de type 2.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
31 / 142
introduction
Le tableau ci-dessous résume la situation
H0 Rejeter
H0
Accepter
H0
Fadoua BADAOUI (INSEA)
vraie
H0
fausse
Mauvaise décision
Bonne décision
Bonne décision
Mauvaise décision
Analyse des données discrètes
22 octobre 2017
32 / 142
introduction Dénition Les probabilités des erreurs de première et deuxième espèce sont notées
• α = P{Rejeter H0 |H0
est vraie}
• β = P{Ne
H0 |H0
pas rejeter
> 0,
et
est fausse}
> 0.
Elles s'appellent respectivement risque de première espèce et risque de deuxième espèce.
La décision idéale est celle où ces deux risques seraient nuls, i.e.
α = β = 0.
Mais cela est, sauf dans des situations triviales, impossible.
Comme il est impossible de contrôler en même temps on cherche la décision pour laquelle Fadoua BADAOUI (INSEA)
β
α
et
β,
on xe
α
et
est minimum.
Analyse des données discrètes
22 octobre 2017
33 / 142
Dénition Un test d'hypothèses est une procédure, basée sur l'échantillon observé
x1 , . . . , xn ,
qui permet de déterminer un sous ensemble R de
Rn
tel que
Si
(x1 , . . . , xn ) ∈ R
alors on décide de rejeter
H0
et d'accepter
H1 ,
Si
(x1 , . . . , xn ) ∈ /R
alors on décide de rejeter
H1
et d'accepter
H0 .
et
L'ensemble R est appelé région critique ou région de rejet .
La fonction
φ(x) = IR (x),
dénie à partir de la région critique d'un test,
s'appelle la fonction test. Par abus de langage on notera par
φ
le test et sa
fonction test.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
34 / 142
Puissance de test Il est usuel de noter : Le risque de première espèce la valeur alors qu'elle est vraie) telle que :
H1
est vraie) telle que :
(la probabilité de rejeter
H0
P(X ∈ R|H0 )
Le risque de deuxième espèce la valeur alors que
α
β
(la probabilité d'accepter
H0
P(X ∈ R|H1 )
Dénition On appelle puissance d'un test la probabilité de rejeter
H0
eectivement fausse soit, dans les notations précédentes :
alors qu'elle est
P(X ∈ R|H1 )
.
La puissance, qui est la capacité à détecter qu'une hypothèse nulle est fausse, n'est rien d'autre que 1 Fadoua BADAOUI (INSEA)
− β.
Analyse des données discrètes
22 octobre 2017
35 / 142
Tests d'hypothèses
Remarque : La statistique du test
α = P{Rejeter H0 |H0
est vraie}
>0
est
la même que celle utilisée pour l'intervalle de conance. En général pour les lois discrètes il est dicile de trouver les valeurs critiques sur les tables des lois d'où le fait d'utiliser l'approximation normale dans les enquêtes dont la taille de l'échantillon est assez grande.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
36 / 142
Tests asymptotiques usuels
Soit
θ
un paramètre scalaire. On cherche à mener le test suivant sur ce
paramètre :
Nous utilisons fréquemment dans ce cours trois types de test asymptotiques usuels. Il s'agit des tests de Wald, score et du rapport de vraisemblance.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
37 / 142
Test du rapport de vraisemblance Pour le test du rapport de vraisemblance, nous allons nous ramener à un cas plus général où
θ
est un vecteur de paramètres. On cherche à tester :
H0 : θ ∈ Θ0
vs
H1 : θ ∈ Θc0
avec
(Θc0 = Θ Θ0 )
Notez que ce test possède uniquement une forme bilatérale. Le rapport de vraisemblance est déni comme suit :
Λ= Si
θb,
le MV de
θ
existe, et que
θb0
supθ∈Θ0 L(θ|x) supθ∈Θ L(θ|x) représente le MV sous l'espace
Θ0 ,
alors
le rapport de vraisemblance peut s'écrire plus simplement :
Λ= Fadoua BADAOUI (INSEA)
L(θb0 |x) b L(θ|x)
Analyse des données discrètes
22 octobre 2017
38 / 142
Test du rapport de vraisemblance Pour eectuer un test de rapport de vraisemblance, on utilise la statistique suivante :
LR = −2 ln(Λ) = −2 ln( L(θb0 |x) ) b
L(θ|x)
Sous
H0 ,
lorsque
n → ∞,
cette statistique suit une loi du khi-deux à
d
degrés de liberté (Casella et Berger, 2002) :
asympt
LR −−−−→ χ2d Le nombre de degrés de liberté d est dénie par : On rejette
H0
au seuil
Fadoua BADAOUI (INSEA)
α
ssi
d = dim Θ − dim Θ0 .
LR > χ2d Analyse des données discrètes
22 octobre 2017
39 / 142
Exemple : opinion sur l'avortement. Les Américains sont-ils plutôt favorables ou défavorables à l'avortement ? Pour répondre à cette question, on observe un échantillon de 1223 Américains interrogés. On a posé la question suivante aux participants : Pensez-vous qu'il devrait être possible pour une femme enceinte mariée qui ne veut plus d'enfants de se faire avorter légalement ? Au total, 587 personnes ont répondu oui à cette question, et 636 personnes ont répondu non. Pour déterminer si les Américains manifestent majoritairement une préférence pour ou contre l'avortement, nous pouvons tester contre
H0 : π = 0.5
H1 : π 6= 0.5.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
40 / 142
Exemple : opinion sur l'avortement. Nous avons
Bin(n, π).
s,
une observation de la variable aléatoire
La vraisemblance du paramètre
π
S,
qui suit une loi
est :
L(π|s) = Cns π s (1 − π)n−s La statistique du test de rapport de vraisemblance est : 0 |S) LR = −2 ln( L(π L(b π |S) )
où
π b
est l'estimateur du maximum de vraisemblance de
π.
Ainsi :
C s π s (1−π )n−s
0 LR = −2 ln( Cns πb0s (1−bπ0)n−s ) = −2(s ln( ππb0 ) + (n − s) ln( 11−π −b π ))
n
Sous
H0 ,
lorsque
degré de liberté :
n → ∞,
cette statistique suit une loi du khi-deux à 1
asympt
LR −−−−→ χ21
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
41 / 142
Exemple : opinion sur l'avortement. La valeur observée de
S
est ici
favorables à l'avortement
π
s = 587.
La proportion d'Américains
est donc estimée par
π b = 587/1223 = 0.48.
Eectuons maintenant le test du maximum de vraisemblance pour illustrer son fonctionnement. La valeur observée de la statistique de test est
5 0.5 ) + (1223 − 587) ln( 11−−00..48 ) = 1.9637 lr = −2(587 ln( 048 Le seuil observé du test (p-value) est
P(χ21 > 1.963730811) = 0.1611149 Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
42 / 142
Test de Wald
H 0 : θ = θ0
contre
H1 : θ 6= θ0
Le test de Wald compare l'écart entre le coecient théorique
θ0
valeur estimée par l'estimateur du maximum de vraisemblance
θb,
et sa sous
l'hypothèse que la diérence est distribuée approximativement selon une loi de Gauss. En pratique le carré de la diérence est comparé à un seuil de la loi du chi2. Dans le cas univarié, la statistique de Wald est
b 0 )2 (θ−θ b var (θ)
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
43 / 142
Test de Wald Si on compare la diérence à un quantile de la loi de Gauss, la statistique de test est
b 0 θ−θ b Se(θ) où
b Se(θ)
est l'écart-type de l'estimateur du maximum de vraisemblance.
Un estimateur raisonnable de cet écart-type est donné par
√
1 In (MLE )
, où In
est l'information de Fisher du paramètre. Dans le cas univarié, un test sur plusieurs paramètres simultanément est réalisé en utilisant une matrice de variance. Par exemple, on utilise ce test pour une variable catégorielle recodée en plusieurs variables dichotomiques. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
44 / 142
Exemple (Suite) : opinion sur l'avortement. Test de Wald sur une proportion Le test de Wald se base sur la statistique suivante :
Zw =
b−π0 qπ
π b(1−π b) n
asympt
−−−−→ N(0; 1)
On voit que la variance de l'estimateur est estimée dans
Zw .
La valeur observée de la statistique du test de Wald est :
zw = On a
q 0.48−0.5
0.48(1−0.48) 1223
= −1.459625.
(1.459625)2 < χ21,0.05 = 3.84.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
45 / 142
Exemple (Suite) : opinion sur l'avortement.
Le seuil observé du test bilatéral est le suivant :
2P(N(0, 1)
> | − 1.459625|) = 0.1443932.
Ce seuil observé étant supérieur au seuil théorique de 5%, on ne peut pas rejeter l'hypothèse selon laquelle les Américains sont divisés sur la question de l'avortement.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
46 / 142
Test score Les tests score (en anglais score tests), aussi appelés tests du multiplicateur de Lagrange , sont dus au statisticien C.R. Rao. Ils se basent sur la statistique de test suivante :
asympt
S(θ0 ) √ −−−−→ N(0, 1) I (θ0 )
où
S(θ) =
I (θ0 )
∂ ∂θ
ln L(θ|x)
est la fonction score calculée au point
est la matrice d'information espérée (ici de dimension 1
au point
θ = θ0 .
θ = θ0 × 1)
et
calculée
Ce test comporte moins d'approximation que le test de
Wald puisque l'erreur-type se trouvant au dénominateur n'est pas estimée.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
47 / 142
Exemple (Suite) : opinion sur l'avortement. on a
∂ ln L(π|x) ∂π ∂ (ln(Cns ) + ln(π s ) + ln((1 − π)n−s ) = ∂π s n−s = − π 1−π s − nπ n(b π − π) = = avec π b = ns π(1 − π) π(1 − π)
S(π) =
(2)
Donc
S(π0 ) √ = I (π0 )
n(π b−π0 )
√π0 (1−π0 )
π0 (1−π0 ) n
asympt
−−−−→ N(0, 1)
ou encore
(S(π0 ))2 I (π0 ) Fadoua BADAOUI (INSEA)
=
n(b π −π0 )2 asympt π0 (1−π0 ) −−−−→
Analyse des données discrètes
χ21 22 octobre 2017
48 / 142
Exemple (Suite) : opinion sur l'avortement. La valeur observée de la statistique de test pour le test score est :
zw =
q0.48−0.5
0.5(1−0.5) 1223
= −1.401144.
Le seuil observé du test bilatéral est le suivant : 2P(N(0, 1)
> | − 1.459625|) = 0.1443932.
Le seuil observé du test unilatéral est le suivant :
P(N(0; 1) < −1.401144) = 0.08058547 > 5% On ne peut donc pas conclure que les Américains sont, en 2010, majoritairement contre l'avortement. On voit ici que le test unilatéral est plus puissant que le test bilatéral. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
49 / 142
Remarques :
Les seuils observés dièrent un peu entre les tests score et de Wald, mais l'inférence statistique est la même. Le test du rapport de vraisemblance aboutit à la même conclusion que le test score. Les seuils observés pour les 2 tests bilatéraux sont pratiquement égaux.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
50 / 142
Chap 2 :Tables de contingence.
Pour représenter les observations d'une variable catégorique, le principal outil est un tableau de fréquences, aussi appelé tableau de contingence. Ce tableau peut présenter une seule variable ou en croiser plusieurs. Ce cours présente plusieurs tests et mesures associés à des tableaux de fréquences à une, deux ou trois variables.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
51 / 142
À quoi servent ces outils statistiques ? Les outils statistiques présentés dans ce cours permettent de répondre à une question de recherche du type : Quel est le lien entre les caractéristiques A et B des individus de la population à l'étude ? Par exemple : Quel est le lien entre la couleur des cheveux et la couleur des yeux ? Est-ce que le niveau de scolarité est associé à la classe de revenu d'un individu ? Si oui, cette association est-elle positive ou négative ? Est-ce que le sexe d'une personne a une inuence sur son risque de développer un cancer du poumon ? Si oui, de quelle façon ? En termes statistiques, la question de recherche se traduit comme ceci : Quel est le lien entre les variables X et Y ? en supposant que X représente la caractéristique A et Y la caractéristique B. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
52 / 142
Tableau de fréquences univariées et loi multinomiale
Avant de présenter des méthodes qui permettent d'étudier le lien entre deux variables, voyons comment étudier une seule variable catégorique. Dans cette section, nous présenterons des outils permettant de répondre à la question de recherche suivante : Quel est le portrait de la caractéristique A dans la population à l'étude ? La reformulation statistique de cette question est la suivante : De quoi ont l'air les observations de la variable Y ? en supposant que la variable Y représente la caractéristique A.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
53 / 142
La loi multinomiale Le contexte de la loi multinomiale est le suivant. On fait une expérience qui peut prendre
r
résultats possibles
(m1Y , . . . , mrY ).
expérience de façon indépendante résultats
mjY
obtenus
n
(j = 1, . . . , r ).
l'échantillon découlant de ces
n
On répète cette
fois, et on note
Nj
le nombre de
En fait, on pourrait noter
expériences (souvent
n
Y1
à
Yn
individus sondés).
Valeur de Y
m1
Y
...
mj
Y
...
mr
Y
Fréquence
N1
...
Nj
...
Nr
On vient ainsi de créer un tableau de fréquences à une variable. Les fréquences sont ici représentées par des Fadoua BADAOUI (INSEA)
Nj .
Analyse des données discrètes
22 octobre 2017
54 / 142
La loi multinomiale Une réalisation des variables aléatoires notée
(N1 , . . . , Nr )
sera dans cette section
(n1 , . . . , nr ).
Pour chaque expérience,
πj
mjY : πj = P(Y = mjY ).
Ce contexte est similaire à celui pour une
représente la probabilité d'obtenir le résultat
distribution binomiale, à la diérence que le nombre d'issues possibles à l'expérience peut être supérieur à 2. On dit que le vecteur
N = (N1 , . . . , Nr ) d'essais) et
suit une loi multinomiale de paramètres
(π1 , . . . , πr )
n
(nombre total
(probabilités des résultats de chacun des types).
On a bien sûr les 2 contraintes suivantes :
N1 + . . . + Nr = n Fadoua BADAOUI (INSEA)
et
π1 + . . . + πr = 1
Analyse des données discrètes
22 octobre 2017
55 / 142
La loi multinomiale En raison de la première contrainte, les
Nj
ne sont pas des variables
indépendantes. On note
N ∼ Multinomiale(n; π1 , . . . , πr ). De façon marginale, on a
Nj ∼ Bin(n, πj ) pour
j = 1, . . . , r .
avec le vecteur
Notez que lorsque
N = (N1 , N2 )
r = 2,
il devient inutile de travailler
étant donné que la valeur d'une variable peut
être déduite de l'autre variable
(N1 = n − N2 ).
On dénit plutôt une des
deux modalités comme étant un succès (disons la modalité 1) et on travaille avec
N1 ∼ Bin(n; π1 ).
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
56 / 142
La loi multinomiale La fonction de masse de la loi multinomiale s'écrit de la façon suivante :
P(N1 = n1 , . . . , Nr = nr ) = pour
n1 n! n1 !,...,nr ! π1
(N1 , . . . , Nr ) ∈ Nr : n1 + . . . + nr = n,
naturels (entiers non négatifs) de dimension vaut
n.
. . . πrnr
soit l'ensemble des nombres
r,
tel que la somme des
L'espérance et la matrice de variance-covariance de
E [Nj ] = nπj
pour
Var [Nj ] = nπj (1 − πj ) 0
sont :
j = 1, . . . , r pour
Cov (Nj ; Nj ) = −nπj πj 0 Fadoua BADAOUI (INSEA)
N
nj
j = 1, . . . , r
pour
Analyse des données discrètes
j 6= j
0
22 octobre 2017
57 / 142
La loi multinomiale On veut répartir
Pr
i=1 ni
n
objets dans
r
groupes
E1 , . . . , Er ,
avec
card(Ei ) = ni
et
= n.
Question : Quel est le nombre de répartitions possibles ? Etape 1 : Catégorie
E1 ;
choix de
n1
parmi
n (Cnn1 )
Etape 2 : Catégorie
E2 ;
choix de
n2
parmi
n2 n − n1 (Cn−n ) 1
. . . Etape r : Catégorie
Er ;
choix de
nr
parmi
n − n1 − n2 − . . . − nr −1 (Cnnrr )
Le nombre de répartition possibles
n2 Cnn1 Cn−n . . . Cnnrr = 1 Fadoua BADAOUI (INSEA)
n! n1 !n2 !...nr !
Analyse des données discrètes
22 octobre 2017
58 / 142
La loi multinomiale
Cas particulier: r = 2,
où
n = n1 + n2
et
π1 + π2 = 1 n! π n1 π n2 n1 !n2 ! 1 2 n! = π n1 (1 − π1 )n−n1 n1 !(n − n1 )! 1
P(N1 = n1 , N2 = n2 ) =
N1 ∼ Bin(n1 ; π1 ).
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
59 / 142
La loi multinomiale
300 personnes ont été choisi au hasard. On a la répartition suivante selon la couleur des yeux. Ei
Bleus
Verts
Maron
Noirs
Ni
48
35
122
95
N = (N1 , N2 , N3 , N4 ) ∼ Multinomiale(300; π1 , π2 , π3 , π4 ). P(N1 = n1 , N2 = n2 , N3 = n3 , N4 = n4 ) =
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
n1 n2 n3 s4 n! n1 !n2 !n3 !n4 ! π1 π2 π3 π4
22 octobre 2017
60 / 142
Regroupement
Exemple : reprenons l'exemple de la couleur des yeux.
E1∗ = E1 ∪ E2
(yeux clair) ;
∗
clairs
Foncés
∗
83
217
Ei
Nj
∗
∗
(N1 , N2 )
Fadoua BADAOUI (INSEA)
E2∗ = E3 ∪ E4
(yeux foncés)
∼ M(300; π1∗ , π2∗ )
Analyse des données discrètes
22 octobre 2017
61 / 142
Regroupement Cas général : Soient avec
E1 , . . . , E r
et
E1∗ , . . . , Es∗
s ≤ r , Ej∗ = ∪i∈Ij Ei
deux systèmes complets de catégories.
et I1 , . . . , Is est une répartition de 1, . . . , r .
On a bien sûr les 2 contraintes suivantes :
P πj∗ = P(X ∈ Ij∗ ) = i∈Ij πi P Nj∗ = i∈Ij Ni (N1∗ , . . . , Ns∗ ) ∼ M(n; π1∗ , . . . , π2∗ )
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
62 / 142
Relation de la loi multinomiale avec la loi de poisson
Thèorème :
Soient
N1 , N2 , . . . , Nr ,
de Poisson
r variables aléatoires discrétes indépendantes de loi
Ni ∼ P(mi ), N =
Pr
i=1 Ni , alors la distribution de
(N1 , N2 , . . . , Nr /N = n) ∼ M(n, π1 , π2 , . . . , πr )
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
avec
πi =
Prmi
i=1
mi
22 octobre 2017
63 / 142
Démonstration : P(Ni = ni ) = N ∼ P(m) Notons
et
m=
(mi )ni exp(−ni ) avec ni !
N=
Pr
i=1 Ni ,
Pr
i=1 mi
A = (N1 = n1 , . . . , Nr = nr )
et
B = (N = n),
on a
A⊂B
Calculons
P(N1 = n1 , . . . , Nr = nr , N = n) P(N = n) P(N1 = n1 , . . . , Nr = nr ) = P(N = n) Qr mini exp(−mi ) Qr P(N = n ) i=1 i i ni ! = i=1 = mn exp(−m) P(N = n)
P(N1 = n1 , . . . , Nr = nr /N = n) =
n!
r Y mi n! = [ ( )ni ] Qr m i=1 ni ! i=1
r
=
Y mi n! ( )ni ∼ M(n, π1 , . . . , πr ) n1 ! . . . nr ! m i=1
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
64 / 142
Test d'hypothèses sur la valeur de π = (π1 , . . . , πr )
On cherche à tester ici les hypothèses suivantes.
H0 : π = π0
ou
(π1 , . . . , πr ) = (π0,1 , . . . , π0,r )
H1 : π 6= π0
ou
(π1 , . . . , πr ) 6= (π0,1 , . . . , π0,r )
Il s'agit d'un test bilatéral multivarié. Nous allons tester ces hypothèses avec un test de rapport de vraisemblance et un test qui reviendra à de multiples reprises dans ce cours : le test du khi-deux de Pearson
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
65 / 142
Test de rapport de vraisemblance sur la valeur de π Nous avons
N = (N1 , . . . , Nr ),
qui suit une loi
une observation de la variable aléatoire
Multinomiale(n, π). L(π|N) =
La vraisemblance de paramètre
n1 n! n1 !...nr ! π1
π
N,
est
. . . πrnr
Le logarithme de cette valeur est :
ln(L(π|N)) = ln( n1n! ...nr ) +
Pr
j=1 nj
ln(πj )
La statistique du test du rapport des vraisemblances est donc :
LR = −2(ln L(π0 |N) − ln L(b π |N)) P Pr r n! n! =-2(ln( πj ) j=1 nj ln(π0,j ) − ln( n1 !...nr ! ) − j=1 nj ln(b n1 !...nr ! ) + Pr asympt π0,j 2 2 =-2 j=1 nj ln( π bj ) −−−−→ χα,r −1 . On rejette H0 ssi LR > χα,r −1 Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
66 / 142
Test du khi-deux de Pearson sur la valeur de π
Dans le contexte d'un test sur les paramètres d'une loi multinomiale, Pearson a proposé d'utiliser la statistique suivante :
U=
Pr
j=1
(Nj −nπ0,j )2 asympt −−−−→ nπ0,j
Il a prouvé que sous l'hypothèse nulle
χ2r −1
H0 : (π1 , . . . , πr ) = (π0,1 , . . . , π0,r ),
cette statistique suit asymptotiquement une loi du khi-deux à
r −1
degrés
de liberté, tout comme la statistique du test de rapport de vraisemblance.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
67 / 142
Démonstration : On peut justier ce résultat de façon simple en considérant qu'une loi binomiale peut être approximée par une loi Poisson sous certaines conditions, d'où
Nj ∼ P(λj )
avec
λj = E [Nj ] = nπ0,j
On sait que pour de grandes valeurs de
(Nj −λj ) = Zj = √ λj
j = 1, . . . , r .
, on peut supposer que
(Nj −nπ0,j ) √ suit une loi normale centrée réduite. nπ0,j
Supposons pour l'instant que les la somme des
λj
pour
Zj2 = U
liberté. En réalité, les
r
v.a. sont indépendantes. On aurait donc
suit une loi asymptotique khi-deux à
r
r
degrés de
v. a. ne sont pas indépendantes puisqu'elles sont
soumises à la contrainte
Pr
j=1 Nj
= n.
On perd un degré de liberté à cause
de cette contrainte, qui représente la conversion de la loi Poisson à la loi multinomiale.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
68 / 142
Exemple :
Le journal La Presse publiait, le 31 octobre 2007, un article de Denis Lessard présentant les résultats d'un sondage sur les intentions de vote des Québécois. À l'époque, les trois principaux partis se partageant les intentions de vote étaient le Parti Québécois (PQ), le Parti libéral du Québec (PLQ) et l'Action démocratique du Québec (ADQ). Considérons ici uniquement ces partis. Les intentions de vote se répartissaient ainsi :
Parti politique
PQ
PLQ
ADQ
total
Fréquence observée
264
264
238
66
Tester si les votes sont vraiment répartis uniformément entre les partis politiques :
H0 : (π1 ; π2 ; π3 ) = (1/3; 1/3; 1/3) Fadoua BADAOUI (INSEA)
vs
H1 : (π1 ; π2 ; π3 ) 6= (1/3; 1/3; 1/3).
Analyse des données discrètes
22 octobre 2017
69 / 142
Exemple (Suite)
La statistique du test de rapport de vraisemblance prend la valeur suivante :
3 + 238 ln( 2381//3766 )) = 1.786 LRobs = −2(2 × 264 ln( 2641//766 Le seuil observé de ce test est donc
P(χ22 ≥ 1.786) = 0.40942.
Cette valeur est nettement plus grande que 0.05, on conclut donc au non-rejet de
H0 .
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
70 / 142
Exemple (Suite)
La statistique du test du khi-deux de Pearson prend quant à elle la valeur suivante :
Uobs = 2 ×
(264−(733/3)) 733/3
Le seuil observé de ce test est donc
+
238−(733/3) 733/3
= 1.765
P(χ22 ≥ 1.765) = 0.41375.
Cette valeur est aussi nettement plus grande que 0.05. Les deux tests nous mènent donc à la conclusion que les votes sont réellement répartis de façon uniforme entre les partis politiques.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
71 / 142
Chap 3 : Tableaux de fréquences à deux variables Pour étudier le lien entre deux variables, il est bon de procéder en suivant les étapes suivantes : 1
Visualiser les données : avec un tableau de fréquences à deux
variables et/ou des graphiques. 2
Tester l'association entre X et Y : on veut déterminer s'il existe un
lien entre les variables, on choisira le meilleur test en fonction du caractère nominal ou ordinal des variables, de la taille de l'échantillon et du nombre de modalités des variables. 3
Si elle est présente, décrire l'association : avec diérentes
statistiques et mesures d'association. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
72 / 142
Dénitions et outils descriptifs Le contexte traité dans ce chapitre est celui où l'on étudie deux variables catégoriques notées
X
et
mY1 , . . . , mYJ
X
et
Y
. Soit
mX1 , . . . , mXI
les modalités de
Y.
les modalités de la variable
On possède un échantillon de
n
observations indépendantes de ces deux variables. À partir de cet échantillon, on calcule un certain nombre de fréquences, que l'on représente dans un tableau comme suit :
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
73 / 142
Exemple d'emplacement de variables Dans le cadre de l'Enquête Sociale Générale aux États-Unis,
n = 980
personnes ont été interrogées à propos de leurs intentions de vote. L'enquête a aussi permis d'identier le sexe des votons. On a donc deux variables catégoriques nominales : Femme , et Démocrate ,
mX2 =
mY2
X
mX1 =
= le sexe d'une personne, soit
Homme et
Y =
= Indépendant ou
le parti politique, soit
mY3
mY1
=
= Républicain .
Si une des deux variables inuence l'autre ici, c'est certainement le sexe qui inuence les intentions de vote, et non l'inverse. Ainsi, on dirait que la variable réponse est
Y,
et la variable explicative est
X.
donc placée en lignes dans le tableau de fréquences, et Fadoua BADAOUI (INSEA)
Analyse des données discrètes
La variable
Y
X
sera
en colonnes.
22 octobre 2017
74 / 142
Fréquences croisées Pour
i = 1, . . . , I
j = 1, . . . , J ,
et
la fréquence
nij
est le nombre total
d'observations dans l'échantillon pour lesquelles la valeur de la valeur de
Y
est
mYj
simultanément. Les
nij
n
est
n=
PI
i=1
est le nombre total d'observations dans l'échantillon. Ainsi,
même chose que
n.
Les
ni. =
PJ
j=1 nij et
mXi
et
sont ce que l'on appelle les
fréquences croisées. On a toujours la relation suivante : où
X
n.j =
PJ
n..
j=1 nij
est la
PI
i=1 nij représentent les
fréquences marginales.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
75 / 142
Fréquences conditionnelles
Les fréquences des modalités d'une variable en xant l'autre variable à une certaine modalité sont appelées fréquences conditionnelles. Par exemple, les fréquences de
X
sachant que
Y =2
sont
n12
à
nI 2 .
Exemple :
Les fréquences des modalités des intentions de vote rapport au fait d'être une femme sont
Y
en conditionnant par
(n11 = 279; n12 = 73; n13 = 225),
soit la première ligne du tableau de fréquences croisées.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
76 / 142
Fréquences relatives Les fréquences relatives croisées sont dénies par fij
i = 1, . . . , I
et
j = 1, . . . , J .
La somme de ces
I ×J
= nij /n
fréquences vaut 1.
Les fréquences relatives marginales se calculent par fi.
f.j = n.j /n.
La somme des
I
pour
= ni. /n
et
fréquences relatives de la marge verticale
vaut 1, tout comme la somme des
J
fréquences relatives de la marge
horizontale. les fréquences relatives conditionnelles de dénies par fi|j
= nij /n.j
pour une valeur de
les fréquences relatives conditionnelles de dénies par fj|i
= nij /ni.
Fadoua BADAOUI (INSEA)
X
Y
pour une valeur de
Analyse des données discrètes
par rapport à
j
sont
xe. De façon similaire,
par rapport à
i
Y
X
sont
xe. 22 octobre 2017
77 / 142
Exemple de fréquences relatives :
Les fréquences relatives croisées (fij pour marginales (fi. pour
i = 1, 2
et f.j pour
i = 1, 2
et
j = 1, 2, 3)
j = 1, 2, 3)
et
sont les suivantes :
La somme de toutes les fréquences relatives croisées vaut 1 et la somme des fréquences relatives dans chacune des marges vaut aussi 1.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
78 / 142
Exemple de fréquences relatives : Les fréquences relatives conditionnelles à la valeur de
X,
le sexe, sont les
suivantes :
La fréquence relative f1|i=1 nous dit, par exemple, que 48.35% des femmes de l'échantillon ont l'intention de voter démocrate. Ici, les fréquences relatives de chaque ligne somment à 1, car ces fréquences sont calculées en divisant les fréquences croisées par les fréquences dans la marge verticale. Cette marge est celle de la variable Fadoua BADAOUI (INSEA)
X.
Analyse des données discrètes
22 octobre 2017
79 / 142
Exemple de fréquences relatives : Les fréquences relatives conditionnelles à la valeur de Y , les intentions de vote, sont les suivantes :
Ici, les fréquences relatives de chaque colonne somment à 1, car ces fréquences sont calculées en divisant les fréquences croisées par les fréquences dans la marge horizontale. Cette marge est celle de la variable Y.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
80 / 142
Probabilités d'intérêt Les probabilités en lien avec un tableau de fréquences à deux variables
Y
sont les suivantes, pour
i = 1, . . . , I
Probabilités conjointes
et
j = 1, . . . , J
X
et
:
:
πij = P(X = miX , Y = mjY )
Probabilités marginaless
:
πi. = P(X = miX ) ; π.j = P(Y = mjY )
Probabilités conditionnelles
:
πi|j = P(X = miX |Y = mjY ) ; πj|i = P(Y = mjY |X = miX ) Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
81 / 142
Estimation des probabilités d'intérêt Les
πij
sont facilement estimables si les données proviennent d'un
échantillonnage multinomial simple. Dans ce cas, le vecteur de toutes les fréquences du tableau suit une loi multinomiale :
Probabilités conjointes
:
π bij =
Probabilités marginales
nij n
:
π bi. =
ni. n ;
Probabilités conditionnelles π bi|j = Fadoua BADAOUI (INSEA)
[nij ] ∼ M(n, [πij ])
π b.j =
n.j n
:
nij n. j ;
π bj|i =
nij ni .
Analyse des données discrètes
22 octobre 2017
82 / 142
Tests d'association entre deux variables nominales La question principale d'intérêt lorsque l'on étudie conjointement 2 variables nominales
X
et
Y
est de savoir si
X
et
Y
sont associées.
De façon générale, on dira qu'il y a un lien ou une association entre deux variables si modier la valeur d'une variable aecte la valeur de l'autre variable. Le terme association est plutôt général. Pour des variables catégoriques, si la fonction de densité d'une variable varie conditionnellement à la valeur de l'autre variable, on peut dire que la valeur d'une variable inuence la valeur de l'autre variable. Elles seraient donc associées.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
83 / 142
Test d'indépendance et test d'homogénéité
Selon le mode d'échantillonnage, cette association entre X et Y est représentée par diérentes hypothèses.
Échantillonnage multinomial simple :
On suppose que les totaux
des lignes et colonnes du tableau de fréquences croisant pas xés d'avance. Seul le total
n
X
et
Y
est xé ici. On veut tester si
X
ne sont et
Y
sont
indépendantes.
=⇒
Ce type d'hypothèses requiert un
Fadoua BADAOUI (INSEA)
test d'indépendance.
Analyse des données discrètes
22 octobre 2017
84 / 142
Exemple Lors d'une étude, 32574 femmes enceintes ont été suivies pendant leur grossesse. Par un questionnaire, leur consommation d'alcool pendant le premier trimestre de leur grossesse a été évaluée. Après la naissance des enfants, des médecins ont vérié si ceux-ci présentaient des malformations.
Question : Les mères qui consomment de l'alcool durant la grossesse augmentent-elles le risque de malformations de leurs enfants ?
Variable réponse Y : présence de malformations chez l'enfant à la naissance. Variable explicative X :
nombre moyen de verres d'alcool consommés par
jour par la mère.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
85 / 142
Exemple Les observations recueillies sont les suivantes :
Pour répondre à la question, on pourrait d'abord tester l'association entre les variables. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
86 / 142
Test d'indépendance et test d'homogénéité
Échantillonnage multinomial multiple :
Supposons que
l'échantillonnage multiple a été eectué en stratiant selon la valeur de la variable
X.
On considère donc que chaque valeur de
X
correspond à une
sous-population, c'est-à-dire que les totaux des rangées (les On veut tester si la distribution des valeurs de dans chacune des
=⇒
I
sous-populations de
est la même (
sont xes.
homogène )
X.
Ce type d'hypothèses requiert un
Fadoua BADAOUI (INSEA)
Y
ni.)
test d'homogénéité.
Analyse des données discrètes
22 octobre 2017
87 / 142
Exemple Une étude à propos de la relation entre la prise quotidienne d'aspirine et l'infarctus du myocarde a été menée à l'école de médecine de l'Université Harvard. Au total, 22071 médecins américains ont participé à l'étude, d'une durée de 5 ans. Les participants ont été attribués de façon aléatoire, en nombres presque égaux, à l'un des deux groupes d'exposition au facteur de risque : ceux qui prennent de l'aspirine quotidiennement et ceux qui n'en prennent pas. Pendant l'étude, tous les médecins devaient prendre une pilule par jour sans savoir s'il s'agissait d'une aspirine ou d'un placebo. On a observé si les participants ont été victimes ou non d'un infarctus pendant l'étude. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
88 / 142
Exemple Voici les résultats obtenus :
Ici, la variable explicative variable réponse
Y
X
est la prise quotidienne d'aspirine ou non. La
est la survenue ou non d'un infarctus. L'échantillonnage
est multiple, avec des sous-populations formées conditionnellement à la variable explicative
X.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
89 / 142
Dénition des concepts d'indépendance et d'homogénéité En termes statistiques, dire que les variables aléatoires discrètes
X
et
Y
sont indépendantes signie que :
πij = πi. × π.j L'homogénéité des
I
pour tous
i = 1, . . . , I
sous-populations de
masse conditionnelles de
Y
sachant
X
X
et
j = 1, . . . , J .
signie que les
I
fonctions de
sont toutes égales. Ainsi,
l'homogénéité des populations signie que :
(π1|i=1 ; π2|i=1 , . . . , πJ|i=1 ) = . . . = (π1|i=I ; π2|i=I , . . . , πJ|i=I ). Cette dénition correspond à :
πj|i = πj|i 0
pour toute paire
Fadoua BADAOUI (INSEA)
´ = 1, . . . , I (i, i)
et pour tout
Analyse des données discrètes
j = 1, . . . , J . 22 octobre 2017
90 / 142
Lien entre les concepts d'indépendance et d'homogénéité Les concepts d'indép. et d'homog. sont en fait équivalents, on a que :
indépendance ⇒ homogénéité
:
Par dénition des probabilités conditionnelles, on a que :
P(X = miX ; Y = mjY ) = P(Y = mjY |X = miX )P(X = miX ) Si
X
et
Y
:
sont indépendantes, on a donc :
P(Y = mjY |X = miX )P(X = miX ) = P(Y = mjY )P(X = miX ) P(Y = mjY |X = miX ) = P(Y = mjY ) Si les probabilités conditionnelles sont toutes égales aux probabilités marginales, alors elles sont toutes égales entre elles. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
91 / 142
homogénéité ⇒ indépendance
:
Par la loi des probabilités totales, on a :
P(Y = mjY ) = Sous l'hypothèse que les homogènes, tous les
PI
i=1 P(Y
I
= mjY |X = miX )P(X = miX )
sous-populations formées par
P(Y = mjY |X = miX )
P(Y = mjY |Xquelconque)
X
sont
sont égaux. Notons
la valeur commune de ces probabilités
conditionnelles. On a donc maintenant :
P(Y =
mjY )
=
I X
P(Y = mjY |Xquelconque)P(X = miX )
i=1
= P(Y = mjY |Xquelconque)
I X
P(X = miX )
i=1
= P(Y = Fadoua BADAOUI (INSEA)
mjY |Xquelconque)
Analyse des données discrètes
22 octobre 2017
92 / 142
Lien entre les concepts d'indépendance et d'homogénéité
Remarque :
Ainsi, si les vecteurs de probabilités conditionnelles sont tous égaux entre eux, ils sont forcément égaux au vecteur de probabilités marginales de En conséquence,
i = 1, . . . , I
et
P(Y = mjY |X = miX ) = P(Y = mjY )
j = 1, . . . , J ,
ce qui signie que
X
et
Y
Y.
pour tous sont indépendants.
Mathématiquement, il s'agit donc du même concept. On utilisera les mêmes statistiques de test pour eectuer ces deux types de test,
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
93 / 142
Formulation des hypothèses des tests
Test d'indépendance :
H0 : X
et
Y
sont indépendants ou
πij = πi. π.j ∀i, j H1 : X
et
Y
πij 6= πi. π.j
Fadoua BADAOUI (INSEA)
ne sont pas indépendants ou
pour au moins un couple
Analyse des données discrètes
(i, j)
22 octobre 2017
94 / 142
Formulation des hypothèses des tests Test d'homogénéité de sous-populations :
H0
I
: Dans les
Y
sous-populations déterminées par
X;
suit la même distribution ou 0
πj|i = πj|i 0 ∀i 6= i , j
ou
πj|i = π.j ∀i, j H1 : Y
ne suit pas la même distribution
dans les I sous-populations déterminées par X ou
πj|i 6= πj|i 0
pour au moins un couple
πj|i 6= π.j Fadoua BADAOUI (INSEA)
pour au moins un couple
Analyse des données discrètes
0
(i, i )
ou
(i, j) 22 octobre 2017
95 / 142
Construction des statistiques de test Pour eectuer ces tests, nous allons utiliser les statistiques a
I ×J
classes, les fréquences observées sont notées
espérées sous l'hypothèse nulle
H0
nij
LR
et
U.
Ici, on
et les fréquences
ebij
doivent être estimées et sont notées
.
Les statistiques sont donc maintenant notées comme suit : Statistique du khi-deux de Pearson :
U=
PI
i=1
PJ
j=1
(nij −b eij )2 ebij
Statistique du rapport de vraisemblance :
LR = 2
PI
i=1
PJ
j=1 nij
n
ln( ebijij )
Ces statistiques suivent, lorsque les fréquences du tableau sont grandes, une loi du khi-deux. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
96 / 142
Construction des statistiques de test Rappelons que le nbre de ddl de cette khi-deux, notés
d,
sont dénis par :
d = dim de l'espace des paramètres - dim de l'espace des paramètres ss H0 ; Test d'indépendance :
Ici, on est dans le cas d'un échantillonnage multinomial simple, donc les paramètres sont les probabilités paramètres est égale
π.j .
IJ − 1.
πij .
La dimension de l'espace des
Les paramètres libres sous
H0
sont les
πi.
et les
I + J . Cependant, elles doivent PJ j=1 π.j . On se retrouve donc avec
Ces paramètres sont au nombre de
respecter les contraintes
I +J −2
PI
i=1 πi. et
paramètres libres sous
H0 .
Ainsi,
d = (IJ − 1) − (I + J − 2) = IJ − I − J + 1 = (I − 1)(J − 1) Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
97 / 142
Construction des statistiques de test Test d'homogénéité de sous-populations :
Ici, à cause de l'échantillonnage multinomial multiple, les vecteurs
(ni 1 , . . . , niJ )
sont considérés indépendants et suivent une distribution
M(ni ; π1|i , . . . , πJ|i ).
La dimension de l'espace des paramètres est égale au
nombre total de probabilités
(π1|i , . . . , πJ|i ) vaille 1. Sous
πj|i
moins
I
parce que chacun de vecteurs
est soumis à la contrainte que la somme de ses éléments
H0 ,
tous les vecteurs
probabilités marginales
(π1|i , . . . , πJ|i )
(π.1 , . . . , π.J ),
sont égaux aux
aussi soumises à la meme contrainte.
La dimension de l'espace des paramètres sous
H0
est donc
J − 1.
Ainsi,
d = (IJ − I ) − (J − 1) = I (J − 1) − (J − 1) = (I − 1)(J − 1). Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
98 / 142
Construction des statistiques de test
Voyons maintenant comment estimer les fréquences espérées sous l'hypothèse nulle formulée. Test d'indépendance :
eij = nπij = nπi. π.j
par indépendance sous
H0
On estime donc les fréquences espérées par :
ebij = nb πi. π b.j = n( nni. )(
Fadoua BADAOUI (INSEA)
n.j n )
=
Analyse des données discrètes
ni. n.j n
22 octobre 2017
99 / 142
Construction des statistiques de test
Test d'homogénéité de sous-populations :
eij = ni πi|j =
ni π.j
où
ni
est xe à cause de l'échantillonnage multiple
par homogénéité des sous-populations sous
H0
On estime donc les fréquences espérées par :
ebij = ni π b.j = ni (
Fadoua BADAOUI (INSEA)
n.j n )
=
Analyse des données discrètes
ni n.j n
22 octobre 2017
100 / 142
Construction des statistiques de test On notera les statistiques de test, peu importe que l'on mène un test d'indépendance ou d'homogénéité des populations, par :
U=
PI
i=1
LR = 2 Les statistiques
χ2(I −1)(J−1) .
U
et
LR
PI
PJ
j=1
i=1
PJ
(nij −ni. n.j /n)2 ni. n.j /n
j=1 nij
n
ln( ni. n.jij /n )
suivent asymptotiquement une distribution
Ainsi, au seuil
α , H0
est rejetée si les valeurs observées de ces
statistiques sont grandes, c'est-à-dire si
Uobs > χ2α,(I −1)(J−1)
ou
LRobs > χ2α,(I −1)(J−1) . Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
101 / 142
Remarques :
On a présenté deux types de test d'association, on a cependant constaté que le test d'indépendance (motivé par l'échantillonnage multinomial simple) et le test d'homogénéité (motivé par l'échantillonnage multinomial multiple) sont, à un détail près, mathématiquement équivalents. Il est intéressant de formuler le test d'association en terme d'homogénéité de populations lorsque l'on soupçonne un lien de causalité entre les variables. Dans ce cas, on tend intuitivement à étiqueter l'une des variables comme étant explicative et l'autre comme étant une variable réponse.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
102 / 142
Exemple de test d'association
on s'interesse au nombre d'enfants (S) issus d'un pére en fonction du nombre de frères et soeurs (R) qu'il y a dans la famille. Peut-on dire que R et S sont indépendantes ?
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
103 / 142
Cas particulier des tableaux 2 × 2 Un tableau de fréquences 2
×2
est celui pour lequel les variables
X
et
Y
n'ont que 2 modalités possibles. C'est donc un cas particulier des tableaux
I ×J
lorsque
I =2
et
J = 2.
Un tableau 2
Montrer que
U=
×2
a la forme suivante :
n(N11 N22 −N12 N21 )2 n1. n2. n.1 n.2
Rq : Ici, les degrés de liberté de la distribution asymptotique de car
U
valent 1,
(I − 1) × (J − 1) = 1 × 1 = 1.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
104 / 142
Exemple de test d'association pour un tableau 2 × 2 : Rappelons que les données sont les suivantes :
Dans cette étude, la question de recherche était la suivante :
−→ Est-ce que l'aspirine réduit les risques d'infarctus ? ou encore :
−→ Est-ce que le risque d'infarctus dière entre ceux qui ont pris
quotidiennement de l'aspirine et ceux qui n'en ont pas pris ? Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
105 / 142
Exemple de test d'association pour un tableau 2 × 2 :
Les hypothèses du test sont :
H0 : (π1|i=1 , π2|i=1 ) = (π1|i=2 , π2|i=2 ) H1 : (π1|i=1 , π2|i=1 ) 6= (π1|i=2 , π2|i=2 ) Uobs = On a
22071(239×10898−10795×139)2 11034×11037×378×21693
Uobs χ20.05,1 = 3.84.
= 26.9437.
On rejette donc l'hypothèse nulle. Il y a une
grande diérence de risque d'infarctus entre ceux qui prennent quotidiennement de l'aspirine et ceux qui n'en prennent pas.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
106 / 142
Test de comparaison de deux proportions Pour un tableau 2
× 2,
l'hypothèse nulle du test d'homogénéité des deux
sous-populations formées par la variable
X
s'écrit :
H0 : (π1|i=1 , π2|i=1 ) = (π1|i=2 , π2|i=2 ). Puisque
π1|i + π2|i = 1
pour
i = 1, 2,
cette hypothèse est équivalente à :
H0 : π1|i=1 = π1|i=2 . Le modèle statistique de l'échantillonnage multinomial multiple revient à dire qu'on a 2 v. a. binomiales indépendantes. On a donc :
n11 ∼ Bin(n1 = n1. , π1 = π1|i=1 )
nbre de succès dans la 1 ere population
n21 ∼ Bin(n2 = n2. , π2 = π1|i=2 )
nbre de succès dans la 2 eme population
Avec
π b1 = n11 /n1
et
Fadoua BADAOUI (INSEA)
π b2 = n21 /n2 .
Analyse des données discrètes
22 octobre 2017
107 / 142
Test de Wald de comparaison de deux proportions
La statistique du test de Wald de comparaison de deux proportions est la suivante (Agresti, 2002) :
Zw = où
π bi = ni 1 /ni
pour
Fadoua BADAOUI (INSEA)
r
π b1 −b π2 π b1 (1−π b1 ) π b (1−π b ) + 2 n 2 n1 2
asympt
−−−−→ N(0, 1)
i = 1, 2.
Analyse des données discrètes
22 octobre 2017
108 / 142
Exemple de test de Wald
An de répondre à la question Est-ce que l'aspirine réduit les risques d'infarctus ? , nous pouvons tester l'égalité des proportions :
π1 = π1|i=1
= P(infarctus | placebo) et
π2 = π1|i=2
= P(infarctus | aspirine)
contre une hypothèse alternative unilatérale à droite :
H0 : π1 = π2 , H1 : π1 > π2 ,
Fadoua BADAOUI (INSEA)
l'aspirine n'a pas d'eet
l'aspirine réduit le risque d'infarctus.
Analyse des données discrètes
22 octobre 2017
109 / 142
Exemple de test de Wald
La statistique du test de Wald pour confronter ces hypothèses prend la valeur observée suivante :
Zw =
q
0.02166−0.01259 0.01259(1−0.01259) 0.02166(1−0.02166) + 11304 11307
= 5.193717.
Cette valeur est beaucoup plus grande que la valeur critique du test :
z0.05 = 1.645.
On peut donc encore conclure que l'aspirine réduit les
risques d'infarctus.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
110 / 142
Test score de comparaison de deux proportions
Le test de comparaison de proportions le plus souvent présenté dans un cours d'introduction à la statistique (Hines et al. (2012), Agresti (2002)) est le test score se basant sur la statistique suivante :
Zs =
asympt π b1 −b π2 q −−−−→ 1 1 π b(1−b π )( n + n ) 1
où
π bi = ni 1 /ni
pour
i = 1, 2
et
π=
N(0, 1)
2
n1 π b1 +n2 π b2 n1 +n2
=
n11 +n21 n1 +n2 est utilisé pour
calculer une variance groupée.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
111 / 142
Exemple de test score Une statistique similaire à la statistique de Wald que l'on vient de calculer est la statistique score suivante :
Zs = car
π b=
q 0.02166−0.01259 1 1 π b(1−b π )( 11304 + 11307 )
11304×0.02166+11307×0.01259 11304+11307
=
378 22071
= 5.190729
= 0.01712655.
La valeur observée de la statistique du test score
zs = 5.190729
est très
proche, mais pas tout à fait égale à celle de la statistique du test de Wald
zw = 5.193717.
Remarquez qu'en élevant au carré
exactement sur la statistique
2
(zs
2 Uobs
zs ,
on retombe
de Pearson
2 ). = 5.1907292 = 26.94367 = Uobs
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
112 / 142
Chap 4 : Tableaux de fréquences à trois variables
Dans ce chapitre, on s'intéresse encore au lien entre deux variables catégoriques
X
et
Y.
La nouveauté par rapport au précédent est que l'on
va maintenant tenir compte d'une troisième variable catégorique, notée Cette variable est peut-être liée à
X
et
Y,
mais on ne s'intéresse pas
vraiment à ces liens. On cherche plutôt à étudier le lien entre corrigeant pour l'eet confondant potentiel de
Fadoua BADAOUI (INSEA)
Z.
Z
Analyse des données discrètes
X
et
Y
en
sur ce lien.
22 octobre 2017
113 / 142
Tableaux de fréquences à trois variables Un tableau de fréquences à trois variables est en fait représenté par une série de tableaux de fréquences à deux variables, soit un tableau pour chacune des modalités de la troisième variable, notée cette variable seront notées
Dans ces tableaux, pour lesquels
nijk
mkZ
Les modalités de
k = 1, . . . , K .
représente le nombre d'individus dans l'échantillon
X = miX , Y = mjY
Fadoua BADAOUI (INSEA)
avec
Z.
et
Z = mkZ .
Ainsi,
Analyse des données discrètes
n..k =
PI
i=1
PJ
22 octobre 2017
j=1 nijk 114 / 142
Tableaux de fréquences à trois variables
Ces données se présentent sous forme d'un tableau de contingence croisant ces trois variables de terme général
nijk .
On s'intéresse aux relations existant entre ces trois variables : sont-elles indépendantes ou non dans leur ensemble ou une variable est-elle indépendante conditionnellement à une ou aux deux autres ? Autrement dit, on cherche à connaître la structure des liaisons entre ces données en tenant compte des interactions entre les 3 variables.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
115 / 142
Exemple de tableaux de fréquences à trois variables Aux États-Unis, le Département de Transport demande aux compagnies aériennes de recueillir les données concernant les vols d'avions qu'ils orent. Parmi les informations recueillies, pour 11 000 vols d'avions on retrouve, les variables suivantes :
X
: le nom de la compagnie aérienne ;
une indicatrice de départ en retard pour le vol ;
Z
Y
:
: la ville de l'aéroport.
Deux compagnies aériennes seront à l'étude : Alaska et America West Airlines. Les vols d'avions considérés partaient de 5 villes : Los Angeles, Phoenix, San Diego, San Francisco ou Seattle.
Question
: Est-ce qu'il y a une diérence entre les compagnies aériennes en
ce qui concerne le respect des heures de départ prévues de leurs vols ? Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
116 / 142
Exemple de tableaux de fréquences à trois variables Voici les tableaux conditionnels de fréquences observées pour cet exemple :
Il s'agit de 5 tableaux de fréquences croisées entre la valeur de
X
et
Y
, conditionnels à
Z.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
117 / 142
Deux critères
X
et
Y
sont indépendants ssi
P(Xi , Yj ) = P(Xi )(Yj ),
Trois critères
X, Y
et
Z
on note
Pij = Pi Pj , ∀i, j
sont indépendant,
P(Xi ∩ Yj ∩ Zk ) = P(Xi )P(Yj )P(Zk ),
X
on note
est partiellement indépendant du couple
P(Xi ∩ Yj ∩ Zk ) = P(Xi )P(Yj ∩ Zk ),on
X
et
Y
X ⊥Y ⊥Z
ssi
Pi,j,k = Pi Pj Pk , ∀i, j, k
(Y , Z ), X ⊥(Y , Z )
note
ssi
Pi,j,k = Pi.. P.jk , ∀i, j, k
sont indépendants conditionnellement à
Z , (X ⊥Y )/Z
ssi
P(Xi ∩ Yj /Zk ) = P(Xi /Zk )P(Yj /Zk ), ∀i, j, k ou encore
Pijk = Pi../k P.j./k
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
118 / 142
Relations entre les types d'indépendances
1
X ⊥(Y , Z ) X ⊥Y ⊥Z ⇔ Y ⊥Z 2
X ⊥(Y , Z ) ⇔
X ⊥Y
⇔
X ⊥Z /Y
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
X ⊥Z
X ⊥Y /Z
22 octobre 2017
118 / 142
Test d'indépendance Pour tester l'indépendance entre 3 variables, soit la statistique de test du khi-deux de Pearson, dénie par :
U=
PI
i=1
PJ
j=1
PK
k=1
(nijk −b eijk )2 ebijk
∼ χ2ddl
On test les hypothèses :
H0 : Pijk = Pi.. P.j. P..k
vs
Hypothèses
ebijk = nb pijk
X ⊥Y ⊥Z
Ni.. N.j. N..k n2 Ni.. N.jk n Ni.k N.jk N..k
X ⊥(Y , Z ) (X ⊥Y )/Z Fadoua BADAOUI (INSEA)
H1 : Pijk 6= Pi.. P.j. P..k ddl de
χ2ddl
IJK − I − J − K + 2 (I − 1)(Jk − 1) (I − 1)(J − 1)k
Analyse des données discrètes
22 octobre 2017
119 / 142
Exemple Une enquête réalisée auprès de 97 étudiants classés selon 3 critères : R : comportement, S : Existence d'un risque familial et T : l'adversité du milieu scolaire.
Peut-on supposé l'indépendance de ces trois critères ? Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
120 / 142
Exemple Pour 2121 personnes classées selon leur taux de cholestérol (R) leur pression sanguine (S) et leur type de personnalité (T).
Peut-on supposé l'indépendance conditionnelle de R et S par rapport à T ?
H0 : Pij./k = Pi../k × P.j./k Fadoua BADAOUI (INSEA)
vs
H1 : Pij./k 6= Pi../k × P.j./k
Analyse des données discrètes
22 octobre 2017
121 / 142
Chap 5 : Modèles log-linéaires Le principe général de l'analyse log-linéaire est proche de celui de l'analyse de variance, en ce qu'elle permet de tester des eets de modalités de variables et d'interactions entre des modalités de deux ou plusieurs variables, mais elle en dière aussi fondamentalement, puisque ce ne sont pas des moyennes de variables qui sont prises en compte, mais des eectifs. Le point de départ est toujours un tableau de contingence, à deux ou plusieurs critères. Ce qu'on va expliquer, c'est l'eectif de chaque cellule. Deux aspects principaux se partagent l'attention de l'utilisateur : les tests de signication, et la modélisation.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
122 / 142
Modèles log-linéaires Les modèles log-linéaires permettent d'étudier et de modéliser les liaisons entre plusieurs variables nominales en tenant compte de leurs éventuelles interactions. Celui-ci a la particularité de ne pas nécessiter, a priori, de distinction entre la variable à expliquer et les variables explicatives. Pour cela, on ne parlera pas d'un modèle de régression, mais d'un modèle d'association. Soit
nijk
les eectifs observés de la table de contingence. La modélisation
log-linéaire vise à exprimer le logarithme de ces valeurs par une somme d'eets propres et d'interactions d'ordre 2 ou supérieur des variables.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
123 / 142
Modèles à 2 variables Soit une table de contingence qualitatives
X
à
I
(I × J)
modalités et
Y
à
J
issue du croisement de deux variables modalités et dont l'eectif total
n
est
xé. La loi conjointe des eectifs de paramètre
nij
de chaque cellule est une loi multinomiale
πij nij ∼ M(n, πij )
et d'espérance :
eij = E (nij ) = nπij Par dénition, les variables
X
et
Y
sont indépendantes si et seulement si :
πij = πi. π.j Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
124 / 142
Modèles à 2 variables le modèle log-linéaire décompose le logarithme népérien de l'espérance
eij
sous la forme :
ln(eij ) = ln(n) + ln(πi. ) + ln(π.j ) = µ + αi + βj Le modèle se décompose en une somme de coecients décrivant plusieurs eets :
µ,
l'eet global ;
αi ,
l'eet dû à la variable
X,
βj ,
l'eet dû à la variable
Y,
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
125 / 142
Modèles à 2 variables Si l'indépendance n'est pas vériée, on peut décomposer :
π
eij = nπij = nπi. π.j πi. πij .j L'intervention de la fonction logarithme permet de linéariser la décomposition précédente autour du modèle d'indépendance :
π
ln(eij ) = ln(n) + ln(πi. ) + ln(π.j ) + ln( πi. πij .j ) = µ + αi + βj + (αβ)ij Le terme
(αβ)ij
est l'eet dû à l'interaction entre les variables
X
et
Y.
Ce modèle est dit saturé car, présentant autant de paramètres que de données, il explique exactement celles-ci. Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
126 / 142
Modèles à 2 variables
An d'identier tous les paramètres, on ajoute les contraintes :
PI
i=1 αi
=
PJ
j=1 βj
= 0.
Ces contraintes garantissent l'unicité.
Il est intéressent d'illustrer la notation matricielle du modèle dans le cas, par exemple, où par
I =2
et
J = 3.
θ = (µ, α1 , β1 , β2 ),
Le vecteur des paramètres inconnues est donné
étant donné que
α2 = −α1
et
β3 = −β1 − β2 .
Ecrivez le modèle sous sa forme matricielle.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
127 / 142
Exemple
Le modèle se réécrit comme :
ln(e11 ) ln(e12 ) ln(e13 ) ln(e21 ) ln(e22 ) ln(e23 )
Fadoua BADAOUI (INSEA)
1
1
1
0
0 1 1 1 1 1 −1 −1 = 1 −1 1 0 1 −1 0 1 1 −1 −1 −1
Analyse des données discrètes
µ
α1 β1 β2
22 octobre 2017
128 / 142
Le modèle saturé pour une table I × J Ce modèle s'écrit :
ln(eij ) = µ + αi + βj + (αβ)ij Il est indispensable, à présent, d'ajouter les contraintes :
PI
i=1 αβij
=
PJ
j=1 αβij
=0
Ecrivez le modèle sous sa forme matricielle, pour des paramètres inconnues est donné par qui est de la même dimension que
µ.
I =2
et
J = 3.
Le vecteur
θ = (µ, α1 , β1 , β2 , (αβ)11 , (αβ)12 )
Vu que le nombre de paramètres
indépendants est équivalent au nombre de cellules, on aura un ajustement parfait du tableau de contingence et donc un modèle saturé.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
129 / 142
Exemple
Le modèle se réécrit comme :
ln(e11 )
ln(e12 ) ln(e13 ) ln(e21 ) ln(e22 ) ln(e23 )
Fadoua BADAOUI (INSEA)
1
1
1
0
1
0
0 1 0 1 1 1 1 1 −1 −1 −1 −1 = 1 −1 1 0 − 1 0 1 −1 0 1 0 − 1 1 −1 −1 −1 1 1
Analyse des données discrètes
µ
α1 β1 β2 (αβ)11 (αβ)12
22 octobre 2017
130 / 142
Modèle à 2 critères non indépendants et tests d'ajustement Le modèle s'écrit comme suit :
ln(eij ) = µ + αi + βj + (αβ)ij avec les contraintes :
PI
i=1 αi
=
PJ
j=1 βj
=
PI
i=1 αβi.
=
PJ
j=1 αβ.j
=0
En pratique, on s'intéresse essentiellement à l'étude de l'indépendance entre les deux critères de classication et on test l'hypothèse nulle :
H0 : X ⊥Y Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
131 / 142
Condition d'indépendance
Proposition :
Soit le modèle log-linéaire saturé suivant :
ln(eij ) = µ + αi + βj + (αβ)ij satisfaisant les contraintes
PI
i=1 αi
=
PJ
j=1 βj
alors
Fadoua BADAOUI (INSEA)
=
PI
i=1 αβi.
=
PJ
j=1 αβ.j
=0
X ⊥Y ⇔ (αβ)ij = 0, ∀i, j
Analyse des données discrètes
22 octobre 2017
132 / 142
Modèle à 2 critères non indépendants et tests d'ajustement Le rejet de l'hypothèse nulle (H0
RH0
si
LRobs
= (αβ)ij = 0) ou
s'eectue comme suit :
Uobs ≥ χ2ddl
où le
ddl = IJ − 1 − (I − 1) − (J − 1) = (I − 1)(J − 1) avec
P P n LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij ) P P (n −nb π )2 Uobs = Ii=1 Jj=1 ij nbπij ij Le non rejet de l'hypothèse nulle signie que le modèle retenu est le modèle non saturé suivant :
ln(eij ) = µ + αi + βj Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
133 / 142
Modèle à trois variables On considère une table de contingence de trois variables qualitatives
X,Y
et
(I × J × K )
Z.
obtenue par croisement
Le modèle saturé s'écrie :
ln(eijk ) = µ + αi + βj + γk + (αβ)ij + (αγ)ik + (βγ)jk + (αβγ)ijk Les termes
αi , βj
et
γk
représentent les eets principaux de
(αβ)ij , (αγ)ik
et
(βγ)jk
->Le nombre de paramètres : Les termes
(αβγ)ijk
Z.
sont les intéractions du 1
er ordre.
(I − 1)(J − 1), (I − 1)(K − 1), (J − 1)(K − 1)
sont les intéractions du second ordre.
-> Le nombre de paramètres : Fadoua BADAOUI (INSEA)
et
(I − 1), (J − 1), (K − 1)
->Le nombre de paramètres : Les termes
X,Y
IJK − 1
Analyse des données discrètes
22 octobre 2017
134 / 142
Types et tests d'indépendances -> Le modèle d'indépendance conditionnelle s'écrit :
ln(eijk ) = µ + αi + βj + γk + (αγ)ik + (βγ)jk L'hypothèse nulle à tester est :
H0 : X ⊥Y /Z ⇔ H0 : (αβ)ij = 0
-> Le modèle d'indépendance partielle s'écrit :
ln(eijk ) = µ + αi + βj + γk + (βγ)jk L'hypothèse nulle à tester est :
H0 : X ⊥(Y , Z ) ⇔ H0 : (αβ)ij = (αγ)ik = 0
-> Le modèle d'indépendance totale s'écrit :
ln(eijk ) = µ + αi + βj + γk on teste
H0 : X ⊥Y ⊥Z ⇔ H0 : (αβ)ij = (αγ)ik = (βγ)jk = 0
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
135 / 142
Relation entre les types d'indépendance
Soit le test d'indépendance mutuelle suivant : Si on rejette
H0,m ,
H0,m : X ⊥Y ⊥Z
on teste l'indépendance partielle
H0,p : X ⊥(Y ∩ Z ), H0,p : Y ⊥(X ∩ Z ), H0,p : Z ⊥(X ∩ Y ) Si on rejette
H0,p ,
on teste l'indépendance conditionnelle
H0,c : (X ⊥Y )/Z , H0,c : (X ⊥Z )/Y , H0,c : (Y ⊥Z )/X Si on rejette
H0,c
aucune simplication n'est possible, on garde le
modèle saturé.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
136 / 142
Modèles hiérarchiques
Un modèle log-linéaire est dit hiérarchique si la condition suivante est vériée : quand un coecient d'interaction est présent dans le modèle, les coecients des variables mises en jeu et toutes les interactions d'ordre inférieur sont aussi dans le modèle. Par exemple, si dans un modèle à 5 variables on trouve l'interaction alors le modèle, pour être hiérarchique, doit contenir au moins ainsi que les interactions d'ordre inférieur
Fadoua BADAOUI (INSEA)
X13 , X15
Analyse des données discrètes
et
Xl 35 ,
Xl , X3
et
X5
X35 .
22 octobre 2017
137 / 142
Modèles hiérarchiques Parmi les modèles log-linéaires possibles dans le cas d'un tableau de contingence à deux variables, certains modèles sont hiérarchiques :
ln(eij ) = µ + αi + βj + (αβ)ij ln(eij ) = µ + αi + βj et d'autres ne le sont pas :
ln(eij ) = µ + αi + (αβ)ij ln(eij ) = µ + βj + (αβ)ij ln(eij ) = µ + (αβ)ij Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
138 / 142
Estimation des paramètres
Les fréquences théoriques espérées
eijk
sont en général estimées par la
méthode du maximum de vraisemblance. Elle consiste à rechercher les paramètres qui maximisent la fonction de vraisemblance cela, on suppose que les variables aléatoires
nijk
`(nijk , eijk ).
Pour
suivent une loi
multinomiale.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
139 / 142
Tests d'ajustement
Pour comparer le tableau des fréquences estimées avec le tableau des fréquences observées, deux tests (voisins) sont généralement utilisés :
P P n LRobs = 2 Ii=1 Jj=1 nij ln( nbπijij ) P P (n −nb π )2 Uobs = Ii=1 Jj=1 ij nbπij ij Plus ces statistiques sont voisines de zéro, meilleur est l'ajustement. Elles sont nulles pour le modèle saturé. On recherche le modèle le plus simple (peu de paramètres) et qui reste acceptable (bon ajustement).
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
140 / 142
Choix du modèle
Le choix du modèle log-linéaire est d'autant plus dicile que le nombre de variables est élevé. La méthode dite "combinatoire" est une des méthodes possibles pour obtenir un "bon" modèle. A partir du modèle saturé, on construit des modèles plus simples en retirant un à un les termes d'interaction. La statistique
LR
croît progressivement et l'on peut arrêter la
procédure lorsqu'elle augmente plus rapidement. On retiendra alors le modèle correspondant et l'on en déduira les liaisons importantes entre les variables.
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
141 / 142
Choix du modèle
Fadoua BADAOUI (INSEA)
Analyse des données discrètes
22 octobre 2017
142 / 142