35 0 2MB
ENCG SETTAT
ANALYSE DES DONNEES Professeur : Rachid JAHIDI
1
Syllabus MATIERE : Analyse des données NIVEAU : 3ème année PRE-REQUIS : Statistique descriptive Notions d’estimation Notions d’algèbre linéaire PROFESSEUR : M. Rachid JAHIDI
OBJECTIF Le traitement des tableaux de données multidimensionnelles exige des méthodes de description statistique élaborées. L’objectif de ce cours est de présenter les principales méthodes d’Analyse Des Données (ADD) utiles dans les études marketing à base d’enquêtes et sondages. Ce cours propose à la fois ; Une présentation générale et pratique des principales méthodes d’ADD disponibles dans les logiciels Une aide à l’interprétation des sorties fournies par les logiciels statistiques Des exemples entièrement traités à l’aide de logiciels statistiques, principalement SPSS. METHODOLOGIE Description des données utilisées pour présenter la méthode ; Présentation de la méthode en minimisant les aspects mathématiques et les démonstrations et en valorisant les aspects pratiques et méthodologiques ;
2
Interprétation des sorties du programme statistique correspondant à la méthode présentée. PLAN DU COURS. Introduction générale Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Analyse Typologique (AT) Analyse Factorielle des Correspondances multiples (AFCM)
Evaluation : • examen (60% de la note finale) • contrôle écrit (40% de la note finale) Bibliographie :
P. Ardilly : Les techniques de sondage. Technip. L. Lebart et N. Tabard : Techniques de la description statistique. Dunod. M. Volle : Analyse des données. Economica. L. Lebart et Grangé : Traitement statistique des données. Dunod. B. Escofier et J Pagès : analyse factorielles simples et multiples M. Tenenhaus : Méthodes statistiques en gestion Y. Evrard ; B. Pras ;E. Roux : Market étude et recherche en marketing.
3
Introduction La multiplication des grandes bases de données nécessite le traitement de masses d'informations toujours plus grandes. Il est donc nécessaire de disposer de méthodes permettant d'extraire cette information à partir de grands tableaux de données. Ces méthodes sont regroupées dans ce qu'on appelle l‘Analyse Des Données. L’ordinateur et la statistique •L’ordinateur est devenu un outil essentiel pour l’analyse de données •L’industrie des logiciels statistiques et des ordinateurs ne cessent de croître •Les logiciels et les ordinateurs sont maintenant accessibles à un très grand nombre de gens •Les logiciels sont de plus en plus faciles à utiliser • Avantage: permet d’utiliser des méthodes statistiques sophistiquées et d’obtenir les résultats relativement rapidement.
• Danger:
facile d’appliquer une méthode statistique à un ensemble de données même si cette dernière n’est pas valide ou appropriée. Le simple fait de savoir comment utiliser un logiciel n’est pas une garantie d’une analyse statistique valide. Une bonne connaissance de la statistique est nécessaire pour savoir quelle méthode choisir et pourquoi, et comment interpréter les résultats. L'ensemble des méthodes de l'analyse des données peut être divisé en deux catégories : •les méthodes pour décrire •les méthodes pour expliquer Nous allons nous intéresser ici aux méthodes descriptives
Rappels sur la statistique descriptive unidimensionnelle et bidimensionnelle La Statistique Descriptive est l'ensemble des méthodes et techniques permettant de présenter, de décrire et de résumer des données nombreuses et variées. Il faut préciser d'abord quel est l'ensemble étudié, appelé population statistique, dont les éléments sont des individus ou unités statistiques. Chaque individu est décrit par une ou plusieurs variables, ou caractères statistiques. Chaque variable peut être, selon le cas :
•Variable qualitative Ses valeurs peuvent être des états, des opinions, des propriétés,... des modalités qui correspondent à des « qualités » Exemple : Population : les résidents d‘Agadir 4
Unité statistique : un résident Variable X : la langue maternelle d'un résident Valeurs : Arabe, Berbère, Français, Anglais, Autres.
• Variable quantitative Ses valeurs sont des nombres réels et correspondent à des quantités. On distingue deux types de variables quantitatives : • la variable quantitative discrète • la variable quantitative continue Variable quantitative discrète Ses valeurs a priori sont des nombres isolés les uns des autres. Exemple, Population : les ménages de la ville de Settat Unité statistique : un ménage Variable étudiée : X : le nombre d'individus dans le ménage Valeurs : xi = 1, 2, 3, 4, .., 11. (Valeurs observées) Variable quantitative continue •Ses valeurs a priori ne peuvent être isolées. •Les valeurs se situent donc dans des intervalles de la droite réelle. •Exemple Population : les modèles automobiles sur le marché marocain Unité statistique : un modèle de voiture Variable étudiée : X : la consommation en litres sur 100 km (urbain) Valeurs : x appartient à [5 , 6) ou [6 , 7) ou ... ou [22 , 23) •Les données continues et discrètes sont des quantités : -On peut effectuer sur elles des opérations arithmétiques -Elles sont ordonnées •Les données qualitatives ne sont pas des quantités -Mais sont parfois ordonnées -Données ordinales souvent traités comme discrètes -Les données nominales ne sont pas ordonnées. Discrétisation des variables Pourquoi discrétiser : -Traiter simultanément des variables quantitatives et qualitatives -Appréhender des liaisons non linéaires entres variables quantitatives -Neutraliser des valeurs extrêmes -Gérer les valeurs manquantes Comment discrétiser :
5
-Il faut garder en tête que -Il faut éviter d’avoir un grand écart entre le nombre de modalités des différentes variables -Un nombre convenable tourne autour de 4 à 6 modalités -Pour les raisons que -Le poids d’une variable est proportionnel à son nombre de modalités -Le poids d’une modalité est inversement proportionnel à son effectif -Avoir peu de modalités fait perdre de l’information -Avoir beaucoup de modalités implique de petits effectifs et une moindre lisibilité
Analyse exploratoire des données
•Explorer la distribution des variables •Vérifier la fiabilité des variables : Valeurs incohérentes ou manquantes •Détecter les valeurs extrêmes : Si valeur aberrantes à éliminer •Tester la normalité des variables •Détecter les liaisons entre variables –Entre variables explicatives et à expliquer –Entres variables explicatives elles même
•Variables continues
–Détecter la non linéarité justifiant la discrétisation –Transformer pour augmenter la normalité
•Variables discrètes
–Regrouper certaines modalités aux effectifs trop petits Tendance centrale
• la moyenne (arithmétique), éventuellement pondérée. • la médiane : M est insensible aux valeurs aberrantes, mais se prête moins bien aux calculs que la moyenne. • le mode dans le cas particulier d'une distribution unimodale. La comparaison de ces trois paramètres donne des indications sur la symétrie de la distribution. Forme de la distribution
6
Distribution symétrique : moyenne = médiane = mode
Biais positif: mode < médiane < moyenne
Biais négatif: Moyenne < médiane < mode
2. Position Les fractiles (quartiles, déciles, centiles) : ils subdivisent la série ordonnée en un certain nombre d'intervalles (4, 10, 100) contenant environ le même nombre de valeurs observées chacun. 3. Dispersion - étendue - variance et écart-type : calculés généralement en complément de la moyenne, pour mesurer la plus ou moins grande dispersion autour de celle-ci. - intervalle interquartile : sa longueur, l'écart-interquartile mesure la dispersion des 50 % valeurs les plus centrales. - Coefficient de variation : Cv = écart-type/moyenne Cv < 25% concentration Cv > 25% dispersion
Le Box plot (ou boîte à moustache) : Représentation graphique synthétique de Tukey Le Boxplot est un résumé de la série (de la distribution) construit à partir de sa médiane, ses 1er et 3éme quartiles et ses valeurs extrêmes. Il permet de repérer rapidement, de façon visuelle, l’allure générale de la distribution. Construction utilisée ici : Une boîte, deux moustaches et des valeurs extrêmes : • La boîte est délimitée en bas par le premier quartile, en haut par le troisième quartile. Entre les deux se trouve la médiane. Parfois la moyenne est ajoutée. • Les extrémités des moustaches ou valeurs extrêmes sont : • Le min et le max ; •Ou encore, souvent proposées dans les logiciels: la plus petite valeur supérieure à q1 - 1,5*(q3 - q1) et la plus grande valeur inférieure à q3 + 1,5*(q3 - q1) 7
avec (q1 = premier quartile ; q3 = troisième quartile). Dans ce cas, les valeurs extrêmes sont les valeurs de la série qui sont hors des limites définies par les extrémités des moustaches (aucune si aucune des valeurs ne sort des limites). •Attention, les valeurs extrêmes telles que définies n’ont de sens que lorsque la distribution est Normale.
Représentation :
Box plot 1,2
1,100
Maximum 1
0,8
0,6
0,4
3ème quartile 0,631
Intervalle interquartiles (50 % des valeurs)
0,620
Moyenne Médiane
1er quartile
0,2
Minimum 0,180
0
Le box plot permet de visualiser rapidement : • La plus ou moins forte concentration des valeurs : autour de la médiane (intervalle interquartiles, hauteur de la boîte) et celle des queues de distribution (les pattes, chacune 25 % des valeurs). •Remarque : la hauteur de la boîte représente 50 % des valeurs, plus cette hauteur est grande (petite) plus les valeurs correspondantes sont étalées (concentrées).
•La symétrie de la distribution : position de la médiane dans la boîte et globalement ; différence de longueur des pattes. Plus la moyenne s’écarte de la médiane plus la distribution est asymétrique (attention aux valeurs aberrantes qui influence la valeur de la moyenne) et inversement plus la médiane et la moyenne sont proches plus la distribution est symétrique. Lorsque la médiane est inférieure à la moyenne, les valeurs inférieures sont plus fortement concentrées, les valeurs supérieures plus fortement étalées.
8
alphajus : Boîte-à-Moustache 14
max 12
10
Q3
8
6
médiane
4
Q1
2
min 0 consommation de boisson
alphajus : Boîte-à-moustache multiple boîte à mouc htache
12 ,5
consommation de boisson
consommation de boisson
12,5
10,0
7,5
5,0
2,5
10 ,0
7,5
5,0
2,5
n= 19
n= 21
oui
n=14
n=13
n=13
d'accord
j e ne su is pa s sû r
pa s d 'a ccord
non
achat préalable
goût pour le sucré
9
Skewness et Kurtosis : Deux indicateurs de la forme de la distribution des valeurs observées. Le skewness permet de mesurer le degré d’asymétrie de la distribution des valeurs. Moment centré d’ordre 3 sur le cube de l’écart type.
n
Estimation sur un échantillon :
skewness
( y i 1
i
y )3
(n 1) s
3
Le kurtosis permet de mesurer le degré d’aplatissement d’une distribution. Moment centré d’ordre 4 sur le carré de la variance. Le kurtosis de la distribution Normale, ainsi calculé, vaut 3, c’est pourquoi les logiciels proposent souvent le calcul du kurtosis en ôtant la valeur 3. Estimation sur un échantillon : n
kurtosis
( y i 1
i
y )4
( n 1) s 4
3
Utilité du skewness et du kurtosis Une distribution symétrique autour de sa moyenne aura un skewness proche de 0. Skewness positif étalement des valeurs à droite Skewness négatif étalement des valeurs à gauche Le kurtosis d’une loi Normale est nul ; une distribution des valeurs proche de la forme en cloche de la loi normale donnera un kurtosis proche de 0. Kurtosis positif forte concentration, pic prononcé Kurtosis négatif aplatissement de la distribution, faible concentration Le Skewness et le Kurtosis sont des indicateurs numériques de la forme de la distribution observée : ils donnent un indice de l’éloignement ou du rapprochement de la distribution de la série de valeurs de celle d’une distribution de loi Normale.
10
Allure d’une distribution selon que le skewness et le kurtosis sont positifs, négatifs ou nuls :
Négatif
Nul
Positif
Skewness
Kurtosis
alphajus : Skewness et Kurtosis de la variable consommation N
Valide
40
Manquante
0
Moyenne
5,88
Médiane
5,50
Mode
3(a)
Ecart-type
2,97 2
Variance
8,83 0
Asymétrie Aplatissement
,504 -,375
11
alphajus :
25 %
20 %
Pourcen tage
15 %
10 %
5%
1
3
5
7
9
11
13
consommat io n de boisso n
Normalisation d’une variable.
•Si Skewness > 0
–Log(V) ou Log(V+1) si V >= 0 –Racine carré de V – -1 / V ou -1 / V²
•Si Skewness < 0 –V² ou V3
Exemple alphajus consommation de boisson N Valide 40 Manquante 0 Asymétrie ,504 Erreur std. ,374 d'asymétrie Aplatissement -,375 Erreur std. ,733 d'aplatissement
logconsom 40 0 -,658
racineconsom 40 0 -,021
,374
,374
,177
-,625
,733
,733
12
Traitement bivarié Croisement de variable métrique : KILOMETRAGE
KILOMETRAGE
407.22
407.22 257.51
DEPENSE
257.51
DEPENSE
Coefficient de corrélation : 0,997 Équation de la droite de régression : KILOMETRAGE = 1,57 * DEPENSE + 40,61 (DEPENSE explique 99% de la variance de KILOMETRAGE) Le coefficient de corrélation r de Pearson sert à mesurer l’intensité de la relation linéaire entre deux variables quantitatives. •Le coefficient de corrélation r prendra des valeurs entre -1 et 1. •S’il existe une relation linéaire parfaite entre X et Y alors r = 1 (r =1 si X et Y varient dans le même sens et r = -1 si X varie dans le sens opposé à Y). •Si r = 0, ceci indique qu’il n ’y a pas de lien linéaire entre X et Y. •Plus la valeur de r s’éloigne de 0 pour s’approcher de 1 plus l’intensité du lien linéaire entre X et Y grandit.
13
Attention!! Il est important d’interpréter le coefficient de corrélation avec le graphique.
Croisement de variable nominale
•Quel est votre mode d'hébergement ? #Hôtel #Camping # Location / gîte #Famille / amis •Quelle est la C.S.P. du chef de famille ? # Agriculteur # Patr indust commerce # Profession libérale/cadre #Cadre moyen #Employé #Ouvrier #Personnel de service #Autre
Tableau de contingence Mode d'hébergement Non Hôtel réponse CSP Non réponse 1 3 Agriculteur 0 1 Patr indust commerce 1 17 Profession libérale/cadre 1 23 Cadre moyen 7 12 Employé 1 10 Ouvrier 1 7 Personnel de service 2 0 Autre 2 31 TOTAL 16 104
Cam ping
Locatio Famille / TOTAL n / gîte amis
2 2 4 6 17 32 20 8 22 113
13 2 10 26 25 29 8 2 25 140
14
14 6 13 24 32 35 9 12 34 179
33 11 45 80 93 107 45 24 114 552
Comment les CSP choisissent leurs modes d’hébergements? Profil ligne Mode d'hébergement Non Hôtel réponse CSP Non réponse 3,0% 9,1% Agriculteur 0,0% 9,1% Patr indust commerce 2,2% 37,8% Profession libérale/cadre 1,3% 28,7% Cadre moyen 7,5% 12,9% Employé 0,9% 9,3% Ouvrier 2,2% 15,6% Personnel de service 8,3% 0,0% Autre 1,8% 27,2% TOTAL 2,9% 18,8%
Cam ping 6,1% 18,2% 8,9% 7,5% 18,3% 29,9% 44,4% 33,3% 19,3% 20,5%
Locatio Famille / TOTAL n / gîte amis 39,4% 18,2% 22,2% 32,5% 26,9% 27,1% 17,8% 8,3% 21,9% 25,4%
42,4% 54,5% 28,9% 30,0% 34,4% 32,7% 20,0% 50,0% 29,8% 32,4%
100% 100% 100% 100% 100% 100% 100% 100% 100% 100%
Comment se fait le choix du mode d’hébergement par rapport à la CSP? Profil colonne Mode d'hébergement CSP Non réponse Agriculteur Patr indust commerce Profession libérale/cadre Cadre moyen Employé Ouvrier Personnel de service Autre TOTAL
Non réponse
Hôtel
Cam ping
6,3% 0,0% 6,3% 6,3% 43,8% 6,3% 6,3% 12,5% 12,5% 100%
2,9% 1,0% 16,3% 22,1% 11,5% 9,6% 6,7% 0,0% 29,8% 100%
1,8% 1,8% 3,5% 5,3% 15,0% 28,3% 17,7% 7,1% 19,5% 100%
Locatio Famille / TOTAL n / gîte amis 9,3% 1,4% 7,1% 18,6% 17,9% 20,7% 5,7% 1,4% 17,9% 100%
15
7,8% 3,4% 7,3% 13,4% 17,9% 19,6% 5,0% 6,7% 19,0% 100%
6,0% 2,0% 8,2% 14,5% 16,8% 19,4% 8,2% 4,3% 20,7% 100%
ECHANTILLONNAGE Exemple de sondage douteux En 1912, le magazine Literacy Digest a commencé à produire des sondages pour prédire le résultat de l’élection américaine. Entre 1912 et 1932, les prévisions étaient toujours justes! Ceci a eu pour effet que le magazine a acquis une réputation solide dans la prévision des résultats. Les éditeurs étaient confiants dans la prévision de l’élection de 1936. Le sondage prévoyait 55% pour Landon, 41% pour Roosevelt.Dans les faits, les résultats de l’élection furent 61% pour Roosevelt et 37% pour Landon! Pourquoi un si grand écart dans les résultats? Problèmes possibles dans le sondage du Literacy Digest de 1936. La base de sondage reposait fortement sur les bottins téléphoniques et les listes d’enregistrement automobiles. On est en 1936. À cette époque, posséder une voiture/téléphone était réservée à une classe sociale/économique peut-être plus privilégiée. Problème potentiel de biais dans la base de sondage. En second lieu, 10 millions de questionnaires ont été envoyés, cependant seulement 2.3 millions ont été retournés. Le taux de réponse était moins de 25%. Des analyses subséquentes ont montré qu’en fait il était plus vraisemblable que les partisans de Landon retournent le sondage que les partisans de Roosevelt. Toujours s’interroger sur la non-réponse, ses raisons et son impact potentiel. Leçons du sondage du Literacy Digest de 1936. Les éditeurs du Digest étaient confiants, car ils avaient un large échantillon (2.3 millions). Cependant l’échantillon était associé à un taux de non-réponse de plus de 75%. L’échantillon, bien que grand, était non représentatif de la population. Un grand échantillon non représentatif peut faire plus de dommages qu’un petit échantillon non représentatif! En fait, les dommages peuvent être plus importants, dans la mesure où l’on a la fausse impression de justesse, uniquement car on dispose de résultats sur 2.3 millions d’individus. La mise en œuvre du sondage est plus importante que la taille de l’échantillon! Au même moment: Georges Gallup prélève un échantillon «aléatoire» de 6 500 personnes et obtient comme prédictions : •Landon : 35% •et Roosevelt : 64%. DEFINITIONS
•Recensement = vérité
L’information que l’on désire est disponible pour tous les individus de la population étudiée.
•Échantillon = estimation de la vérité
L’information n’est disponible que pour un sous-ensemble des individus de la population étudiée. Avantages d’un échantillon
•Coût réduit •Rapidité accrue 16
•Offre plus de possibilités, dans certains cas il peut être impossible de faire un recensement (ex: contrôle de qualité) Comment choisir l’échantillon? •À l’aveuglette? NON! On veut une méthode objective. •Parmi les volontaires? NON! Sur les questions sensibles, seulement ceux qui se sentent concernés sans être compromis sont susceptibles de participer. •NON aux : Sondages télé où les gens appellent; lignes ouvertes. Les gens avec des préjugés, fortes opinions (souvent négatives) s’expriment souvent sur ces questions (avortement, racisme, etc.). On veut une méthode scientifique telle que chaque personne dans la population possède une chance mesurable (que l’on peut quantifier) de sélection. Avantages de la méthode scientifique •On peut projeter les résultats de l’échantillon sur toute la population. •Le but d’un sondage n’est pas de décrire un individu en particulier. On veut une image, un profil, de la population. PROCESSUS D’ÉCHANTILLONNAGE - UNIVERS IDÉAL: Toutes les personnes qui possèdent les caractéristiques recherchées par l'enquêteur - UNIVERS OPÉRATIONNEL: Ensemble des personnes qui composent l'univers idéal et avec lesquelles on peut communiquer compte tenu des contraintes de temps et d'argent imposées par l'étude - BASE D’ÉCHANTILLONNAGE : Liste à partir de laquelle on peut sélectionner tous les individus qui composent l'univers opérationnel. Construction d’une base d’échantillonnage : –Idéalement, on tente de trouver une base de sondage existante. Sinon, l’on doit en construire une. –Une base d’échantillonnage contient la numérotation de tous les éléments de la population cible; elle contient des étiquettes. Choses à être conscient: •Est que la base d’échantillonnage correspond à la population visée? •Si on s’intéresse à la population de la ville de Marrakech et que l’on utilise les listes de téléphone, est-ce que la population cible = base d’échantillonnage? - MÉTHODE D’ÉCHANTILLONNAGE : C’est le comment choisir les individus
•Méthodes probabilistes:
–Chaque personne à une probabilité connue d'être choisie
•Méthodes non - probabilistes :
–On ne connaît pas la probabilité qu'un individu soit choisi. TAILLE DE L’ECHANTILLON : C’est quoi le n? –On va y revenir! Il faut introduire des critères. –De manière générale, cela dépend de la qualité de l’information que l’on désire. –Souvent n=1000 fait l’affaire. 17
Remarque: dans une population de 100 000 ou 1 000 000 d’individus, n=1000 fournira une précision comparable. La taille de la population n’est pas une considération si importante que ça. PROBLEME : Comment choisir l’échantillon pour qu’il fournisse des informations s’apparentant à celles que l’on aurait obtenues par recensement ? La réponse dépend de l’existence ou pas : - D’une base de sondage - D’informations auxiliaires •Pas de base de sondage : méthode non probabiliste •Base de sondage mais pas d’information auxiliaire : sondage aléatoire simple, sondage en grappe et à plusieurs degrés •Base de sondage plus information auxiliaire : sondage stratifié. Sondage aléatoire simple (SAS) Ce plan est tel que tout échantillon de taille n, où n est déterminée à l’avance, possède la même probabilité. Ce tirage est essentiellement ce que l’on a en tête quand on tire dans une urne n boules sans remise qui sont bien mélangées et indétectable au toucher. Toutes les unités ont la même probabilité d’inclusion. En pratique, il faut des algorithmes pour mettre en œuvre ce plan. Les tables de nombres au hasard Elles se présentent sous la forme de liste de nombres dont le tirage a été effectué aléatoirement. Pour les utiliser à la main, il est nécessaire de numéroter tous les individus de la base de sondage puis on se fixe une règle pour se déplacer dans la table et tirer les chiffres. 02 22 85 19 48 74 55 24 89 69 15 53 00 20 88 48 95 08 85 76 34 51 40 44 62 93 65 99 72 64 09 34 01 13 09 74 00 88 96 79 38 24 77 00 70 91 47 43 43 82 71 67 49 90 64 29 81 85 50 47 36 50 91 19 09 15 98 75 60 58 33 15 94 03 80 04 21 49 54 91 77 85 00 45 68 23 12 94 23 44
Tirage systématique Supposons que l’on veut un échantillon de taille n. Pour simplifier, on suppose que N/n=a, avec a un entier. Définition formelle d’un tirage systématique: 1. On prend une unité, à chances égales, parmi les a premières unités dans la base de sondage. Supposons que l’on a pris l’unité j. 2. On prend ensuite de manière successives les unités, j+a, j+2a, …, j+(n-1)a 18
Propriétés : On note qu’il n’y a seulement que a différents échantillons possibles. Si on a choisit l’unité j, l’échantillon est alors
s j, j a,, j n 1a Plan systématique On utilise souvent ce plan avec les tirages téléphoniques. On prend au hasard une unité, disons parmi les 20 premières, on se muni d’un pas, disons valant 30, et on lit « un nom sur 30 » dans le bottin. Sondage en grappes Cette méthode d’échantillonnage consiste à tirer au sort un certain nombre de groupes d’unités statistiques appelées grappes puis à interroger toutes les unités appartenant aux groupes retenues. Les plans de grappes sont surtout utiles lorsque l’on ne peut pas lister toutes les unités de 1 à N, s’il y a absence de base de sondage. Elles présentent l’avantage d’avoir un échantillon moins dispersé géographiquement. Exemple : Combien de ménages de Settat possèdent un écran LCD? •Option 1: On pourrait prendre un échantillon de résidents selon le tirage aléatoire simple, disons n = 500. •Option 2: On pourrait diviser Marrakech en pâtés de maisons d’environ 20 ménages et prendre un échantillon de 25 pâtés de maisons parmi la liste de tous les pâtés de maison. C’est un exemple de tirage par grappes. Unités d’échantillonnage primaires et secondaires. •Unité d’échantillonnage primaires: ce sont les pâtés de maisons. Ce sont les unités d’échantillonnage. •Unités d’échantillonnage secondaires : ce sont les ménages. Ici ce sont les unités d’analyse, que l’on veut mesurer. Sondage aréolaire C’est une méthode d’échantillonnage probabiliste en grappes qui consiste à découper en zones géographiques un territoire déterminé, à tirer au sort un certain nombre de ces zones et à interroger tous les individus statistique y résidant
Plan à un ou plusieurs degrés. 19
Supposons que l’on dispose de notre échantillon de grappes. Pour les grappes sélectionnées, on peut –Soit observer toutes les unités. C’est un plan de grappes à un degré. –Soit lister les unités dans chaque grappe choisie et dans cette liste tirer un échantillon d’unités. C’est un exemple d’échantillonnage à deux degrés. S’il y a deux degrés d’échantillonnage, alors les unités d’analyse sont également des unités d’échantillonnage au second degré. Avantages du sondage en grappes. Même si on ne dispose pas d’une base de sondage, on peut tout de même s’assurer que toutes les unités dans la population U possède une probabilité d’inclusion strictement supérieure à 0. Souvent moins dispendieux à organiser. Sonder la population marocaine par un plan aléatoire simple pourrait engendrer de nombreux déplacements. Un plan de grappes pourrait permettre de contrôler cet aspect. Inconvénients Habituellement, pour une taille d’échantillonnage similaire, le plan de grappes donne moins de précision qu’un tirage aléatoire simple. Par exemple, dans l’exemple des ménages de Marrakech, les ménages d’une même grappe ont tendance à se ressembler Une grappe n’est pas toujours représentative de la population. Sondages stratifiés. Sondages stratifiés: quelques motivations Dans un SAS: la sélection de l’échantillon se fait totalement au hasard, et ne fait aucun usage de renseignements que l’on pourrait posséder sur les membres de la population. Dans un sondage stratifié: On utilise de telles données pour accroître l’efficacité (petite variance) de la démarche. On a besoin d’une partition de la population en sous-groupes relativement homogènes (les strates). On procède à la sélection d’échantillons indépendants dans chaque strate. •Il faut préciser comment chaque échantillon sera pris dans chaque strate. •On pourrait opter pour SAS dans chaque strate, ou sondage systématique dans chaque strate. •On pourrait combiner des plans d’échantillonnages.
Distinctions entre strates et grappes Strates sont des sous-populations telles que: –On peut lister, strate par strate, les unités d’analyse dans les strates. –On prend un échantillon dans chaque strate, h = 1,2,…,H. Grappes sont des sous-populations telles que: –On ignore, avant le tirage, l’identité des unités d’analyse dans une grappe. –On peut cependant lister les grappes. –Dans les grappes sélectionnées, on observe ou bien toutes les unités d’analyse (tirage de grappes), ou bien un sous-échantillon (tirage à deux ou plusieurs degrés). –La taille de la population N pourrait être inconnue. Exemple: Enquête ayant pour objet la détermination de la proportion de fumeurs dans la population. 20
•L’échantillon devrait représenter adéquatement les hommes et les femmes, car il est connu que les hommes fument davantage que les femmes. •La proportion de fumeurs varie beaucoup selon l’âge et la profession. Il serait donc bon d’avoir un échantillon qui représente bien ces groupes. •Si on a ces renseignements, on peut les utiliser avec un sondage stratifié avec tirage aléatoire simple. Choix des variables de stratification Elles peuvent être qualitatives ou quantitatives. •Géographiques: région, province, zone rurale, zone urbaine •Socio-démographiques: groupes d’âges, sexe, occupation. •Taille: mesure de tailles quantitatives. Avantages de l’échantillonnage stratifié: représentativité •Il contribue à réduire le nombre d’échantillons possibles à ceux qui représente mieux la population. •Représentativité améliorée: élimination (réduction) des échantillons qui produiraient des estimations aberrantes en s’assurant que l’échantillon représente tous les éléments de la population. •Estimation distinctes dans les strates: On peut obtenir des estimations séparées pour chaque strate. •On a souvent une précision plus élevée des estimations au niveau de la population. TAILLE DE L’ÉCHANTILLON (cas du tirage aléatoire simple)
•Est déterminé en fonction du théorème de la limite centrale et du niveau de confiance:
–La distribution des moyennes des échantillons tend vers une distribution normale –La moyenne des moyennes des échantillons = moyenne dans la population •Ceci permet de dire que: –La moyenne de la population est égale à la moyenne de l'échantillon +/- une marge d'erreur (E) Lorsqu'on désire déterminer l'intervalle de confiance pour une proportion p de succès, la formule est donnée par: p (1 - p ) p (1 - p ) p p - z / 2 , p + z / 2 n n
Lorsqu'on désire déterminer l'intervalle de confiance pour la moyenne d'une caractéristique quantitative, la formule est donnée par:
x - z / 2
2
2
n n si la variance 2 est connue et par s2 s2 x - t (n-1); / 2 , x + t (n-1); / 2 n n si elle est inconnue. , x + z / 2
21
La quantité qu'on ajoute et qu'on retire: p (1 - p ) n
z /2
est appelée la précision de l'intervalle. La formule suivante donne la taille d'échantillon minimale pour avoir une précision minimale (ou marge d’erreur maximale) donnée e au niveau de confiance 95%:
e 1,96 *
2 0,5(10,5) 1,96 *0,25 0,9604 n = 2 2 n e e
La taille de l'échantillon nécessaire pour atteindre une précision e désirée au niveau de confiance 95% sera de
n
1,96 2 * 0,25 0,9604 = 2 2 e e
dans le cas d'une proportion et de
n
[
1 . 96 e
]
2
dans le cas d'une moyenne de valeurs quantitatives. Tableau donnant au niveau de confiance 95% la marge d’erreur en % p et n étant connus 10% 15% 20% 25% 30% 35% 40% 50% Ou Ou Ou Ou Ou Ou Ou 90% 85% 80% 75% 70% 65% 60% 100 8 8,6 9,2 9,6 9,8 10 150 5,7 6,4 6,9 7,3 7,6 7,8 8 200 4,3 5,1 5,7 6,1 6,5 6,8 6,9 7,1 250 3,8 4,5 5 5,4 5,8 6 6,2 6,3 300 3,5 4,2 4,6 5 5,3 5,6 5,7 5,8 350 3,2 3,8 4,2 4,6 4,9 5,1 5,2 5,3 400 3 3,6 4 4,3 4,6 4,8 4,9 5 500 2,7 3,2 3,6 3,9 4,1 4,3 4,4 5 600 2,4 3 3,3 3,5 3,8 3,9 4 4,1 700 2,3 2,7 3 3,3 3,5 3,5 3,7 3,8 800 2,1 2,5 2,8 3 3,2 3,3 3,4 3,5 900 2 2,4 2,7 2,9 3 3,1 3,2 3,3 1000 1,8 2,3 2,5 2,7 2,9 3 3 3,1 1500 1,5 1,9 2,1 2,3 2,4 2,5 2,6 2,6 2000 1,3 1,6 1,8 2 2,1 2,2 2,2 2,3 3000 1,1 1,3 1,4 1,5 1,6 1,7 1,8 1,8 5000 0,8 1 1,1 1,2 1,3 1,4 1,4 1,4 10000 0,6 0,7 0,8 0,9 0,9 1 1 1 22
Que fait-on en pratique? On utilise habituellement les formules obtenues pour le tirage aléatoire simple. Ainsi, on fait « comme si » l’échantillon était obtenu par tirage aléatoire simple. Cas stratifié Notons : N taille de la population n taille de l’échantillon Ni taille de la strate au niveau de la population ni taille de la strate au niveau de l’échantillon i variances des strates A- échantillon à effectif égal n1 = n2 = … = nk B- échantillon à allocation proportionnelle Ni / N = ni / n C- répartition de Neyman ni = (Ni i/ Nj j)n Échantillon exhaustif et non exhaustif. Un échantillon est non exhaustif si la taille de l’échantillon est petite par rapport à la population N > 7n. Dans ce cas la taille de la population n’influence pas la taille de l’échantillon qui ne dépend que de la précision recherché et de l’erreur toléré. Un échantillon est exhaustif si la taille de la population est petite par rapport à celle de l’échantillon N 0.02, donc il faut réassigner les observations
Nouvelles Distances par rapport aux centres de classes
Distance par rapport à la classe Obs. 1 2 3 O1
Ancienne classe
Nouvelle classe
O2
0 2
2 0
416.25 361.25
1 2
1 2
O3
181
145
51.25
3
3
O4
221
181
34.25
3
3
O5
625
557
21.25
3
3
O6
821
990
76.25
3
3
Nouveaux centres de classes après cette étape Classes Variables
1
2
3
Revenu
5
Éducation
5
6 6
21.5 17.0
Changement au niveau des classes 1 2 3 Revenu
0
Éducation
0
0 0
0 0
Changement < 0.02, donc FIN Solution = 3 classes dont une de 4 individus
Classification non hiérarchique sur données Lc banq (méthode Nuées dynamiques) Centre s de classes initiaux
Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore:
SOLD NDEC MDEC NBPR NEMP MEMP VADD DEPO RETR
1 -,10714 -,68681 -,76785 1,70914 1,65956 2,85851 ,22205 ,06710 3,74042
Classe 2 3,66279 -,68681 -,76785 ,07273 -,92677 -,68222 1,00575 1,41741 -,62999
3 -,61145 2,94923 2,46584 -1,01821 -,92677 -,68222 -,95350 -,82318 51 -,64556
Historique des itérationsa
Itération 1 2 3
Changements dans les centres de classes 1 2 3 3,534 2,886 3,070 ,000 ,389 ,158 ,000 ,000 ,000
a. Convergence atteinte - la distance parcourue est nulle ou très faible. La distance maximum parcourue par un centre est ,000. L'itération actuelle est 3. La distance minimum entre les centres initiaux est 7,211.
ANOVA Classe Erreur Moyenne Moyenne des carrés ddl des carrés ddl F Signification Zscore: SOLD 7,003 2 ,555 27 12,610 ,000 Zscore: NDEC 4,531 2 ,738 27 6,136 ,006 Zscore: MDEC 1,892 2 ,934 27 2,026 ,151 Zscore: NBPR 12,916 2 ,117 27 110,116 ,000 Zscore: NEMP 12,534 2 ,146 27 86,070 ,000 Zscore: MEMP 4,105 2 ,770 27 5,331 ,011 Zscore: VADD 12,771 2 ,128 27 99,687 ,000 Zscore: DEPO 12,984 2 ,112 27 115,598 ,000 Zscore: RETR 9,947 2 ,337 27 29,496 ,000 Les tests F ne doivent être utilisés que dans un but descriptif car les classes ont été choisies de manière à maximiser les différences entre les observations des diverses classes. Les niveaux de signification observés ne sont pas corrigés et ne peuvent par conséquent pas être interprétés comme des tests de l'hypothèse que les moyennes des classes sont égales.
Nombre d'observations dans chaque classe Classe
Valides Manquentes
1 2 3
9,000 8,000 13,000 30,000 ,000
Interprétation des groupes •Choix du nombre de groupes (méthode hiérarchique) Détecter un saut important au niveau des indices d’agrégation •Description des groupes basée sur les variables de classification Cas LC Banq (suite) La carte ACP suggère des solutions en trois ou quatre classes 52
3 11 2 6 20 288 23 5 29
4
1
10 0
14
7 1
19
3
25 1524 9 13 16 17 2 26 12 22
-1
18 21 30
27
-2 -3
-2
-1
0
REGR factor score 1 for analysis
1
1
Chaîne des agrégations
Etape 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Regroupement de classes Classe 1 Classe 2 13 15 13 24 12 22 3 7 28 29 8 23 16 17 9 25 2 26 1 19 8 20 9 16 4 6 5 28 18 21 3 14 27 30 9 13 2 12 5 8 3 10 1 3 2 18 4 5 4 11 2 27 1 9 2 4 1 2
Coefficients 4,135E-02 ,397 ,780 1,241 1,727 2,267 2,810 3,636 4,670 5,755 6,843 8,020 9,232 10,522 12,019 13,715 15,572 17,880 20,713 24,588 28,756 34,429 40,300 46,810 60,857 75,860 103,634 180,025 261,000
Etape d'apparition de la classe Classe 1 Classe 2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 8 7 0 0 0 5 0 0 4 0 0 0 12 2 9 3 14 11 16 0 10 21 19 15 13 20 24 0 23 17 22 18 26 25 27 28
Etape suivante 2 18 19 16 14 11 12 12 19 22 20 18 24 20 23 21 26 27 23 24 22 27 26 25 28 28 29 29 0
On détecte un saut à l’étape 26 : solution en quatre classes
53
2
Validation des groupes •Des méthodes différentes doivent aboutir à des résultats semblables. •Après séparation aléatoire de l’échantillon en deux moitiés, on doit aboutir aux mêmes résultats. •Les distributions des groupes sur les variables de classification ne se chevauchent pas. •Utiliser une analyse discriminante. Problèmes pratiques et conséquences •Problème posé
Choix des critères de classification
•Construction des groupes -calcul des distances -agglomération ou séparation
Choix de la métrique Choix de l’algorithme de classification
•Interprétation et validation des groupes
Choix du nombre de groupes Description des groupes
54
ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPOLES : A.F.C.M. Objectifs de l’A.F.C.M Objectifs de l’A.F.C.M est de mettre en évidence : - Les similitudes entre les modalités des variables : carte des variables. - Les proximités entre les individus : carte des individus. - Les liens entre les individus et les modalités des variables.
Intérêt de l’A.F.C.M Son Intérêt est de : - Tenir compte de l’aspect multidimensionnel des données - Très adaptées au dépouillement des questionnaires. - Analyse de plusieurs variables nominales. Mise en relation des thèmes d’un questionnaire
Les données Tableau : Individus X Variables Qualitatives
- xijl= 1 si l’individu i choisi la modalit l de la variable Xj = 0 sinon, - m nombre de variables observées - n nombre d’individus. La variable Xj possède pj modalités et p=pj est le nombre total de modalités.. Avec
55
Principe : -
Réduction de l’espace de représentation des individus Réduction de l’espace de représentation des modalités des variables.
Algorithme : -
Réaliser une ACP sur les profils lignes du tableau disjonctif complet (individus) Réaliser une ACP sur les profils colonnes du tableau disjonctif complet (modalités) Étudier le lien entre les deux ACP.
En utilisant les mêmes notations que l’AFC il vient que k nm xijl f ijl nm pj
m
f i. j 1 l 1
xijl
1 n
nm
n
n jl
i 1
nm
f. jl f ijl
Profils lignes associés à l’individu i : f J (..., i
f ijl f i.
,...) (...,
xijl m
,...)
Profils colonnes associés à la modalité l de la variable Xj : f I (..., jl
Profils lignes marginaux : f J (..., f. jl ,...) (...,
n jl
,...) nm 1 Profils colonnes marginaux : f I (..., f i. ,...) (..., ,...) n
2
p
N ( I ) nuage des profils lignes ..., f Ji ,... munis des poids
..., f i. ,...et de la métrique du m
d 2 ( f Ji , f Jk ) j 1
pj
1
f l 1
(
. jl
f ijl f i.
dans R
f kjl fk.
)2
N ( J ) nuage des profils colonnes ..., f I jl ,... munis des poids
..., f
. jl
,...et de la métrique du 2 dans R n n
d 2 ( f I jl , f Ist ) i 1
1 f ijl f ist 2 ( ) f i. f. jl f.st
Propriétés du nuage N(I) Distance du profil-ligne f J m
d 2 ( f Ji , f J ) j 1
i
au centre de gravité f J pj
n xijl
m n l 1
1
jl
56
f ijl f. jl
,...) (...,
xijl n jl
,...)
Ainsi plus un individu possède des modalités rares, plus il est loin du centre de gravité du nuage N(I). L’inertie totale du nuage s’écrit p I ( N ( I ), f J ) 1 m
Propriétés du nuage N(J) La distance du profil-colonne f I jl n d 2 ( f I jl , f I ) 1 n jl
au centre de gravité f I s’écrit
Ainsi un profil-colonne est d’autant plus éloigné du centre de gravité que son effectif est faible. La contribution de Xj à l’inertie totale vaut (pj -1)/m. Elle est d’autant plus élevée que le nombre de modalités de la variable Xj est élevé. Il est préférable en AFCM d’utiliser des variables ayant le même nombre de modalités. L’inertie totale du nuage s’écrit I ( N ( I ), f J )
p 1 m
ACP des nuages N(I) et N(J) Les axes principaux du nuage N(I) (respectivement N(J))
Les axes principaux (resp. ) passent par le centre de gravité fJ ( resp. fI) et sont portés par les vecteurs propres u1,…,ur (resp.v1,…,vr ) de la matrice A (resp.B ) associé aux valeurs propres rangées par ordre décroissant. Remarque : r est au plus égal à p-m. On ne retient donc un axe factoriel que si la valeur propre associée est supérieure à 1/m (moyenne des p-m valeurs propres). La matrice A est de terme général n
a jlj 'l ' i 1
f ijl f ij 'l ' f i . f . j 'l '
f. jl m
(Resp. la matrice B est de terme général bii ' j 1
pj
l 1
f ijl f i ' jl f i '. f. jl
f i. )
Les composantes principales Les composantes F1,…,Fr (resp. G1,…,Gr ) sont les coordonnées des projections des profils lignes (resp. colonnes ) sur les axes (resp. )..
Propriétés
Les composantes principales sont centrées de variance h et sont non corrélées entres elles.
Taux d’inertie Le taux d’inertie associé à l’axe h définie par
h
57
p m m
est majoré par m p m
.
On remarque que plus le nombre de modalités des questions est important plus le taux d’inertie associé aux axes est faible. On ne peut donc ici appliquer les résultats de l’AFC sur tableau de contingence. Deux attitudes peuvent être adoptées : - Concentrer l’analyse sur le premier plan principale. - Retenir les axes pour lesquels il est possible d’établir une interprétation claire et constructive.
Interprétation des axes factoriels Elle se base sur les modalités à forte contribution selon les règles suivantes : - On classe les modalités par contribution décroissante et partant des premières on extrait assez de modalités de rangs consécutifs pour que la somme des contributions soit comprise entre 50% et 80%. - On prend en compte que les modalités dont la contribution est supérieure à 1/p. La contribution de la modalité jl à la composante Gh vaut n jl Gh2 ( jl ) CTRh ( jl ) nmh On en déduit la contribution de la variable Xj à la composante Gh qui vaut pj
CTRh ( j ) CTRh ( jl ) l 1
Distance entre modalités La distance entre les modalités jl et ts s’écrit : n xijl x d 2 ( f I jl , f Its ) n( its ) 2 n jl nts i 1 On en déduit : - 2 modalités sont confondues lorsque tous les individus qui ont choisi une modalité ont choisi l’autre. - 2 modalités sont proches lorsqu’ elles ont été fortement associées. Cette proximité est renforcée lorsque ces modalités ont été choisies par un grand nombre d’individus. - 2 modalités sont éloignées lorsqu’elles ont été très peu associées. Cette distance est renforcée lorsque ces modalités sont rares.
Distance entre profils colonnes exprimé en fonction des composantes La distance entre deux modalités jl et ts s’écrit aussi r
d 2 ( f I jl , f Its ) (Gh ( jl ) Gh (ts))2 h 1
r nombrede composantes La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils exprimée en fonction des composantes.
58
Distance entre individus La distance entre deux individus i et k s’écrit pj m n d 2 ( f Ji , f Jk ) (xijl xkjl ) 2 j 1 l 1 n jl On en déduit - 2 individus sont d’autant plus éloignés que sont nombreuses les modalités pour lesquelles ils ont fait des choix opposés. Un individu est d’autant plus éloigné des autres individus qu’il a opté pour des modalités rares - 2 individus sont d’autant plus proches que sont nombreuses les modalités pour lesquelles ils ont fait les mêmes choix. Leur proximité est renforcée lorsque les modalités pour lesquelles ils ont fait des choix opposés ont des fréquences élevées
Distance entre profils lignes exprimé en fonction des composantes La distance entre deux individus i et l s’écrit aussi r
d 2 ( f Ji , f Jl ) ( Fh (i ) Fh (l )) 2 h 1
r nombrede composantes La distance du khi2 entre profils correspond à la distance euclidienne de ces mêmes profils exprimée en fonction des composantes.
Relations de transition On a les deux relations de transition suivantes :
A
1
-
pj
m
Fh (i )
1
1
h
j 1 l 1 m
h
f ijl fi.
1 m
Gh ( jl )
pj
j 1 l 1
xijl Gh ( jl )
n
Gh ( jl )
1
1
h
i 1
f ijl f . jl
Fh (i )
n
h
1 n jl
x i 1
h
ijl
Fh (i )
près Fh(i) est au barycentre des Gh(jl) pour l’ensemble des modalités jl caractérisant l’individu i. Gh(jl) est au barycentre des Fh(i) pour l’ensemble des individus i possédant la modalité jl.
Indice d’attraction répulsion Il s’écrit
xijl n jl f i. f. j n Il est d’autant plus élevé que l’individu i possède une modalité jl rare. d ij
f ij
59
Représentation graphique L’individu i est représenté par le point profil-ligne Ai ( F1 (i), F2 (i)) La modalité l de la de la variable j est représentée par le point profil-colonne
B jl (G1 ( jl ), G2 ( jl )) La représentation graphique suivante résume les différentes situations rencontrées en AFCM
60
61