Les Sondages Les Techniques de Sondages Pascal Ardilly Edition Technip 2006 PDF [PDF]

  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

À lire, à voir – À lire, à voir – À lire, à voir – À lire, à voir – À lire, à voir À lire, à voir – À lire, à voir – À lire, à voir – À lire, à voir – À lire, à voir

Les sondages : c’est pas sorcier À propos de l’ouvrage « Les techniques de sondage », de Pascal Ardilly, paru aux éditions Technip en 2006 !  Éric Lesage*

D

ouze ans après la parution de son ouvrage « Les techniques de sondage »1, Pascal Ardilly en a réalisé une version actualisée et augmentée en 2006. Deux cent cinquante pages supplémentaires lui ont permis d’incorporer les derniers développements de la théorie des sondages et de la méthodologie d’enquête.

Les méthodes sont présentées clairement et rigoureusement. Les démonstrations mathématiques, parce qu’elles intéressent davantage les théoriciens que les praticiens, sont reléguées au second plan (voire renvoyées en annexe) et l’auteur privilégie les explications littérales. Il rend son propos accessible et compréhensible par l’utilisation d’exemples, de simulations et de présentations de cas concrets qu’il a rencontrés dans le cadre de son activité à l’Insee. Des indications sur la mise en œuvre informatique des méthodes sont proposées. Lorsque c’est possible, l’auteur présente un cas simple avant de présenter le cas général. Ainsi, le plan

Enfin, le dernier chapitre présente des méthodes d’estimation de la variance dans le cas des plans de sondage complexes (100 pages).

Premier chapitre Les questions fondamentales du sondeur sont la sélection de l’échantillon, l’estimation de grandeurs (souvent socio-économiques) définies sur l’ensemble de la population et la mesure de la précision de ces estimations. Une mise au point intéressante est faite sur la différence entre les estimateurs sur population finie (estimation de vraies valeurs) et les estimateurs de la statistique « classique » (estimation de paramètres d’un modèle). Dans le cas des sondages, l’aléa réside dans le choix des individus ; dans le cas de la statistique inférentielle classique, l’aléa est dans la réalisation de la variable observée.

Source : Éditions Technip

Cet ouvrage de référence, en langue française, est principalement un manuel du méthodologue d’enquête ; il s’adresse à des professionnels de terrain, y compris ceux n’ayant pas suivi de formation poussée dans le domaine des sondages (ou en ayant suivi une il y a fort longtemps !). Ce n’est pas un cours de théorie des sondages, au sens d’un ouvrage mathématique abstrait et synthétique qui s’inscrirait dans un cursus de formation statistique.

de sondage aléatoire simple est souvent utilisé en première approche. De même, le cas unidimensionnel est expliqué avant le cas multidimensionnel.

Le plan Le livre de Pascal Ardilly contient une trentaine de parties regroupées en cinq grands chapitres. Le premier, introductif, présente le contexte des sondages et les notions de base (50 pages). Le deuxième chapitre présente les plans de sondage classiques (200 pages). Le troisième traite de la correction de la non-réponse et du redressement des poids d’échantillonnage (200 pages aussi). Le quatrième chapitre met un coup de projecteur sur quelques aspects particuliers des sondages (100 pages).

Courrier des statistiques n° 121-122, mai-décembre 2007

Dans ce chapitre, l’auteur décrit la place des enquêtes par sondage dans la société actuelle, ainsi que les acteurs et les différentes étapes des enquêtes. Il mentionne notamment le contrôle de la collecte et de la qualité des données saisies. Les notions de probabilités sont introduites par des exemples. Le lecteur non statisticien devra absolument lire *  Éric Lesage est directeur adjoint de l’École nationale de la statistique et de l’analyse de l’information (Ensai), chargé de la direction des études. 1.  Voir à ce sujet la fiche de lecture critique rédigée par Jean-Claude Deville, intitulée « Les techniques de sondage, de Pascal Ardilly », parue dans le Courrier des statistiques n° 6768, décembre 1993, p. 59 [NDLR].

81

Éric Lesage ce premier chapitre ; il découvrira les notions de variable aléatoire, d’espérance mathématique, de variance et de densité de probabilité dans le cadre spécifique d’une population finie. Enfin, on trouve un point très intéressant sur la notion de base de sondage et sur les différents types d’erreurs (d’échantillonnage, d’observation, de défaut de couverture, de non-réponse).

Deuxième chapitre Ce chapitre présente les plans de sondage classiques avec, pour chacun d’eux, les algorithmes de tirage recommandés, la méthode d’estimation sans biais du total et de la moyenne et le calcul de précision associé. L’auteur commence par présenter le tirage aléatoire simple. Il mentionne la possibilité d’utiliser la « Proc Surveyselect » de SAS pour programmer l’algorithme de tirage. On trouve dans cette même partie une discussion intéressante sur la fiabilité de l’intervalle de confiance (lui-même estimé) et sur la prise en compte des contraintes budgétaires par le méthodologue. Le cas particulier de l’estimation de proportions est traité. Il est rappelé, pour fixer les idées, qu’une estimation à 2 points près de la proportion de femmes dans la population française nécessite le tirage de 2 500 enquêtés, mais que la même estimation, à 0,5 point près, requiert 40 000 sondés ! La partie suivante présente la notion fondamentale de stratification. Cette méthode, qui nécessite l’utilisation d’information auxiliaire, apporte un 2.  Dans la plupart des cas, les marges qui sont imposées ne peuvent pas être rigoureusement égalées. On distingue alors deux phases dans l’algorithme de tirage. La première est la phase de « vol » : les individus sélectionnés un par un laissent présager que l’échantillon final redonnera les bonnes marges. La seconde phase survient lorsque la phase de vol est interrompue avant que l’échantillon complet ne soit tiré, c’est-à-dire quand l’algorithme ne trouve plus, parmi les individus restants, un groupe qui permette de respecter les marges. La méthode du cube offre alors trois options pour finir le tirage de l’échantillon. Cet échantillon ne redonnera qu’approximativement les marges imposées.

82

gain de précision important ; c’est une technique simple et « tout bénéfice ». Le sondage à deux degrés pallie quant à lui deux inconvénients du sondage aléatoire : le besoin d’une base de sondage complète et les coûts de collecte importants engendrés par la dispersion géographique des enquêtés. La contrepartie en est une perte de précision, bien connue sous le nom d’effet de grappe. La partie sur le sondage à probabilités inégales permet de poser un cadre général théorique en présentant notamment l’estimateur de HorvitzThompson (le Π-estimateur). L’auteur met en garde ses lecteurs contre les effets néfastes de ces plans de sondage (dont les risques de détérioration de la précision et les difficultés de calcul de variance). Le cas favorable du plan à deux degrés auto-pondéré est étudié, notamment une méthode d’estimation de la variance approchée (et simplifiée). Dans ce cas, les unités primaires d’échantillonnage sont tirées proportionnellement à leur taille. Cette partie est également l’occasion d’aborder le tirage en deux phases, le partage des poids, le plan de sondage à entropie maximum et la modélisation de la non-réponse. La cinquième partie présente la récente technique de l’échantillonnage équilibré, qui est en quelque sorte la version probabiliste des sondages par quota. La « méthode du cube » proposée par J-C. Deville et Y. Tillé est un algorithme général qui fonctionne dans un contexte de tirage à probabilités inégales. À cette occasion, l’auteur attire l’attention des praticiens sur l’importance de la maîtrise de la « phase d’atterrissage »2. Une macro SAS appelée « Macro Cube » effectue ce tirage. Les deux dernières parties de ce chapitre abordent les enquêtes par quota et le cas pratique des enquêtes auprès des ménages de l’Insee. L’auteur conclut en mentionnant que l’information auxiliaire est un facteur important d’amélioration de la précision des estimateurs, mais qu’il est de fait impossible de trouver un plan de sondage « optimum » pour l’ensemble des variables d’intérêt d’une enquête.

Troisième chapitre Ce chapitre traite du redressement des poids de sondage effectué dans le but de construire des estimateurs qui estiment sans erreur (en particulier avec variance nulle) le total d’une ou de plusieurs variables auxiliaires. Le redressement renvoie à l’utilisation d’information auxiliaire au moment de l’estimation (après collecte) par opposition à l’utilisation d’information auxiliaire au moment de l’échantillonnage. Le redressement n’est avantageux que si la variable d’intérêt est bien expliquée par les variables auxiliaires. L’auteur passe en revue plusieurs méthodes de redressement, en précisant pour chacune d’entre elles quels sont les nouveaux poids, si l’estimateur est biaisé et si la précision est meilleure que dans le cas où l’on ne redresse pas. On est souvent dans le cas simplifié d’un plan de sondage aléatoire simple ou d’un sondage de taille fixe à probabilités égales. Est d’abord présentée la post-stratification « univariée », qui conduit à un estimateur légèrement biaisé mais toujours plus précis que l’estimateur non redressé dans le cas du sondage aléatoire simple. Le raking-ratio est ensuite introduit comme une version multidimensionnelle de la post-stratification. L’estimateur par le ratio est faiblement biaisé, mais peut être moins précis que le Π-estimateur si la corrélation entre la variable auxiliaire et la variable d’intérêt est insuffisante. Il est intéressant en particulier dans le cas des tirages à deux phases ou à deux degrés. L’estimateur par la régression est l’estimateur vedette qui généralise les estimateurs par le ratio et poststratifié. Dans le cas d’un sondage aléatoire simple, cet estimateur est toujours plus précis que l’estimateur non redressé. Il faut noter la « facilité » de mise en œuvre du calcul de la précision en utilisant les formules de variance des estimateurs « classiques » non redressés (HT) dans lesquelles on remplace la variable d’intérêt par les résidus de la régression

Les sondages : c’est pas sorcier – À propos de l’ouvrage « Les techniques de sondage » de Pascal Ardilly linéaire de la variable d’intérêt sur les variables auxiliaires. La précision de l’estimateur par la régression est également celle que l’on obtient pour les sondages équilibrés ou lorsqu’on procède à un redressement, d’où son importance. La cinquième partie de ce troisième chapitre traite du calage généralisé, qui constitue une approche globale du problème du redressement. Le calage nécessite que l’on s’intéresse aux poids : l’objectif est de déterminer une nouvelle variable de poids (« pas trop loin » de la variable de poids initiale) qui permette de bien estimer le vrai total, connu, de l’information auxiliaire. Les différentes fonctions de distance utilisables en option sont étudiées, ainsi que le cas particulier du calage simultané aux niveaux du ménage et de l’individu (ou aux niveaux de l’entreprise et de l’établissement). Des mises en œuvre avec la macro SAS de calage (Calmar) sont présentées. La sixième partie aborde le sujet compliqué du traitement de la nonréponse qui nécessite de se pencher sur le comportement des personnes interrogées. La non-réponse introduit du biais (qui ne diminue pas avec la taille de l’échantillon) et une perte de précision. L’auteur présente les deux grandes familles de traitement : les méthodes de repondération et les méthodes d’imputation. Il insiste sur le fait que l’absence de biais repose sur l’hypothèse forte que le modèle de réponse est exact ; il souligne aussi que le cas dangereux est celui où le mécanisme de non-réponse est lié à la variable d’intérêt (cas dit « non ignorable »). Pour appliquer les méthodes de repondération, on peut utiliser selon les circonstances le calage généralisé ou le calage que l’auteur dénomme « super généralisé », qui traitent la non-réponse et effectuent le redressement en même temps. L’imputation repose sur la prédiction des valeurs manquantes à l’aide d’un modèle de comportement. Il existe deux familles de méthodes d’imputation : les méthodes détermi-

nistes (imputation par la régression et méthode des plus proches voisins) et les méthodes aléatoires (hot-deck, méthode des résidus simulés, imputation de variables qualitatives par modélisation explicite et imputation multiple). On trouve ensuite une comparaison de l’efficacité respective des imputations par la moyenne et par hot-deck, un exemple de méthode utilisable pour traiter le cas de nonréponse « non-ignorable » et un calcul de variance qui prend en compte, en plus de l’aléa d’échantillonnage, l’aléa du mécanisme de non-réponse et éventuellement du modèle aléatoire d’imputation. Cette partie se conclut par une très bonne synthèse dans laquelle on trouve notamment les taux de réponse de certaines grandes enquêtes de l’Insee et leur évolution dans le temps. Le chapitre finit par un cas pratique.

Quatrième chapitre Ce chapitre aborde quelques aspects particuliers des sondages. Le premier concerne l’estimation sur un domaine (c’est-à-dire une sous-population). Dans ce cas de figure très courant, la taille aléatoire de l’échantillon recoupant le domaine d’étude entraîne des difficultés techniques de calcul de biais et de précision. L’auteur passe ensuite en revue les principaux estimateurs utilisés dans le cadre des « petits domaines » : estimateurs synthétiques, par la prédiction, estimateurs composites et estimateurs reposant sur une modélisation « explicite » (en particulier une modélisation linéaire mixte). Le deuxième aspect particulier concerne les questions pratiques et le calcul de précision dans le cas du tirage d’individus dans un ménage. La troisième partie aborde l’échantillonnage dans le temps en distinguant l’approche longitudinale et l’approche transversale. Dans chaque cas de figure, on peut envisager essentiellement trois types d’échantillonnage : un panel pur, un échantillonnage rotatif combinant différents panels ou encore un système d’échantillons tirés indépendamment à chaque date.

Courrier des statistiques n° 121-122, mai-décembre 2007

Pour des études longitudinales, le panel permet d’accroître la précision des mesures d’évolution. Dans le cas de l’approche transversale, il faut en revanche tenir compte des « naissances ». En présence de panélisation, une des méthodes dédiées à ce problème difficile est la « méthode généralisée du partage des poids ». La fin de cette partie aborde l’échantillonnage de dates d’enquête et les enquêtes par vague. Ce chapitre se termine sur une partie très intéressante consacrée à « l’approche modèle » qui, dans l’univers des sondages, fait référence au concept de modèle de « superpopulation ». En sondage, le nombre de paramètres inconnus est N, c’est-àdire la taille du vecteur de la variable d’intérêt observée sur la population. L’approche modèle permet de passer de ces N inconnues à un nombre de paramètres inconnus considérablement plus petit. Les variables d’intérêt relatives aux N individus de la population sont alors considérées comme des variables aléatoires dont les lois dépendent d’un petit nombre de paramètres. Cette approche permet de construire des estimateurs optimaux et de comparer les précisions de différents plans de sondage complexes.

Cinquième chapitre Ce chapitre traite de l’estimation de variance dans le cas de plans de sondage complexes. Il existe deux approches principales permettant d’estimer des variances : une approche analytique et une approche par des méthodes de réplication d’échantillon. Une troisième approche utilisant le « Design effect » (effet de plan) est mentionnée. Dans le cadre de l’approche analytique, l’auteur donne des estimateurs approchés et simplifiés de calcul de variance dans le cas (problématique) du tirage à probabilités inégales. À cette occasion, il revient sur la notion de plan de sondage à entropie maximale. Pour ce qui concerne les estimateurs non linéaires, il propose l’utilisation de technique de linéarisation

83

Éric Lesage afin de construire des expressions analytiques approchées de variance. Les techniques de réplication d’échantillon sont bien maîtrisées pour les cas simples, mais leur extension aux plans complexes est difficile à formaliser. L’auteur présente les deux méthodes générales du Jackknife et du bootstrap puis la méthode particulière des demi-échantillons. Ce chapitre se termine sur quatre cas d’application, dont un traite de la mise en œuvre du logiciel Poulpe

de l’Insee dans le cadre de l’enquête Emploi. L’ouvrage se termine par une bibliographie d’ouvrages de référence commentés et classés en cinq rubriques et par un lexique dans lequel les différents termes techniques ont leur traduction en anglais.

Mon avis Ce manuel est un formidable état de l’art vulgarisé, très précis, très clair, avec des explications bien rédigées et sans digressions.

Je recommande ce livre aux méthodologues d’enquête de l’Insee (et au-delà, de la statistique publique), à ceux des instituts d’enquêtes de marketing et aux chercheurs qui travaillent sur les sondages et leurs applications. Les concepteurs d’enquêtes et les chargés d’études y trouveront également des informations utiles. Enfin, j’invite les statisticiens et les économistes à lire les parties sur l’approche modèle et l’estimation de « vraies valeurs ». n

Table des matières Avant-propos I. Aspects universels, principes de base 1.  Généralités 2.  Formalisation et vocabulaire de base 3.  Loi d’un estimateur et intervalle de confiance 4.  Principe des estimateurs « en chaîne » 5.  Bases de sondage 6.  Différents types d’erreurs rencontrés dans les enquêtes 7.  Principales étapes d’une enquête

II. P  résentation des plans de sondage classiques 1.  Sondage aléatoire simple 2.  Sondage stratifié 3.  Sondage à plusieurs degrés 4.  Sondage à probabilités inégales 5.  Échantillonnage équilibré 6.  Sondages empiriques 7.  Cas pratique : l’échantillonnage des enquêtesménages de l’Insee dans les échantillons-maîtres 90 et 99 8.  Synthèse

III. A  mélioration des estimateurs (redressements, correction de non-réponse) 1.  Post-stratification simple 2.  Post-stratification sur plusieurs critères 3.  Estimateur par le ratio (ou par le quotient) 4.  Estimateur par la régression 5.  Une approche générale du problème : calage généralisé et application « Calmar » 6.  Traitement des non-réponses

84

7.  Cas pratique : l’enquête biens durables – ameublement

IV. Q  uelques aspects particuliers des sondages 1.  Estimation sur des domaines 2.  Tirage d’individus dans un ménage 3.  Échantillonnage dans le temps 4.  Introduction à l’approche modèle

V. P  lans de sondages complexes : éléments pour estimer les précisions 1.  Problèmes posés et généralités sur les types de traitements 2.  Deux méthodes générales d’estimation de précision : le bootstrap et le jackknife 3.  Une méthode particulière d’estimation de précision : les demi-échantillons 4.  Cas d’application 1 : mise en œuvre du logiciel Poulpe dans le cadre de l’enquête emploi de l’Insee 5.  Cas d’application 2 : méthode de calcul de précision des enquêtes-ménages tirées dans l’échantillon-maître 82 6.  Cas d’application 3 : précision de l’indice trimestriel des loyers 7.  Cas d’application 4 : précision « anticipée » des enquêtes-ménages tirées dans l’échantillon-maître 90

Conclusion Bibliographie Lexique Index