38 0 3MB
Méthodes quantitatives L’analyse factorielle discriminante
MASTER : ENTREPRENEURIAT ET INGÉNIERIE MANAGÉRIALE 2020 - 2021
sur SPSS
Encadré par : Mr. Ayoub AZZAYANI
Réalisé par :
Wissal WALKAS Safae BOUFARES
Ihssane ZAHRANE Dounya DAMIR
Sommaire
Introduction.........................................................................................................3 Section 1 : L’analyse factorielle discriminante sur SPSS.....................................4 1. Présentation de l’analyse factorielle discriminante......................................4 2. Découverte de SPSS......................................................................................4 3. exemple d’application sur SPSS....................................................................5 3.1. Cas de deux populations.......................................................................5 Conclusion.........................................................................................................21 Références.........................................................................................................22
Introduction Dans plusieurs domaines, les professionnels sont amenés à prévoir les comportements sur la base de certains critères à travers certains logiciels : c’est le cas par exemple d’un médecin établissant un diagnostic pour prescrire un traitement à l’aide de la SPSS,
Nous avons pris comme fil conducteur pour nous guider tout au long de cet exposé la problématique suivante : Comment faire la mise en œuvre de l’analyse discriminante par l’intermédiaire de la procédure DISCRIM du logiciel SPSS pour Windows
De cette problématique un ensemble de questions secondaires découlent :
Qu'est-ce que l'Analyse discriminante ? Qu’est-ce que le programme informatique SPSS ? Comment utiliser La SPSS au profit de l’AFD ?
Afin de bien répondre à nos questions, nous avons structuré notre travail comme suit : Dans un premier temps nous présentons brièvement une définition de l’AFD, des généralités sur la SPSS. Ensuite, nous présentons un exemple d’application dans le cas de 2 populations à l’aide de la SPSS. L’objectif de cet exposé est de fournir une introduction à ce logiciel statistique de manière à faciliter son utilisation avec l’illustration sur des exemples concrets de statistique appliquée, plus précisément l’analyse factorielle discriminante
3
Section 1 : L’analyse factorielle discriminante sur SPSS 1. Présentation de l’AFD : L’analyse factorielle discriminante est une technique d’analyse des données développée par Fisher (1936) qui vise à décrire, expliquer et prédire l’appartenance à des groupes prédéfinis à partir d’une série de variables quantitatives pour déterminer les caractères les plus discriminants, et de séparer au mieux l’ensemble des groupes. L'Analyse Factorielle Discriminante est une méthode statistique explicative et prédictive qui vise à étudier les relations entre une variable qualitative et un ensemble de variables explicatives quantitatives.
Par exemple,
La Discrimination entre plusieurs types de voitures d’après des critères du type : - prix de vente - nombre de places - vitesse de pointe - consommation. - etc. On peut aussi essayer de faire une discrimination entre les acheteurs de ces voitures d’après des critères sociologiques. Du type : revenu, montant des achats, âge... à travers la SPSS
2. Découverte de SPSS SPSS a été créé en 1968 afin d'informatiser le traitement et l’analyse statistique des données, dont le sigle anglais signifie Statistical Package for the Social Sciences, est un programme informatique d’analyse de données statistiques. Il permet de saisir des données, d’en faire des présentations résumées, de les organiser et surtout de les analyser. SPSS est utilisé pour une large gamme d'analyses statistiques - . Comme des statistiques descriptives ( par exemple , des moyennes , des fréquences ) , statistiques à deux variables (par exemple , analyse de la variance , le test t ) , la régression , l'analyse des facteurs - et la représentation graphique des données . Bien que conçu à l'origine et nommé pour les sciences sociales, il peut être utilisé pour de nombreux types de jeux de données expérimentales ou d'observation, y compris les sciences de l'environnement et de l'écologie. Il est considéré comme relativement simple à utiliser grâce à son interface graphique, par opposition à calculer manuellement les statistiques ou de codage dans un langage de programmation statistique.
4
3. Exemple d’application sur SPSS 3.1. Cas de deux populations On cherche à faire une analyse discriminante sur la détermination des caractéristiques des familles ayant séjourné en centre de vacances au cours des deux dernières années. Les données furent obtenues à partir d'un échantillon de prétest de 42 foyers, dont 30 (voir le tableau 1 ci-après) furent inclus dans l'échantillon d'analyse et les 12 restants (voir tableau 2) composèrent l'échantillon de contrôle. Les foyers qui étaient partis en centre de vacances au cours des 2 dernières années étaient codés1, ceux qui n'étaient pas partis étaient codés 2 (séjour). L'échantillon d'analyse contient 15 foyers dans chaque groupe. Des données furent aussi recueillies concernant le revenu annuel de la famille (REVENU), l'attitude vis-à-vis du voyage (VOYAGE, mesurée sur une échelle en neuf points), la taille du foyer (TAILLEF) et l'âge du chef de famille (AGE).
5
6
Solution Nous avons tout d’abord créé notre base des données sur SPSS :
7
Par la suite, on va voir la procédure pour qu’on puisse mener une analyse discriminante
Nous avons chercher l’analyse discriminante :
8
Une fois que nous avons cette fenêtre, nous allons déclarer nos variables endogènes (dépendants), et nos variables exogènes (revenu, attitude, importance, taille, âge, etc.). Et pour la plage des valeurs, on va mettre 1 (comme une valeur minimum) et 2 (valeur maximum)
9
10
Et par la suite, on va demander la moyenne, le test de box, le coefficient de Fisher, la matrice de corrélation intra-groupe :
11
Voilà les résultats de l’analyse discriminante :
Il faut bien sûr commencer par les statistiques de groupe. On a les colonnes consacrées à la moyenne et à l’écart type pour les deux groupes qu’on cherche à discriminer
12
Par la suite, nous avons les matrices intragroupes combinés :
Par exemple : 1,000 : c’est la corrélation entre le revenu et lui-même 0,91 : la corrélation entre l’importance attachée aux vacances en famille et le revenu familial annuel On constate ici qu’on a une faible corrélation entre les différentes variables
13
Les variables sont indépendantes
Nous cherchons à tester 2 hypothéses alternatives : H0 : l’égalité des variances covariances H1 : l’inégalité des variances covariances
Commentaire : On accepte l’hypothèse nulle d’égalité des variances-covariances
Récapitulatif des fonctions discriminantes canoniques : 14
Les valeurs propres
100% du pouvoir discriminant des cinq variables est attribuable à une seule fonction discriminante. La corrélation canonique (permet d’une part de mesurer l’intensité des relations existant entre deux ensembles de variables quantitatives standardisés, et d’autre part, de trouver une ou plusieurs équations permettant de représenter ces relations), relativement forte (d’environ 80, 14),
Coefficients des fonctions discriminantes canoniques Standardisées.
15
La fonction discriminante Y : Y= 0,743REVENU + 0,096VOYAGE + 0,233VACANCES + 0,469TAILLE + 0,209AGE En fonction des cinq variables, revenu, voyage, vacances taille et Age.
Selon les résultats des coefficients des fonctions discriminantes canoniques standardisées on constate que c’est la variable REVENU (le revenu familial annuel), suivie par la variable TAILLE (la taille du foyer) et la variable VACANCES (importance attachée aux vacances en famille) qui séparent le mieux les deux groupes (les coefficients associés à ces variables sont les plus élevés).
Coefficients des fonctions discriminantes canoniques non standardisées.
La fonction discriminante Y :
16
Y= -7,975 + 0,085REVENU + 0,050VOYAGE + 0,120VACANCES + 0,427TAILLE + 0,25AGE En fonction des cinq variables, revenu, voyage, vacances taille et Age. Selon les résultats des coefficients des fonctions discriminantes canoniques non standardisées on constate que c’est la variable REVENU (le revenu familial annuel), suivie par la variable TAILLE (la taille du foyer) et la variable VACANCES (importance attachée aux vacances en famille) qui séparent le mieux les deux groupes (les coefficients associés à ces variables sont les plus élevés).
La Matrice de structure
Les corrélations intragroupes combinés entre les variables discriminantes et les variables des fonctions canoniques standardisées sont ordonnées par la taille absolue des corrélations à l’intérieur de la fonction.
Commentaire : Selon les résultats de la matrice de structure on constate que c’est la variable REVENU (le revenu familial annuel), suivie par la variable TAILLE (la taille du foyer) et la variable
17
VACANCES (importance attachée aux vacances en famille) qui séparent le mieux les deux groupes (corrélation très force pour ces variables).
Lambda de wilks
H1 : La fonction est significative. H2 : La fonction n’est pas significative. On accepte H1, La fonction discriminante est significative au risque de 5 %, En d’autres termes, cette fonction discriminante est utile à l’explication des différences observées entre les deux groupes.
Si les dispersions des groupes sont très différentes à la fois en taille et en orientation, la règle géométrique de classement peut conduire à des taux de mal-classés importants. Pour pallier ces insuffisances inhérentes au point de vue géométrique, il est parfois nécessaire d’adopter une démarche probabiliste susceptible de fournir des règles de classement optimales.
18
19
Conclusion L’analyse factorielle discriminante permet d’étudier les relations entre une variable qualitative et un ensemble de variables explicatives quantitatives, à travers le logiciel SPSS, ce dernier permet d’analyser les données et de faciliter leur compréhension. Trois objectifs principaux peuvent donc être assignés à l’analyse discriminante : • Déterminer les variables explicatives les plus discriminantes vis à vis des classes déterminées. • Déterminer à quel groupe appartient un individu à partir de ses caractéristiques. • Mais surtout à valider une classification ou à faire un choix entre plusieurs classifications pour savoir laquelle est la plus pertinente. .
20
Références Bibliographie : - Bardos M. (2001). Analyse discriminante : application au risque et scoring financier, Dunod, Paris, 224 p. - Blake, C.L. & Merz, C.J. (1998). UCI Repository of machine learning databases. University of California, Department of Information and Computer Science Irvine, CA, USA. - Bouchicha I, 2017-2018. Mémoire, analyse factorielle discriminante. Faculté des Sciences Exactes et Informatique, 78p. - Celeux G., Diday E., Govaert G., Lechevallier Y., Ralambondrainy H. (1989). Classification automatique des données. Environnement statistique et informatique, Bordas, Paris, 285 p. - Chavent M, 2015-2016. Analyse factorielle discriminante (AFD). Université bordeaux – Master MIMSE – 2ème année, 14p. - Rakotomalala R. Analyse discriminante descriptive ou Analyse factorielle discriminante, 39p. Philippe R, 2020-2021. Analyse factorielle discriminante. Université de Strasbourg, 64p.
Webographie : - Cours Data Science, IN : http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html - Wiki how, IN : https://fr.wikihow.com/entrer-des-donn%C3%A9es-dans-SPSS
21