Modeles A Equations Structurelles Approc [PDF]

  • Author / Uploaded
  • the
  • 0 0 0
  • Gefällt Ihnen dieses papier und der download? Sie können Ihre eigene PDF-Datei in wenigen Minuten kostenlos online veröffentlichen! Anmelden
Datei wird geladen, bitte warten...
Zitiervorschau

Chapitre 8 ` ` EQUATIONS ´ MODELES A STRUCTURELLES, APPROCHES ´ BASEES SUR LES COMPOSANTES V. Esposito Vinzi et L. Trinchera

8.1

Introduction

La fonction principale de la statistique est de mod´eliser le monde r´eel. On mod´elise pour d´ecrire, comprendre, ´evaluer, reproduire, analyser un ph´enom`ene r´eel. Il est bien connu qu’un mod`ele est une simplification de la r´ealit´e. L’objectif poursuivi est d’expliquer la complexit´e d’un syst`eme par l’´etude des variables observ´ees sur les unit´es statistiques. Les mod`eles ` a ´equations structurelles (Bollen, 1989 ; Kaplan, 2000) mettent en œuvre des m´ethodes statistiques qui nous permettent de quantifier des relations de cause ` a effet d´ecrites par un mod`ele th´eorique, d’´etablir des liens entre deux ou plus concepts latents, chacun ´etant mesur´e a` partir d’indicateurs observables. L’id´ee de base est que la complexit´e interne d’un syst`eme est ´etudiable en prenant en compte la totalit´e des relations de cause `a effet entre les concepts latents appel´es variables latentes, chacune ´etant mesur´ee par l’observation de nombreux indicateurs observables appel´es variables manifestes. En ce sens les mod`eles ` a ´equations structurelles font le pont entre l’analyse utilisant des graphes (Path Analysis par Tukey, 1964 ; Alwin & Hauser, 1975) et l’analyse factorielle (Thurstone, 1931). L’analyse factorielle suppose que le nombre de facteurs (les variables latentes) est plus petit que le nombre de variables manifestes et ces variables latentes expliquent une part des variances et covariances des variables manifestes. De plus les mod`eles utilisant des graphes sont un prolongement logique des mod`eles de r´egression car ils proc`edent `a l’analyse simultan´ee d’´equations

2

Chapitre 8

de r´egression multiple. Plus pr´ecis´ement un mod`ele d´ecrit par un graphe prend en compte les relations directes et indirects entre les variables observables, tandis que les mod`eles de r´egression, ´etant additifs par d´efinition, ne prennent en compte que les relations directes entre les variables ind´ependantes et les variables d´ependantes. Quand les graphes sont construits `a partir des variables latentes l’analyse faite est dite mod´elisation `a ´equations structurelles. Dans les ann´ees 1970 les mod`eles `a ´equations structurelles ´etaient utilis´es ` partir de deux points de vue diff´erents, maintenant de nombreux auteurs a s’y sont int´eress´es et on utilise ces mod`eles `a partir de pr´eoccupations tr`es diverses, il en r´esulte des applications `a une grande vari´et´e de probl`emes. Sans faire une liste exhaustive des travaux les plus importants, citons Bollen (1989), Hoyle (1995), J¨oreskog & S¨ orbom (1979), Kaplan (2000), L¨ ohmoller (1989), Chin (1998), Fornell & Bookstein (1982) ; Tenenhaus et al. (2005) ; Esposito Vinzi et al. (2010a) . Surtout utilis´es en sciences sociales, les mod`eles `a ´equations structurelles ont ´et´e introduits par J¨oreskog en 1970 pour analyser les relations de cause `a effet entre deux ou plus ensembles de variables en utilisant, pour les estimations, la m´ethode du maximum de vraisemblance (maximum likelihood, ML) (SEMML). Cette m´ethode, aussi connue sous le nom de LISREL (LInear Structural Relations), a ´et´e pendant de nombreuses ann´ees la seule m´ethode d’estimation des param`etres dans le cadre des mod`eles `a ´equations structurelles. L’acronyme pr´ec´edent a ´et´e introduit au d´epart afin de d´esigner le logiciel ´ecrit pour utiliser la m´ethode mise au point par J¨oreskog & S¨ orbom (1986). Depuis cette m´ethode connut un d´eveloppement tellement rapide que l’on a eu tendance `a associer naturellement la m´ethodologie et le logiciel. Toutefois, il existe d’autres m´ethodes que le maximum de vraisemblance pour proc´eder aux estimations des mod`eles ` a ´equations structurelles, comme la m´ethode des moindres carr´es g´en´eralis´es (Generalized Least Squares, GLS) ou celle utilisant des distributions asymptotiquement libres (Asymptotically Distribution Free, ADF). Toutes ces m´ethodes sont appel´ees de type LISREL, leur facteur commun est qu’elles correspondent toutes aux m´ethodes dites de analyse de la structure de covariance. Elles visent ` a repr´esenter la matrice de covariance des variables observables par les param`etres du mod`ele. En 1975 Wold introduit un mod`ele tr`es g´en´eral d’analyse des relations entre de nombreux ensembles de variables observ´ees sur les mˆemes unit´es statistiques, c’est la m´ethode dite PLS (acronyme de Partial Least Squares) adapt´ee aux mod`eles ` a ´equations structurelles, aussi connue sous le nom de PLS Path Modeling (PLS-PM). Elle ne fait pas d’hypoth`ese sur la distribution des variables et d´eveloppe une technique tr`es souple pour manipuler un ´enorme ensemble de donn´ees caract´eris´e par l’existence de donn´ees manquantes, de fortes corr´elations entre variables et d’un ´echantillon de petite taille en comparaison du grand nombre de variables. L’objectif poursuivi est d’estimer le score des diff´erents variables latentes par une procedure iterative bas´ee sur des regressions simples utilisant la m´ethode des moindres carr´es ordinaires (acronyme

Approchers aux SEM bas´ ees sur les composantes

3

anglo-saxon OLS). Au cours des derni´eres ann´ees, un certain nombre de chercheurs ont propos´e des travaux visant ` a comparer les deux approches ; voir, par exemple, J¨oreskog & Wold (1982), Fornell & Bookstein (1982), Djkstra (1983). Les deux approches diff´erent par les objectifs poursuivi, les hypoth`eses statistiques faites, les proc´edures d’estimation et les r´esultats ainsi produits. On a pr´esent´e r´ecemment de nouvelles m´ethodes d’estimation. En 2003 AlNasser a propos´e d’´etendre aux mod`eles ` a ´equations structurelles les r´esultats de la th´eorie de l’information via la technique de l’entropie maximale g´en´eralis´ee (Generalized Maximum Entropy, GME) (Al-Nasser 2003). Hwang & Takane en 2004 ont pr´esent´e l’analyse en composantes structurelles g´en´eralis´ee (Generalized Structured Component Analysis, GSCA). Ces techniques r´ecentes restent dans l’optique de l’analyse bas´e sur les composantes et ne font pas d’hypoth`eses sur les distributions de probabilit´e des variables latents et des variables manifests. Toutefois, les probl`emes caract´erisent l’approche PLS aux mod`eles `a ´equations structurelles, comme l’absence d’un crit`ere global d’optimisation, n’ont toujours pas ´et´e compl`etement r´esolus. Toutes ces approches d´ecrites ci-dessus utilisent des techniques d’estimation fond´ees sur les composantes, l’estimation des variables latentes y jouent un rˆole central. Dans ce chapitre on se concentrera sur ces m´ethodes bas´ees sur les composantes. On introduira d’abord les mod`eles `a ´equations structurelles, puis on pr´esentera les algorithmes li´es ` a l’approche PLS et `a l’analyse en composantes structurelles g´en´eralis´ee, ainsi que les indices de qualit´e (paragraphes 8.3 et 8.4), enfin on pr´esentera pour conclure une application `a des donn´ees r´eelles (voir paragraphe 8.5).

8.2

Les mod` eles ` a´ equations structurelles

Les mod`eles ` a ´equations structurelles sont repr´esentables par un graphe, moyennant certaines conventions, comme celle de la figure 8.1. Les cercles ou les ellipses repr´esentent les variables latentes, les rectangles les variables manifestes, les arcs figurent les relations entre les variables (manifestes ou latentes) et la fl`eche indique dans quelle direction se fait l’action de l’une sur l’autre, les variables qui re¸coivent une fl`eche sont consid´er´ees comme des variables endog`enes dans une relation pr´ecise. De plus chaque mod`ele est compos´e de deux sous-mod`eles : le mod`ele de mesure, dit mod`ele externe, et le mod`ele structurel ou mod`ele interne (cf. la figure 8.2). Dans la suite on utilisera des termes et des notations li´es ` a l’approche par composantes plutˆ ot qu’` a l’approche classique du type LISREL. Du coup les repr´esentations graphiques ne font pas apparaitre les erreurs, et leurs variances ne sont pas des param`etres `a estimer. Le mod`ele de mesure prend en compte la mani`ere dont les variables manifestes sont li´ees aux variables latentes. Il y a trois types de mod`ele de mesure correspondant aux sch´emas formatif, r´eflexif ou mixte appel´e aussi MIMIC

4

Chapitre 8

´ Figure 8.1 – Les symboles couramment employ´es dans les Mod`eles a ` Equations Structurelles.

(cf. la figure 8.3). Dans le sch´ema r´eflexif l’ensemble des variables manifestes (appel´ees aussi indicateurs) contribue `a mesurer un seul concept sous-jacent. Chacune de ces variables est un reflet de la variable latente et joue le rˆole de variable endog`ene dans le sous-mod`ele de mesure. De plus, les indicateurs li´es `a la mˆemes variable latente ont des variations qui sont li´ees, si un des indicateurs est modifi´e, les autres le sont aussi. La coh´erence interne sera v´erifi´ee, c.`a.d. que chaque bloc, defini par l’ensemble de variables manifestes li´es `a la meme variable latente, doit ˆetre homog`ene et unidimensionnel. Remarque importante, dans le sch´ema r´eflexif le sous-mod`ele de mesure reproduit exactement le mod`ele de l’analyse factorielle dans lequel chaque variable est fonction d’un facteur sousjacent. Dans le sch´ema formatif chaque variable manifeste, ou chaque sousensemble de ces variables, repr´esente une dimension du concept sous-jacent. La variable latente s’obtient comme combinaison lin´eaire des variables manifestes correspondantes, chacune d’entre-elles est une variable exog`ene du sous-mod`ele de mesure. Il n’est nul besoin de consid´erer les covariations des indicateurs, si l’un de ceux-ci change cela n’implique pas que les autres changent, logiquement

Approchers aux SEM bas´ ees sur les composantes

5

Figure 8.2 – La repr´esentation d’un mod`ele a ` ´equations structurelles.

les r`egles de coh´erence interne ne s’appliquent pas. Dans le sch´ema mixte on consid`ere que certaines variables manifestes sont li´ees `a la variable latente selon le sch´ema formatif et d’autres suivant le sch´ema r´eflexif. Quelque soit le sch´ema utilis´e pour construire le sous-mod`ele de mesure les param`etres `a estimer sont les poids externes et les saturations. Le sous-mod`ele structurel ou sous-mod`ele interne analyse les relations entre les variables latentes. Les param`etres ` a estimer sont les coefficients de r´egression qui lient entre-elles les diff´erentes variables latentes. Dans la litt´erature les notations relatives aux variables latentes, endog`enes ou exog`enes, et aux divers param`etres ne sont pas fix´ees, tandis que pour les techniques d’estimation bas´ees sur les composantes, particuli`erement pour la m´ethode PLS-PM, toutes les variables latentes sont not´ees de la mˆeme fa¸con quelque soient leur rˆole dans les relations repr´esent´ees par des r´egressions. A la diff´erence des divers auteurs on utilisera les mˆemes notations pour toutes les approches des mod`eles ` a ´equations structurelles. Un mˆeme symbole (ξq ) sera utilis´e pour d´esigner une variable latente qu’elle soit endog`ene ou exog`ene. S’il

6

Chapitre 8

Figure 8.3 – Les sch´emas r´eflexif et formatif

faut les distinguer on utilisera un indice en exposant : ((P ) ) pour les variables endog`enes et (((M) ) pour les exog`enes. On appliquera la mˆeme logique `a tous les ´el´ements du mod`ele. On trouvera `a la fin du chapitre 9 la liste des symboles utilis´es. Ci-dessous on trouvera un r´esum´e des principales notations utilis´ees. – Une variable observable du q-i`eme bloc sera not´ee xjq et la matrice de toutes ces variables par Xq . – Une variable latente sera not´ee ξq et la matrice de toutes ces variables par Ξ. – Le poids du lien (dit externe) entre la j-i`eme variable observable et la variable latente correspondante par ωjq et la matrice de tous ces poids par Ω. – La saturation de la variable manifeste j dans le bloc q sera not´e λjq et la matrice de totues les saturations par Λ. – Le coefficient de l’arc, dit aussi « path-coefficient », affect´e au lien entre la variable latente explicative m et la variable latente endog`ene p sera not´e βmp et la matrice de tous ces coefficients par B – L’erreur associ´ee `a la variable manifeste xjq , dans le sch´ema r´eflexif, sera

Approchers aux SEM bas´ ees sur les composantes

7

not´ee ǫjq et la matrice de toutes ces erreurs par E. – L’erreur associ´ee ` a la variable latente ξq dans le sch´ema formatif sera not´ee δq et la matrice de toutes ces erreurs par ∆. – L’erreur associ´ee ` a la variable latente endog`ene p sera not´e ζp et la matrice de toutes ces erreurs par H. Avec ces notations il est possibles de formaliser les deux sous-mod`eles (mesure et structurel) du mod`ele ` a ´equations structurelles. Si on prend en compte les diff´erences entre variables latentes endog`enes et exog`enes, comme dans les techniques de type LISREL, le sous-mod`ele structurel s’´ecrit pour chaque unit´e de la fa¸con suivante : (P )

(P )

= B (P ) ξi

(M)

+ B (M) ξi

+ ζi

(8.1)

 (M) (P ) I − B (P ) ξi = B (M) ξi + ζi

(8.2)

ξi ou bien : 

o` u ξ (P ) est relatif aux variables latentes endog`enes et ξ (M) `a celles qui sont exog`enes. Si ces diff´erences ne sont pas prises en compte les ´equations (8.1) et (8.2) sont r´e´ecrites, on a : ξi = Bξi + ζi .

(8.3)

Naturellement la matrice B contient ` a la fois les coefficients des chemins (pathcoefficients) reliant les variables latentes endog`enes entre elles (B (P ) ) et ceux reliant les variables exog`enes aux variables latentes endog´enes (B (M) ) :   B (P ) B= . B (M) Les ´equations (8.1) et (8.3) mettent en ´evidence la similitude aves les mod`eles de r´egression. De fait, si on ne fait pas de diff´erences entre variables latentes endog`enes ou exog`enes, les coefficients des divers arcs du graphe sont consid´er´es comme des coefficients de r´egression. La diff´erence principale entre les techniques de type LISREL et celles de type PLS est que pour ces derni`eres l’estimation des coefficients des arcs se fait par des calculs de coefficients de r´egression entre les scores des variables latentes qui ont ´et´e estim´es au pr´ealable, via l’algorithme PLS. Dans LISREL de telles variables latentes restent des variables th´eoriques. Il existe plusieurs fa¸cons de formaliser le sous-mod`ele de mesure selon le type de lien unissant les variables manifestes et la variable latente correspondante. Se situer dans l’un ou l’autre sch´ema, r´eflexif ou formatif, induit des conceptions diff´erentes de ce qu’est une variable latente. Dans le sch´ema r´eflexif, chaque variable manifeste (centr´ee) refl`ete la variable latente et a donc un lien avec elle qui peut se formaliser par une r´egression simple : xjq = λjq ξq + ǫjq

(8.4)

8

Chapitre 8

Le terme d’erreur ǫjq repr´esente l’impr´ecision de la mesure. En outre comme dans les blocs r´eflexifs il y a une seule variable latente, ils sont homog`enes et unidimensionnels. Plusieurs outils existent pour tester l’homog´en´eit´e et l’unidimensionnalit´e d’un bloc : a) L’alpha de Cronbach : un bloc est consid´er´e comme homog`ene si l’indice suivant est sup´erieur `a 0.7 P Jq j6=j ′ cor(xjq , xj ′ q ) P α= × (8.5) Jq + j6=j ′ cor(xjq , xj ′ q ) Jq − 1 o` u Jq est le nombre de variables manifestes dans le bloc q. b) Le rho de Dillon-Goldstein (ou de J¨ oreskog) : le bloc est consid´er´e comme homog`ene si ρ est sup´erieur `a 0.7 PJq λjq )2 ( j=1 ρ = PJq . P Jq (1 − λ2jq ) ( j=1 λjq )2 + j=1

(8.6)

c) La premi`ere valeur propre de l’analyse en composantes principales du bloc consid´er´e est plus grande que 1 et les autres plus petites, si le bloc est unidimensionnel. On suivra Chin (1998) qui a montr´e que le rho de Dillon-Goldstein est un meilleur indicateur que le alpha de Cronbach, car il utilise les r´esultats provenant du mod`ele (les diff´erents saturations) plutˆ ot que les corr´elations obtenues entre variables manifestes. Dans le sch´ema formatif chaque variable latente est obtenue comme combinaison des variables manifestes du bloc. On a l’expression suivante : ξq =

Jq X

ωjq xjq + δq

(8.7)

j=1

Le terme d’erreur δq repr´esente la fraction de la variable latente qui n’est pas expliqu´ee par les variables manifestes. On caract´erise les liens entre les variables latentes et les variables manifestes par une s´erie d’´equations, une par variable manifeste dans le sch´ema r´eflexif et une par variable latente dans le sch´ema formatif, comme indiqu´e dans les formules (8.4) et (8.7) ou bien sous une forme matricielle. Pour le sch´ema r´eflexif on a : X = ΞΛ + E

(8.8)

o` u Ξ est la matrice n × Q des variables latentes, Λ la matrice Q × J des saturations et E la matrice n × J des r´esidus. Pour le sch´ema formatif on a : Ξ = XΩ + ∆

(8.9)

Approchers aux SEM bas´ ees sur les composantes

9

o` u Ω est la matrice J × Q des poids des liaisons entre chaque variable manifeste et la variable latente correspondante, ∆ la matrice n × Q des r´esidus associ´es `a chaque variable latente. Pour le sous-mod`ele de mesure on r´e´ecrit autrement les ´equations (8.8), (8.9), (8.4) et (8.7) quand on distingue les blocs endog`enes et les blocs exog`enes. Les estimations des param`etres du mod`ele par l’approche PLS sera pr´esent´ee au paragraphe suivant et celle par la technique de l’analyse en composantes structurelles g´en´eralis´e au paragraphe 8.4.

8.3

L’approche PLS aux mod` eles ` a ´ equations structurelles

L’approche PLS aux mod`eles ` a ´equations structurelles, aussi connue sous le nom de « PLS Path Modeling » (PLS-PM), a ´et´e propos´ee pour offrir une alternative `a l’estimation des param`etres par les proc´edures du type LISTEL. En 1966 Wold d´eveloppe la m´ethode des moindres carr´es partiels pour l’analyse en composantes principales (Wold, 1966). Dans l’´etude fondatrice de Wold (1975), les principes majeurs du PLS pour l’analyse en composantes principales (Wold, 1966) furent appliqu´es par extension `a des situations ayant un nombre plus ´elev´e de blocs de variables. La premi`ere description d´etaill´ee du « PLS-PM » fut propos´ee par Wold (1975), et l’algorithme est d´ecrit dans Wold (1982) et Wold (1985). Chin (1998) et Tenenhaus et al. (2005) proposent une ´etude fournie de l’approche PLS aux mod`eles ` a ´equations structurelles. Esposito Vinzi et al. (2010b) pr´esentent une revue compl`ete de l’approche PLS aux mod`eles `a ´equations structurelles avec les derniers d´eveloppements. Il s’agit d’une m´ethode bas´ee sur les composantes. L’algorithme fait d’abord l’estimation des param`etres du sous-mod`ele de mesure et dans un second temps ceux du sous-mod`ele de structure. L’objectif fix´e est d’expliquer au mieux la variance r´esiduelle des variables latentes et, potentiellement, aussi celle des variables manifestes par les r´egressions du mod`ele, (Fornell & Bookstein, 1982). La m´ethode est consid´er´ee plutˆ ot comme une m´ethode descriptive et exploratoire qu’une m´ethode devant tester une hypoth`ese, elle n’a pas pour objectif de reconstituer la matrice de covariance, de plus il n’y a pas d’hypoth`ese sur les distributions de probabilit´e. Il s’agit donc d’une m´ethode tr`es souple sans hypoth`eses fortes sur les distributions, la taille de l’´echantillon et les types de mesures. Elle donne une estimation directe des scores des variables latentes. Cependant elle ne semble pas chercher ` a optimiser une fonction scalaire bien d´efinie. Jusqu’` a pr´esent la convergence n’a ´et´e d´emontr´ee que dans le cas des graphes `a un ou deux blocs (Lyttkens et al., 1975). Notons qu’un certain nombre de recherches dans ce domaine sont actuellement en cours.

10

Chapitre 8

8.3.1

L’algorithme, les choix ` a faire et les sch´ emas du sous-mod` ele de mesure

L’objectif est d’estimer les relations entre Q blocs de variables qui sont la manifestation de concepts inobservables. L’estimation est faite `a partir d’un syst`eme d’´equations interd´ependantes qui sont fond´ees sur des r´egressions simples ou multiples dans l’ensemble des relations, entre variables manifestes et leur variable latente rattach´ee, et entre les variables latentes du mod`ele. Formellement on observe J variables sur n individus (i = 1, . . . , n), une observation sera not´ee xijq et toutes les observations sont r´eunies dans un tableau constitu´e de Q blocs Xq : X = [X1 , . . . , Xq , . . . , XQ ] , Rappelons qu’un mod`ele `a ´equations structurelles est constitu´e de deux sousmod`eles. Le premier, dit de mesure, prend en compte les relations entre chaque variable latente et les variables manifestes associ´ees, le second, dit structurel, rend compte des relations entre variables latentes. Le sous-mod`ele structurel s’´ecrit dans la m´ethode PLS de la fa¸con suivante : X ξp = β0p + βmp ξm + ζp m:ξm →ξp

o` u ξp est une variable latente endog`ene, βmq repr´esente le coefficient de l’arc reliant la variable latente p `a la variable latente explicative m, et ζp est le vecteur des erreurs dans la relation interne (c’est-` a-dire les termes de perturbation dans la pr´ediction des variables latentes endog`enes `a partir des variables latentes explicatives). En revanche la formulation du sous-mod`ele de mesure d´epend de la nature des liens entre variable latente et variables manifestes correspondantes. Il existe en r´ealit´e diff´erents types de mod`ele de mesure dans l’approche PLS aux mod`eles ` a ´equations structurelles : le sch´ema formatif, le sch´ema reflexif et le sch´ema MIMIC. Dans le sch´ema r´eflexif, comme nous l’avons dit dans la partie 8.2, les variables manifestes sont des mesures d’un unique concept sous-jacent, chacune d’entre-elle refl`ete la variable latente correspondante et joue donc le rˆole d’une variable endog`ene dans son bloc. On exprime le lien entre les deux variables par une ´equation de r´egression simple comme cela avait ´et´e ´enonc´e dans l’´equation (8.4) rappel´ee ici : xjq = λ0q + λjq ξq + ǫjq o` u λjq est la saturation associ´e `a la variable manifeste j dans le bloc q et ǫjq , qui repr´esente l’impr´ecision du processus de mesure, est une variable al´eatoire de moyenne nulle et ind´ependante de la variable latente ξq , on a donc : E(xjq |ξq ) = λ0q + λjq ξq .

Approchers aux SEM bas´ ees sur les composantes

11

Cette hypoth`ese, appel´ee predictor sp´ecification, permet de montrer que les estimateurs de la m´ethode PLS ont les propri´et´es voulues. Dans le sch´ema formatif chaque variable manifeste ou chaque sous-bloc de ces variables repr´esente une dimension d’un concept sous-jacent. On obtient la variable latente comme combinaison lin´eaire des variables manifestes associ´ees. L’´equation (8.7) rappel´ee ci-dessous en donne l’expression formelle : ξq =

Jq X

ωjq xjq + δq

j=1

o` u ωjq est le poids associ´e ` a l’arc liant la variable manifeste j `a la variable latente correspondante du bloc q et δq est le terme d’erreur qui repr´esente la partie de la variable latente qui n’est pas prise en compte par les variables manifestes, son esp´erance est suppos´ee nulle : E(ξq |xjq ) =

Jq X

ωjq xjq .

j=1

Dans le sch´ema mixte (MIMIC) pour chaque bloc il existe des variables manifestes li´ees ` a la variable latente selon le sch´ema formatif et d’autres selon le sch´ema r´eflexif. Que ce soit le sch´ema formatif, r´eflectif ou mixte qui est employ´e pour relier les variables manifestes aux variables latentes, une fois la convergence de l’algorithme observ´ee le score (ξˆq ) de la variable latente (ξq ) est estim´e sous forme d’une combinaison lin´eaire des variables manifestes de son bloc (weight relation). On a : ξˆq =

Jq X

wjq xjq .

(8.10)

j=1

O` u les xjq sont des variables centr´ees et les wjq repr´esentent les poids externes finaux. Ces poids sont obtenus une fois la convergence observ´ee, et sont transform´es de sorte que les scores des variables latents soient centr´es et r´eduits. Si toutes les variables manifestes sont observ´ees dans la mˆeme ´echelle et tous les poids externes positifs, alors il est possible d’obtenir les scores des variables latentes dans la meme ´echelle (Fornell, 1992). On utilise des poids externes de norme unitaire w ˜jq , definis ansi : wjq

w ˜jq = PJq

j=1

wjq

donc

Jq X j=1

w ˜jq = 1 ∀q : Jq > 1.

(8.11)

L’approche PLS est une proc´edure it´erative d’estimation des param`etres du mod`ele, donc des poids (wjq ) et des scores (ξˆq ) des variables latentes. Elle est

12

Chapitre 8

appel´ee partielle car elle traite un bloc `a la fois en faisant alterner r´egressions simples et r´egressions multiples. Les coefficients (βmp ) sont estim´es ensuite `a partir d’une r´egression entre les valeurs estim´ees des variables latentes. L’estimation des variables latentes se fait en alternant des pas d’estimation interne et des pas d’estimation externe, jusqu’` a ce que la convergence soit observ´ee. Jusqu’` a pr´esent on ne connaˆıt pas de d´emonstration formelle de la convergence de la proc´edure utilis´ee dans le cas general `a Q blocs, n´eanmoins, en pratique elle a toujours ´et´e observ´ee (Henseler, 2010). On d´emarre la proc´edure en choisissant arbitrairement des poids (ωjq ). Ensuite, dans l’estimation externe, chaque variable latente est estim´ee comme une combinaison lin´eaire des variables manifestes centr´ee : νq ∝ ±

Jq X j=1

wjq xjq = ±Xq wq

o` u νq est l’estimation externe (centr´es et r´eduites) de la variable latente ξq , le symbole ∝ signifie que le membre de gauche de l’´equation est la forme standardis´ee du membre de droite, et le symbole ± indique que le signe de la variable latente est ` a d`efinir. On pose que le signe de chaque variable latente est telle que la correlation avec ses variables manifestes soit positive pour un majorit´e d’entre-elles. De plus on peut changer tous les poids externes d’un bloc pour qu’ils soient coherents avec le choix du signe de la variable latente. Dans l’estimation interne chaque variable latente est estim´ee `a partir des liens qu’elle entretient avec les Q′ autres variables latentes adjacentes. On a : ′

ϑq ∝

Q X

eqq′ νq′

q′ =1

ϑq est l’estimation interne (centr´ee et r´eduite) de la variable latente ξq et les poids internes (eqq′ ) valent, suivant la proc´edure centro¨ıde, ±1 selon que la corr´elation entre les estimations νq et νq′ est positive ou n´egative. Il y a d’autres proc´edures possibles pour le choix de ces poids internes, ils peuvent ˆetre d´etermin´es comme suit : 1. ˆetre d´etermin´es comme dans la proc´edure centro¨ıde, celle introduite dans l’article originel de Wold (centroid scheme), 2. ˆetre pris ´egaux aux coefficients de corr´elation entre νq et νq′ comme dans la proc´edure factorielle d´ecrite par L¨ ohmoller (factorial scheme), 3. ˆetre pris ´egaux aux coefficients de r´egression multiple de νq et νq′ si νq est l’estimation interne de variables latentes adjacentes explicatives, ou au coefficient de corr´elation dans le cas de variables latentes adjacentes endog`enes comme dans la proc´edure dite factorielle (path weighting scheme). La premi`ere estimation des variables latentes obtenue, l’algorithme met `a jour les poids wjq . Selon que l’on est dans le sch´ema r´eflexif ou dans le sch´ema formatif on utilise respectivement deux modes diff´erents de mise `a jour.

Approchers aux SEM bas´ ees sur les composantes

13

– Mode A : le poids wjq est le coefficient de la r´egression simple de la variable observable j du bloc q, xjq , sur l’estimation interne de la variable latente q, ϑq . Dans la mesure o` u les estimation internes des scores des variables latentes sont standardis´ees on a : wjq = cov (xjq , ϑq ) . C’est la covariance entre chaque variable observable et l’estimation interne de la variable latente correspondante. – Mode B : le vecteur wq des poids wjq associ´es aux variables manifestes du bloc q est le vecteur des coefficients de la r´egression multiple de l’estimation interne ϑq de√la variable latente q sur les variables manifestes centr´es et divis´ees par n repr´esent´ees ici par la matrice Xq : −1 T wq = XqT Xq Xq ϑq . (8.12)

Le mode de d´etermination des poids d´epend donc du mod`ele. Pour le mod`ele r´eflexif le mode A est le plus appropri´e, tandis que pour le mod`ele formatif le mode B est le plus performant. En outre on indique secondairement que le mode A est ad´equat pour des variables latentes endog`enes et le mode B pour des variables latentes exog`enes. On remarquera que dans le mode B les poids calcul´es d´ependent fortement de petites variations des variables observables quand ces derni`eres sont fortement corr´el´ees, dans ce cas on peut utiliser la r´egression PLS au lieu de la r´egression classique pour obtenir des poids v´erifiant l’´equation (8.12) (Esposito Vinzi & Russolillo, 2010). Le mode PLS, fond´e sur la r´egression PLS pour l’´etape d’estimation externe, est disponible sur le logiciel XLSTAT 2010.4 (Addinsoft, 2010). On it`ere l’algorithme jusqu’` a observer la convergence. Celle-ci est d´emontr´ee pour les mod`eles ` a un ou deux blocs (Lyttkens et al., 1975). Quand il y a plus de deux blocs, elle est constat´ee en pratique mais non encore d´emontr´ee (Henseler, 2010). Apr`es convergence, l’´evaluation des scores des variables latentes est obtenue grˆace `a l’´equation 8.10. Ainsi, l’approche PLS aux mod`eles `a ´equations structurelles fournit une ´evaluation directe des scores individuels des variables latentes sous forme d’agr´egats de variables manifestes qui comportent bien entendu un ´el´ement d’erreur de mesure. L’incoh´erence de ces ´evaluations est le prix `a payer pour obtenir de telles valeurs individuelles de variables latentes. Ayant calcul´e les scores des variables latentes, les coefficients structurels (ou path coefficients) sont ensuite ´evalu´es au moyen des r´egressions OLS simples ou multiples parmi les scores estim´es des variables latentes. L’algorithme 1 fournit une description sch´ematique de l’approche PLS telle qu’elle figure dans L¨ ohmoller avec certains options pour le calcul des poids externes et des poids internes. Cette formulation de l’algorithme est la plus connue. Toutefois, il existe une autre version propos´e par Wold (1975). La proc´edure de L¨ ohmoller est la plus simple `a programmer, mais celle de Wold semble ˆetre la plus int´eressante pour demontrer la convergence.

14

Chapitre 8

L’algorithme d’origine de Wold a ´et´e d´evelopp´e avec des variantes pour mettre en ´evidence ses propri´et´es math´ematiques par L¨ohmoller (1987) et L¨ ohmoller (1989). Des nouvelles variantes, comportant des choix `a faire pour les modele de mesure et les poids internes, ont ´et´e mises au point pour proc´ed´er a la fois aux estimations internes et externes et `a la prise en compte des donn´ees ` manquantes et de la multicollin´earit´e (Tenenhaus et al., 2005).

8.3.2

Evaluation du mod` ele

Il n’existe pas de crit`ere global bien d´efini pour optimiser le mod`ele PLS-PM ni de fonction ` a calculer pour mesurer son ad´equation aux donn´ees. Il s’agit d’un mod`ele fond´e sur l’analyse des variances expliqu´ees, et donc fortement orient´e vers la pr´ediction. Aussi c’est sa capacit´e `a effectuer des pr´evisions qui permet de le valider. On validera successivement le mod`ele de mesure, le mod`ele structurel et le mod`ele global. Pour ce faire on construit trois indices diff´erents : – l’indice de communaut´e – l’indice de redondance – l’indice d’ad´equation (Goodness of Fit index, GoF ). Dans chaque bloc o` u plusieurs variables manifestes sont pr´esentes, c’est-`adire pour chaque bloc pour lequel Jq > 1, la qualit´e du mod`ele de mesure est quantifi´ee par l’indice de communaut´e : Comq =

Jq   1 X cor2 xjq , ξˆq pour q tel que Jq > 1. Jq j=1

(8.13)

Il mesure le degr´e d’explication par la variable latente ξq de la variabilit´e des variables manifestes du mˆeme bloc, il montre donc la qualit´e de la repr´esentation des variables manifestes par la variable latente. Il est construit comme moyenne arithm´etique des carr´es des coefficients de corr´elation entre manifestes et latente d’un mˆeme bloc. La moyenne pond´er´ee sur tous les blocs de cet indice peut quantifier la qualit´e globale du mod`ele de mesure Com

= P

1

X

q:Jq >1 Jq q:Jq >1

= P

1

Jq Comq

Jq X X

q:Jq >1 Jq q:Jq >1 j=1

  cor2 xjq , ξˆq .

(8.14)

o` u J repr´esente le nombre total de variables manifestes dans le mod`ele, et Jq repr´esente le nombre de variables manifestes dans chaque bloc. Penchons-nous ` a pr´esent sur le mod`ele structurel. Bien que la qualit´e de chaque ´equation structurelle soit mesur´ee par l’indice d’ad´equation R2 , ceci est insuffisant pour mesurer la qualit´e globale du mod`ele structurel. Plus particuli`erement, dans la mesure o` u les ´equations structurelles sont ´evalu´ees une fois

Approchers aux SEM bas´ ees sur les composantes

15

Algorithm 1 Algorithme PLS Path Modeling de L¨ ohmoller’s (schema centro¨ıde, scores des variables latentes centr´es et reduits) Input : X = [X1 , . . . , Xq , . . . , XQ ], Q blocs de variables manifestes centr´ees et correctement scal´ees Output : wq , ξˆq , βp ; 1: for all q = 1, . . . , Q do 2: initialiser wq PJq wjq xjq = ±Xq wq 3: νq ∝ ± j=1 4: eqq′ = sign [cor (νq , νq′ )] suivant le sch´ema centro¨ıde PQ′ 5: ϑq ∝ q′ =1 eqq′ νq′ 6: actualiser wq : (a) wjq = cov(xjq , ϑq ) (sch´ema r´eflexif) (b) wq = (XqT Xq )−1 XqT ϑq (sch´ema formatif) 7: 8:

end for Les ´ etapes 1 ` a 7 sont r´ eit´ er´ ees jusqu’` a la convergence pour les poids externes, soit jusqu’` a: max{wpq,It´eration courant − wpq,It´eration pr´ec´edent} < ∆

9:

o` u ∆ c’est un seuil de la convergence, normalement ∆ est ´egal `a 10−4 . Une fois la convergence assur´ ee : (i) pour chaque bloc les scores des variables latentes centr´ees et reduites sont : ξˆq ∝ Xq wq , (P )

(ii) pour chaque variable latente endog`ene ξp , le vecteur des coefficients des arcs s’obtient ainsi : −1  ˆ T ξˆp , ˆTΞ ˆ Ξ βp = Ξ ˆ est la matrice des scores des variables latentes qui expliquent o` u Ξ la variable latente endog`ene ξp et ξˆp est le vecteur des scores de la variable latente endog`ene p.

16

Chapitre 8

que la convergence est assur´ee, c’est-`a-dire une fois que les scores des variables latentes sont ´evalu´es, alors les valeurs R2 prennent en compte uniquement de l’ajustement de chaque r´egression dans le mod`ele structurel. Nous estimons qu’il faudrait remplacer la pratique actuelle par une analyse prenant compte de toutes les ´equations structurelles simultan´ement au lieu de les consid´erer comme des r´egressions ind´ependantes. Cette approche comporte selon nous deux avantages : les coefficients des arcs seraient estim´es en optimisant une seule fonction et le mod`ele structurel pourrait ˆetre ´evalu´e globalement en utilisant un test du chi-carr´e li´e `a la fonction optimis´ee. Jusqu’`a pr´esent, aucun logiciel n’a encore mis en oeuvre cette option. Afin de relier la qualit´e de la pr´ediction de performance du mod`ele de mesure a celle du mod`ele structurel, l’indice de redondance ´evalu´e pour chaque bloc ` endog`ene mesure la proportion de variabilit´e des variables manifestes li´ees `a la p variable latente endog`ene expliqu´ee par les variables latentes li´ees indirectement au bloc, soit :   Redp = Comp × R2 ξˆp , ξˆq:ξq →ξp . La moyenne des indices de redondance est aussi une mesure de la qualit´e du mod`ele structurel : Red =

P 1 X Redp P p=1

o` u P est le nombre total de variables latentes endog`enes du mod`ele. Il a ´et´e signal´e ci-dessus qu’il n’existe pas de crit`ere global pour mesurer la qualit´e de l’ad´equation du mod`ele aux donn´ees. Cependant, en 2004, Tenenhaus et al. ont propos´e un indice d’ad´equation qu’ils ont appel´e GoF (Goodness of Fit index). Il est construit de telle fa¸con qu’il prend en compte `a la fois la performance du mod`ele structurel et celle du mod`ele de mesure et il combine les moyennes des indices de coh´erence et des diff´erents R2 : q (8.15) GoF = Com × R2 La moyenne des R2 est calcul´ee de la fa¸con suivante : R2

P  1 X 2 ˆ ˆ = R ξp , ξq:ξq →ξp P p=1

(8.16)

D’o` u l’expression du GoF : v u Jq u X X P “ ” ” “ X u 2 ˆ ˆ u cor 2 xjq , ξˆq R ξ , ξ p q:ξ →ξ q p u u q:Jq >1 j=1 p=1 × P . GoF = t J P q q:Jq >1

(8.17)

Approchers aux SEM bas´ ees sur les composantes

17

Il existe aussi une version normalis´ee de l’indice GoF . On met en rapport chacun des termes figurant dans l’´equation (8.15) avec sa valeur maximum. En particulier on sait que la meilleure approximation d’un ensemble de variables multidimensionnelles repr´esent´e par la matrice X est fournie par le vecteur propre associ´e ` a la plus grande valeur propre λ de la matrice X T X. Le maximum de la somme des carr´es des coefficients de corr´elation entre les variables et un vecteur donn´e est obtenu quand ce vecteur est le vecteur propre pr´ec´edent.   PJq cor2 xjq , ξˆq 6 λq La Si les donn´ees sont centr´ees et r´eduites on a : j=1

version normalis´ee du premier terme du GoF est donc donn´ee par :   PJq 2 ˆq cor x , ξ X jq j=1 1 T1 = P . λq q:Jq >1 Jq

(8.18)

q:Jq >1

Autrement dit, dans chaque bloc on divise la somme des coefficients de corr´elation aux carr´e entre manifestes et latente par la plus grande valeur propre de la matrice XqT Xq . La version normalis´ee du second terme de GoF est donn´ee par :   2 ˆ ˆ P 1 X R ξp , ξq:ξq →ξp (8.19) T2 = P p=1 ρ2p ρp est le premier coefficient de corr´elation de l’analyse canonique entre la matrice Xp des variables manifestes associ´ees ` a la variable latente endog`ene ξp et la matrice Xm des variables manifestes associ´ees aux variables latentes exog`enes expliquant ξp . Ainsi la version normalis´ee de l’indice GoF est : v     u PJq u 2 x ,ξ 2 ˆ ˆ ˆ P X jq q j=1 cor u 1 X R ξp , ξq:ξq →ξp 1 × GoFrel = t P λq P p=1 ρ2p q:Jq >1 Jq q:Jq >1

Cet indice normalis´ee est compris entre 0 et 1. Le GoF et le GoFrel d´ecrivent tous les deux la qualit´e de l’ad´equation, mais ils ne peuvent ˆetre utilis´es dans une inf´erence statistique. N´eanmoins plus la valeur de GoF est ´elev´ee, plus la qualit´e de pr´ediction du mod`ele est grande. Une r`egle du pouce peut ˆetre adopt´ee : le mod`ele est bon si la valeur du GoF normalis´e est sup´erieure `a 0,9. Dans la mesure o` u l’approche PLS est un mod`ele souple sans hypoth`ese sur les lois de probabilit´e sous-jacentes, il est possible de quantifier si un param`etre est significatif en utilisant les m´ethodes de r´e-´echantillonnage comme le « Jacknife » ou le « bootstrap » (Efron et Tibshirani, 1993). Il est aussi possible de proc´eder `a des validations crois´ees sur les trois indices pr´ec´edemment d´efinis en utilisant la m´ethode dite pliage en aveugle (Blindfolding en anglais) (Chin,

18

Chapitre 8

1998 ; L¨ ohmoller, 1989 ; Tenenhaus et al., 2005) On peut chercher un intervalle de confiance « bootstrap » pour les indicateurs de qualit´e d’ajustement normalis´es et non normalis´es. Cette option est disponible sur le logiciel XLSTAT 2010.4 (Addinsoft, 2010). Dans les deux cas, la fonction de r´epartition inverse (cdf) de GoF (ΦGoF ) est calcul´ee par approximation en utilisant une proc´edure bootstrap. B ´echantillones (g´en´eralement B > 100) sont g´en´er´es, et pour chacun d’´echantillon on calcule GoF b , avec b = 1 · · · B. Les valeurs du GoF b s sont utilis´ees pour construire une approximation Monte Carlo de la fonction de r´epartition empirique inverse ΦB GoF de l’indice estim´e GoF . On peut ainsi construire un intervalle de confiance empirique au seuil (1 − α) en utilisant les percentiles ainsi :  B  ΦGoF (α/2) , ΦB (8.20) GoF (1 − α/2) .

8.4

L’analyse en composantes structurelles g´ en´ eralis´ ee

L’analyse en composantes structurelles g´en´eralis´ee est une m´ethode d’estimation des param`etres des mod`eles `a ´equations structurelles r´ecemment propos´ee par Hwang et Takane (2004) sous le nom de Generalized Structured Component Analysis (GSCA). Comme toujours, on peut formaliser les mod`eles `a ´equations structurelles en prenant en compte `a la fois le modele de mesure et le modele structurel tels qu’ils sont exprim´es dans les ´equations (8.1) et (8.4). On peut les r´e´ecrire, si i est une unit´e observ´ee, de la fa¸con suivante : xi = Λξi + ǫi

(8.21)

ξi = Bξi + ζi

(8.22)

et O` u xi est le vecteur de dimension J des variables observables de l’unit´e i, ξi est le vecteur de dimension Q des variables latentes, `a la fois les P variables latentes endog`enes et les M variables latentes exog`enes, Λ est la matrice J x Q des saturations, B est la matrice carr´e de dimension Q des coefficients des arcs du mod`ele structurel (un ´el´ement de B est nul si la relation correspondante n’existe pas dans le mod`ele), ǫi et ζi repr´esentent respectivement les r´esidus du mod`ele structurel et du mod`ele de mesure. L’analyse en composantes structurelle g´en´eralis´ee repr´esente les deux mod`eles d´ecrits par les ´equations (8.21) et (8.22) par une ´equation unique :       Λ ǫi xi . (8.23) = ξi + ζi B ξi De plus les variables latentes sont d´efinies comme des moyennes pond´er´ees des variables manifestes : ξi = Ωxi

(8.24)

19

Approchers aux SEM bas´ ees sur les composantes

o` u Ω est une matrice J x Q contenant les diff´erents poids des composantes. En combinant les deux derni`eres ´equations on obtient :        I 0 Λ I ǫi (8.25) xi = xi + Ω 0 B ζi Ω o` u I est la matrice  unit´e de dimension  J.    0 Λ I ǫi En posant A = et ui = , ri = xi , la derni`ere ´equation 0 B Ω ζi devient : ui = Aui + ri .

(8.26)

Le vecteur ui de dimension (J + Q) repr´esente toutes les variables, manifestes ou latentes, la matrice carr´ee A de dimension (J + Q) contient tous les param`etres du mod`ele, saturations et coefficients des arcs. Les auteurs de la m´ethode font remarquer que contrairement `a la m´ethode PLS, ici les mod`eles, structurel et de mesure, sont l’objet d’une seule expression alg´ebrique. On peut alors donner une seule fonction ` a maximiser. On estime les param`etres contenus dans les matrices A et Ω en minimisant la somme des carr´es des ´el´ements du vecteur des r´esidus ri . Il s’agit donc de minimiser la fonction : n X i=1

T

(ui − Aui ) (ui − Aui )

sous la contrainte de normalisation des variables latentes : qui revient `a minimiser : trace (U − U A)

(8.27) Pn

2 i=1 ξiq

= 1. Ce (8.28)

On utilise l’algorithme des moindres carr´es altern´es (Alternating Least Squares, ALS) (De Leeuw et al., 1976) pour trouver le minimum de l’expression (8.27). Ce algorithme est un algorithme it´eratif et comporte deux ´etapes. Dans la premi`ere on met ` a jour la matrice A pour une valeur donn´ee de Ω, dans la seconde on met ` a jour Ω ` a partir de la valeur de A estim´ee lors de la premi`ere ´etape. On fait alterner ces deux ´etapes jusqu’` a ce que la convergence soit constat´ee, c’est-` a-dire jusqu’` a ce que la fonction `a minimiser devienne inf´erieure `a un certain seuil. Pour plus de d´etails voir la r´ef´erence pr´ec´edente. La convergence est assur´ee puisque il y a d´ecroissance monotone du crit`ere choisi, cependant il est possible quelle se fasse vers une autre valeur que celle du minimum absolu. Plusieurs proc´edures sont utilisables pour contourner cet inconv´enient : bien choisir la valeur initiale ou faire tourner l’algorithme avec des valeurs de d´epart diff´erentes. Hwang et Takane (2004) proposent une analyse en composantes contrainte (Constrained Component Analysis) pour obtenir une “bonne valeur” de d´epart pour la matrice Ω et ils obtiennent A en l’estimant par la m´ethode des moindres carr´es sachant Ω. La GSCA peut ˆetre performante pour des modeles de mesure de type formatif comme de type r´eflexif.

20

8.4.1

Chapitre 8

Les indices de qualit´ e

On mesure l’ad´equation du mod`ele aux donn´ees par la proportion de la variance des variables endog`enes expliqu´ee par le mod`ele, c’est l’indice appel´e FIT : F IT = 1 −

SS (U − U A) . SS (U )

Plus la variance r´esiduelle est grande, plus l’indice est petit, on pr´ef`ere donc les mod`eles tels que FIT prenne de grandes valeurs (il est compris entre 0 et 1). N´eanmoins il ne prend pas en compte toute la complexit´e du mod`ele, aussi Hwang et Takane (2004) ont d´evelopp´e r´ecemment un nouvel indice, l’indice ajust´e AFIT : AF IT = 1 − (1 − F IT )

df0 df1

(8.29)

o` u df0 = nJ est le nombre de degr´es de libert´e du mod`ele quand Ω = 0 et A = 0, et df1 = nJ − f p est le nombre de degr´es de libert´e du mod`ele `a tester, f p ´etant le nombre de param`etres libres. D’autres indices sont utilis´es dans le cadre de l’analyse en composantes structurelle g´en´eralis´ee : l’indice GFI de J¨oreskog et S¨ orbom (1996) et l’indice dit de la racine carr´e des r´esidus standardis´ee (Standardized Root Mean square Residuals, SRMR). Ils sont bas´es sur la distance constat´ee entre la matrice de covariance des donn´ees et celle issue du mod`ele.

8.5

Une application de l’approche PLS ` a des donn´ ees r´ eelles : l’´ etude Benetton

Le mod`ele PLS-PM a ´et´e utilis´e pour analyser un grand nombre de donn´ees empiriques. L’exemple trait´e a ´et´e choisi pour sa simplicit´e, il permet de montrer les caract´eristiques essentielles du mod`ele. Les donn´ees pr´esent´ees proviennent de donn´ees empiriques collect´ees en 2002 par Gruner&Jahr et concernant la marque de mode Benetton. Elles ont aussi ´et´e utilis´ees par Ringle et autres dans leur article de 2010. Les premiers sont des ´editeurs importants de magazines en Allemagne. Depuis 1984 ils proc`edent `a des ´etudes par sondage d’analyse de la communication. L’´echantillon, repr´esentatif de la population f´eminine allemande, est compos´e de 5000 femmes qui r´epondent a des questions concernant des marques de diff´erents produits et aussi `a des ` questions concernant leur personnalit´e. Comme Ringle et autres (2010) le sugg`ere, la publicit´e agressive et provocatrice de Benetton en 1990 a marqu´e plus longtemps la client`ele car elle est diff´erente de celle des autres marques du secteur et plus facile ` a identifier.

Approchers aux SEM bas´ ees sur les composantes

21

Dans ce qui suit on ne pr´esentera pas les fondements th´eoriques du graphe utilis´e ni les justifications du fait que les mod`eles de mesure des variables latentes sont du type r´eflexif ou du type formatif. On veut simplement montrer comment l’approche PLS est applicable ` a des donn´ees empiriques pour obtenir une simplification des relations « causales » ou plus precisement predictives. Les donn´ees Benetton analys´ees par Ringle et autres (2010) comportent 10 variables manifestes sur une population de 444 femmes vivant en Allemagne. Chaque variable manifeste est une r´eponse `a une question figurant dans le recueil de Gruner&Jahr de 2002. Chaque r´epondante doit choisir un item parmi quatre allant de peu ` a beaucoup. Partant de ces donn´ees, Ringle et autres (2010) proposent un mod`ele `a equations structurelles compos´e par une variable latente endog`ene appel´ee Pr´ef´erence pour la marque et deux variables latentes exog`enes d´enomm´ees respectivement Image et Caract`ere. Toutes les variables latentes sont reli´ees aux variables manifestes selon le sch´ema r´eflexif. La figure 8.4 repr´esente le graphe utilis´e et le tableau 8.5 les relations entre les variables.

Figure 8.4 – Graphe pour les donn´ees Benetton.

22

Chapitre 8 Nom VL Image

Caract`ere Pr´ef´erence pour la marque

Nom VM Modernit´e Style de vie Confiance Perception Nom de la marque Mode 2 Tendances Mode 1 Sympathie Utilisation

Concepts Produit moderne et en phase avec les derni`eres tendances Repr´esente un style de vie formidable Cette marque inspire la confiance J’ai une impression bien d´efinie de la marque Pour moi un nom de marque est tr`es important Je discute souvent de la mode Je m’int´eresse aux tendances du moment Pour moi la mode est toujours un mode d’auto expression Sympathie Utilisation de la Marque

Table 8.1 – D´efinition des variables manifestes et des blocs. VL exog` enes Image Caract`ere

Coefficients des arcs 0, 423 0, 177

Ecart type 0, 042 0, 042

t

Pr > |t|

9, 980 4, 188

0, 000 0, 000

Ecart type (Bootstrap) 0, 042 0, 038

Borne inf´ erieure (95%) 0, 331 0, 100

Borne sup´ erieure (95%) 0, 523 0, 257

Table 8.2 – R´esultats du mod`ele structurel. Les calculs ont ´et´e ex´ecut´es par le logiciel XLSTAT 2010.4 d’Addinsoft (2010) en utilisent les variables manifestes centr´es et reduit´ees. La figure 8.5 et les tableaux 8.2, 8.4 et 8.5 donnent les principaux r´esultats. Il semble que la variable latente Pr´ef´erence de marque est surtout influenc´ee par la variable latente Image, la valeur du coefficient de l’arc correspondant est 0, 423, l’influence de la variable latente Caract`ere est beaucoup plus faible avec un coefficient de l’arc correspondant de 0, 177. Les deux coefficients sont significatifs au niveau 0, 05. Cependant l’indice R2 associ´e `a la variable latente endog`ene Pr´ef´erence de marque a une valeur faible : 0, 239 (cf. tableau 8.5). Ringle et autres (2010) ont jug´e cette valeur modeste mais les auteurs du pr´esent article la consid`ere comme insatisfaisante et comme le signe d’une h´et´erog´en´eit´e des donn´ees. Si on regarde le mod`ele de measure, on constate que tous les coefficients ont une valeur ´elev´ee, la saturation la plus petite vaut 0, 795. Le tableau 8.5 donne les poids ext´erieurs. Pour le mod`ele d´ecrit l’indice GoF vaut seulement 0, 424, mˆeme si le GoFrel vaut bien 0, 981. Une valeur aussi faible de l’indice GoF sugg`ere que l’on puisse identifier des sous populations et que des mod`eles adapt´es auraient des perfor-

R2 0, 239

R2 (Bootstrap) 0, 247

Ecart type 0, 040

Raport Critique (CR) 6, 019

Borne inf´ erieure (95%) 0, 166

Borne sup´ erieure (95%) 0, 343

Table 8.3 – Valeur R2 pour la relation structurelle.

23

Approchers aux SEM bas´ ees sur les composantes

Figure 8.5 – R´esultats de l’approche PLS aux donn´ees Benetton obtenus a ` partir du logiciel XLSTAT

VL

Image

Caract`ere Pr´ef´erence pour la Marque

VM Modernit´e Style de vie Confiance Perception Nom de marque Mode 2 Tendances Mode 1 Sympathie Utilisation de la marque

Saturations Stand. 0, 795 0, 832 0, 899 0, 860 0, 850 0, 894 0, 859 0, 801 0, 944 0, 933

Communaut´ e 0, 632 0, 693 0, 808 0, 739 0, 722 0, 799 0, 738 0, 642 0, 891 0, 871

Ecart type 0, 019 0, 019 0, 009 0, 014 0, 023 0, 013 0, 019 0, 029 0, 007 0, 008

Borne inf´ erieure (95%) 0, 745 0, 786 0, 878 0, 826 0, 792 0, 864 0, 814 0, 723 0, 925 0, 916

Borne sup´ erieure (95%) 0, 837 0, 872 0, 921 0, 883 0, 890 0, 916 0, 889 0, 851 0, 955 0, 948

Table 8.4 – R´esultats du mod`ele de mesure : saturations.

24

Chapitre 8 VL

VM

Image

Caract`ere Pr´ef´erence pour la Marque

Modernit´e Style de vie Confiance Perception Nom de marque Mode 2 Tendances Mode 1 Sympathie Utilisation de la marque

Poids externes 0, 250 0, 310 0, 321 0, 291 0, 343 0, 292 0, 258 0, 282 0, 555 0, 510

Ecart type 0, 018 0, 022 0, 018 0, 021 0, 045 0, 033 0, 038 0, 042 0, 020 0, 020

Borne inf´ erieure (95%) 0, 210 0, 265 0, 276 0, 243 0, 244 0, 221 0, 149 0, 197 0, 510 0, 466

Borne sup´ erieure (95%) 0, 298 0, 360 0, 362 0, 331 0, 445 0, 359 0, 325 0, 367 0, 598 0, 552

Table 8.5 – R´esultats du mod`ele de mesure : poids externes.

GoF Valeur absolue Valeur relative Mod`ele externe Mod`ele structurel

0, 424 0, 981 0, 998 0, 983

Borne inf´ erieure (95%) 0, 354 0, 883 0, 995 0, 887

Borne sup´ erieure (95%) 0, 508 0, 985 0, 998 0, 987

Min 0, 339 0, 879 0, 995 0, 883

Premier Quartile 0, 411 0, 943 0, 997 0, 946

Mediane 0, 429 0, 959 0, 997 0, 962

Troisi` eme Quartile 0, 450 0, 971 0, 998 0, 973

Max 0, 548 0, 987 0, 998 0, 989

Table 8.6 – Valeurs du GoF .

mances meilleures en termes de pr´ediction. C’est l’objectif poursuivi au chapitre suivant.

Approchers aux SEM bas´ ees sur les composantes

8.6

25

Bibliography

Addinsoft [2010], XLSTAT 2010.4, Addinsoft, France, URL : http ://www.xlstat.com/en/products/xlstat-plspm/. Al-Nasser, A. [2003], Customer satisfaction measurement models : Generalized maximum entropy approach, Pakistan Journal of Statistics 19, 213-226. Alwin, D. F. and Hauser, R. M. [1975], The decomposition of effects in Path, American Sociological Review 40, 36-47. Bollen, K. A. [1989], Structural equations with latent variables, Wiley, New York. Chin, W. [1998], The partial least squares approach for structural equation modeling, in G. A. Marcoulides, ed., Modern Methods for Business Research, Lawrence Erlbaum Associates, London, pp. 295-236. De Leeuw, J., Young, F. and Takane, Y. [1976], Additive structure in qualitative data : an alternating least squares method with optimal scaling features, Psychometrika 41, 471-503. Diamantopoulos, A. and Winkelhofer, H. [2001], Index construction with formative indicators : an alternative to scale development, Journal of Marketing Research 38, 269-277. Djkstra, T. [1983], Some comments on maximum likelihood and partial least squares methods, Journal of Econometrics 22, 67-90. Efron, B. and Tibshirani, R. J. [1993], An Introduction to the Bootstrap, Chapman & Hall, New York. Esposito Vinzi, V. and Lauro, C. [2003], PLS regression and classification in Proceedings of the PLS’03 International Symposium, DECISIA, France, 45-56. Esposito Vinzi, V., Chin, W.W., Henseler, J., and Wang, H. (Eds.) [2010a], Handbook of Partial Least Squares- Concepts, Methods and Applications, Springer Handbooks of Computational Statistics, Springer-Verlag, Berlin Heidelberg. ISBN : 978-3-540-32825-4. Esposito Vinzi, V., Trinchera, L. and Amato S. [2010b], PLS Path Modeling : From Foundations to Recent Developments and Open Issues for Model Assessment and Improvement in Handbook of Partial Least Squares- Concepts, Methods and Applications, Esposito Vinzi, et al. (Eds.), Springer Handbooks of Computational Statistics, Springer-Verlag, Berlin Heidelberg, 47-82. PLS regression and classification in Proceedings of the PLS’03 International Symposium, DECISIA, France, 45-56. Fornell, C. and Bookstein, F. L. [1982], Two structural equation models : LISREL and PLS appliead to consumer exit-voice theory, Journal of Marketing Research, XIX, 440-452. Henseler, J. [2010], On the convergence of partial least squares path modeling algorithm Computational Statistics, 25, 107-120.

26

Chapitre 8

Hoyle, R. [1995], Structural equation modeling : concepts, issues and applications, SAGE Publications. Hwang, H. and Takane, Y. [2004], Generalized structured component analysis, Psychometrika, 69, 81-99. J¨oreskog, K. [1970], A general method for analysis of covariance structure, Biometrika 57, 239-251. J¨oreskog, K. [1971], Simultaneous factor analysis in several populations, Psychometrika 57, 409-426. J¨oreskog, K. and S¨ orbom, D. [1979], Advances in Factor Analysis and Structural Equation Models, Abt Books. J¨oreskog, K. and S¨ orbom, D. [1996], LISREL 8 : Structural Equation Modeling with the SIMPLIS command Language, Scientific Software International, Hove and London edn. J¨oreskog, K. and Wold, H. [1982], The ML and PLS techniques for modeling with latent variables : historical and comparative aspects, in K. J¨oreskog & H. Wold, eds, Systems Under Indirect Observation, Vol. Part I, North-Holland, Amsterdam, pp. 263-270. Kaplan, D. [2000], Structural Equation Modeling : Foundations and Extensions, Sage Publications Inc., Thousands Oaks, California. Lyttkens, E., Areskoug, B. and Wold, H. [1975], The convergence of NIPALS estimation procedures for six path models with one or two latent variables, Technical report, University of G¨oteborg. L¨ ohmoller, J. [1987], LVPLS program manual, version 1.8, Technical report, Zentralarchiv fur Empirische Sozialforschung, Universit¨at Zu K¨oln, K¨oln. L¨ ohmoller, J. [1989], Latent variable path modeling with partial least squares, Physica-Verlag, Heildelberg. Ringle, C., Wende, S. and Will, A. [2010], Finite mixture partial least squares analysis : Methodology and numerical examples, in Handbook of Partial Least Squares - Concepts, Methods and Applications, Esposito Vinzi V., Chin W., Henseler J. and Wang H. (Eds), Springer, Berlin, pp. 195-218. Rossiter., J. R. [2002], The C-OAR-SE procedure for scale development in marketing, International Journal of Research in Marketing 19, 305-335. Tenenhaus, M., Amato, S. and Esposito Vinzi, V. [2004], A global goodnessof-fit index for PLS Structural Equation Modelling, in Proceedings of the XLII SIS Scientific Meeting Vol. Contributed Papers, CLEUP, Padova, 739-742. Tenenhaus, M., Esposito Vinzi, V. [2005], PLS regression, PLS path modeling and generalized procrustean analysis : a combined approach for PLS regression, PLS path modeling and generalized multiblock analysis, Journal of Chemometrics, 19, 145-153. Tenenhaus, M., Esposito Vinzi, V., Chatelin, Y.M. and Lauro, C. [2005], PLS path modeling, Computational Statistics and Data Analysis, 48, 159-205.

Approchers aux SEM bas´ ees sur les composantes

27

Thurstone, L. L. [1931], The theory of multiple factors, Edwards Brothers, Ann Arbor, MI. Tukey, J. W. [1964], Causation, regression and path analysis, in Statistics and Mathematics in Biology, Hafner Publishing Company, New York. Wold, H. [1966], Estimation of principal component and related models by iterative least squares, in P. R. Krishnaiah, ed., Multivariate Analysis, Academic Press, New York, pp. 391-420. Wold, H. [1975], Modelling in complex situations with soft infromation, in Third World Congress of Econometric Society, Toronto, Canada. Wold, H. [1979], Model construction and evaluation when theoretical knowledge is scarce : An example of the use of partial least squares, Technical report, Cahier 79.06 du Departement d’Econometrie, Faculte de sciences economiques et sociales, Universite de Geneve, Geneve. Wold, H. [1982], Soft modeling : the basic design and some extensions, in K. G. J¨oreskog & H. Wold, eds, Systems under Indirect Observation, Vol. Part II, North-Holland, Amsterdam, pp. 1-54. Wold, H. [1985], Partial Least Squares, in S. Kotz & N. L. Johnson, eds, Encyclopedia of Statistical Sciences, Vol. 6, Wiley, New York, pp. 581-591.