L’analyse en composantes principales (ACP) est une mĂ©thode statistique qui permet de rĂ©duire la dimensionnalitĂ© d’un ensemble de donnĂ©es. Elle est couramment utilisĂ©e en marketing pour regrouper des items d’une Ă©chelle de mesure en dimensions ou facteurs cohĂ©rents.
Dans le cadre du dĂ©veloppement d’une Ă©chelle de mesure, l’ACP est utilisĂ©e pour dĂ©terminer la structure sous-jacente des items de l’Ă©chelle. L’objectif est de regrouper les items en dimensions qui sont cohĂ©rentes avec le concept Ă mesurer.
La construction de l’ACP se dĂ©roule en quatre Ă©tapes :
Etape 1 – Collecte des donnĂ©es
Les donnĂ©es sont collectĂ©es auprĂšs d’un Ă©chantillon de participants, Ă l’aide d’une Ă©chelle de mesure composĂ©e d’un ensemble d’items. Les donnĂ©es collectĂ©es sont gĂ©nĂ©ralement des scores sur une Ă©chelle de Likert Ă cinq points, allant de “tout Ă fait en dĂ©saccord” Ă “tout Ă fait d’accord”.
Etape 2 – Calcul de la matrice de covariance
La matrice de covariance est une matrice qui mesure la covariance entre les items de l’Ă©chelle. La covariance est une mesure de la dĂ©pendance entre deux variables.
Etape 3 – Calcul des valeurs propres et des vecteurs propres
Les valeurs propres mesurent l’importance des facteurs, tandis que les vecteurs propres indiquent comment les items sont associĂ©s Ă chaque facteur.
Les valeurs propres sont calculées en utilisant la matrice de covariance. La valeur propre la plus élevée correspond au facteur le plus important, et ainsi de suite.
Les vecteurs propres sont calculés en diagonalisant la matrice de covariance. La diagonalisation est une opération mathématique qui permet de transformer une matrice en une matrice diagonale, dont les éléments de la diagonale sont les valeurs propres.
Etape 4 – SĂ©lection des facteurs
Les facteurs sont sélectionnés en fonction de leur importance et de leur cohérence avec le concept à mesurer.
L’importance d’un facteur est dĂ©terminĂ©e par sa valeur propre. Un facteur est considĂ©rĂ© comme important si sa valeur propre est supĂ©rieure Ă une certaine valeur seuil, qui est gĂ©nĂ©ralement fixĂ©e Ă 1.
La cohĂ©rence d’un facteur est dĂ©terminĂ©e par la façon dont les items sont associĂ©s Ă ce facteur. Un facteur est considĂ©rĂ© comme cohĂ©rent si les items qui lui sont associĂ©s sont corrĂ©lĂ©s entre eux.
L’interprĂ©tation des facteurs est une Ă©tape importante de l’ACP. Elle consiste Ă attribuer un nom Ă chaque facteur et Ă dĂ©finir ce qu’il mesure.
L’interprĂ©tation des facteurs peut ĂȘtre rĂ©alisĂ©e en se basant sur la dĂ©finition du concept Ă mesurer, ainsi que sur les items qui sont associĂ©s Ă chaque facteur.
Exemple : Test d’une Ă©chelle de mesure de l’attitude Ă l’Ă©gard du shopping
Dans le cadre d’une Ă©tude consacrĂ©e au Shopping, la revue de littĂ©rature fait apparaĂźtre que l’attitude des consommateurs Ă l’Ă©gard du shopping peut ĂȘtre mesure en utilisant 2 dimensions : le plaisir et l’Ă©conomie.
Les items correspondant Ă chacune de ces dimensions sont les suivants :
- Plaisir :
- Le shopping est amusant (V1)
- Je profite du shopping pour manger Ă lâextĂ©rieur (V3)
- Le shopping ne mâintĂ©resse pas (V5)
- Economie :
- Le shopping est mauvais pour le budget (V2)
- Jâessaie de trouver les meilleures affaires quand je fais du shopping (V4)
- Je peux Ă©conomiser beaucoup dâargent en comparant les prix (V6)
Dans le cadre dâun prĂ©-test, une Ă©tude quantitative a Ă©tĂ© rĂ©alisĂ©e sur un Ă©chantillon de 20 personnes oĂč les consommateurs ont exprimĂ© leur degrĂ© dâaccord avec chaque item sur une Ă©chelle en 7 points (1 = nâest pas du tout dâaccord â 7 = est dâaccord) :
V1 = le shopping est amusant
V2 = le shopping est mauvais pour le budget
V3 = je profite du shopping pour manger Ă lâextĂ©rieur
V4 = jâessaie de trouver les meilleures affaires quand je fais du shopping
V5 = le shopping ne mâintĂ©resse pas
V6 = vous pouvez Ă©conomiser beaucoup dâargent en comparant les prix
Une analyse en composantes principales est rĂ©alisĂ©e avec les donnĂ©es recueillies afin de vĂ©rifier la structure factorielle de l’Ă©chelle.
RĂ©sultats
Le premier tableau présente une synthÚse des statistiques descriptives, moyenne et écart-type pour chacune des variables observées.
On observe ensuite la matrice des corrĂ©lations ainsi que les coefficients de signification. Une corrĂ©lation mesure lâintensitĂ© dâune relation entre deux variables. Une corrĂ©lation peut prendre une valeur situĂ©e entre -1 et 1. Une valeur proche de 1 indique que les variables sont fortement liĂ©es et Ă©voluent dans le mĂȘme sens. Une corrĂ©lation de 0 indique une absence de lien.
Si plusieurs variables sont corrĂ©lĂ©es (> 0.5), la factorisation est possible. Si non, la factorisation nâa pas de sens et nâest donc pas conseillĂ©e.
Dans notre exemple, plusieurs variables sont correllées entre elles :
Dans un deuxiĂšme temps, il faut observer lâindice de KMO (Kaiser-Meyer-Olkin) qui doit tendre vers 1. si ce nâest pas le cas, la factorisation nâest pas conseillĂ©e. Pour juger de lâindice de KMO, on peut utiliser lâĂ©chelle suivante :
- 0,50 et moins est misérable
- entre 0,60 et 0,70, câest mĂ©diocre
- entre 0,70 et 0,80 câest moyen
- entre 0,80 et 0,90 câest mĂ©ritoire
- et plus 0,9 câest merveilleux.
Enfin, on utilise le test de sphĂ©ricitĂ© de Bartlett. : si la signification (Sig.) tend vers 0.000, câest trĂšs significatif, infĂ©rieur Ă 0.05 significatif, entre 0.05 et 0.10 acceptable et au dessus de 0.10, on rejette.
Si lâACP satisfait Ă au moins deux de ces trois conditions, on peut continuer. Câest le cas pour notre analyse. Pour choisir les variables Ă Ă©liminer, on observe leur qualitĂ© de reprĂ©sentation : plus la valeur associĂ©e Ă la ligne « Extraction » est faible, moins la variable explique la variance.
Combien dâaxes retenir
Trois rĂšgles sont applicables :
- 1ere rĂšgle : la rĂšgle de Kaiser qui veut quâon ne retienne que les facteurs aux valeurs propres supĂ©rieures Ă 1.
- 2eme rĂšgle : on choisit le nombre dâaxe en fonction de la restitution minimale dâinformation que lâon souhaite. Par exemple, on veut que le modĂšle restitue au moins 80% de lâinformation. Pour ces deux premiĂšres rĂšgles, on examine le tableau « Variance Totale ExpliquĂ©e ». Dans notre cas, 2 composantes (axes) ont une valeur propre supĂ©rieure Ă 1 pour une variance totale expliquĂ©e de 80,238%.
3eme mĂ©thode : le « Scree-test » ou test du coude. On observe le graphique des valeurs propres et on ne retient que les valeurs qui se trouvent Ă gauche du point dâinflexion. Graphiquement, on part des composants qui apportent le moins dâinformation (qui se trouvent Ă droite), on relie par une droite les points presque alignĂ©s et on ne retient que les axes qui sont au dessus de cette ligne.
Ici, le point dâinflexion est entre les composantes 2 et 3. On retient donc 2 axes.
Interprétation des résultats
Ici, lâobjectif consiste Ă donner un sens Ă un axe grĂące Ă une recherche lexicale (ou recherche de mots) Ă partir des coordonnĂ©es des variables et des individus. Ce sont les Ă©lĂ©ments extrĂȘmes qui concourent Ă lâĂ©laboration des axes.
Dans notre exemple :
âą Les variables « Fun » et « Eating Out » sont celles qui concourent le plus Ă la formation de lâaxe 1 pour sa portion positive et la variable « Donât care » pour sa partie nĂ©gative.
âą Les variables « Best Buys », « Bad for Budget » et « Compare Prices » contribuent Ă la formation de lâaxe 2.
Le diagramme des composantes donne une représentation graphique des axes et des variables qui contribuent à leurs formations.
La partie positive de lâaxe 1 reprĂ©sente lâintĂ©rĂȘt pour le shopping.
La partie nĂ©gative de lâaxe 1 reprĂ©sente le dĂ©sintĂ©rĂȘt Ă lâĂ©gard du shopping.
La partie positive de lâaxe 2 reprĂ©sente lâintĂ©rĂȘt pour les affaires dans le cadre du shopping.
La matrice des co-variances indique que les deux composantes sont orthogonales.
LâACP fournit aussi les coordonnĂ©es de chaque individu sur les deux axes retenus, FAC1_1 pour lâaxe X et FAC1_2 pour lâaxe Y.
Références
Churchill, G. A. Jr. (1979). A paradigm for developing better measures of marketing constructs. Journal of Marketing Research, 16(1), 64-73.
Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2010). Multivariate data analysis (7th ed.). Upper Saddle River, NJ: Pearson Education.
Malhotra, N. K. (2017). Marketing research: An applied orientation (8th ed.). Harlow, England: Pearson Education.