L’analyse en composantes principales (ACP) est une mĂ©thode statistique qui permet de rĂ©duire la dimensionnalitĂ© d’un ensemble de donnĂ©es. Elle est couramment utilisĂ©e en marketing pour regrouper des items d’une Ă©chelle de mesure en dimensions ou facteurs cohĂ©rents.

Dans le cadre du dĂ©veloppement d’une Ă©chelle de mesure, l’ACP est utilisĂ©e pour dĂ©terminer la structure sous-jacente des items de l’Ă©chelle. L’objectif est de regrouper les items en dimensions qui sont cohĂ©rentes avec le concept Ă  mesurer.

La construction de l’ACP se dĂ©roule en quatre Ă©tapes :

Etape 1 – Collecte des donnĂ©es

Les donnĂ©es sont collectĂ©es auprĂšs d’un Ă©chantillon de participants, Ă  l’aide d’une Ă©chelle de mesure composĂ©e d’un ensemble d’items. Les donnĂ©es collectĂ©es sont gĂ©nĂ©ralement des scores sur une Ă©chelle de Likert Ă  cinq points, allant de “tout Ă  fait en dĂ©saccord” Ă  “tout Ă  fait d’accord”.

Etape 2 – Calcul de la matrice de covariance

La matrice de covariance est une matrice qui mesure la covariance entre les items de l’Ă©chelle. La covariance est une mesure de la dĂ©pendance entre deux variables.

Etape 3 – Calcul des valeurs propres et des vecteurs propres

Les valeurs propres mesurent l’importance des facteurs, tandis que les vecteurs propres indiquent comment les items sont associĂ©s Ă  chaque facteur.

Les valeurs propres sont calculées en utilisant la matrice de covariance. La valeur propre la plus élevée correspond au facteur le plus important, et ainsi de suite.

Les vecteurs propres sont calculés en diagonalisant la matrice de covariance. La diagonalisation est une opération mathématique qui permet de transformer une matrice en une matrice diagonale, dont les éléments de la diagonale sont les valeurs propres.

Etape 4 – SĂ©lection des facteurs

Les facteurs sont sélectionnés en fonction de leur importance et de leur cohérence avec le concept à mesurer.

L’importance d’un facteur est dĂ©terminĂ©e par sa valeur propre. Un facteur est considĂ©rĂ© comme important si sa valeur propre est supĂ©rieure Ă  une certaine valeur seuil, qui est gĂ©nĂ©ralement fixĂ©e Ă  1.

La cohĂ©rence d’un facteur est dĂ©terminĂ©e par la façon dont les items sont associĂ©s Ă  ce facteur. Un facteur est considĂ©rĂ© comme cohĂ©rent si les items qui lui sont associĂ©s sont corrĂ©lĂ©s entre eux.

L’interprĂ©tation des facteurs est une Ă©tape importante de l’ACP. Elle consiste Ă  attribuer un nom Ă  chaque facteur et Ă  dĂ©finir ce qu’il mesure.

L’interprĂ©tation des facteurs peut ĂȘtre rĂ©alisĂ©e en se basant sur la dĂ©finition du concept Ă  mesurer, ainsi que sur les items qui sont associĂ©s Ă  chaque facteur.

Exemple : Test d’une Ă©chelle de mesure de l’attitude Ă  l’Ă©gard du shopping

Dans le cadre d’une Ă©tude consacrĂ©e au Shopping, la revue de littĂ©rature fait apparaĂźtre que l’attitude des consommateurs Ă  l’Ă©gard du shopping peut ĂȘtre mesure en utilisant 2 dimensions : le plaisir et l’Ă©conomie.

Les items correspondant Ă  chacune de ces dimensions sont les suivants :

  • Plaisir :
    • Le shopping est amusant (V1)
    • Je profite du shopping pour manger Ă  l’extĂ©rieur (V3)
    • Le shopping ne m’intĂ©resse pas (V5)
  • Economie :
    • Le shopping est mauvais pour le budget (V2)
    • J’essaie de trouver les meilleures affaires quand je fais du shopping (V4)
    • Je peux Ă©conomiser beaucoup d’argent en comparant les prix (V6)

Dans le cadre d’un prĂ©-test, une Ă©tude quantitative a Ă©tĂ© rĂ©alisĂ©e sur un Ă©chantillon de 20 personnes oĂč les consommateurs ont exprimĂ© leur degrĂ© d’accord avec chaque item sur une Ă©chelle en 7 points (1 = n’est pas du tout d’accord – 7 = est d’accord) :

V1 = le shopping est amusant
V2 = le shopping est mauvais pour le budget
V3 = je profite du shopping pour manger Ă  l’extĂ©rieur
V4 = j’essaie de trouver les meilleures affaires quand je fais du shopping
V5 = le shopping ne m’intĂ©resse pas
V6 = vous pouvez Ă©conomiser beaucoup d’argent en comparant les prix

Une analyse en composantes principales est rĂ©alisĂ©e avec les donnĂ©es recueillies afin de vĂ©rifier la structure factorielle de l’Ă©chelle.

RĂ©sultats

Le premier tableau présente une synthÚse des statistiques descriptives, moyenne et écart-type pour chacune des variables observées.

On observe ensuite la matrice des corrĂ©lations ainsi que les coefficients de signification. Une corrĂ©lation mesure l’intensitĂ© d’une relation entre deux variables. Une corrĂ©lation peut prendre une valeur situĂ©e entre -1 et 1. Une valeur proche de 1 indique que les variables sont fortement liĂ©es et Ă©voluent dans le mĂȘme sens. Une corrĂ©lation de 0 indique une absence de lien.

Si plusieurs variables sont corrĂ©lĂ©es (> 0.5), la factorisation est possible. Si non, la factorisation n’a pas de sens et n’est donc pas conseillĂ©e.

Dans notre exemple, plusieurs variables sont correllées entre elles :
Dans un deuxiĂšme temps, il faut observer l’indice de KMO (Kaiser-Meyer-Olkin) qui doit tendre vers 1. si ce n’est pas le cas, la factorisation n’est pas conseillĂ©e. Pour juger de l’indice de KMO, on peut utiliser l’échelle suivante :

  • 0,50 et moins est misĂ©rable
  • entre 0,60 et 0,70, c’est mĂ©diocre
  • entre 0,70 et 0,80 c’est moyen
  • entre 0,80 et 0,90 c’est mĂ©ritoire
  • et plus 0,9 c’est merveilleux.

Enfin, on utilise le test de sphĂ©ricitĂ© de Bartlett. : si la signification (Sig.) tend vers 0.000, c’est trĂšs significatif, infĂ©rieur Ă  0.05 significatif, entre 0.05 et 0.10 acceptable et au dessus de 0.10, on rejette.

Si l’ACP satisfait Ă  au moins deux de ces trois conditions, on peut continuer. C’est le cas pour notre analyse. Pour choisir les variables Ă  Ă©liminer, on observe leur qualitĂ© de reprĂ©sentation : plus la valeur associĂ©e Ă  la ligne « Extraction » est faible, moins la variable explique la variance.

Combien d’axes retenir

Trois rĂšgles sont applicables :

  • 1ere rĂšgle : la rĂšgle de Kaiser qui veut qu’on ne retienne que les facteurs aux valeurs propres supĂ©rieures Ă  1.
  • 2eme rĂšgle : on choisit le nombre d’axe en fonction de la restitution minimale d’information que l’on souhaite. Par exemple, on veut que le modĂšle restitue au moins 80% de l’information. Pour ces deux premiĂšres rĂšgles, on examine le tableau « Variance Totale ExpliquĂ©e ». Dans notre cas, 2 composantes (axes) ont une valeur propre supĂ©rieure Ă  1 pour une variance totale expliquĂ©e de 80,238%.

3eme mĂ©thode : le « Scree-test » ou test du coude. On observe le graphique des valeurs propres et on ne retient que les valeurs qui se trouvent Ă  gauche du point d’inflexion. Graphiquement, on part des composants qui apportent le moins d’information (qui se trouvent Ă  droite), on relie par une droite les points presque alignĂ©s et on ne retient que les axes qui sont au dessus de cette ligne.

Ici, le point d’inflexion est entre les composantes 2 et 3. On retient donc 2 axes.

Interprétation des résultats

Ici, l’objectif consiste Ă  donner un sens Ă  un axe grĂące Ă  une recherche lexicale (ou recherche de mots) Ă  partir des coordonnĂ©es des variables et des individus. Ce sont les Ă©lĂ©ments extrĂȘmes qui concourent Ă  l’élaboration des axes.

Dans notre exemple :
‱ Les variables « Fun » et « Eating Out » sont celles qui concourent le plus Ă  la formation de l’axe 1 pour sa portion positive et la variable « Don’t care » pour sa partie nĂ©gative.
‱ Les variables « Best Buys », « Bad for Budget » et « Compare Prices » contribuent Ă  la formation de l’axe 2.

Le diagramme des composantes donne une représentation graphique des axes et des variables qui contribuent à leurs formations.

La partie positive de l’axe 1 reprĂ©sente l’intĂ©rĂȘt pour le shopping.
La partie nĂ©gative de l’axe 1 reprĂ©sente le dĂ©sintĂ©rĂȘt Ă  l’égard du shopping.
La partie positive de l’axe 2 reprĂ©sente l’intĂ©rĂȘt pour les affaires dans le cadre du shopping.

La matrice des co-variances indique que les deux composantes sont orthogonales.

L’ACP fournit aussi les coordonnĂ©es de chaque individu sur les deux axes retenus, FAC1_1 pour l’axe X et FAC1_2 pour l’axe Y.

Références

Churchill, G. A. Jr. (1979). A paradigm for developing better measures of marketing constructs. Journal of Marketing Research, 16(1), 64-73.

Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E., & Tatham, R. L. (2010). Multivariate data analysis (7th ed.). Upper Saddle River, NJ: Pearson Education.

Malhotra, N. K. (2017). Marketing research: An applied orientation (8th ed.). Harlow, England: Pearson Education.