11 jan. 2025

Explication générale de l'analyse en composante principal (l'ACP)

Agar Blohorn
Algorithmes
0 comments

Présentation de l'ACP

L'analyse en composantes principales (ACP) est une méthode factorielle de réduction de dimension. L'ACP est basée sur des techniques statistiques pour explorer des données quantitatives complexes. Tout d'abord, définissons ce qu'est un jeu de données et comment le représenter graphiquement.

L'ACP s'applique à un jeu de donnée qui est composé de lignes (Observations, Individus, Objets) et de colonnes (variables caractéristiques, features, variables explicatives) à valeurs numériques continues. On peut représenter un jeu de données de deux manières :

Le nuage des n individus dans l'espace des p variables caractéristiques (points-lignes).
Le nuage des p variables caractéristiques dans l'espace des n individus (points-colonnes).

Chacune des deux dimensions du tableau de données permet de définir des distances (ou des proximités) entre les éléments définissant l'autre dimension.

Les proximités ou les distance entre variables s'interprétent en termes de corrélation linéaire et les proximités entre individus s'interprétent en termes de similitudes globales des valeurs observées.

L'objectif de l'ACP

En pratique, un projet en data science nécessite une étape de visualisation et de modélisation afin de construire une application basé sur des techniques d'apprentissage automatique. On sait que la quantité de données est essentielle pour obtenir un modèle qui généralise bien un phénomène. Cependant, plus la quantité de données est élevée, plus la visualisation et la compréhension deviennent difficiles, et plus la recherche d'un modèle optimal est longue et complexe. Souvent, certaines variables sont similaires ou apportent des informations redondantes. Par exemple, si une variable caractéristique est une fonction d'une autre variable, alors l'une des deux est redondante. L'ACP permet de pallier tous ces inconvénients tout en maintenant une quantité d'information suffisante. Elle permet de :

Visualiser les données pour mieux définir les variables, éliminer les données aberrantes et orienter le choix algorithmique
Réduire les coûts algorithmiques
Améliorer la qualité des modèles dans le sens où l'ACP, en réduisant les données, diminue également le sur-apprentissage

Comment fonctionne l'ACP?

Le principe de l'ACP est de construire de nouvelles variables caractéristiques à partir des variables de base. Ces nouvelles variables sont des combinaisons linéaires des variables d'origine. L'objectif est de conserver deux nouvelles variables dont la variance (quantité d'information) est la plus grande. Ces éléments sont ensuite représentés dans ce qu'on appelle le nouveau plan factoriel.

Mathématiquement, l'ACP se base sur la diagonalisation de la matrice de corrélation (ou de variance-covariance) pour déterminer les composantes principales. Ces composantes principales définissent les nouveaux axes orthogonaux du plan factoriel, qui sont des combinaisons linéaires des variables initiales.

Pour rappel, La matrice de corrélation est un tableau ou chaque cellule est composée d'un coefficient de corrélations entre deux variables. Le coefficient de corrélation varie de -1 à +1.

-1 représente une corrélation négative parfaite
+1 représente une corrélation positive parfaite
0 représente une absence de corrélation entre les variables

Géométriquement, l'ACP effectue une rotation du repère autour de l'origine afin de déterminer un nouveau système de vecteurs orthonormés (les axes principaux). Ces vecteurs sont orientés de manière à maximiser la variance projetée des données, ce qui revient à passer 'au plus près' du nuage de points initial en termes de dispersion. Les nouvelles variables caractéristiques sont alors les projections des données sur ces axes principaux, qui sont orthogonaux entre eux.

Cas pratique et interprétation

Le jeu de données présenté ci-dessous est collecté à partir du CESP (Centre d'Étude des Supports de Publicité) dans le cadre de l’enquête "Budget-temps" Multimédia 1991/1992. La taille de l'échantillon est de 17 665 personnes avec des variables qui caractérisent les individus tels que la fréquentation de divers médias (radio, télévision, presse) et des temps d'activités quotidiennes. Nous nous intéressons ici à une sous-population composée de 27 groupes (chaque groupe étant constitué d’un ensemble d’individus).

On dispose d’un tableau avec :

Lignes : les observations, individus ou mesures.
Colonnes : les variables caractéristiques ou attributs.

Prenons un tableau RRR des mesures prises avec :

Lignes : les individus (quelques milliers d'hommes actifs).
Colonnes : leurs temps d'activités quotidiennes (16 variables : temps d'activités en minutes par jour).

Les personnes sont regroupées en 27 groupes, selon l’âge, le niveau d’éducation et le type d’agglomération. Ces 27 groupes sont considérés comme des individus.

Les objectifs sont de :

Connaître les associations entre les temps consacrés à différentes activités par les "individus" observés.
Étudier les liens entre ces familles d'activités et les caractéristiques de base des individus.
Analyser le lien entre les activités quotidiennes et la fréquentation de divers médias (presse, radio, télévision, cinéma).

Ce tableau montre les variables supplémentaires ajoutées qui ont été créer à partir des indicteurs statistiques de bases tels que la moyennes, l'ecart-type.

L’ACP permet d’obtenir un résumé des liaisons entre les variables caractéristiques grâce à la matrice des corrélations. Grâce à cette matrice, on a une première vue sur les coeffcients de corrélation entre les variables deux à deux. L'ACP va permettre d'obtenir une synthèse de ces liaisons.

Ce tableau permet de représenter graphiquement les individus et les variables dans le nouveau plan factoriel à l'aide des nouvelles coordonnées. On observe que les deux premiers axes expliquent 47 % de l’inertie, ce qui indique une concentration nette du nuage dans un sous-espace à deux dimensions : le plan factoriel principal.

Ci-dessus, le cercle des corrélations permet de projeter les variables actives sur le nouveau plan factoriel et d’interpréter les relations entre les variables caractéristiques de base.

Les coordonnées des variables sur les axes correspondent aux coefficients de corrélation entre ces variables et les facteurs.

Le premier axe oppose les activités extérieures ou d'ouverture (lecture, loisir extérieur, repas au restaurant, déplacement en voiture) à des activités plus intérieures (jardinage, jeux, bricolage, repas chez soi).
Le deuxième axe oppose principalement l'activité professionnelle (travail rémunéré) aux activités de temps disponible ou libre (promenade, écoute de disques ou cassettes, fréquentation des médias), ainsi qu’au temps consacré au ménage et au sommeil.

Ce rapide aperçu offre une première idée du fonctionnement de l'ACP. En pratique, les jeux de données et les variables sont souvent bien plus complexes et nombreux. Plusieurs notions importantes n'ont pas été abordées ici, pour des raisons de simplification, comme les valeurs propres, les vecteurs propres ou encore l'importance de normaliser les données. Ces concepts feront l'objet d'un article dédié.

Références :

Les visualisations sont issues du livre Statistique exploratoire multidimensionnelle de Ludovic Lebart, Alain Morineau et Marie Piron.

0 comments

Rejoindreor login to leave a comment