Les données
-
variable : toute caractéristique d'une entité
-
mesure : expression par une valeur numérique d'une variable
-
attribut : expression par un code d'une variable
-
modalité d'une variable : ensemble des valeurs que peut prendre une variable
-
individu : l'entité étudiée (personne, objet, événement,...), aussi appelée observation
-
en base de données relationnelle
-
en base de données multi-dimensionnelle (OLAP)
-
en base de données géographique
-
en fichier plat type matrice : les lignes correspondent aux individus, les colonnes aux variables
Constitution de la base d'analyse prédictive :
-
variable explicative : qui décrit, est une cause
-
variable à expliquer : cible de l'analyse, est une conséquence : aussi appelée l'étiquette (label)
Nom |
Genre |
Taille |
... |
Enfants |
Client fidèle |
M. X |
homme |
1m80 |
... |
2 enfants |
oui |
M. Y |
homme |
1m70 |
... |
0 enfant |
non |
... |
... |
... |
... |
... |
... |
Pour utilisation, la mise en forme deviendra :

-
fiabiliser, remplacer ou supprimer les données incorrectes
-
créer des indicateurs pertinents
-
réduire le nombre de dimensions
Exemples de problèmes à détecter :
-
individu avec trop de valeurs manquantes
-
individu avec des valeurs aberrantes (outlier)
-
variable en anomalie pour de nombreux individus
Exemple de traitement :
-
suppression d'un individu
-
correction de valeurs
-
suppression de variable pour l'ensemble de la base
A partir des données brutes :
-
remplacer des grandeurs absolues par des ratios
-
normaliser
-
calculer des évolutions temporelles (rapport entre la moyenne sur une période récente et la moyenne sur une période antérieure)
-
combiner linéairement des variables
-
composer des variables avec des fonctions (type logarithme)
-
recoder une variable ("faible, moyen,fort" devient "1,2,3")
-
remplacer les dates par des durées
-
remplacer les lieux par des coordonnées
Sur le nombre d'individus
-
au cours de la fiabilisation
-
au cours de l'échantillonnage (dans la suite du cours)
Sur le nombre de variables
-
détecter les variables très corrélées
-
détecter les variables non pertinentes pour le problème posé
-
utiliser des analyses factorielles pour combiner les variables
Sur le nombre de modalités
-
pour les variables discrètes et qualitatives, regrouper les modalités trop nombreuses ou bien presque vides
-
discrétiser des variables continues