Introduction au Data Mining
CoursOutils transverses

Les données

DéfinitionTerminologie
  • variable : toute caractéristique d'une entité

  • mesure : expression par une valeur numérique d'une variable

  • attribut : expression par un code d'une variable

  • modalité d'une variable : ensemble des valeurs que peut prendre une variable

  • individu : l'entité étudiée (personne, objet, événement,...), aussi appelée observation

L'organisation
  • en base de données relationnelle

  • en base de données multi-dimensionnelle (OLAP)

  • en base de données géographique

  • en fichier plat type matrice : les lignes correspondent aux individus, les colonnes aux variables

Constitution de la base d'analyse prédictive :

  • variable explicative : qui décrit, est une cause

  • variable à expliquer : cible de l'analyse, est une conséquence : aussi appelée l'étiquette (label)

ExempleExemple de mise en forme de données
Exemple de mise en forme

Nom

Genre

Taille

...

Enfants

Client fidèle

M. X

homme

1m80

...

2 enfants

oui

M. Y

homme

1m70

...

0 enfant

non

...

...

...

...

...

...

Pour utilisation, la mise en forme deviendra :

Les données : exploration et préparation
  • fiabiliser, remplacer ou supprimer les données incorrectes

  • créer des indicateurs pertinents

  • réduire le nombre de dimensions

ComplémentFiabiliser les données

Exemples de problèmes à détecter :

  • individu avec trop de valeurs manquantes

  • individu avec des valeurs aberrantes (outlier)

  • variable en anomalie pour de nombreux individus

Exemple de traitement :

  • suppression d'un individu

  • correction de valeurs

  • suppression de variable pour l'ensemble de la base

ComplémentCréer des indicateurs

A partir des données brutes :

  • remplacer des grandeurs absolues par des ratios

  • normaliser

  • calculer des évolutions temporelles (rapport entre la moyenne sur une période récente et la moyenne sur une période antérieure)

  • combiner linéairement des variables

  • composer des variables avec des fonctions (type logarithme)

  • recoder une variable ("faible, moyen,fort" devient "1,2,3")

  • remplacer les dates par des durées

  • remplacer les lieux par des coordonnées

ComplémentRéduire la dimension

Sur le nombre d'individus

  • au cours de la fiabilisation

  • au cours de l'échantillonnage (dans la suite du cours)

Sur le nombre de variables

  • détecter les variables très corrélées

  • détecter les variables non pertinentes pour le problème posé

  • utiliser des analyses factorielles pour combiner les variables

Sur le nombre de modalités

  • pour les variables discrètes et qualitatives, regrouper les modalités trop nombreuses ou bien presque vides

  • discrétiser des variables continues

Les techniques (page suivante)Data-Mining ? (page Précédente)
AccueilImprimerRéalisé avec SCENARI