TP 1 de Data-Mining

Le but de ce TP est de mettre en oeuvre une méthode très simple de classification de données (les k plus proches voisins, ou knn) et de déterminer automatiquement le meilleur nombre de voisins à utiliser pour un problème donné. La validation de ce paramètre sera faite par validation croisée.

Contents

Les données

Il faut avoir un ensemble de données d'apprentissage (napp vecteurs de dimension d et étiquettes avec c classes) ainsi qu'un ensemble de test (ntest vecteurs de dimension d et étiquettes). Dans un premier temps, nous allons les générer de manière à obtenir des données sans erreurs puis nous utiliserons des données bruitées.

Problème 1 à deux classes

Problème 2 à deux classes

kNN

Validation de paramètres