Traitements
Algorithmes
Une des forces de maplearn est sa bibliothèque d'algorithmes, dont la
richesse doit tout à la librairie
scikit-learn (merci à eux).
Vous pouvez choisir un ou plusieurs algorithmes dans la liste. Si aucun
algorithme est sélectionné, ils seront tous appliqués (déconseillé, car long).
Validation croisée (k-fold)
Pour estimer la précision d'une précision, il faut désigner parmi les
échantillons des individus utilisés pour l'entraînement et d'autres pour la
validation.
La validation croisée s'en charge pour vous, en sélectionnant 1/k des
échantillons pour la validation, le reste servant à l'entraînement. De plus,
l'opération est répétée k fois (avec à chaque fois des lots indépendants),
permettant d'évaluer la robustesse de vos prédictions.
"Optimisation"
L'optimisation, ou plutôt la recherche des hyperparamètres optimaux
consiste à essayer différentes valeurs d'hyperparamètres et de ne
retenir que les valeurs donnant la meilleure précision.
NB : le processus peut être long...
Prédiction
Cela peut surprendre, mais maplearn se contente d'évaluer les modèles
retenus, sans réaliser de prédiction sur votre jeu de données. La raison est
qu'il est préférable de cerner le/les meilleurs modèles d'un point de vue
statistique, avant de réaliser des prédictions sur des jeux de données
potentiellement très volumineux...
Distance (avancée)
Les modèles en machine learning se composent généralement d'un algorithme
appliqué sur une matrice de distances. Par défaut, maplearn
utilise la distance euclidienne, qui est de loin la plus
classique.