🤖 Entraînement des Modèles ML

4 Algorithmes : Random Forest, SVM, XGBoost & Decision Tree

Validation croisée | Optimisation hyperparamètres | Sélection modèle

📋 Description Technique

Cet algorithme entraîne et compare plusieurs modèles de machine learning pour la classification des cultures agricoles. Il utilise les échantillons préparés précédemment, applique une validation croisée et optimise les hyperparamètres pour sélectionner le meilleur modèle.

🔄

Validation Croisée

Évaluation robuste des performances avec k-fold cross-validation

⚙️

Optimisation Hyperparamètres

Recherche automatique des meilleures configurations pour chaque algorithme

📊

Comparaison Modèles

Évaluation comparative de 4 algorithmes différents

🏆

Sélection Meilleur Modèle

Identification et sauvegarde du modèle aux meilleures performances

⚙️ Paramètres d'Entrée

📊 Échantillons d'Entraînement

Points d'échantillonnage avec valeurs spectrales et labels

Format : Shapefile ou GeoPackage

Attributs requis : Bandes spectrales + champ culture

🏷️ Champ de Culture

Attribut contenant les types de cultures

Type : Texte

Exemples : "culture", "type_culture", "label"

🔧 Algorithmes

Sélection des algorithmes à entraîner et comparer

Options :

  • Random Forest (forêts aléatoires)
  • SVM (machines à vecteurs de support)
  • XGBoost (gradient boosting)
  • Decision Tree (arbre de décision)
  • Tous les algorithmes

⚙️ Optimisation Hyperparamètres

Activation/désactivation de l'optimisation des hyperparamètres

Options : Oui/Non

Défaut : Oui

Désactiver pour un entraînement plus rapide mais moins performant

📤 Résultats de Sortie

🤖 Modèle Entraîné

Meilleur modèle sauvegardé au format pickle

Format : .pkl

Contenu : Modèle + métadonnées (noms des features, classes)

📈 Scaler et Label Encoder

Objets de prétraitement nécessaires pour la prédiction

Format : .pkl

Contenu : Scaler et encodeur de labels

📊 Rapports d'Évaluation

Rapports détaillés des performances de tous les modèles

Format : Fichiers texte

Contenu : Métriques, matrices de confusion, importance des variables

🔄 Processus d'Entraînement

1

Chargement des Données

Lecture des échantillons et extraction des features/labels

2

Prétraitement

Nettoyage, imputation des valeurs manquantes et normalisation

3

Séparation Train/Test

Division des données selon le champ "Train" des échantillons

4

Entraînement des Modèles

Entraînement de chaque algorithme sélectionné

5

Optimisation Hyperparamètres

Recherche des meilleures configurations (si activé)

6

Évaluation et Sélection

Comparaison des performances et sélection du meilleur modèle

📊 Métriques d'Évaluation

🎯 Précision (Accuracy)

Pourcentage de prédictions correctes

Objectif : > 85%

📈 F1-Score

Moyenne harmonique entre précision et rappel

Objectif : > 0.8

🔍 Rapport Détaillé

Métriques par classe (précision, rappel, f1-score)

Format : Tableau et valeurs agrégées

💡 Conseils d'Optimisation

⚖️

Équilibrage des Classes

Assurez-vous d'avoir suffisamment d'échantillons pour chaque classe

🔍

Sélection de Features

Vérifiez l'importance des variables et supprimez les moins importantes

🔄

Validation Croisée

Utilisez toujours la validation croisée pour une évaluation robuste

⏱️

Temps de Calcul

Pour de grands jeux de données, désactivez l'optimisation hyperparamètres

⬅️ Étape précédente : Préparation des données 🏠 Retour à l'accueil ➡️ Étape suivante : Classification