📊 Préparation des Données ML

Génération d'échantillons d'entraînement géoréférencés

Extraction spectrale | Échantillonnage stratifié | Validation croisée

📋 Description Technique

Cet algorithme génère un jeu de données d'entraînement pour les modèles de machine learning en croisant les parcelles agricoles de référence avec les images satellites multi-spectrales. Il extrait automatiquement les valeurs spectrales et applique un échantillonnage stratifié pour garantir la qualité des données d'entraînement.

🎯

Extraction Spectrale

Extraction des valeurs de pixels pour toutes les bandes disponibles

⚖️

Échantillonnage Équilibré

Répartition des échantillons entre training et test par parcelle

📐

Grille Régulière

Échantillonnage systématique avec grille de 10m dans chaque parcelle

Contrôle Qualité

Détection et gestion automatique des valeurs manquantes

⚙️ Paramètres d'Entrée

🗺️ Parcelles de Référence

Couche vectorielle contenant les zones d'entraînement annotées

Géométrie : Polygones

Formats : Shapefile, GeoPackage, GeoJSON

Obligation : Attribut de classification requis

🏷️ Champ de Classification

Nom de l'attribut contenant les types de cultures

Type : Texte

Encodage : UTF-8 recommandé

Exemples : "culture", "type_culture", "label"

🛰️ Image Satellite

Raster pour l'extraction des valeurs spectrales

Format : GeoTIFF, IMG, ou autre format supporté par QGIS

Bandes : Doit contenir les bandes utilisées pour l'entraînement

Important : Même SCR que les parcelles

📊 Pourcentage d'Entraînement

Pourcentage des parcelles à utiliser pour l'entraînement

Plage : 10-90%

Défaut : 70%

Le reste est utilisé pour la validation

📤 Données de Sortie

📍 Échantillons d'Entraînement

Points géoréférencés avec attributs spectraux

Format : Shapefile ou GeoPackage

Attributs :

  • ID unique et ID parcelle
  • Classe de culture
  • Valeurs des bandes spectrales
  • Champ "Train" (True/False)
  • Métadonnées de génération

🔍 Processus de Traitement

1

Validation des Données

Vérification de la compatibilité spatiale entre parcelles et image

2

Échantillonnage Spatial

Génération de points selon une grille régulière de 10m dans chaque parcelle

3

Extraction Spectrale

Extraction des valeurs de toutes les bandes pour chaque point

4

Séparation Train/Test

Répartition aléatoire des parcelles entre ensemble d'entraînement et de test

5

Sauvegarde

Export des échantillons au format vectoriel

💡 Conseils d'Optimisation

📐

Taille des Parcelles

Privilégier des parcelles d'au moins 0.5 hectare pour un échantillonnage représentatif

⚖️

Équilibrage des Classes

Viser un nombre similaire d'échantillons pour chaque classe de culture

🎯

Qualité des Annotations

Vérifier la précision des étiquettes avant l'extraction

🔍

Contrôle Qualité

Visualiser les échantillons générés pour détecter d'éventuels problèmes

⚠️ Problèmes Fréquents

🚨 Projections Incompatibles

Symptôme : Échantillons placés dans de mauvaises zones

Solution : Vérifier que parcelles et image ont le même SCR

📊 Déséquilibre des Classes

Problème : Trop peu d'échantillons pour certaines cultures

Solution : Collecter plus de parcelles ou ajuster le ratio train/test

🔍 Valeurs NoData

Cause : Pixels hors image ou sans données

Solution : Vérifier l'emprise de l'image par rapport aux parcelles

⬅️ Étape précédente : Acquisition satellites 🏠 Retour à l'accueil ➡️ Étape suivante : Entraînement ML