OFF-39_V.2 Précision des données

Résumé

V - COMMENT LE RéSULTAT PEUT-IL êTRE VALIDé


2- Précision des données

Outre la position géographique, le contenu des données doit bien entendu également être correct. Du moins, il doit être aussi précis que possible, car des données correctes à 100 % n'existent que dans un monde idéal. Les utilisateurs des données doivent au moins avoir une idée du type d'erreurs qu'elles contiennent et de leur ordre de grandeur.

Dans le cas de cartes thématiques dérivées de classifications d'images, il convient de déterminer si les classes d'utilisation du sol figurant sur la carte (par exemple, forêt, routes, zones bâties...) correspondent bien à la réalité ; il est également important de pouvoir identifier les classes susceptibles d’être confondues les unes avec les autres.

Dans le cas de données quantitatives de télédétection (variables de surface telles que la production primaire ou la température de surface), il s’agit de déterminer l'ordre de grandeur de l'erreur et de l'écart-type.

Pour valider les données de télédétection, des données de référence, parfois appelées vérité terrain (en anglais, ground truth), sont utilisées. Celles-ci peuvent être obtenues à partir de différentes sources (interprétation de photographies aériennes, cartes thématiques, mesures de terrain...) et se présenter sous différentes formes (cartes numériques, mesures de capteurs, graphiques...). Ces données de référence ne fournissent pas seulement des informations supplémentaires lors de l'analyse des données de télédétection, elles permettent également de vérifier qu'elles sont correctement interprétées.

Exemple 1 : Détermination des erreurs dans des cartes thématiques obtenues par classification d'images

Pour quantifier les erreurs dans les cartes thématiques dérivées d'images satellites, il est possible d’utiliser ce que l'on appelle une matrice de confusion. Pour un certain nombre de points de contrôle (exemples indiqués sur l'image de droite), la classe à laquelle appartiennent réellement les pixels correspondants de l'image est déterminée. Cette "vérité terrain" est obtenue par interprétation visuelle et/ou inspection sur place à l'aide d'un GPS (dispositif GNSS). En plaçant chaque point de contrôle dans une matrice dont les colonnes contiennent les classes réelles et les lignes les classes assignées, il est possible de calculer un certain nombre de statistiques d'erreur. Par exemple, le pourcentage de pixels correctement classés s’obtient en divisant la somme des valeurs sur la diagonale (ellipse bleue) par le nombre total de points de contrôle. Dans l'exemple fictif de droite, ce pourcentage est de 328 / 499, soit environ 66 %.

Carte simple de l'occupation du sol d'une partie de Dublin (zone du parc Phoenix, en bas à gauche) dérivée d'une image Sentinel 2 capturée le 13 août 2022 (en haut à droite). L'algorithme de classification utilisé est Random Forest (un algorithme d'apprentissage automatique). La carte comporte des erreurs évidentes. Par exemple, certains bâtiments appartenant à une zone industrielle sont incorrectement assignés à la classe "sol nu". À l'inverse, certaines parcelles agricoles en jachère ont été classées dans la catégorie "zone bâtie". La matrice de confusion (exemple fictif en bas à droite) permet d'étudier la confusion entre les différentes classes et de calculer certaines mesures d'erreur. Ceci à la fois au niveau de la carte entière (par exemple, le nombre total de pixels correctement ou incorrectement classés) et au niveau des classes individuelles (par exemple, "combien de pixels d'herbe sur la carte sont réellement de l'herbe ?" ou "combien de pixels "herbe" dans la vérité terrain ont été correctement assignés ?".

Exemple 2 : Détermination des erreurs dans des données quantitatives de télédétection


Comparaison des produits de télédétection VIIRS (à gauche) et MODIS (à droite) représentant la température de la surface terrestre (en anglais, Land Surface Temperature – LST) avec la température de la surface terrestre réellement mesurée par les stations météorologiques à Gobabeb, en Namibie. En raison d'une mauvaise estimation des valeurs d'émissivité de surface utilisées dans les algorithmes, les produits VIIRS et MODIS sous-estiment la LST du désert namibien de plus de 4 degrés Kelvin en moyenne. La figure illustre la nécessité de disposer de données de référence au sol : deux produits LST de télédétection différents peuvent être très similaires parce qu'un algorithme similaire a été utilisé, mais ils peuvent différer de manière significative des mesures de référence au sol correspondantes. Source: Guillevic, P.C. et al. (2014). Validation of Land Surface Temperature products derived from the Visible Infrared Imaging Radiometer Suite (VIIRS) using ground-based and heritage satellite measurements, Remote Sensing of Environment, 154, p. 19-37, ISSN 0034-4257