L'Intelligence artificielle à l'IGN
À partir de ses données socles, l’IGN pilote la production du référentiel national d'occupation du sol à grande échelle (OCS GE). Au service de l’État et des collectivités, cette cartographie montre en détail l’occupation des sols selon plusieurs éléments clés pour en distinguer les zones imperméables, agricoles, forestières. Elle permet de quantifier et de qualifier l’évolution des territoires et leur artificialisation nette.
Depuis 2019, l’institut emploie la télédétection d’objets (habitations, végétation, etc.) par IA pour accélérer la production et multiplier les usages. Des modèles obtenus par apprentissage profond analysent les images aériennes et extraient une première estimation de la couverture des sols. Ces cartes de « prédiction » de haute résolution (20 cm par pixel) sont diffusées sous le nom de CoSIA (Couverture du Sol par Intelligence Artificielle). Ces premiers résultats font ensuite l’objet de traitements complémentaires et de croisements avec des données existantes (données forestières, foncières ou relatives aux aides agricoles) pour produire la donnée finale utile à la mesure de l’artificialisation.
Initiée dans le cadre de la stratégie nationale pour la biodiversité 2011-2020, CarHab est une modélisation cartographique nationale des habitats naturels et semi-naturels pour les écosystèmes terrestres de métropole et d'Outre-mer, à l'échelle du 1 : 25 000e, avec pour objectif de couvrir la France entière d’ici 2026 (avec mise à jour tous les 6 ans). Ce programme partenarial porté par le ministère chargé de la transition écologique vise à répondre aux enjeux de conservation de la biodiversité, d'aménagement du territoire et de gestion durable des ressources naturelles. CarHab fait appel à une modélisation par machine learning mobilisant des données de végétation existantes, des techniques d'analyses d'images. Une phase de prospection terrain permet d'affiner le modèle.
Dans le cadre du programme national LiDAR HD, l’IGN produit et diffuse une cartographie 3D de l’intégralité du sol et du sursol de la France en données LiDAR, précise, détaillée et homogène. Les données diffusées sont des nuages de points recalés, bruts ou classifiés, et des modélisations numériques 3D. Grâce à un process automatique combinant les méthodes usuelles de classification, le croisement avec des bases de données existantes, et l’IA (algorithmes de deep learning utilisant des données d’apprentissage), les nuages de points 3D acquis sont classifiés en plusieurs classes (sol, eau, végétation, bâtiments, ponts, sursol pérenne). Les nuages de points donnent ensuite lieu à la production de modèles numériques (de terrain, de surface et de hauteur).
Carte de couverture du sol par intelligence artificielle (CoSIA)
Carte de couverture du sol par intelligence artificielle (CoSIA)
Jeux de données pour la classification des nuages de points LiDAR HD
Nouvelles alliances et stratégie d’ouverture
L’effort nécessaire à la cartographie de l’anthropocène dépasse cependant la seule capacité développée par l’Institut. Alors l’IGN construit également de nouvelles alliances pour la description du territoire : l’IA est un axe fort de synergies public-privé au sein de Datalliance ; l’Institut a également participé au consortium AI4GEO pour le développement de solutions IA pour l’analyse d’imagerie satellite.
Plus largement, l’IGN veille à contribuer aux écosystèmes de la géomatique et de l’IA et s'est engagé dans une politique active d’ouverture de ses données, méthodes et outils relatifs à l’IA. À ce jour, cinq datasets et neuf modèles IA ont été partagés sur HuggingFace et sept librairies ouvertes liées aux systèmes IA ont été créées sur le GitHub IGNF.
Des jeux de données d’apprentissage massifs ont ainsi été ouverts dans le cadre des challenges FLAIR, compétitions scientifiques et techniques sur des problèmes de recherche pour l’analyse de l’occupation des sols par IA. Les méthodes produites et s’évaluant sur ces jeux de données contribuent à améliorer les résultats de classification des données d’occupation du sol, à augmenter la capacité de généralisation du modèle IA, mais aussi à combiner les données issues de prises de vues aériennes et satellites (Sentinel 2). Ces défis ont également permis de soutenir les travaux de recherche et d'innovation dans la cartographie des territoires par la publication de codes et données et d’engager une nouvelle collaboration technique à l’étranger. FLAIR, ce sont 20 milliards de pixels, 19 classes de couverture des sols, 100K images soit 980km² d’images annotées dans 55 domaines différents.
L’Institut expérimente aussi les possibilités d’usages directs des cartes d’occupation des sols obtenues par IA (CoSIA), permettant de rendre la puissance des méthodes IA accessibles à des communautés géomatiques plus larges.
Enfin, avec 135 00 images LiDAR de 50 m par 50 m, couvrant 449 forêts de 40 départements français sur un total de 339 km2, PureForest est le plus grand jeu de données LiDAR au monde sur les essences forestières.
Ces partages sont porteurs de retombées importantes pour l’écosystème de la description IA du territoire. Il facilite la prise en main de données aux structures complexes (LiDAR, séries temporelles d’images) et, surtout, il réduit les volumes de données d’apprentissage nécessaires au développement de nouveaux systèmes IA. Or, ce besoin en données massives constitue encore l’un des principaux déterminants de la performance et du coût de ces systèmes.
Au-delà des retombées économiques, cette politique d’ouverture sert l'objectif de démocratisation de l’intelligence artificielle. Loin d’être monolithique, la conception de systèmes IA offre de nombreuses prises, susceptibles d’en modifier en profondeur les conséquences relatives à sa performance, au travail nécessaire dans leur mise en œuvre ou encore à leur empreinte écologique. La description pragmatique du contenu réel des systèmes IA contribue au débat public sur le développement et la régulation de ces techniques et infrastructures.