En écologie, les nouveaux modèles statistiques font-ils mieux que leurs prédécesseurs ?

On a rejoué le duel des anciens et des modernes, version modélisation écologique. Petit débrief du match.

On évoque régulièrement ici l’usage croissant de capteurs (photo, audio) pour collecter des données sur la faune. En permettant un suivi en continu de la biodiversité, ces données (couplées à l’IA pour la reconnaissance automatisée des espèces) offrent de grandes perspectives pour améliorer la préservation des écosystèmes.

L’une des questions qui se pose concerne la manière de traiter ces données, notamment via des modèles statistiques. Et c’est là que le match commence.

Nous avons voulu comparer les performances de deux types (et générations) de modèles :

Les « classiques », qui ont été construits pour traiter des données recueillies de manière ponctuelle, généralement par des opérateurs humains.
Les « nouveaux », qui ont fait leur apparition plus récemment et sont conçus pour le traitement de données acquises « en temps continu », notamment par le biais de capteurs. Certains visent à reproduire plus étroitement les réalités écologiques, avec davantage de paramètres pris en compte.

Notre collègue doctorante Léa Pautrel, qui a supervisé ce « banc d’essai », s’est concentrée sur des modèles d’occupation. Ces derniers ont pour objectif d’estimer la probabilité de présence ou d’absence d’une espèce en différents points d’un territoire.

Elle en a sélectionné cinq : deux « classiques » et trois « nouveaux ». Elle leur a soumis le même jeu de données et leur a assigné des objectifs d’analyse relativement simples.

Résultats ? Léa les présentera le 9 octobre prochain lors des journées EcoStat, la réunion annuelle du Groupement de recherche Ecologie Statistique (*). Un article scientifique suivra, dans quelques mois.

Dans les grandes lignes, on s’attendait à ce que les « nouveaux » modèles fassent mieux que les « classiques ».

En réalité, on a fini sur un match nul. Dans la plupart des scénarios, les deux types de modèles ont présenté des performances comparables, estimant avec précision la probabilité d’occupation.

On en tire deux conclusions :

Lorsque les objectifs d’analyse ne sont pas trop complexes, les modèles « classiques », initialement conçus pour traiter des données collectées ponctuellement, sont capables aussi de produire des résultats robustes avec des données acquises en continu.
Selon le type d'analyse à effectuer, le recours à des modèles « nouveaux », souvent plus complexes à utiliser (nombre accru de paramètres) et moins connus, n’est donc pas forcément avantageux.

*L’intervention de Léa Pautrel aux journées EcoStat s’intitulera : « Occupancy modelling with sensor data: should we use discrete-time models with data collected in continuous-time? »

Vous voulez être sûr de ne manquer aucune info ? Inscrivez-vous pour recevoir, tous les deux mois, notre newsletter dédiée à la biodiversité et aux technologies numériques.