Identification interactive des plantes
et
systme d'information collaboratif

Recherche

L’ambition première du projet Pl@ntNet est de produire une recherche transdisciplinaire de qualité, à la croisée de la botanique et des sciences de l’information et de la communication. Pour cela, plusieurs doctorats et post-doctorats sont financés sur des thèmes novateurs relatifs à l'exploration de contenus multimédia, à la recherche d’informations, en particulier pour l’identification d’espèces, ainsi qu'à la modélisation des aires de répartition des espèces et des végétations.

Nouveaux critères pour l’identification interactive de plantes

L’identification interactive de plantes a connu des progrès considérables durant cette dernière décennie, notamment grâce à la technologie IDAO basée sur la construction d'un portrait-robot du végétal à identifier. Cependant, les techniques existantes s’appuient essentiellement sur les critères morphologiques utilisés classiquement en taxinomie, qui sont parfois difficiles à observer sur le terrain (c'est le cas notamment des caractères floraux). Des caractères morphologiques tout aussi pertinents pour l'identification sur le terrain, comme par exemple la texture ou la couleur de l'écorce des arbres, sont mal documentés et donc peu ou pas utilisés dans les applications existantes.

 Imedia_Phd
(© Daniel Barthélémy - Inra/Amap)

Par ailleurs, les progrès récents dans l'analyse d'images offrent de nouvelles perspectives pour la détection automatique de nouveaux critères visuels d’identification à partir d'images de plantes. Ces deux voies de recherche complémentaires seront explorées dans le cadre du projet Pl@ntNet :

  • Un premier doctorant travaillera sur des modèles géométriques dédiés à l’identification automatique des plantes à partir d'images. Des travaux préliminaires (collaboration AMAP - IMEDIA) ont montré l'intérêt de la détection de points d’intérêt sur des images de plantes, associée à des descriptions locales autour de ces points. Cette méthode permet de capturer l’information topologique associée aux plantes ou aux organes illustrés. Cependant, les modèles géométriques usuels et les paradigmes appliqués aux descriptions locales ne sont pas encore suffisamment robustes, et sont limités aux transformations rigides ou à des contraintes sur le voisinage des points. Dans ce travail de thèse, de nouveaux modèles géométriques et paradigmes, aussi bien paramétriques que non-paramétriques, vont être étudiés pour concevoir des nouveaux types de descripteurs capturant à la fois des informations topologiques globales et semi-locales.
     
  • Un autre thème de recherche concernera la formalisation et l'utilisation de critères morphologiques relatifs à l’architecture de la plante, à la forme du tronc et l’apparence de l’écorce, la nervation et la texture des feuilles, et aux couleurs des différents organes. Ces critères sont couramment utilisés (seuls ou en combinaison) par les botanistes expérimentés, mais cet usage relève d'une expertise en général peu ou mal formalisée, donc difficile à exploiter dans le cadre d'un système d'aide à l'identification. 

  Imedia_Phd
(©  Images originales de Pierre Bonnet - Inra/Amap ; interface Ikona de Imedia-Inria)

Ces travaux ouvriront la voie à une approche conjointe d’identification, combinant les caractéristiques visuelles extraites automatiquement de photographies et les critères morphologiques.
 

Recherche d’information par le contenu et exploration de collections d’images botaniques

Les images prennent de plus en plus de prépondérance dans les collections scientifiques de données botaniques, et représentent déjà le type d’information privilégié par les utilisateurs fournisseurs de contenus. Dans Pl@ntNet, de nombreux efforts vont être déployés pour mettre en place des méthodes nouvelles et génériques de Recherche d’Image par le Contenu (Content-Based Image Retrieval - CBIR) appliquées et évaluées sur des données botaniques qui seront constituées lors du projet. Trois principaux travaux seront menés dans l’équipe IMEDIA en collaboration avec les botanistes d’AMAP et le réseau des botanistes de Tela Botanica.

Apprentissage et recherche multi-critères et multi-images
A cause de la complexité et de la diversité des caractères botaniques, une seule image de plante ne capturera certainement pas assez d’information pour permettre de la recherche ou de l’identification pertinentes par similarité visuelle. Contrairement aux approches classiques de recherche “multi-vue”, se focalisant sur différentes vues autour d’un même objet, nous considérons le cas où une même entité, une plante physique, ou « individu », est représentée par des photographies se focalisant sur différents caractères (fleurs, feuilles, écorce, tronc, …) Il sera envisagé dans ce même cadre d’expérimentation de combiner ces différents critères avec des informations contextuelles telles que les dates de prises de clichés et les geo-tags (GPS).

apprentissage
(© Philippe Birnbaum, Cirad/Amap)

Passage à l’échelle pour l’apprentissage et la recherche d’information par le contenu
Il est reconnu désormais, dans la communauté travaillant dans le domaine de la vision par ordinateur, que l’apprentissage sur des volumes très importants de données images peut aider à résoudre des problèmes basiques, tout en restant ambitieux. La construction et l’exploitation d’une base de connaissances sur de très grandes bases d’images, à travers l’utilisation de méthodes d’apprentissage statistique et d’exploration de données (data mining) est ainsi devenu un véritable challenge comme l’illustre le projet récent « Imagenet » dont l’ambition est de lier un grand nombre d’images aux mots textuels recensés dans le célèbre dictionnaire WordNet inspiré de l’ontologie linguistique. Dans ce travail, nous étudierons une nouvelle approche basée sur le hachage permettant de compresser efficacement des centaines de millions d’images structurées en plusieurs milliers de catégories. Pour expérimenter ce paradigme dans le contexte botanique, il est prévu de créer une base très large de connaissance botanique en collaboration avec les acteurs internes et externes de Pl@ntNet.

Exploration interactive dans les cartes de similarités visuelles
La construction de cartes 2D, basées sur des similarités visuelles mesurées sur les caractéristiques visuelles des plantes, représente une approche très prometteuse pour aider les botanistes à découvrir des relations liant ou distinguant les groupes taxonomiques de plantes. Comme il est difficile de savoir par avance selon quelles caractéristiques visuelles un utilisateur botaniste souhaite observer les données, une approche interactive permettra à ce dernier de modifier les cartes de visualisation en temps réel.

Modélisation des distributions géographiques d’espèces
 

Pour pouvoir prédire la vulnérabilité des espèces et des phytocénoses au changement global et l’évolution de leur répartition spatiale, les scientifiques, les gestionnaires et tous les acteurs du domaine de la biologie de la conservation ont besoin de cartes fiables de distribution géographique des espèces. Les méthodes utilisées pour répondre à ce besoin devront prendre en compte la diversité des données qui seront collectées via la plateforme Pl@ntNet. Une grande partie de ces données sont des coordonnées spatiales d’occurrence (par ex. les points de collectes d’échantillons d’herbier), qui sont souvent trop rares pour permettre à elles seules de cartographier l’aire de répartition d’une espèce.

Diverses méthodes offrent, grâce à des algorithmes qui combinent ces données et les attributs environnementaux associés aux localités, la possibilité de modéliser les aires de répartition potentielles des espèces. Toutefois, ces méthodes ne permettent pas de faire la différence, notamment dans les régions tropicales, entre absence réelle et “fausse absence” (l’espèce est présente mais n’a pas été observée). Il convient d’explorer la réalité et l’importance du biais qui peut en résulter sur les cartographies obtenues. De plus, il est urgent de développer des modèles d’assemblage d’espèces pour pouvoir prendre en compte les interactions entre espèces dans la prédiction des changements futurs des végétations.

Les recherches méthodologiques, qui seront mises en œuvre dans le cadre d’un post-doctorat, s’appuieront sur de larges jeux de données collectés en Inde du Sud (cas d’étude Pl@ntGhats), en Guyane française, et en Afrique de l’Ouest. Elles ouvriront la voie à des développements logiciels qui seront testés dans le cadre des cas d'étude.
 

 

Intranet | Administration