VEDECOM a le plaisir de vous annoncer la soutenance de thèse Li YU

VEDECOM a le plaisir de vous annoncer la soutenance de thèse de Mr Li YU intitulée « Localisation absolue par mono-caméra d’un véhicule en milieu urbain via l’utilisation de Street View » qui aura lieu le vendredi 6 avril 2018 à l’école des Mines ParisTech.

Cette soutenance aura eu lieu de avant le jury :
Patrick RIVES, INRIA Sophia Antipolis (Rapporteur)
Paul CHECCHIN, Institut Pascal Université Clermont Auvergne (Rapporteur)
Mme Samia BOUCHAFA, Université d’Évry-Val-d’Essonne (Examinateur)
Fabien MOUTARDE, MINES ParisTech (Directeur de thèse)
Cyril JOLY, MINES ParisTech (Examinateur)
Guillaume BRESSON, Institut VEDECOM (Examinateur)

Dans un travail réalisé au Centre de Robotique et à l’Institut VEDECOM, nous nous sommes intéressés aux systèmes robustes de localisation visuelle en milieu urbain pour la voiture autonome. Obtenir une pose exacte à partir d’une caméra monoculaire est difficile et insuffisant en terme de précision pour la voiture autonome actuelle. Plutôt que d’utiliser des approches comme la navigation par satellites ou les méthodes de Cartographie et Localisation Simultanées (SLAM), nous nous sommes concentrés sur l’utilisation de Systèmes d’Information Géographiques (SIG) pour concevoir une approche fiable, précise et absolue de localisation en milieu urbain ne nécessitant pas de passage préalable d’un véhicule instrumenté et se basant sur une unique caméra.
Notre première tâche a été de concevoir une base de données hors ligne à partir d’un SIG public dense, à savoir Google Maps, qui a l’avantage d’avoir une couverture mondiale. Nous générons une représentation topo-métrique compacte de l’environnement urbain dynamique en extrayant quatre données utiles du SIG : les topologies, les géo-coordonnées, les Street Views panoramiques et les cartes de profondeur associées.
Pour exploiter le SIG, nous proposons deux méthodes de localisation : l’une est une approche de vision par ordinateur basée sur l’extraction de caractéristiques, l’autre est une méthode d’apprentissage basée sur les réseaux de neurones convolutionnels (convnet).
En vision par ordinateur, l’extraction de caractéristiques est un moyen populaire de résoudre le positionnement à partir d’images. Nous tirons parti de Google Maps et utilisons ses données topo-métriques hors ligne pour construire un positionnement allant de grossier à fin, à savoir un processus de reconnaissance de lieu topologique puis une estimation métrique de pose par optimisation de graphe. La seule entrée de cet algorithme est une séquence d’images provenant d’une caméra monoculaire et la base de données construite à partir de Google Maps. De plus, il n’est pas nécessaire d’établir des correspondances d’image à image, ni d’utiliser l’odométrie. La méthode a été testée en environnement urbain et démontre à la fois une précision métrique et une robustesse aux changements de point de vue et d’illumination ainsi qu’aux occlusions. Les résultats montrent que les emplacements éloignés de Street Views produisent une erreur significative dans la phase d’estimation métrique. Ainsi, nous synthétisons des Street Views artificielles pour compenser la densité des Street View originales et améliorer la précision.
Cette méthode souffre malheureusement d’un temps de calcul important. Étant donné que le SIG nous offre une base de données géolocalisée à l’échelle mondiale, cela nous motive à régresser des localisations globales directement à partir d’un convnet de bout en bout. La base de données hors ligne précédemment construite est encore insuffisante pour l’apprentissage d’un convnet. Pour compenser cela nous densifions la base d’origine d’un facteur mille et utilisons l’apprentissage par transfert pour faire converger notre régresseur convnet et avoir une bonne performance. Le régresseur permet également d’obtenir une localisation globale à partir d’une seule image et en temps réel.

Articles récents :