VEDECOM a le plaisir de vous annoncer la soutenance de thèse Li YU

VEDECOM a le plaisir de vous annoncer la soutenance de thèse de Mr Li YU intitulée « Localisation absolue par mono-caméra d’un véhicule en milieu urbain via l’utilisation de Street View » qui aura lieu le vendredi 6 avril 2018 à l’école des Mines ParisTech.

Cette soutenance aura eu lieu de avant le jury :
Patrick RIVES, INRIA Sophia Antipolis (Rapporteur)
Paul CHECCHIN, Institut Pascal Université Clermont Auvergne (Rapporteur)
Mme Samia BOUCHAFA, Université d’Évry-Val-d’Essonne (Examinateur)
Fabien MOUTARDE, MINES ParisTech (Directeur de thèse)
Cyril JOLY, MINES ParisTech (Examinateur)
Guillaume BRESSON, Institut VEDECOM (Examinateur)

Dans un travail réalisé au Centre de Robotique et à l’Institut VEDECOM, nous nous sommes intéressés aux systèmes robustes de localisation visuelle en milieu urbain pour la voiture autonome. Obtenir une pose exacte à partir d’une caméra monoculaire est difficile et insuffisant en terme de précision pour la voiture autonome actuelle. Plutôt que d’utiliser des approches comme la navigation par satellites ou les méthodes de Cartographie et Localisation Simultanées (SLAM), nous nous sommes concentrés sur l’utilisation de Systèmes d’Information Géographiques (SIG) pour concevoir une approche fiable, précise et absolue de localisation en milieu urbain ne nécessitant pas de passage préalable d’un véhicule instrumenté et se basant sur une unique caméra.
Notre première tâche a été de concevoir une base de données hors ligne à partir d’un SIG public dense, à savoir Google Maps, qui a l’avantage d’avoir une couverture mondiale. Nous générons une représentation topo-métrique compacte de l’environnement urbain dynamique en extrayant quatre données utiles du SIG : les topologies, les géo-coordonnées, les Street Views panoramiques et les cartes de profondeur associées.
Pour exploiter le SIG, nous proposons deux méthodes de localisation : l’une est une approche de vision par ordinateur basée sur l’extraction de caractéristiques, l’autre est une méthode d’apprentissage basée sur les réseaux de neurones convolutionnels (convnet).
En vision par ordinateur, l’extraction de caractéristiques est un moyen populaire de résoudre le positionnement à partir d’images. Nous tirons parti de Google Maps et utilisons ses données topo-métriques hors ligne pour construire un positionnement allant de grossier à fin, à savoir un processus de reconnaissance de lieu topologique puis une estimation métrique de pose par optimisation de graphe. La seule entrée de cet algorithme est une séquence d’images provenant d’une caméra monoculaire et la base de données construite à partir de Google Maps. De plus, il n’est pas nécessaire d’établir des correspondances d’image à image, ni d’utiliser l’odométrie. La méthode a été testée en environnement urbain et démontre à la fois une précision métrique et une robustesse aux changements de point de vue et d’illumination ainsi qu’aux occlusions. Les résultats montrent que les emplacements éloignés de Street Views produisent une erreur significative dans la phase d’estimation métrique. Ainsi, nous synthétisons des Street Views artificielles pour compenser la densité des Street View originales et améliorer la précision.
Cette méthode souffre malheureusement d’un temps de calcul important. Étant donné que le SIG nous offre une base de données géolocalisée à l’échelle mondiale, cela nous motive à régresser des localisations globales directement à partir d’un convnet de bout en bout. La base de données hors ligne précédemment construite est encore insuffisante pour l’apprentissage d’un convnet. Pour compenser cela nous densifions la base d’origine d’un facteur mille et utilisons l’apprentissage par transfert pour faire converger notre régresseur convnet et avoir une bonne performance. Le régresseur permet également d’obtenir une localisation globale à partir d’une seule image et en temps réel.

Articles récents :

VEDECOM is very pleased to announce you the defense of the thesis of Li YU

VEDECOM is very pleased to announce you the defense of the thesis of Li YU entitled “Absolute localization by mono-camera for a vehicle in urban environment using Street View.” on Friday 6 april 2018 at Mines ParisTech School.

COMMITTEE
Patrick RIVES, INRIA Sophia Antipolis (Rapporteur)
Paul CHECCHIN, Institut Pascal Université Clermont Auvergne (Rapporteur)
Mme Samia BOUCHAFA, Université d’Évry-Val-d’Essonne (Examinateur)
Fabien MOUTARDE, MINES ParisTech (Directeur de thèse)
Cyril JOLY, MINES ParisTech (Examinateur)
Guillaume BRESSON, Institut VEDECOM (Examinateur)

In a work made at Centre de Robotique and Institut VEDECOM, we studied robust visual urban localization systems for self-driving cars. Obtaining an exact pose from a monocular camera is difficult and cannot be applied to the current autonomous cars. Rather than using approaches like Global Navigation Satellite Systems, Simultaneous Localization And Mapping, and data fusion techniques, we mainly focused on fully leveraging Geographical Information Systems (GIS) to achieve a low-cost, robust, accurate and global urban localization requiring no prior passage of an equipped vehicle and based on a single camera.

Our first task was to design a robotic accessible online database from a dense public GIS, namely Google Maps, which has the advantage to propose a worldwide coverage. We make a compact topometric representation for the dynamic urban environment by extracting four useful data from the GIS, including topologies, geo-coordinates, panoramic Street Views, and associated depth maps. We proposed two localization methods to exploit the GIS: one is a handcrafted features based computer vision approach, the other is a convolutional neural network (convnet) based learning technique.

In computer vision, extracting handcrafted features is a popular way to solve the image based positioning. We take advantage of the abundant sources from Google Maps and benefit from the topo-metric online data structure to build a coarse-to-fine positioning, namely a topological place recognition process and then a metric pose estimation by a graph optimization. The only input of this approach is an image sequence from a monocular camera and the database constructed from Google Maps. Moreover, it is not necessary to establish frame to frame correspondences, nor odometry estimates. The method is tested on an urban environment and demonstrates both sub-meter accuracy and robustness to viewpoint changes, illumination and occlusion. Sparse Street View locations produce a significant error in the metric pose estimation phase. Thus our former framework is refined by synthesizing more artificial Street Views to compensate the sparsity of original Street Views and improve the precision.

However, this method suffers from an important computational time. Since the GIS offers us a global scale geotagged database, it motivates us to regress global localizations from convnet features in an end-to-end manner. The previously constructed online database is still insufficient for a convnet training. We hereby augment the originally constructed database by a thousand factor and take advantage of the transfer learning method to make our convnet regressor converge and have a good performance. In our test, the regressor can also give a global localization of an input camera image in real time.

Articles récents :