En bref / Points clés
La superpuissance à 50 000 $ dans votre poche
Imaginez une superpuissance : la capacité de voir des objets cachés au-delà des coins. Ce concept, connu sous le nom d'imagerie Non-Line-of-Sight (NLOS), implique la détection de la lumière qui rebondit indirectement sur des objets invisibles, se diffuse à partir d'une surface visible, puis retourne au capteur. Cette technique sophistiquée révèle ce qui se trouve hors de vue directe, offrant un aperçu des environnements obscurcis.
Historiquement, la réalisation de cette vision exigeait un investissement formidable : une installation de laboratoire spécialisée de 50 000 $. Ces systèmes sophistiqués étaient confinés aux institutions de recherche, nécessitant des lasers puissants et précis à la picoseconde, ainsi que des détecteurs très sensibles pour capter les signaux multi-rebonds incroyablement faibles et bruyants provenant de cibles cachées.
Aujourd'hui, une avancée du MIT MIT Media Lab brise cette barrière. Des chercheurs ont démontré cette même vision « au-delà des coins » en utilisant des capteurs LiDAR grand public facilement disponibles, comme ceux intégrés dans les smartphones modernes et les casques AR/VR, coûtant moins de 100 $. Ce changement sismique déplace une capacité autrefois exclusive des laboratoires spécialisés vers potentiellement des millions d'appareils quotidiens.
Cette démocratisation radicale promet de transformer des domaines allant de la robotique et des véhicules autonomes à la recherche et au sauvetage. En rendant leur code open-source sur le GitHub Project, le MIT a rendu cette technologie de perception avancée accessible, permettant une innovation généralisée sans le coût prohibitif du matériel propriétaire.
Transformer le bruit en super-vision
Les chercheurs du MIT ont développé l'algorithme Motion-Induced Aperture Sampling (MAS), l'innovation centrale permettant au LiDAR grand public de réaliser l'imagerie non-line-of-sight (NLOS). Cette avancée transforme ce qui était autrefois considéré comme du bruit — le tremblement naturel de la main d'un smartphone ou la vibration d'un robot — en un atout essentiel pour l'acquisition de données.
Le MAS fonctionne en capturant des réflexions laser multi-rebonds incroyablement faibles. Lorsqu'une impulsion LiDAR frappe un mur, les photons se dispersent, certains frappant un objet caché au-delà d'un coin avant de rebondir sur le mur et finalement dans le capteur. Alors qu'une seule image d'un capteur grand public ne produit que des données chaotiques, le MAS exploite le mouvement inhérent de l'appareil sur plusieurs images.
Ce processus fonctionne de manière similaire à la photographie en rafale, qui empile de nombreuses images bruyantes pour produire une photographie claire en basse lumière. Un autre parallèle existe avec le radar à synthèse d'ouverture, où le mouvement est ingénieusement utilisé pour générer des images haute résolution. L'algorithme modélise méticuleusement la forme de l'objet caché, son mouvement et la position précise de la caméra au fil du temps.
En imposant une cohérence temporelle sur une séquence de ces images échantillonnées par le mouvement, l'algorithme MAS élimine efficacement le bruit écrasant. Il extrait ensuite le signal faible et sous-jacent, permettant au système de reconstruire les formes 3D d'objets statiques complètement cachés et de suivre plusieurs cibles en mouvement, malgré l'utilisation d'un capteur d'environ 100 pixels. Le MIT MIT Media Lab a déjà rendu le code open-source sur un GitHub Project.
Des résultats stupéfiants avec un capteur de 100 pixels
Les résultats du modeste capteur LiDAR grand public de 100 pixels sont tout simplement stupéfiants. L'algorithme MAS transforme avec habileté les retours de photons bruyants et à rebonds multiples en informations exploitables, reconstruisant avec précision les formes 3D d'objets statiques complètement cachés. Cette capacité était auparavant l'apanage des coûteuses installations de laboratoire.
Au-delà de la reconstruction statique, le système excelle dans le suivi dynamique. Il suit avec précision plusieurs cibles mobiles hors de vue, traitant les changements de scène complexes en temps réel à une cadence fluide de 30 images par seconde. Cette performance en temps réel ouvre des portes pour des applications critiques en robotique et dans les systèmes autonomes où les obstacles ou cibles invisibles posent des défis importants.
De manière cruciale, le système effectue également une auto-localisation de la caméra en temps réel. Il utilise des repères cachés pour calculer la position spatiale exacte de la caméra au fil du temps, une fonction vitale pour la navigation dans des environnements où le GPS ou l'odométrie visuelle directe ne sont pas disponibles. Des chercheurs du MIT MIT Media Lab ont rendu cette technologie transformative largement accessible.
Ils ont mis le code en open source, en publiant le projet GitHub `sidsoma/consumer-nlos`. Cette initiative stratégique permet aux développeurs du monde entier d'exploiter le LiDAR grand public pour l'imagerie avancée hors ligne de vue, accélérant son intégration dans des domaines tels que l'AR/VR, les véhicules autonomes et la cartographie environnementale sophistiquée.
L'avenir n'est plus caché
Les implications de la percée du LiDAR grand public du MIT s'étendent bien au-delà du laboratoire. Les véhicules autonomes sont sur le point d'acquérir des capacités immédiates et vitales, détectant les piétons ou d'autres véhicules aux intersections aveugles avant qu'ils ne deviennent visibles. Cette capacité à suivre plusieurs cibles mobiles hors de vue redéfinit fondamentalement la conscience situationnelle pour les systèmes de conduite autonome.
La robotique verra un potentiel transformateur, permettant aux machines de naviguer dans des entrepôts complexes et encombrés en « voyant » autour des obstacles et en utilisant des repères cachés pour l'auto-localisation en temps réel. Pour l'AR/VR, la technologie promet un suivi corporel et une conscience spatiale significativement plus précis, suivant les cibles mobiles comme les mains à 30 images par seconde pour créer des environnements virtuels véritablement immersifs et réactifs.
Au-delà des applications commerciales, la technologie offre de profonds avantages humanitaires. Les missions de recherche et de sauvetage pourraient s'améliorer considérablement, permettant aux premiers intervenants de localiser les personnes piégées dans des bâtiments effondrés ou d'autres structures complexes sans ligne de vue directe. Cela pourrait faire gagner un temps précieux en cas d'urgence.
En fin de compte, le code open source, disponible sur le GitHub Project, démocratise cette puissante capacité d'imagerie. Il inspire une nouvelle génération de capteurs conçus non seulement pour la lumière visible, mais pour comprendre et cartographier des scènes cachées, inaugurant une ère où nos appareils perçoivent le monde avec une profondeur de conscience sans précédent.
Foire aux questions
Qu'est-ce que l'imagerie hors ligne de vue (NLOS) ?
L'imagerie NLOS est une technologie qui permet la reconstruction d'objets complètement cachés d'une ligne de vue directe, permettant essentiellement aux systèmes de « voir » autour des coins.
Comment fonctionne la nouvelle méthode du MIT pour voir autour des coins ?
Elle utilise un algorithme appelé Motion-Induced Aperture Sampling (MAS) pour traiter les signaux lumineux faibles et à rebonds multiples capturés par un capteur LiDAR grand public. L'algorithme utilise le mouvement naturel de l'appareil pour assembler des données bruyantes provenant de plusieurs images en une reconstruction 3D claire de scènes cachées.
Quels appareils peuvent utiliser cette technologie ?
La technologie est conçue pour les capteurs LiDAR grand public, que l'on trouve déjà dans des appareils comme l'Apple iPhone Pro series, l'Apple Vision Pro et divers robots domestiques.
Quelles sont les principales applications de cette technologie ?
Les applications clés incluent l'amélioration de la sécurité des véhicules autonomes en détectant les dangers aux intersections aveugles, l'amélioration de la navigation pour les robots dans des environnements complexes, et la facilitation d'un suivi plus immersif dans les systèmes AR/VR.
Le code de cette technologie est-il accessible au public ?
Oui, les chercheurs du MIT ont mis leur code en open source. Il est disponible sur GitHub sous le nom de projet 'consumer-nlos' pour que les développeurs et les chercheurs puissent l'utiliser et le développer.