Skip to content

El truco LiDAR del MIT ve a través de las esquinas

Investigadores del MIT acaban de convertir el LiDAR de tu smartphone en un superpoder, permitiéndole ver objetos ocultos detrás de las esquinas. Este avance, que antes requería una configuración de $50,000, ahora es posible con un sensor de menos de $100 y un ingenioso algoritmo de código abierto.

Hero image for: El truco LiDAR del MIT ve a través de las esquinas

Resumen / Puntos clave

Investigadores del MIT acaban de convertir el LiDAR de tu smartphone en un superpoder, permitiéndole ver objetos ocultos detrás de las esquinas. Este avance, que antes requería una configuración de $50,000, ahora es posible con un sensor de menos de $100 y un ingenioso algoritmo de código abierto.

El superpoder de $50,000 en tu bolsillo

Imagina un superpoder: la capacidad de ver objetos ocultos detrás de las esquinas. Este concepto, conocido como Non-Line-of-Sight (NLOS) imaging, implica detectar la luz que rebota indirectamente en objetos no vistos, se dispersa desde una superficie visible y luego regresa al sensor. Esta sofisticada técnica revela lo que se encuentra fuera de la vista directa, ofreciendo un vistazo a entornos oscurecidos.

Históricamente, lograr esta visión exigía una inversión formidable: una configuración de laboratorio especializada de $50,000. Estos sofisticados sistemas estaban confinados a instituciones de investigación, requiriendo láseres potentes y con precisión de picosegundos, y detectores altamente sensibles para capturar las señales increíblemente débiles y ruidosas de rebotes múltiples de objetivos ocultos.

Ahora, un avance del MIT MIT Media Lab rompe esa barrera. Los investigadores han demostrado esta misma visión "alrededor de la esquina" utilizando sensores LiDAR de consumo fácilmente disponibles, como los integrados en smartphones modernos y auriculares AR/VR, con un costo inferior a $100. Este cambio sísmico traslada una capacidad antes exclusiva de laboratorios especializados a potencialmente millones de dispositivos cotidianos.

Esta democratización radical promete transformar campos desde la robótica y los vehículos autónomos hasta la búsqueda y rescate. Al liberar su código como código abierto en el GitHub Project, el MIT ha hecho accesible esta tecnología de percepción avanzada, permitiendo una innovación generalizada sin el costo prohibitivo del hardware propietario.

Convirtiendo el ruido en super-visión

Investigadores del MIT desarrollaron el algoritmo Motion-Induced Aperture Sampling (MAS), la innovación central que permite al LiDAR de consumo realizar imágenes de no-línea-de-visión (NLOS). Este avance transforma lo que antes se consideraba ruido —el temblor natural de la mano de un smartphone o la vibración de un robot— en un activo crítico para la adquisición de datos.

MAS funciona capturando reflejos láser de rebotes múltiples increíblemente débiles. Cuando un pulso LiDAR golpea una pared, los fotones se dispersan, algunos golpean un objeto oculto detrás de una esquina antes de rebotar de nuevo en la pared y finalmente en el sensor. Mientras que un solo fotograma de un sensor de consumo produce solo datos caóticos, MAS aprovecha el movimiento inherente del dispositivo a través de múltiples fotogramas.

Este proceso funciona de manera similar a la burst photography, que apila numerosos fotogramas ruidosos para producir una fotografía clara con poca luz. Otro paralelo existe con el synthetic aperture radar, donde el movimiento se utiliza ingeniosamente para generar imágenes de alta resolución. El algoritmo modela meticulosamente la forma del objeto oculto, su movimiento y la posición precisa de la cámara a lo largo del tiempo.

Al imponer coherencia temporal a través de una secuencia de estos fotogramas muestreados por movimiento, el algoritmo MAS elimina eficazmente el ruido abrumador. Luego extrae la señal débil y subyacente, permitiendo que el sistema reconstruya las formas 3D de objetos estáticos completamente ocultos y rastree múltiples objetivos en movimiento, a pesar de usar un sensor con aproximadamente 100 píxeles. El MIT MIT Media Lab ya ha liberado el código como código abierto en un GitHub Project.

Resultados asombrosos de un sensor de 100 píxeles

Los resultados del modesto sensor LiDAR de consumo de 100 píxeles son asombrosos. El MAS algorithm transforma hábilmente los retornos de fotones ruidosos y de rebote múltiple en inteligencia procesable, reconstruyendo con precisión formas 3D de objetos estáticos completamente ocultos. Esta capacidad era anteriormente exclusiva de costosas configuraciones de laboratorio.

Más allá de la reconstrucción estática, el sistema destaca en el seguimiento dinámico. Rastrea con precisión múltiples objetivos en movimiento fuera de la vista, procesando cambios complejos de escena en tiempo real a una fluida velocidad de 30 frames per second. Este rendimiento en tiempo real abre puertas para aplicaciones críticas en robótica y sistemas autónomos donde los obstáculos o objetivos no vistos plantean desafíos significativos.

Fundamentalmente, el sistema también realiza la auto-localización de la cámara en tiempo real. Utiliza puntos de referencia ocultos para calcular la posición espacial exacta de la propia cámara a lo largo del tiempo, una función vital para la navegación en entornos donde el GPS o la odometría visual directa no están disponibles. Investigadores del MIT MIT Media Lab han hecho que esta tecnología transformadora sea ampliamente accesible.

Han liberado el código, publicando el GitHub Project `sidsoma/consumer-nlos`. Este movimiento estratégico permite a los desarrolladores de todo el mundo aprovechar el LiDAR de grado de consumo para la imagen avanzada sin línea de visión, acelerando la integración en áreas como AR/VR, vehículos autónomos y mapeo ambiental sofisticado.

El Futuro Ya No Está Oculto

Las implicaciones del avance de LiDAR de consumo del MIT se extienden mucho más allá del laboratorio. Los vehículos autónomos pueden obtener capacidades inmediatas que salvan vidas, detectando peatones u otros vehículos en intersecciones ciegas antes de que sean visibles. Esta capacidad de rastrear múltiples objetivos en movimiento fuera de la vista redefine fundamentalmente la conciencia situacional para los sistemas de conducción autónoma.

La robótica verá un potencial transformador, permitiendo a las máquinas navegar por almacenes complejos y desordenados "viendo" alrededor de los obstáculos y utilizando puntos de referencia ocultos para la auto-localización en tiempo real. Para AR/VR, la tecnología promete un seguimiento corporal y una conciencia espacial significativamente más precisos, rastreando objetivos en movimiento como las manos a 30 frames per second para crear entornos virtuales verdaderamente inmersivos y receptivos.

Más allá de las aplicaciones comerciales, la tecnología ofrece profundos beneficios humanitarios. Las misiones de búsqueda y rescate podrían mejorar drásticamente, permitiendo a los socorristas localizar a personas atrapadas en edificios derrumbados u otras estructuras complejas sin línea de visión directa. Esto podría ahorrar tiempo crítico en emergencias.

En última instancia, el código de código abierto, disponible en el GitHub Project, democratiza esta potente capacidad de imagen. Inspira una nueva generación de sensores diseñados no solo para la luz visible, sino para comprender y mapear escenas ocultas, marcando el comienzo de una era en la que nuestros dispositivos perciben el mundo con una profundidad de conciencia sin precedentes.

Preguntas Frecuentes

¿Qué es la imagen sin línea de visión (NLOS)?

La imagen NLOS es una tecnología que permite la reconstrucción de objetos que están completamente ocultos de una línea de visión directa, permitiendo esencialmente a los sistemas 'ver' alrededor de las esquinas.

¿Cómo funciona el nuevo método del MIT para ver alrededor de las esquinas?

Utiliza un algoritmo llamado Motion-Induced Aperture Sampling (MAS) para procesar señales de luz débiles y de rebote múltiple capturadas por un sensor LiDAR de consumo. El algoritmo utiliza el movimiento natural del dispositivo para unir datos ruidosos de múltiples fotogramas en una clara reconstrucción 3D de escenas ocultas.

¿Qué dispositivos pueden usar esta tecnología?

La tecnología está diseñada para sensores LiDAR de grado de consumo, que ya se encuentran en dispositivos como la serie Apple iPhone Pro, el Apple Vision Pro y varios robots domésticos.

¿Cuáles son las principales aplicaciones de esta tecnología?

Las aplicaciones clave incluyen mejorar la seguridad de los vehículos autónomos al detectar peligros en intersecciones ciegas, mejorar la navegación para robots en entornos complejos y permitir un seguimiento más inmersivo en sistemas AR/VR.

¿Está el código de esta tecnología disponible al público?

Sí, los investigadores del MIT han liberado su código como código abierto. Está disponible en GitHub bajo el nombre del proyecto 'consumer-nlos' para que desarrolladores e investigadores lo utilicen y desarrollen a partir de él.

One weekly email of tools worth shipping. No drip funnel.

one email per week · unsubscribe in two clicks · no third-party tracking

🚀Descubre más

Mantente a la vanguardia de la IA

Descubre las mejores herramientas de IA, agentes y servidores MCP seleccionados por Stork.AI.

P.S. ¿Construiste algo que vale la pena usar? Publícalo en Stork

Volver a todas las publicaciones