Cómo Visual SLAM crea cámaras que ven

5 min
Ilustración en 3D de un almacén, con cajas de cartón marrón apiladas en estantes a la izquierda y a la derecha. En el centro de la imagen, entre las estanterías, un robot plano amarillo y negro transporta una caja por el pasillo.

¿Cómo puede un robot ver cuándo está a punto de chocar con algo? Bueno, técnicamente no puede porque los robots no tienen ojos, qué tontería. Lo que sí tienen es la capacidad de calcular dónde se encuentran los objetos en el espacio mediante una combinación de tecnologías. Así que, aunque en realidad no sea la vista, está bastante cerca y, cuando lo piensas, también es increíble. Al fin y al cabo, sin ningún tipo de visión, incluso el robot más inteligente es inútil, ¿verdad?

Y es por eso que la robótica sigue siendo uno de los mayores desafíos tecnológicos en la actualidad. Requiere una combinación de muchas áreas de especialización diferentes, desde múltiples disciplinas de robótica, control, ingeniería mecánica y eléctrica, hasta habilidades en desarrollo de software, materiales y mecatrónica, entre otros. Cada elemento debe funcionar a la perfección dentro del conjunto para conseguir un buen equilibrio. La forma en que el robot se mueve, por ejemplo, viene determinada por los materiales utilizados para construirlo y por cómo funcionan juntos cada uno de estos componentes, cómo se han hecho para que se muevan y cómo se alimentan. Pero si quieres que un robot se mueva de forma independiente, ¿cómo puede hacerlo a menos que tenga una forma de «ver» hacia dónde va?

Por supuesto, las tecnologías ópticas y de imagen son lo que mejor sabemos hacer, por lo que no es de extrañar que Canon haya estado trabajando en esta área concreta de la robótica durante bastante tiempo. Más de treinta años, de hecho. Hoy en día, se llama Visual SLAM, lo que es irónico si se tiene en cuenta que lo que la tecnología evita es «golpear» cualquier cosa. SLAM o «Simultaneous Localisation and Mapping» (localización y mapeo simultáneos), que es menos pegadizo pero más preciso, es una tecnología que calcula simultáneamente la posición y la estructura del entorno circundante de un robot. El sistema Visual SLAM original se creó para combinar mundos reales y virtuales en una pantalla de montaje en la cabeza, que ahora conocemos como realidad mixta. En la actualidad, Visual SLAM podría utilizarse en todo tipo de tareas automatizadas en sectores como la fabricación, la hostelería, la sanidad y la construcción.

Habitación de hospital con una cama médica. Junto a la cama hay un portasueros. En el otro lado, un armario de plástico azul con un cajón y un teléfono encima. A la izquierda de la cama, la luz brilla a través de una ventana de suelo a techo.

«Visual SLAM podría utilizarse en instalaciones médicas para servir alimentos y medicamentos, donde los pacientes de alto riesgo requieren el mínimo contacto posible para mantenerlos seguros».

¿Cómo funciona Visual SLAM?

Los robots móviles, como los AGV (vehículos de guiado automático) y los AMR (robots móviles autónomos), ya son un elemento familiar en los almacenes y centros de operaciones logísticas y, a menudo, se guían mediante una pista de cintas magnéticas fijadas al suelo. Efectivamente, se trata de una instalación cara, que lleva su tiempo y, lo que es más importante, es poco flexible. Si los AGV y los AMR solo pueden seguir una ruta fija, ¿qué pasa cuando es necesario modificarla? ¿Y si una empresa necesita poder cambiar las operaciones rápidamente? Por lo tanto, un enfoque más «libre» es lo deseable en un mundo en el que, afrontémoslo, las cosas cambian.

La respuesta es utilizar uno de los dos tipos de SLAM. El primero es LiDAR, que significa en inglés «Light Detection and Ranging» (detección y localización de luz). Esta tecnología utiliza pulsos de láser para medir distancias y la forma de las estructuras circundantes. Si bien los sistemas LiDAR son excelentes porque pueden trabajar en áreas poco iluminadas, generalmente usan sensores que solo realizan escaneos horizontales, lo que limita inmediatamente la información que un robot puede obtener en superficies bidimensionales. Esto no significa que el escaneo tridimensional sea imposible, sino que simplemente es muy caro. El otro problema con LiDAR es que si no hay suficientes elementos para que el robot «vea», hay que instalar los objetos 3D alrededor de su ruta.

En lugar de los láseres, Visual SLAM de Canon utiliza cámaras como sensores, que es más barato que LiDAR, pero sigue ofreciendo mediciones de alta precisión. Una combinación de imágenes de vídeo y una técnica de análisis patentada identifica las formas tridimensionales de las estructuras y, juntas, crea la parte de «localización» del nombre de SLAM. Sorprendentemente, esto se extiende incluso a objetos con superficies planas, como carteles en paredes, por lo que no es necesario instalar ningún objeto tridimensional adicional, como con LiDAR. Esto también significa que se puede utilizar en muchos más lugares y situaciones y, como también se puede utilizar para el reconocimiento de imágenes, existen otras formas de usar Visual SLAM, como drones o robots de servicio.

Canon lleva bastante tiempo trabajando en esta área concreta de la robótica. De hecho, más de treinta años».

¿Cómo entiende el cambio?

Debido a que el espacio en el que operan los AGV y los AMR es muy cambiante, Visual SLAM debe saber adaptarse a estos cambios de manera inteligente. Las imágenes obtenidas por las cámaras estéreo a izquierda y derecha se procesan continuamente mediante el software de navegación basado en la visión para AGV de Canon, que convierte las imágenes en mapas 3D en tiempo real y las actualiza automáticamente. Se trata de una gran cantidad de información de precisión diseñada para procesarse en tiempo real, incluso en un ordenador de gama baja. La captación y el procesamiento constante de imágenes significa básicamente que los robots que utilizan Visual SLAM pueden «navegar» por sí mismos.

Por eso esta tecnología es perfecta para robots en todo tipo de espacios, especialmente aquellos en los que las personas pueden estar expuestas a un peligro. Por ejemplo, para transportar materiales peligrosos en plantas químicas o en cualquier lugar en el que se requiera mover productos sin tocarlos para preservar la seguridad de las personas. Incluso se habla de que los robots que utilizan Visual SLAM podrían utilizarse en instalaciones médicas para servir alimentos y medicamentos, donde los pacientes de alto riesgo requieren el mínimo contacto posible para mantenerlos seguros mientras se someten a tratamiento. Estos entornos son dinámicos y rápidos, por lo que la capacidad de un robot para aprender mientras trabaja es esencial.

Al igual que con todas las tecnologías interdisciplinarias, a medida que un elemento progresa, se abren nuevas oportunidades para otros y, por tanto, podemos esperar lo mismo con la visión robótica. Al fin y al cabo, nuestras técnicas ópticas, de sensores y de procesamiento de imágenes se han perfeccionado gracias al desarrollo de nuestras cámaras y objetivos. La creación de «ojos» robóticos que sean asequibles y accesibles para todos los sectores es solo un paso más hacia el tipo de soluciones automatizadas que hacen que la vida cotidiana sea más segura, cómoda y práctica para todos nosotros.

Descubre más información sobre la tecnología Visual SLAM de Canon en el sitio web global de Canon.

Relacionado