Universidad, Ciencia y Tecnología
versión impresa ISSN 1316-4821versión On-line ISSN 2542-3401
uct v.11 n.43 Puerto Ordaz jul. 2007
Posicionamiento de robots basado en visión
Marcano Gamero, Cosme Rafael
El Msc. Cosme Rafael Marcano Gamero es Profesor Agregado a Dedicación Exclusiva en el Dpto. de Ingeniería Electrónica de la Universidad Nacional Experimental Politécnica Antonio José de Sucre, Vicerrectorado Puerto Ordaz, Venezuela correo electrónico cosmemarcano@yahoo.com.
Resumen:
Se ha hecho una revisión somera de algunos métodos de localización de robots basados en la visión computarizada. Estos métodos incluyen:
a. uso de marcas de referencias fijadas a tierra
b. modelos de objetos
c. mapas
d. construcción de mapas basado en las características observadas.
Todos estos métodos están en experimentación. Se han hecho significativos avances en la fusión de varias de estas técnicas como aquellos basados en la odometría, en conjunto con técnicas de construcción de mapas basadas en la captura de imágenes del entorno y de los objetos a través de cámaras.
Un área importante de investigación lo constituye indudablemente el despliegue predictivo y la manipulación de imágenes en 3D. Por otro lado, el campo de la medicina ofrece un muy vasto campo para el desarrollo de aplicaciones de asistentes robóticas, que permitan realizar acciones rutinarias con un mínimo de error, así como la realización precisa de perforaciones en hueso para el implante seguro y preciso de prótesis de diversa naturaleza. El uso de cámaras de visión es indispensable para la exploración de áreas del cuerpo humano de difícil acceso. La laparoscopia es susceptible de ser efectuada de manera muy confiable y segura a través del uso de brazos robóticos, que minimizan el error humano.
Por último, se destaca la necesidad de fusionar la data proveniente desde varios sensores a los fines de lograr los objetivos previstos.
I. INTRODUCCIÓN:
El presente trabajo consiste en una revisión general del estado del arte de las técnicas de posicionamiento de robots basado en la visión, lo cual consiste en darle herramientas a los robots para que puedan determinar su posición y orientación (a veces llamado, pose o postura) dentro de su entorno a través del uso de sensores ópticos en contraste con otras técnicas que utilizan, entre otros dispositivos, láseres, luz infrarroja, o técnicas de odometría (dead-reckoning) para el mismo propósito.
El desarrollo de cámaras cada vez más pequeñas y más capaces, ha determinado un avance significativo en la evolución de estas técnicas de navegación basadas en visión y han conducido a darle a los robots cada vez más autonomía y capacidad de decisión a la hora de seleccionar la trayectoria a seguir, evitando el uso de técnicas de generación de inmensos árboles de búsqueda propios de otras técnicas de navegación. Éstas basadas en mapas tienen un recorrido costoso en tiempo, no solo para seguir una trayectoria ya conocida sino para actualizar esas trayectorias con nuevos obstáculos que pudieran aparecer en el camino del robot. Por otra parte, se revisan someramente algunos problemas particulares de la implementación de sistemas de navegación basados en visión, como es la calibración de las cámaras, para lo cual se hará especial mención del algoritmo de Tsai [1]. Por último, se comentará brevemente sobre la conveniencia o no del uso de visión estérea, que ha sido estudiada por investigadores como Bejczy et al. [2], quienes han determinado su necesidad para el despliegue predictivo y las tareas de posicionamiento de un robot en un espacio tridimensional, en general.
II. DESARROLLO
1. Localización y Modelo de la Cámara.
Las componentes básicas del proceso de localización son:
a. La representación del entorno,
b. el modelo del sensor, y
c. el algoritmo de localización
El modelo geométrico que describe la cámara fotométrica a ser utilizada es de suma importancia para encontrar su posición y orientación más adecuada de sobre el robot. El más común de estos modelos es el de varilla-orificio (pin-hole model), con proyección en perspectiva, como se muestra en la Figura 1. Como se puede apreciar, la característica en 3D del objeto que se quiere ver con la cámara es proyectada sobre un plano XY, centrado en el eje Z de la cámara. Aunque toda la información del punto observado colapsa en un punto sobre un plano 2D, el ángulo de orientación de ese punto puede ser calculado si se conoce la distancia focal, f, y no hay distorsión en la lente.
Las cámaras poseen cinco parámetros internos, denominados intrínsecos, a saber:
Estos parámetros son usados para determinar el tamaño del plano de la imagen.Por otra parte, la orientación y la posición del objeto se determinan a partir de 6 parámetros externos, denominados extrínsecos, a saber:
Estos once parámetros son utilizados por el algoritmo de Tsai [1] para la calibración de la cámara. Este algoritmo permite dos tipos de calibración: coplanar (todos los puntos de calibración caen en el mismo plano) y no-coplanar (los puntos de calibración no están en el mismo plano). Además, permite una optimización no lineal basada en el método de Levenberg-Marquardt con un jacobiano calculado por una aproximación de diferencias adelantadas (forward differences). La necesidad de lidiar con procedimientos no lineales deviene del hecho de que la formulación del problema es no lineal, debido al manejo de proyecciones en perspectiva del modelo varilla-hueco de la cámara.
El algoritmo de Tsai constituye una técnica altamente eficiente y precisa para la calibración de dispositivos de visión con máquinas en 3D, usando cámaras de TV y lentes en aplicaciones de metrología [1].
La extensión del uso de estas técnicas de calibración de cámaras fotométricas a la navegación de robots basada en visión es inmediata. De hecho, un robot no podría evitar obstáculos si su equipo de visión no es capaz de calcular con precisión la distancia a la cual se encuentran tales obstáculos. Por otra parte, si el robot utiliza visión estérea, también requiere una buena calibración para estimar correctamente la oposición en el espacio del objeto a manipular. En el caso particular de aplicaciones de robots en el espacio exterior, en donde los retardos en comunicación son considerablemente grandes, se está trabajando en técnicas de despliegue predictivo (ver Bejczy et al. [2]), que consiste en que un sistema de visión controlado por algoritmos de manipulación de imágenes tridimensionales anticipen o predigan la trayectoria del brazo robótico y ofrezca al operador a distancia una excelente aproximación en tiempo real de las acciones ejercidas por dicho brazo, aun antes de que la imagen real haya retornado a la estación de comando en la Tierra. La información real es luego utilizada para actualizar y corregir posibles errores.
2. Localización usando marcas fijadas a tierra.
El problema de la localización depende de la ubicación de la cámara en el robot móvil, por lo que es necesario obtener la orientación e inclinación más apropiada para que el robot tome la imagen del entorno y compare ésta con imágenes sensadas con anterioridad, hasta encontrar una concordancia y el robot pueda establecer su posición dentro del entorno.
2.1. Localización usando una sola cámara
Existen varias técnicas de localización. Aquí se revisará someramente una basada en puntos de referencia fijados a tierra (Landmarks).
Si la cámara es montada en el robot con su eje óptico paralelo al piso y las aristas verticales del entorno hacen de marcas de referencia, entonces el problema de la localización se torna de dos dimensiones. En este caso, las aristas verticales proveen características del punto y el posicionamiento bidimensional requiere de la identificación de tres únicos puntos. Si la característica es unívocamente identificable y la posición es conocida, entonces la posición del modelo varilla-hueco de la cámara puede ser unívocamente determinada, como se ilustra en la Figura2. Sin embargo, estas condiciones no son siempre posibles. Además, se requiere de un alto contraste para poder determinar unívocamente puntos específicos o líneas verticales. Las patas de una mesa son difíciles de discernir, sobre todo cuando se consideran factores de ruido.
2.2. Localización bidimensional usando cámaras estéreo.
En 1993, Hager y Atiya desarrollaron un método que usa un par de cámaras para determinar la correspondencia entre la marca de referencia y un mapa precargado y para estimar la localización bidimensional de la cámara dentro de la imagen capturada a partir de la correspondencia hallada. Las marcas de referencia se derivan de aristas verticales, por lo que, usando dos cámaras, el algoritmo puede determinar la localización en dos dimensiones del punto observado., en contraste con los ángulos de los rayos usado por esquemas de una sola cámara.
3. Enfoques basados en modelos.
Una información apriorística más completa respecto de un entorno dado se puede dar con más facilidad que modelos bi- y tridimensionales de la estructura de dicho entorno o a través de Mapas Digitales de Elevación (MDE). El modelo geométrico incluye modelos tridimensionales de edificios, estructuras puertas adentro y mapas de piso. Para la localización, las observaciones visuales deben capturar las características del ambiente que puedan ser comparadas con los modelos precargados con un mínimo de incertidumbre. El problema sigue siendo, primero, la identificación de objetos y, segundo, la estimación de su postura a partir de objetos identificados.
4. Otros Enfoques.
Otros enfoques utilizados en la localización y posicionamiento de robots en cierto entorno incluyen el uso dispositivos, así llamados, info-geométricos (IG), emiten haces de RF (Radio Frecuencia) de baja potencia, acomodados en diversos esquemas de direccionamiento y orientación.
En esta área se destacan los dispositivos desarrollados por Harris Technology, Inc., que utilizan triangularización de tres haces de RF, emitidas desde lugares ubicados muy precisamente en tierra y cuyos relojes de alta precisión están perfectamente sincronizados entre sí, con el fin de lograr una máxima precisión en la determinación de un punto en particular dentro de entornos de 500 m [5]. y más, usando una potencia de transmisión de apenas unos 100 mW. Para mejorar la precisión de estos dispositivos IG, HTI incorporó la tecnología CDMA (Digital Code-Division- Multiple-Access, código de división de múltiple acceso digital), utilizado ampliamente en telefonía celular para la localización de las células retransmisoras por parte de los teléfonos.
Aunque estos enfoques son tratados como sistemas que emiten haces en RF (Radio Frecuencia) desde locaciones basadas en tierra [5], se comentan aquí debido a la marcada tendencia hacia la fusión de la data proveniente de distintos sensores. Esta fusión es indispensable, en muchos casos. Por ejemplo: Robots aéreos de monitoreo de áreas de desastre, como las dejadas por erupciones volcánicas o explosiones nucleares, como Chernobyl, (en 101 las cuales no podrían operar seres humanos sin riesgo de perder su propia vida), requieren de un sistema de guía geográfico, para localizar primeramente la posición exacta del objetivo a monitorear y, luego, un sistema de visión fotométrico que permita capturar las imágenes y enviarlas en forma segura hasta los sitios de establecimiento de las comisiones de estudio, o incluso, de búsqueda y rescate.
III. REFERENCIAS
1. Roger Y. Tsai An Efficient and Accurate Camera Calibration Technique for 3D Machine Vision, Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Miami Beach, FL, 1986, pages 364-374. [ Links ]
2. Antal K. Bejczy, Won S. Kim, and Steven C. Venema The Phantom Robot: Predictive Displays for Teleoperation with Time Delay. Proceedings of the IEEE Intenational Conefrence en obotics and Automatrion, 13-18 Mai 1999, pp 546-551, Vol. 1. [ Links ]
3. Martínez, Jorge L. Apuntes y clases grabadas del curso de Robots Móviles. Programa de Doctorado de Ingeniería Mecatrónica. Málaga, España. 2007. pp 1-10. [ Links ]
4. García M-, Isabel. Control operacional de un robot para cirugía laparos- cópica. Tesis Doctoral, presentada ante la ilustre Universidad de Málaga, 2007. 155 pp. [ Links ]5. Borenstein J. et al., Where Am I. Michigan, University of Michigan, 1999. pp 207- 217.