Nuevo marco permite a los robots aprender a través de videos de demostración humana en línea
19 de julio de 2024
Este artículo ha sido revisado de acuerdo con el proceso editorial y las políticas de Science X. Los editores han destacado los siguientes atributos asegurando la credibilidad del contenido:
- verificado por hechos
- prepublicación
- fuente confiable
- corregido de pruebas
por Ingrid Fadelli, Tech Xplore
Para ser desplegados con éxito en entornos del mundo real, los robots deben ser capaces de completar de manera confiable diversas tareas cotidianas, desde tareas domésticas hasta procesos industriales. Algunas de las tareas que podrían completar incluyen la manipulación de telas, por ejemplo al doblar la ropa para guardarla en un armario o ayudar a adultos mayores con impedimentos de movilidad a anudar sus corbatas antes de un evento social.
El desarrollo de robots que puedan abordar eficazmente estas tareas hasta ahora ha resultado bastante desafiante. Muchos enfoques propuestos para entrenar robots en tareas de manipulación de telas se basan en el aprendizaje por imitación, una técnica para entrenar el control de robots utilizando videos, imágenes de captura de movimiento y otros datos de humanos completando las tareas de interés.
Aunque algunos de estos enfoques han logrado resultados alentadores, para desempeñarse bien suelen requerir cantidades sustanciales de datos de demostración humanos. Estos datos pueden ser costosos y difíciles de recolectar, mientras que los conjuntos de datos de código abierto existentes no siempre contienen la misma cantidad de información que los necesarios para entrenar otras técnicas computacionales, como modelos de visión por computadora o inteligencia artificial generativa.
Investigadores de la Universidad Nacional de Singapur, la Universidad Jiao Tong de Shanghai y la Universidad de Nanjing recientemente introdujeron un enfoque alternativo que podría mejorar y simplificar el entrenamiento de algoritmos de robótica a través de demostraciones humanas. Este enfoque, detallado en un artículo prepublicado en arXiv, está diseñado para aprovechar algunos de los muchos videos publicados en línea a diario, utilizándolos como demostraciones humanas de tareas cotidianas.
'Este trabajo parte de una idea simple, la de construir un sistema que permita a los robots utilizar los innumerables videos de demostración humanos en línea para aprender habilidades de manipulación complejas,' dijo Weikun Peng, coautor del artículo, a Tech Xplore. 'En otras palabras, dada un video de demostración humana arbitrario, queríamos que el robot completara la misma tarea mostrada en el video.'
Aunque estudios anteriores también introdujeron técnicas de aprendizaje por imitación que aprovechaban grabaciones de video, utilizaron videos específicos del dominio (es decir, videos de humanos completando tareas específicas en el mismo entorno en el que el robot luego abordaría la tarea), en lugar de videos arbitrarios recopilados en cualquier entorno o configuración.
El marco desarrollado por Peng y sus colegas, por otro lado, está diseñado para permitir el aprendizaje por imitación de robots a partir de videos de demostración arbitrarios encontrados en línea.
El enfoque del equipo tiene tres componentes principales, denominados Real2Sim, Learn@Sim y Sim2Real. El primero de estos componentes es el parte central y más importante del marco.
'Real2Sim sigue el movimiento del objeto en el video de demostración y replica el mismo movimiento en un modelo de malla en una simulación,' explicó Peng. 'En otras palabras, intentamos replicar la demostración humana en la simulación. Finalmente, obtenemos una secuencia de mallas de objetos, que representan la trayectoria real del objeto.'
El enfoque de los investigadores utiliza mallas (es decir, representaciones digitales precisas de la geometría, forma y dinámica de un objeto) como representaciones intermedias. Después de que el componente Real2Sim replica una demostración humana en un entorno simulado, el segundo componente del marco, denominado Learn@Sim, aprende los puntos de agarre y los puntos de colocación que permitirían a un robot realizar las mismas acciones a través del aprendizaje por refuerzo.
'Después de aprender los puntos de agarre y los puntos de colocación en la simulación, implementamos la política en un robot real de doble brazo, que es el tercer paso de nuestro proceso (es decir, Sim2Real),' dijo Peng. 'Entrenamos una política residual para mitigar la brecha Sim2Real.'
Los investigadores evaluaron su enfoque propuesto en una serie de pruebas, enfocándose específicamente en la tarea de anudar una corbata. Aunque esta tarea puede ser extremadamente difícil para los robots, el enfoque del equipo permitió que un manipulador robótico la completara exitosamente.
'Es importante destacar que muchos trabajos anteriores requieren videos de demostración 'en dominio', lo que significa que el entorno de los videos de demostración debe ser el mismo que el entorno de ejecución del robot,' dijo Peng. 'Por otro lado, nuestro método puede aprender de videos de demostración 'fuera de dominio', ya que extraemos el movimiento del objeto en el espacio 3D del video de demostración.'