Il nuovo framework permette ai robot di imparare tramite video dimostrativi online di esseri umani

21 Luglio 2024 1646
Share Tweet

19 Luglio 2024

Questo articolo è stato revisionato secondo il processo editoriale e le politiche di Science X. Gli editori hanno evidenziato i seguenti attributi garantendo la credibilità dei contenuti:

  • verifica dei fatti
  • preprint
  • fonte affidabile
  • riletto

di Ingrid Fadelli, Tech Xplore

Per essere utilizzati con successo in contesti reali, i robot devono essere in grado di completare in modo affidabile varie attività quotidiane, che vanno dalle faccende domestiche ai processi industriali. Alcune delle attività che potrebbero completare comprendono la manipolazione di tessuti, ad esempio quando si piegano i vestiti per metterli nell'armadio o quando si aiutano adulti anziani con problemi di mobilità a fare il nodo della cravatta prima di un evento sociale.

Sviluppare robot in grado di affrontare efficacemente queste attività finora si è rivelato abbastanza impegnativo. Molti approcci proposti per addestrare i robot alle attività di manipolazione dei tessuti si basano sull'apprendimento per imitazione, una tecnica per addestrare il controllo dei robot utilizzando video, filmati di motion capture e altri dati di esseri umani che completano le attività di interesse.

Mentre alcune di queste tecniche hanno ottenuto risultati incoraggianti, per funzionare bene richiedono tipicamente quantità sostanziali di dati dimostrativi umani. Questi dati possono essere costosi e difficili da raccogliere, mentre i dataset open-source esistenti non contengono sempre tanti dati quanto quelli per l'addestramento di altre tecniche computazionali, come la visione artificiale o i modelli di intelligenza artificiale generativa.

Ricercatori dell'Università Nazionale di Singapore, dell'Università Jiao Tong di Shanghai e dell'Università di Nanchino hanno recentemente introdotto un approccio alternativo che potrebbe migliorare e semplificare l'addestramento degli algoritmi robotici tramite dimostrazioni umane. Questo approccio, descritto in un articolo prepubblicato su arXiv, è progettato per sfruttare alcuni dei molti video postati online ogni giorno, utilizzandoli come dimostrazioni umane di attività quotidiane.

'Questo lavoro inizia con una semplice idea, ovvero quella di costruire un sistema che consenta ai robot di utilizzare i numerosi video di dimostrazioni umane online per apprendere abilità di manipolazione complesse,' ha raccontato Weikun Peng, co-autore dell'articolo, a Tech Xplore. 'In altre parole, dati un video di dimostrazione umana arbitrario, volevamo che il robot completasse la stessa attività mostrata nel video.'

Anche studi precedenti avevano introdotto tecniche di apprendimento per imitazione che sfruttavano filmati video, ma utilizzavano video specifici del dominio (ossia, video di esseri umani che completano attività specifiche nello stesso ambiente in cui poi il robot avrebbe affrontato l'attività), piuttosto che video arbitrari raccolti in qualsiasi ambiente o contesto.

Il framework sviluppato da Peng e dai suoi colleghi, d'altro canto, è progettato per consentire all'apprendimento per imitazione del robot da video di dimostrazioni arbitrari trovati online.

L'approccio del team ha tre componenti principali, chiamate Real2Sim, Learn@Sim e Sim2Real. La prima di queste componenti è la parte centrale e più importante del framework.

'Real2Sim traccia il movimento dell'oggetto nel video di dimostrazione e replica lo stesso movimento su un modello mesh in una simulazione,' ha spiegato Peng. 'In altre parole, cerchiamo di replicare la dimostrazione umana nella simulazione. Alla fine otteniamo una sequenza di mesh di oggetti, che rappresentano la traiettoria reale dell'oggetto.'

L'approccio dei ricercatori utilizza mesh (ossia, rappresentazioni digitali accurate della geometria, della forma e della dinamica di un oggetto) come rappresentazioni intermedie. Dopo che il componente Real2Sim replica una dimostrazione umana in un ambiente simulato, la seconda componente del framework, chiamata Learn@Sim, apprende i punti di presa e di posizionamento che consentirebbero a un robot di eseguire le stesse azioni tramite apprendimento per rinforzo.

'Dopo aver appreso i punti di presa e di posizionamento nella simulazione, abbiamo implementato la policy su un vero robot a doppio braccio, che è il terzo step del nostro pipeline (ossia, Sim2Real)', ha detto Peng. 'Abbiamo addestrato una policy residua per ridurre il gap Sim2Real.'

I ricercatori hanno valutato il loro approccio proposto in una serie di test, concentrandosi specificamente sull'attività di fare il nodo della cravatta. Sebbene questa attività possa essere estremamente difficile per i robot, l'approccio del team ha permesso a un manipolatore robotico di completarla con successo.

'Noto che molti lavori precedenti richiedono video di dimostrazione 'nel dominio', il che significa che l'ambiente dei video di dimostrazione dovrebbe essere lo stesso dell'ambiente di esecuzione del robot,' ha detto Peng. 'Il nostro metodo, d'altra parte, può apprendere da video di dimostrazione 'fuori dal dominio' poiché estraiamo il movimento dell'oggetto nello spazio 3D dal video di dimostrazione.'

 


ARTICOLI CORRELATI