Nytt ramverk gör det möjligt för robotar att lära sig via online-demonstrationsvideor från människor

21 Juli 2024 2391

19 juli 2024 funktion

Den här artikeln har granskats enligt Science X:s redaktionella process och policys. Redaktörerna har framhävt följande egenskaper samtidigt som de säkerställt innehållets trovärdighet:

faktagranskad
preprint
pålitlig källa
korrekturläst

av Ingrid Fadelli, Tech Xplore

För att framgångsrikt kunna implementeras i verkliga miljöer bör robotar kunna pålitligt slutföra olika vardagliga uppgifter, från hushållssysslor till industriella processer. Några av uppgifterna de skulle kunna utföra innebär att manipulera tyger, till exempel när de viker kläder för att lägga dem i en garderob eller hjälper äldre vuxna med rörelsebegränsningar att knyta sina slipsar inför en social tillställning.

Att utveckla robotar som effektivt kan hantera dessa uppgifter har hittills varit ganska utmanande. Många föreslagna metoder för att träna robotar på att manipulera tyger förlitar sig på imiterat lärande, en teknik för att träna robotkontroll med hjälp av videor, rörelsefångstfilmer och annan data av människor som slutför uppgifter av intresse.

Även om vissa av dessa tekniker har uppnått lovande resultat kräver de vanligtvis stora mängder mänsklig demonstrationsdata för att prestera bra. Denna data kan vara dyr och svår att samla in, medan befintliga öppna dataset inte alltid innehåller lika mycket data som de för att träna andra beräkningsmetoder, såsom datorseende eller generativa AI-modeller.

Forskare vid National University of Singapore, Shanghai Jiao Tong University och Nanjing University introducerade nyligen en alternativ metod som skulle kunna förbättra och förenkla träningen av robotalgoritmer genom mänskliga demonstrationer. Denna metod, presenterad i en artikel som förpublicerats på arXiv, är avsedd att dra nytta av de många videor som publiceras online varje dag, och använda dem som mänskliga demonstrationer av vardagliga uppgifter.

"Det här arbetet börjar med en enkel idé, att bygga ett system som låter robotar använda de otaliga mänskliga demonstrationsvideorna online för att lära sig komplexa manipulationsfärdigheter," berättade Weikun Peng, medförfattare till artikeln, för Tech Xplore. "Med andra ord ville vi att roboten skulle slutföra samma uppgift som visas i videon baserat på en godtycklig mänsklig demonstrationsvideo."

Även om tidigare studier också har introducerat imiterat lärande genom att dra nytta av videomaterial, använde de domänspecifika videor (dvs videor av människor som slutför specifika uppgifter i samma miljö där roboten senare skulle ta itu med uppgiften), jämfört med godtyckiga videor insamlade i vilken miljö som helst.

Ramverket som utvecklats av Peng och hans kollegor är däremot utformat för att möjliggöra robotimiterat lärande från godtyckliga demonstrationsvideor som finns online.

Gruppens metod har tre huvudkomponenter, kallade Real2Sim, Learn@Sim och Sim2Real. Den första av dessa komponenter är den centrala och viktigaste delen av ramverket.

"Real2Sim spårar objektets rörelse i demonstrationsvideon och replikerar samma rörelse på en maskmodell i en simulering," förklarade Peng. "Med andra ord försöker vi replikera människans demonstration i simuleringen. Slutligen får vi en sekvens av objektmeshar, som representerar det sanna objektets bana."

Forskarnas metod använder meshar (dvs noggranna digitala representationer av ett objekts geometri, form och dynamik) som mellanrepresentationer. Efter att Real2Sim-komponenten har replikerat en mänsklig demonstration i en simulerad miljö lär sig ramverkets andra komponent, Learn@Sim, greppa punkter och placera punkter som skulle möjliggöra för en robot att utföra samma åtgärder via förstärkningsinlärning.

"Efter att ha lärt sig greppapunkter och placeringspunkter i simuleringen, implementerade vi policyn i en verklig tvåarmad robot, vilket är det tredje steget i vår pipeline (dvs Sim2Real)," sa Peng. "Vi tränade en restriktiv policy för att mildra klyftan mellan simulering och verklighet."

Forskarna utvärderade sin föreslagna metod i en serie tester, där de specifikt fokuserade på att knyta en slips. Medan denna uppgift kan vara extremt svår för robotar, gjorde gruppens metod att en robotmanipulator framgångsrikt kunde slutföra den.

"Många tidigare arbeten kräver att demonstrationsvideorna ska vara "i domän", vilket innebär att inställningen för demonstrationsvideorna ska vara samma som inställningen för robotens verkställningsmiljö," sa Peng. "Vår metod kan däremot lära sig från "utanför domänen" demonstrationsvideor eftersom vi extraherade objektets rörelse i 3D-utrymmet från demonstrationsvideon."

Föregå

Nanodevice använder ljud för att skulptera ljus, vilket banar väg för bättre skärmar och avbildning....

NÄSTA

Studie avslöjar universell färgkurva för rostning av arabica kaffe...