Gripper învață ... prin încercare și eroare

Dec 26, 2019

Inspirat de mâna umană, LearningGripper are patru degete. Cu ajutorul software-ului de învățare automată, acest dispozitiv de prindere poate stăpâni o acțiune complexă precum ridicarea și orientarea unui articol. Pozițiile de bază ale degetelor și funcția de feedback din mediu trebuie definite în prealabil; dispozitivul de prindere învață toate celelalte secvențe de mișcare prin încercare și eroare.

Sarcina LearningGripper, după cum este ilustrat, a fost să întoarcă mingea până când logo-ul este în vârf. La început, dispozitivul de prindere a mișcat mingea la întâmplare. Un senzor de poziție din minge a oferit feedback despre cât de departe era logo-ul din „palma” dispozitivului de învățare. LearningGripper a primit o recompensă bazată pe un sistem de puncte; punctele sunt procesate în software-ul de învățare automată. De-a lungul timpului, software-ul a dezvoltat o strategie de mișcare, iar dispozitivul de prindere a învățat ce acțiuni trebuie să facă într-un anumit moment. Își schimbă mișcările pentru a primi cât mai mult feedback pozitiv și găsește în sfârșit o soluție fiabilă pentru sarcina sa. Dacă strategia unui gripper este transferată la altul, al doilea gripper îl folosește ca bază de cunoștințe pentru a învăța mai eficient propria strategie.

LearningGripper demonstrează modul în care sistemele în viitor vor putea rezolva sarcini complexe în mod autonom, fără o programare complexă. Sistemele de auto-învățare, cum ar fi LearningGripper, ar putea fi instalate pe o linie de producție și apoi permis să își optimizeze comportamentul independent