Roboți cu minte și brațe: cum duetul Gemini al DeepMind schimbă regulile automatizării

Tip de citire: 3 minute

În era inteligenței artificiale, DeepMind – divizia Google pentru cercetare AI – a ridicat ștacheta în domeniul roboticii printr-o arhitectură în două faze care separă planificarea de execuție. În loc să contăm pe un singur sistem ce încearcă să facă totul, compania britanică propune doi ”colegi” virtuali care colaborează: unul se ocupă de strategia de ansamblu, iar celălalt pune în mișcare brațele robotului. Această abordare promite roboți mai flexibili, capabili să se adapteze rapid la reguli locale sau la informații în timp real.

Gemini Robotics-ER 1.5 funcționează ca un conductor: are acces atât la viziunea video, cât și la limbaj, poate înțelege o scenă complexă și construiește un plan pas cu pas. Când unele date îi lipsesc – de exemplu, standardele de reciclare dintr-o anumită municipalitate sau prognoza meteo pentru o destinație – ER poate interoga internetul, extrage detaliile relevante și integra răspunsurile într-un traseu logic spre îndeplinirea sarcinii.

Odată ce schema generală e conturată, intră în scenă Gemini Robotics 1.5 – un sistem viziune-limbaj-acțiune (VLA). Acesta primește instrucțiunile de la „strateg”, interpretează limbajul natural și folosește camerele de pe robot pentru a decide cum să miște fiecare componentă mecanică: braț, prindere, rotițe sau picioare. Astfel, planul abstract prinde viață în gesturi precise care manipulează obiecte din medii reale.

În demonstrații practice, DeepMind a arătat cum un robot poate sorta deșeurile menajere, compostul și materialele reciclabile respectând regulile unui oraș ca San Francisco. Mai întâi, Gemini ER descărcă normele municipale, clasifică tipurile de deșeuri și generează pașii: inspectare, identificare, validare și depozitare. Apoi, componenta VLA execută mișcările, apucând obiectele și așezându-le în recipientele potrivite, chiar dacă iluminarea sau poziția containerelor se schimbă.

Un alt exemplu convingător a fost pregătirea unui bagaj pentru o călătorie la Londra. Modelul de nivel înalt a consultat prognoza și a dedus că ploaia e probabilă, a adăugat în listă umbrela și o jachetă impermeabilă, apoi a selectat articolele dintr-o cameră și le-a plasat în geantă, urmărind apoi să bifeze lista completă. Astfel, internetul devine o extensie a memoriei robotului, nu doar un depozit static de informații preîncărcate.

Avantajul imediat al acestei diviziuni clare între „creier” și „mușchi” este flexibilitatea: dacă regulile se schimbă sau apar situații neprevăzute, planner-ul poate aduce rapid date noi, iar executantul le pune în aplicare fără să fie reantrenat condiția de bază. Mai mult, comportamentele motorii obținute pe un tip de robot pot fi transferate către alt model cu un minim de ajustări, ceea ce reduce semnificativ timpul și costurile de implementare în diverse industrii.

Pe termen scurt, astfel de roboți ar putea ajuta la sortarea deșeurilor în centre de reciclare, la ambalarea produselor în depozite e-commerce sau la asamblarea componentelor ușoare în industria lor. Pe termen lung, conceptul poate fi extins către roboți casnici sau asistenți în spitale și restaurante, unde adaptarea la reguli locale sau la cerințe specifice devine vitală.

Totuși, există provocări serioase. Dependența de calitatea surselor online impune mecanisme riguroase de filtrare și verificare, pentru a evita concluzii eronate. Percepția vizuală continuă să fie vulnerabilă în fața obiectelor noi, iluminării neuniforme sau obstacolelor neașteptate. În plus, siguranța oamenilor din jur necesită sisteme de oprire de urgență și protocoale clare de cooperare om-robot. În plan etic și legal, accesul unui agent robotic la web ridică întrebări despre confidențialitate și responsabilitatea deciziilor automatizate.

Privind înainte, soluția DeepMind deschide calea către o standardizare a interfeței dintre planificatorii de nivel înalt și controlerul de mișcare. Dacă cercetătorii și producătorii se pun de acord asupra unor protocoale comune, vom vedea rapid aceste „creiere” integrate în familii variate de roboți. Totodată, e nevoie de un efort global pentru auditarea algoritmilor, testarea în medii diverse și crearea de reguli care să asigure predictibilitatea și transparența deciziilor.

Concluzionând, duetul Gemini marchează un pas semnificativ spre roboți cu adevărat autonomi, capabili să gândească și să acționeze într-un ciclu de învățare continuă. Deși mai sunt de rezolvat aspecte de robustețe și etică, conceptul celor două modele complementare ne arată clar un viitor în care mașinile nu doar își urmăresc propriul cod, ci se adaptează inteligent la lumea reală.