Un robot si aggira nella cucina di un ufficio. Si guarda intorno, sembra analizzare l’ambiente circostante. A un certo punto, apre un cassetto e prende una spugna: la afferra e la trasporta verso un tavolo, dove ci sono ad attenderlo un gruppo di persone.
Quel robot non è come tutti gli altri. È il frutto di un esperimento di Google che, in collaborazione con un’altra controllata di Alphabet, Everyday Robots, lo ha addestrato per comprendere al meglio le esigenze degli esseri umani. Ciò che si vede nel video non è tanto sorprendente di per sé, ma lo è se si pensa alla richiesta d’origine: “Mi aiuteresti a pulire questo disastro?”.
L’intelligenza artificiale e i robot: PaLM-Saycan
I robot sono da anni estremamente utilizzati nel mondo, soprattutto in contesti industriali. Nel solo 2021, la domanda è cresciuta in Europa del 15% e del 50% nel nostro Paese. In questi ambiti, i dispositivi che vengono utilizzati sono quelle che si definiscono macchine chiuse, cioè programmate per eseguire compiti prestabiliti, spesso ripetitivi, sulla base di input molto precisi.
Il robot che si vede nel video è un’altra cosa. Utilizza PaLM, uno dei più evoluti Large Language Model di Google. Si tratta di un’intelligenza artificiale conversazionale che gli consente di capire e processare le richieste testuali che provengono dagli esseri umani. Insomma, quel robot ha all’interno un’IA che, addestrata sulla base di miliardi di testi, ha imparato a comprendere come parlano gli esseri umani, ha capito quali sono i loro ragionamenti ed è quindi in grado di rispondere alle loro esigenze.
Il punto è che questo non basta. Può bastare, per esempio, per un chatbot (come Blenderbot, quello di Meta) o per un assistente virtuale. Quando si tratta di robot c’è un elemento in più da tenere in considerazione: la corporeità, l’esistenza all’interno di uno spazio tridimensionale. Per questa ragione, Google ha unito a PaLM le caratteristiche delle macchine di Everyday Robots, in particolare la capacità di analizzare l’ambiente e imparare dall’esperienza. È da questo mix che nasce PaLM-Saycan, che nelle intenzioni di Mountain View è destinato a “migliorare le prestazioni complessive del robot e la capacità di eseguire compiti più complessi e astratti attingendo alla conoscenza del mondo codificata nel modello linguistico”.
Sembra complicato, ma non lo è. Immaginiamo di avere a disposizione, per un attimo, uno dei robot di Google e di chiedergli qualcosa come “voglio fare una pausa, mi porti qualcosa da bere e uno snack?”. Alla richiesta dell’essere umano corrisponde, come primo passo, un’elaborazione linguistica, cioè la comprensione della domanda e del contesto. Poi, una soluzione: la macchina decide che la risposta più adatta a quella richiesta prevede dell’acqua e una mela.
A quel punto, però, entra in scena l’ambiente circostante. All’interpretazione linguistica, PaLM-Saycan fa corrispondere quello che si chiama affordance score, un punteggio basato sulle possibilità di eseguire quell’azione in quell’ambiente. Dalla combinazione di queste due valutazioni viene fuori una soluzione credibile e fattibile, che permette al robot di rispondere alla richiesta umana (Google ha messo a disposizione un mini-sito dove sperimentare questi piccoli scenari quotidiani).
Che cosa manca
La strada verso un’interazione quasi umana con i robot, tuttavia, è ancora lunga, come hanno spiegato proprio da Google: “Che si tratti di spostarsi in uffici affollati o di comprendere luoghi comuni, abbiamo ancora molte sfide da risolvere nella robotica. Per ora, questi robot stanno migliorando nel prendere spuntini per i googler nelle nostre cucine”.
La sfida, insomma, è l’inserimento del modello all’interno di contesti sempre più ampi. Per il momento, da Mountain View parlano di un progetto di ricerca, senza alcuna prospettiva di commercializzazione. Servirà ancora un po’ di tempo, prima che un robot possa effettivamente portarci uno snack.