Ricercatori della UC San Francisco e della UC Berkeley hanno sviluppato un’interfaccia cervello-computer (BCI) che ha permesso a una donna con grave paralisi dovuta a un ictus del tronco cerebrale di parlare attraverso un avatar digitale.
È la prima volta che sia il linguaggio che le espressioni facciali sono stati sintetizzati da segnali cerebrali. Il sistema può anche decodificare questi segnali in testo a quasi 80 parole al minuto, un notevole miglioramento rispetto alla tecnologia commercialmente disponibile.
Edward Chang, MD, presidente di chirurgia neurologica presso la UCSF, che ha lavorato sulla tecnologia, nota come interfaccia cervello-computer, o BCI, per più di un decennio, spera che questa ultima svolta nella ricerca, apparsa il 23 agosto 2023 su Nature, porterà a un sistema approvato dalla FDA che consente il linguaggio dai segnali cerebrali nel prossimo futuro.
“Il nostro obiettivo è ripristinare un modo completo e incarnato di comunicare, che è davvero il modo più naturale per noi di parlare con gli altri,” ha detto Chang, che è membro dell’Istituto Weill di Neuroscienze della UCSF e del Jeanne Robertson Distinguished Professor in Psichiatria. “Questi progressi ci avvicinano molto a farne una soluzione reale per i pazienti.”
Il team di Chang aveva precedentemente dimostrato che era possibile decodificare i segnali cerebrali in testo in un uomo che aveva anche subito un ictus al tronco cerebrale molti anni prima. L’attuale studio dimostra qualcosa di più ambizioso: decodificare i segnali cerebrali nella ricchezza del linguaggio, insieme ai movimenti che animano il viso di una persona durante una conversazione.
Chang ha impiantato un rettangolo sottile come carta di 253 elettrodi sulla superficie del cervello della donna in aree che il suo team ha scoperto sono cruciali per il linguaggio. Gli elettrodi hanno intercettato i segnali cerebrali che, se non fosse stato per l’ictus, sarebbero andati ai muscoli della sua lingua, mandibola e laringe, così come il suo viso. Un cavo, collegato a una porta fissata alla sua testa, ha connesso gli elettrodi a una serie di computer.
Per settimane, la partecipante ha lavorato con il team per addestrare gli algoritmi di intelligenza artificiale del sistema a riconoscere i suoi unici segnali cerebrali per il linguaggio. Questo ha comportato la ripetizione di diverse frasi da un vocabolario conversazionale di 1.024 parole ancora e ancora, fino a quando il computer ha riconosciuto i modelli di attività cerebrale associati ai suoni.
Piuttosto che addestrare l’IA a riconoscere parole intere, i ricercatori hanno creato un sistema che decodifica le parole dai fonemi. Questi sono le sub-unità del discorso che formano le parole pronunciate allo stesso modo in cui le lettere formano parole scritte. “Hello,” per esempio, contiene quattro fonemi: “HH,” “AH,” “L” e “OW.”
Utilizzando questo approccio, il computer aveva solo bisogno di imparare 39 fonemi per decifrare qualsiasi parola in inglese. Ciò ha sia migliorato l’accuratezza del sistema che lo ha reso tre volte più veloce.
“L’accuratezza, la velocità e il vocabolario sono cruciali,” ha detto Sean Metzger, che ha sviluppato il decodificatore di testo con Alex Silva, entrambi studenti laureati nel Programma Congiunto di Bioingegneria presso la UC Berkeley e la UCSF. “È ciò che dà a un utente il potenziale, nel tempo, di comunicare quasi alla stessa velocità con cui lo facciamo noi, e di avere conversazioni molto più naturali e normali.”
Per creare la voce, il team ha ideato un algoritmo per sintetizzare il linguaggio, che hanno personalizzato per farlo suonare come la sua voce prima dell’infortunio, utilizzando una registrazione del suo discorso al suo matrimonio.
Il team ha animato l’avatar con l’aiuto di un software che simula e anima i movimenti muscolari del viso, sviluppato da Speech Graphics, una società che realizza animazioni facciali guidate dall’IA. I ricercatori hanno creato processi di apprendimento automatico personalizzati che hanno permesso al software della società di integrarsi con i segnali inviati dal cervello della donna mentre cercava di parlare e convertirli nei movimenti sul viso dell’avatar, facendo aprire e chiudere la mascella, far sporgere e stringere le labbra e far salire e scendere la lingua, così come i movimenti facciali per la felicità, la tristezza e la sorpresa.
“Stiamo compensando per le connessioni tra il cervello e il tratto vocale che sono state interrotte dall’ictus,” ha detto Kaylo Littlejohn, uno studente laureato che lavora con Chang e Gopala Anumanchipalli, PhD, un professore di ingegneria elettrica e scienze informatiche alla UC Berkeley. “Quando la soggetto ha utilizzato questo sistema per la prima volta per parlare e muovere il viso dell’avatar in tandem, sapevo che questo avrebbe avuto un impatto reale.”
Un importante passo successivo per il team è creare una versione wireless che non richiederebbe all’utente di essere fisicamente connesso al BCI.
“Dar alle persone la possibilità di controllare liberamente i propri computer e telefoni con questa tecnologia avrebbe effetti profondi sulla loro indipendenza e interazioni sociali,” ha detto il co-primo autore David Moses, PhD, un professore aggiunto in chirurgia neurologica.