Brain2Qwerty v2 di Meta decodifica i pensieri senza chirurgia

Brain2Qwerty v2 di Meta: decodificare i pensieri senza chirurgia

Meta ha presentato Brain2Qwerty v2, un significativo progresso nelle interfacce cervello-computer (BCI) non invasive. Il sistema utilizza la magnetoencefalografia (MEG) e il deep learning per decodificare l'attività cerebrale in testo, raggiungendo tassi di precisione delle parole che rivaleggiano con gli impianti chirurgici. Questa scoperta potrebbe ripristinare la comunicazione per milioni di persone con condizioni neurologiche che impediscono la parola.

La ricerca, pubblicata su Nature Neuroscience e dettagliata sul blog AI di Meta, rappresenta un salto rispetto ai precedenti lavori dell'azienda. Brain2Qwerty v2 raggiunge un tasso medio di precisione delle parole del 61%, con il miglior partecipante che ha raggiunto il 78% di precisione. Si tratta di un miglioramento drammatico rispetto all'8% di precisione dei precedenti metodi non invasivi.

Come funziona Brain2Qwerty v2

Il sistema utilizza la magnetoencefalografia (MEG), una tecnica non invasiva che misura i campi magnetici generati dall'attività neurale. I partecipanti indossano un casco MEG mentre digitano frasi su una tastiera QWERTY. Il sistema decodifica quindi i segnali cerebrali in testo.

Brain2Qwerty v2 impiega una pipeline di deep learning end-to-end. Invece di basarsi sull'estrazione manuale delle caratteristiche, il modello apprende direttamente dai segnali MEG grezzi. Questo approccio elimina la necessità di pre-elaborazione manuale e consente all'AI di scoprire rappresentazioni ottimali dell'attività neurale.

Il processo di decodifica coinvolge più fasi AI. In primo luogo, una rete neurale traduce le onde cerebrali in token che rappresentano singoli caratteri. Un sistema di allineamento organizza quindi questi caratteri in parole. Infine, un modello linguistico di grandi dimensioni (LLM) trasforma l'insieme di caratteri in frasi coerenti.

Questo segna la prima implementazione riuscita di un LLM per tradurre l'attività cerebrale rumorosa in frasi strutturate e intelligibili. L'LLM sfrutta il contesto semantico per colmare il divario tra registrazioni neurali imperfette e linguaggio fluente, una tecnica che si è rivelata fondamentale per le prestazioni del sistema.

Prestazioni e precisione

Brain2Qwerty v2 è stato addestrato su circa 22.000 frasi di nove partecipanti volontari. Ogni partecipante ha indossato un dispositivo MEG per 10 ore mentre digitava attivamente. Il sistema raggiunge un tasso medio di precisione delle parole del 61%, con il miglior partecipante che ha raggiunto il 78% di precisione.

Per il partecipante con le migliori prestazioni, più della metà di tutte le frasi sono state decodificate con un errore di parola o meno. Ciò rappresenta un miglioramento drammatico rispetto all'8% di precisione delle parole riportato per altri metodi non invasivi, come citato in un articolo del 2023 su Nature Neuroscience.

Il tasso di errore dei caratteri del sistema è del 29% per la MEG, rispetto al 65% per l'elettroencefalografia (EEG). Ciò evidenzia la qualità superiore del segnale della MEG per la decodifica dell'attività neurale complessa.

Perché questo è importante

Le BCI invasive, come quelle che utilizzano l'elettroencefalografia stereotattica o l'elettrocorticografia, hanno dimostrato che le neuroprotesi possono ripristinare la comunicazione. Tuttavia, queste procedure richiedono un intervento chirurgico al cervello, che comporta rischi significativi e limita la scalabilità.

Milioni di persone soffrono di lesioni cerebrali che impediscono loro di comunicare. Un approccio non invasivo come Brain2Qwerty potrebbe fornire una via di comunicazione senza i rischi della chirurgia, rendendo la tecnologia accessibile a una popolazione molto più ampia.

La precisione del sistema migliora in modo log-lineare con il volume dei dati. Ciò suggerisce che il divario di prestazioni rimanente rispetto agli approcci chirurgici potrebbe essere ridotto solo attraverso il ridimensionamento dei dati, senza richiedere modifiche architetturali fondamentali.

continua a leggere sotto...

Scienza aperta e collaborazione

Meta ha rilasciato il codice di addestramento completo sia per Brain2Qwerty v1 che per v2. Il Basque Center on Cognition, Brain, and Language (BCBL) ha rilasciato il dataset v1 su Hugging Face. Questo approccio aperto mira ad accelerare la ricerca neuroscientifica.

L'azienda sta anche investendo in iniziative di ricerca sul cervello più ampie. Queste includono il modello Tribev2 per la codifica della percezione, NeuralSet per l'elaborazione dei dati cerebrali su larga scala e NeuralBench per la valutazione sistematica dei modelli. Il Digital Brain Project di Meta ha stanziato 5 milioni di dollari per stimolare i dataset aperti.

Rilasciando queste risorse, Meta spera di far progredire l'identificazione, la diagnosi e il trattamento dei disturbi neurologici. L'azienda ritiene che la collaborazione aperta accelererà il progresso più rapidamente degli sforzi di ricerca isolati.

Limitazioni attuali e direzioni future

Nonostante le sue impressionanti prestazioni, Brain2Qwerty v2 presenta diverse limitazioni. Il sistema attualmente non opera in tempo reale; il trasformatore e il modello linguistico richiedono che l'intera prova sia conclusa prima di produrre un output. Ciò lo rende inadatto alla conversazione naturale.

Il modello richiede anche che i segmenti MEG siano allineati a specifici inizi di pressione dei tasti. Dato il basso rapporto segnale-rumore delle modalità non invasive, ottenere una decodifica continua senza questi trigger espliciti rimane una sfida significativa.

Le iterazioni future devono muoversi verso un'architettura in tempo reale che elimini la dipendenza dalla correzione a livello di frase e dai tempi noti di pressione dei tasti. I ricercatori devono anche affrontare l'attuale dipendenza del sistema dalla MEG, che richiede apparecchiature ingombranti e costose non adatte all'uso domestico.

Implicazioni più ampie per le interfacce cervello-computer

Il successo di Brain2Qwerty v2 dimostra il potere di combinare più sistemi AI in modo gerarchico. Questo approccio potrebbe servire da modello per la futura ricerca sulle BCI, sia per i sistemi non invasivi che per quelli invasivi.

Aziende come Paradromics stanno perseguendo chip cerebrali invasivi per l'impianto a lungo termine. Sebbene questi sistemi offrano una qualità del segnale superiore, richiedono un intervento neurochirurgico. Approcci non invasivi come Brain2Qwerty potrebbero integrare questi sforzi fornendo un'opzione a basso rischio per i pazienti che non possono sottoporsi a chirurgia.

La ricerca evidenzia anche il potenziale dei modelli linguistici di grandi dimensioni nelle neuroscienze. Ottimizzando gli LLM sui dati neurali, i ricercatori possono sfruttare il contesto semantico per migliorare la precisione della decodifica. Questa tecnica potrebbe essere applicata ad altri tipi di compiti di decodifica neurale oltre alla generazione di testo.

Sfide future

Diversi ostacoli rimangono prima che Brain2Qwerty possa essere implementato clinicamente. Il sistema attualmente richiede ai partecipanti di digitare su una tastiera, il che ne limita l'applicabilità a individui con disabilità motorie. Le versioni future dovranno decodificare il linguaggio immaginato o i movimenti tentati.

La dipendenza dalla MEG è un'altra limitazione. Le macchine MEG sono grandi, costose e richiedono stanze schermate magneticamente. I sistemi MEG portatili sono in fase di sviluppo, ma non sono ancora ampiamente disponibili.

La decodifica in tempo reale rimane un obiettivo chiave. L'attuale elaborazione a livello di frase introduce una latenza incompatibile con la conversazione naturale. I ricercatori stanno lavorando su architetture in grado di decodificare l'attività cerebrale in modo continuo, senza attendere che venga digitata una frase completa.

Prossimi passi

Meta ha reso open source il codice di addestramento completo sia per Brain2Qwerty v1 che per v2. Il BCBL ha rilasciato il dataset v1 su Hugging Face. Questo approccio aperto è progettato per accelerare la ricerca in tutta la comunità neuroscientifica.

Le più ampie iniziative di ricerca sul cervello dell'azienda includono il modello Tribev2 per la codifica della percezione, NeuralSet per l'elaborazione dei dati cerebrali su larga scala e NeuralBench per la valutazione sistematica dei modelli. Il Digital Brain Project ha impegnato 5 milioni di dollari per stimolare i dataset aperti.

L'obiettivo finale di Meta è costruire modelli di base aperti del cervello. Rilasciando queste risorse, l'azienda spera di far progredire le neuroscienze e accelerare l'identificazione, la diagnosi e il trattamento dei disturbi neurologici.