Nevrovitenskapsmenn lærer datamaskiner å lese ord rett ut av folks hjerner.
Kelly Servick, som skrev for Science, rapporterte denne uken om tre papirer som ble lagt ut til forhåndsutskriftsserveren bioRxiv, der tre forskjellige forskerteam demonstrerte at de kunne avkode tale fra opptak av nevroniske skyting. I hver studie registrerte elektroder som ble plassert direkte på hjernen nevral aktivitet mens pasienter med hjernekirurgi lyttet til tale eller leste ord høyt. Deretter prøvde forskere å finne ut hva pasientene hørte eller sa. I begge tilfeller var forskerne i stand til å konvertere hjernens elektriske aktivitet til minst noe forståelige lydfiler.
Den første artikkelen, postet til bioRxiv 10. oktober 2018, beskriver et eksperiment der forskere spilte opptak av tale til pasienter med epilepsi som var i hjernen kirurgi. (Nevrale opptakene som ble tatt i eksperimentet, måtte være veldig detaljerte for å kunne tolkes. Og det detaljnivået er bare tilgjengelig under de sjeldne omstendighetene når en hjerne blir utsatt for luften og elektroder plasseres på den direkte, for eksempel i hjernekirurgi .)
Da pasientene lyttet til lydfilene, registrerte forskerne nevroner som skyter i de delene av pasientenes hjerner som behandler lyd. Forskerne prøvde en rekke forskjellige metoder for å gjøre nevronale avfyringsdata om til tale og fant ut at "dyp læring" - der en datamaskin prøver å løse et problem mer eller mindre uten tilsyn - fungerte best. Da de spilte resultatene gjennom en vokoder, som syntetiserer menneskelige stemmer, for en gruppe på 11 lyttere, klarte disse individene å korrekt tolke ordene 75 prosent av tiden.
Du kan høre på lyd fra dette eksperimentet her.
Det andre papiret, lagt ut 27. november 2018, var avhengig av nevrale opptak fra personer som gjennomgikk kirurgi for å fjerne hjernesvulst. Når pasientene leste enkelt stavelsesord høyt, registrerte forskerne både lydene som kom ut av deltakernes munn og nevronene som skyter i de taleproduserende områdene i hjernen deres. I stedet for å trene datamaskiner dypt på hver pasient, lærte disse forskerne et kunstig nevralt nettverk for å konvertere nevrale opptak til lyd, og viste at resultatene i det minste var rimelig forståelige og lik opptakene som ble gjort av mikrofonene. (Lyden fra dette eksperimentet er her, men må lastes ned som en zip-fil.)
Det tredje papiret, lagt ut 9. august 2018, stolte på å registrere den delen av hjernen som konverterer bestemte ord som en person bestemmer seg for å snakke om i muskelbevegelser. Selv om det ikke er tilgjengelig noen opptak fra dette eksperimentet på nettet, rapporterte forskerne at de var i stand til å rekonstruere hele setninger (også spilt inn under hjernekirurgi hos pasienter med epilepsi), og at folk som hørte på setningene var i stand til å tolke dem riktig på et flervalg test (av 10 valg) 83 prosent av tiden. Metoden til eksperimentet var avhengig av å identifisere mønstrene som er involvert i å produsere individuelle stavelser, snarere enn hele ord.
Målet med alle disse eksperimentene er å en dag gjøre det mulig for folk som har mistet evnen til å snakke (på grunn av amyotrofisk lateral sklerose eller lignende forhold) å snakke via et datamaskin-til-hjerne-grensesnitt. Vitenskapen for den applikasjonen er imidlertid ikke der ennå.
Å tolke de nevrale mønstrene til en person som bare forestiller seg tale er mer komplisert enn å tolke mønstrene til noen som lytter til eller produserer tale, rapporterte Science. (Forfatterne av den andre artikkelen sa imidlertid at det kan være mulig å tolke hjerneaktiviteten til noen som forestiller seg tale.)
Det er også viktig å huske på at dette er små studier. Den første artikkelen var avhengig av data hentet fra bare fem pasienter, mens den andre så på seks pasienter og den tredje bare tre. Og ingen av de nevrale opptakene varte mer enn en time.
Likevel går vitenskapen videre, og kunstige taleenheter koblet direkte til hjernen virker som en reell mulighet på et tidspunkt nede i veien.