AI LYTTET TIL FOLKS STEMMER. Så GENERERTE DET ANSIKTENE DERES.

Send

Har du noen gang konstruert et mentalt bilde av en person du aldri har sett, utelukkende basert på stemmen deres? Kunstig intelligens (AI) kan nå gjøre det, og generere et digitalt bilde av ansikts ved hjelp av bare et kort lydklipp som referanse.

Navnet Speech2Face ble det nevrale nettverket - en datamaskin som "tenker" på en måte som ligner på den menneskelige hjernen - trent av forskere på millioner av pedagogiske videoer fra internett som viste over 100 000 forskjellige mennesker å snakke.

Fra dette datasettet lærte Speech2Face assosiasjoner mellom vokale signaler og visse fysiske funksjoner i et menneskelig ansikt, skrev forskere i en ny studie. AI brukte deretter et lydklipp for å modellere et fotorealistisk ansikt som stemmer overens med stemmen.

Funnene ble publisert online 23. mai i preprint jounral arXiv og har ikke vært fagfellevurdert.

Heldigvis vet AI ikke (ennå) nøyaktig hvordan et spesifikt individ ser ut basert på stemmen sin alene. Det nevrale nettverket gjenkjente visse markører i tale som pekte på kjønn, alder og etnisitet, funksjoner som er delt av mange mennesker, rapporterte studieforfatterne.

"Som sådan vil modellen bare produsere ansikter med gjennomsnittlig utseende," skrev forskerne. "Det vil ikke produsere bilder av spesifikke individer."

AI har allerede vist at det kan produsere uklart nøyaktige menneskelige ansikter, selv om tolkningene av katter ærlig talt er litt skremmende.

Ansiktene generert av Speech2Face - alle vendt mot fronten og med nøytrale uttrykk - stemte ikke nøyaktig med menneskene bak stemmene. Men bildene fanget vanligvis de riktige aldersområdene, etnisitetene og kjønnene til individene, ifølge studien.

Algoritmenes tolkninger var imidlertid langt fra perfekte. Speech2Face demonstrerte "blandet ytelse" når de ble konfrontert med språkvariasjoner. For eksempel, da AI lyttet til et lydklipp av en asiatisk mann som snakket kinesisk, produserte programmet et bilde av et asiatisk ansikt. Men når samme mann snakket på engelsk i et annet lydklipp, genererte AI ansiktet til en hvit mann, rapporterte forskerne.

Algoritmen viste også kjønnsskjevhet, ved å knytte stemmer med lave tone til mannlige ansikter og høye stemmer med kvinnelige ansikter. Og fordi opplæringsdatasettet bare representerer pedagogiske videoer fra YouTube, "representerer det ikke like verdens hele befolkningen," skrev forskerne.

En annen bekymring rundt dette datasettet oppsto da en person som hadde dukket opp i en YouTube-video ble overrasket over å vite at hans likhet var blitt innlemmet i studien, rapporterte Slate. Nick Sullivan, leder for kryptografi hos internetsikkerhetsselskapet Cloudflare i San Francisco, oppdaget uventet ansiktet som et av eksemplene som ble brukt til å trene Speech2Face (og som algoritmen hadde gjengitt ganske tilnærmet).

Sullivan hadde ikke samtykket til å vises i studien, men YouTube-videoene i dette datasettet anses for å være tilgjengelige for forskere å bruke uten å få ytterligere tillatelser, ifølge Slate.

Send