Det gåtefulle, malte smilet til "Mona Lisa" er kjent over hele verden, men det berømte ansiktet nylig viste et oppsiktsvekkende nytt spekter av uttrykk, takket være kunstig intelligens (AI).
I en video som ble delt til YouTube 21. mai, viser tre videoklipp forstemmende eksempler på Mona Lisa mens hun beveger leppene og vender hodet. Hun ble skapt av et innviklet nevralt nettverk - en type AI som behandler informasjon mye som en menneskelig hjerne gjør, for å analysere og behandle bilder.
Forskere trente algoritmen til å forstå ansiktsfunksjonenes generelle former og hvordan de oppfører seg i forhold til hverandre, og deretter anvende denne informasjonen på stillbilder. Resultatet var en realistisk videosekvens av nye ansiktsuttrykk fra en enkelt ramme.
For Mona Lisa-videoene "lærte" AI ansiktsbevegelsen fra datasett av tre menneskelige emner, og produserte tre veldig forskjellige animasjoner. Mens hvert av de tre klippene fremdeles var gjenkjennelig som Mona Lisa, lånte variasjoner i treningsmodellenes utseende og oppførsel tydelige "personligheter" til "levende portretter", Egor Zakharov, ingeniør ved Skolkovo Institute of Science and Technology, og Samsung AI Center (begge lokalisert i Moskva), forklart i videoen.
Zakharov og kollegene hans genererte også animasjoner fra bilder av 1900-tallets kulturelle ikoner som Albert Einstein, Marilyn Monroe og Salvador Dali. Forskerne beskrev funnene sine, som ikke var fagfellevurdert, i en studie publisert online 20. mai i preprint-tidsskriftet arXiv.
Det er ikke lett å produsere originale videoer som disse, kjent som deepfakes. Menneskelige hoder er geometrisk sammensatte og svært dynamiske; 3D-modeller av hoder har "titalls millioner parametere," skrev forfatterne av studien.
Dessuten er menneskesynssystemet veldig flinke til å identifisere "til og med mindre feil" i 3D-modellerte menneskehoder, ifølge studien. Å se noe som ser nesten menneskelig ut - men ikke helt - utløser en følelse av dyp uro kjent som den uhyggelige daleffekten.
AI har tidligere demonstrert at det er mulig å produsere overbevisende deepfakes, men det krevde flere vinkler av ønsket motiv. For den nye studien introduserte ingeniørene AI til et veldig stort datasett av referansevideoer som viser menneskelige ansikter i aksjon. Forskerne etablerte ansikts landemerker som ville gjelde for ethvert ansikt, for å lære det nevrale nettverket hvordan ansikter oppfører seg generelt.
Deretter trente de AI til å bruke referanseuttrykk for å kartlegge bevegelse av kildens funksjoner. Dette gjorde det mulig for AI å skape et dybde, selv når det bare hadde ett bilde å jobbe ut fra, rapporterte forskerne.
Og flere kildebilder leverte et enda mer detaljert resultat i den endelige animasjonen. Videoer laget av 32 bilder, snarere enn bare ett, oppnådde "perfekt realisme" i en brukerstudie, skrev forskerne.