Forrige uke kom den nyvalgte amerikanske representanten Alexandria Ocasio-Cortez overskrifter da hun sa som en del av det fjerde årlige MLK Now-arrangementet at ansiktsgjenkjenningsteknologier og algoritmer "alltid har disse rasemessige ulikhetene som blir oversatt, fordi algoritmer fremdeles er laget av mennesker, og disse algoritmene er fremdeles knyttet til grunnleggende menneskelige forutsetninger. De er bare automatiserte. Og automatiserte antagelser - hvis du ikke fikser skjevheten, automatiserer du bare skjevheten. "
Betyr det at algoritmer, som teoretisk er basert på de objektive sannhetene i matematikk, kan være "rasistiske?" Og i så fall, hva kan du gjøre for å fjerne den skjevheten?
Det viser seg at output fra algoritmer faktisk kan gi partiske resultater. Dataforskere sier at dataprogrammer, nevrale nettverk, maskinlæringsalgoritmer og kunstig intelligens (AI) fungerer fordi de lærer hvordan de skal oppføre seg fra data de får. Programvare er skrevet av mennesker, som har skjevhet, og treningsdata blir også generert av mennesker som har skjevhet.
De to stadiene i maskinlæring viser hvordan denne skjevheten kan krype inn i en tilsynelatende automatisert prosess. I det første trinnet, treningstrinnet, lærer en algoritme basert på et sett med data eller på bestemte regler eller begrensninger. Det andre trinnet er inferensstadiet, der en algoritme bruker det den har lært i praksis. Dette andre trinnet avslører en algoritmes skjevheter. For eksempel, hvis en algoritme er trent med bilder av bare kvinner som har langt hår, vil den tro at alle med kort hår er en mann.
Google kom beryktet under ild i 2015 da Google Bilder merket svarte mennesker som gorillaer, sannsynligvis fordi det var de eneste mørkhudede vesene i treningssettet.
Og skjevhet kan krype inn gjennom mange veier. "En vanlig feil er å trene en algoritme for å gjøre forutsigelser basert på tidligere beslutninger fra partiske mennesker," sa Sophie Searcy, en senior dataforsker ved data-science-training-bootcamp Metis, til Live Science. "Hvis jeg lager en algoritme for å automatisere avgjørelser som tidligere er gjort av en gruppe låneansvarlige, kan jeg ta den lette veien og trene algoritmen på tidligere beslutninger fra de låneansvarlige. Men så, selvfølgelig, hvis disse låneansvarlige var partiske, så algoritmen jeg bygger vil fortsette de skjevhetene. "
Searcy siterte eksempelet COMPAS, et prediktivt verktøy brukt over hele det amerikanske strafferettssystemet for straffutmåling, som prøver å forutsi hvor kriminalitet vil oppstå. ProPublica utførte en analyse på COMPAS og fant at verktøyet, etter å ha kontrollert for andre statistiske forklaringer, overvurdert risikoen for tilbakevirkning for svarte tiltalte og undervurderte konsekvent risikoen for hvite tiltalte.
For å hjelpe til med å bekjempe algoritmiske skjevheter, sa Searcy til Live Science, skulle ingeniører og dataforskere bygge mer mangfoldige datasett for nye problemer, i tillegg til å prøve å forstå og dempe skjevheten som er innebygd i eksisterende datasett.
Først og fremst, sa Ira Cohen, en dataforsker i prediktivt analyseselskap Anodot, ingeniører bør ha et treningssett med relativt enhetlig representasjon av alle populasjonstyper hvis de trener en algoritme for å identifisere etniske eller kjønnsattributter. "Det er viktig å representere nok eksempler fra hver befolkningsgruppe, selv om de er et mindretall i den totale befolkningen som blir undersøkt," sa Cohen til Live Science. Til slutt anbefaler Cohen å sjekke for skjevheter på et testsett som inkluderer personer fra alle disse gruppene. "Hvis nøyaktigheten for et visst løp statistisk sett er betydelig lavere enn de andre kategoriene, kan algoritmen ha en skjevhet, og jeg vil vurdere treningsdataene som ble brukt til det," sa Cohen til LiveScience. Hvis for eksempel algoritmen kan identifisere 900 av 1000 hvite ansikter, men korrekt oppdager bare 600 av 1000 asiatiske ansikter, kan algoritmen ha en skjevhet "mot" asiater, la Cohen til.
Å fjerne skjevheter kan være utrolig utfordrende for AI.
Til og med Google, ansett som en forløper innen kommersiell AI, kunne tilsynelatende ikke komme med en omfattende løsning på gorillaproblemet fra 2015. Wired fant ut at i stedet for å finne en måte for algoritmene sine å skille mellom folk med farger og gorillaer, blokkerte Google ganske enkelt dens algoritmer for bildegjenkjenning fra å identifisere gorillaer i det hele tatt.
Googles eksempel er en god påminnelse om at trening av AI-programvare kan være en vanskelig øvelse, spesielt når programvare ikke blir testet eller trent av en representativ og mangfoldig gruppe mennesker.