Udfordringerne ved at bruge maskinlæring til at identificere køn i billeder

I de senere år er computerstyrede billedgenkendelsessystemer, der automatisk genkender og klassificerer mennesker, blevet mere og mere udbredte. Disse algoritmiske systemer anvendes i mange indstillinger - fra at hjælpe sociale mediesider med at fortælle, om en bruger er en katteejer eller hundeejer til at identificere individuelle mennesker i overfyldte offentlige rum. En form for maskinintelligens kaldet dyb læring er grundlaget for disse billedgenkendelsessystemer såvel som mange andre kunstige intelligensbestræbelser.


Dette essay omlektioner, vi har lært om dyb læringssystemer og kønsgenkendelseer en del af en tredelt undersøgelse af spørgsmål vedrørende maskinsynsteknologi. Se også:

Interaktiv: Hvordan 'ser' en computer køn?Ved systematisk at dække eller 'okkludere' dele af fotos af individers ansigter og derefter føde disse billeder ind i en computermodel, vi oprettede, kunne vi se, hvilke elementer i et ansigt, der er vigtigst for at hjælpe modellen med at klassificere mænd og kvinder. Vi oprettede en interaktiv funktion, hvor du kan genskabe denne analyse og se, hvilke ændringer der får vores dyblæringsalgoritme til at ændre sit gæt om personens køn i billedet.

Offentlig opinionsundersøgelse om ansigtsgenkendelse.Ansigtsgenkendelsessystemer, der kan bestemme individernes identitet ud fra et foto eller en video, er en af ​​de mere kontroversielle anvendelser af maskinsyn (de modeller, vi brugte til dette projekt, kan klassificere køn, men er ikke i stand til at identificere individuelle mennesker). Centret gennemførte for nylig en undersøgelse af amerikanske voksne, der undersøgte den offentlige mening over for ansigtsgenkendelsesteknologi og dets anvendelse af annoncører, retshåndhævende mv. Se vores rapport om denne undersøgelse her.

Deep learning-systemer 'trænes' ofte til at udføre disse opgaver ved at blive præsenteret for mange eksempler på billeder, objekter eller scenarier, som mennesker allerede har mærket 'korrekte' eller 'forkerte'. Ved at se på nok eksempler kan disse systemer i sidste ende lære at identificere umærkede objekter eller scenarier, som de aldrig har stødt på før. Disse mærkede eksempler, der hjælper systemet med at lære, kaldes 'træningsdata', og de spiller en vigtig rolle i bestemmelsen af ​​den samlede nøjagtighed af disse systemer.


Disse systemer tilbyder potentialet til at udføre komplekse opgaver med en hastighed og skala langt ud over menneskers kapacitet. Men i modsætning til mennesker kan dyb læringssystemer typisk ikke give forklaringer eller rationaler for deres individuelle valg. Og i modsætning til traditionelle computerprogrammer, der følger et stærkt foreskrevet sæt trin for at nå deres resultater, er disse systemer undertiden så komplekse, at selv de dataforskere, der designede dem, ikke fuldt ud forstår, hvordan de kommer til deres beslutninger.



Som et resultat kan disse systemer mislykkes på måder, der synes vanskelige at forstå og svære at forudsige - såsom at vise højere fejlfrekvenser på ansigterne hos mennesker med mørkere hud i forhold til dem med lysere hud eller klassificere fremtrædende medlemmer af kongressen som kriminelle. . Og brugen af ​​disse systemer inden for områder som sundhedspleje, finansielle tjenester og strafferet har udløst frygt for, at de kan ende med at forstærke eksisterende kulturelle og sociale fordomme under dække af algoritmisk neutralitet.


Pew Research Center anvendte for nylig deep learning-teknikker i en række rapporter, der undersøgte kønsrepræsentation i Googles billedsøgeresultater og billeder fra nyhedsindlæg på Facebook. Fordi det ikke var muligt for menneskelige forskere at sortere og klassificere de tusindvis af billeder, der blev produceret af disse online-systemer, skabte vi vores eget værktøj til automatisk at opdage og kategorisere befolkningens køn i de billeder, vi fandt.

Uanset træningsdata var alle modeller bedre til at identificere det ene køn end det andetI processen med at opbygge et dybt læringssystem til at genkende køn på tværs af en række forskellige menneskelige ansigter i billeder lærte vi første gang vanskelighederne med at forstå, hvordan disse systemer fungerer; udfordringerne ved at tilpasse dem til at præstere mere præcist og den kritiske rolle, som de data, der bruges til at træne dem, får dem til at udføre mere (eller mindre) effektivt. Vi trænede og testede mere end 2.000 unikke modeller baseret på en fælles dyb læringsarkitektur og afslørede i processen en stor variation i disse modelleres evne til nøjagtigt at identificere køn i forskellige billedsæt.


En almindelig begrænsning af mange kønsklassificeringssystemer (inklusive den, vi plejede at udføre vores egen forskning) er, at de ikke kan redegøre for personer, der ikke identificerer sig som hverken en kvinde eller en mand, og at de ikke har noget koncept om kønsidentitet som adskilt fra fysisk fremtoning. Men selv ud over disse kendte begrænsninger lærte vi, at de træningsdata, der bruges til at træne disse modeller, har stor betydning. Modellerne, som vi trænede ved hjælp af mere forskellige sæt billeder (som inkluderer deres demografiske sammensætning samt kvaliteten og typerne af billeder, der blev brugt i hvert sæt) var bedre til at identificere køn i en lignende forskellig gruppe af fotos end modeller, der blev trænet i mere begrænsede data.

Vi bemærkede også variation i ydeevnen for disse modeller, som undertiden var overraskende og vanskelig at forklare. For eksempel, selvom de modeller, der blev trænet ved hjælp af større mangfoldighed, var demestnøjagtige, nogle modeller, der blev trænet på mindre forskellige billeder, var mere nøjagtige end andre. Tilsvarende var nogle af disse modeller bedre til at identificere mænd end kvinder, mens andre overpresterede kvinder snarere end mænd.

Hvordan vi byggede maskinlæringsmodeller ved hjælp af forskellige billeder

Dataindsamling anvendt i denne analyse

Centret brugte syv samlinger af data til at træne vores modeller. Hver samling har sine egne unikke egenskaber, så ingen enkelt samling afspejler mangfoldigheden i den globale befolkning. Samlingerne inkluderer følgende:

Brasilianske politikere:Højkvalitets stillede billeder af brasilianske politikere, der vender mod kameraet, samlet fra et sted, der er vært for kommunale valgresultater.


Mærkede ansigter i naturen:En database med ansigtsfotografier samlet af forskere ved University of Massachusetts med det formål at studere ansigtsgenkendelsesteknologi.

Bainbridge:En samling ansigtsfotografier, der matcher demografien i USA's folketælling fra 1990, indsamlet af Wilma Bainbridge og samarbejdspartnere til forskning i mindeværdighed.

Asiatiske berømtheder:Billeder af 30 berømte asiatiske personer (15 mænd og 15 kvinder), samlet af centret.

Sorte berømtheder:Billeder af 22 berømte sorte personer (11 mænd og 11 kvinder), samlet af centret.

Berømte seniorer:Billeder af 21 berømtheds seniorer (11 mænd og 10 kvinder), samlet af centret.

Land-køn billedsøgning:Billeder af mænd og kvinder for hvert af de 100 mest folkerige lande i verden samlet af centret.

Maskinindlæringsmodeller starter typisk som blanke skifer, der ikke er vist nogen data, og som ikke er i stand til at udføre klassifikationer eller andre opgaver. Modellerne, vi diskuterer i dette essay, blev bygget med en teknik kaldet 'transfer learning', som giver dem nogle grundlæggende oplysninger om, hvordan man identificerer almindelige objekter, men ikke nødvendigvis information, der er specifikt relevant for estimering af køn. Uanset den specifikke type maskinlæring, der bruges, begynder dataforskere normalt at konstruere en model ved at vælge et datasæt, der viser mange forekomster af opgaven eller klassifikationen, der udføres korrekt. Efter at have set nok eksempler på disse såkaldte træningsdata identificerer modellen til sidst systematiske mønstre og udvikler sin egen tilgang til at skelne de 'korrekte' svar fra de 'forkerte'. Derefter kan den bruge denne tilgang til at udføre den opgave, den er uddannet til at udføre på data, den aldrig har set før.

Eksempler, der er forudindtaget eller ikke nøjagtigt repræsenterer den bredere gruppe af individer, der kan være stødt på, kan imidlertid lære systemet uventede og meningsløse mønstre, hvilket får det til at udvikle en tilgang, der ikke fungerer godt på nye data. For eksempel kan en model, der er trænet i billeder, hvor enhver mand bruger briller, være overbevist om, at iført briller er et stærkt signal om, at nogen er en mand. Selvom dette eksempel kan virke indlysende, kan det være svært at vide på forhånd, om træningsdata består af dårlige eksempler på opgaven, eller hvis de ikke er repræsentative.

Da vi ønskede, at vores analyse skulle skelne mellem mænd og kvinder i billeder, bestod vores træningsdata af lige store sæt billeder af mænd og kvinder, hvor hvert billede blev mærket som en mand eller en kvinde. Vi ønskede at se, hvordan valget af træningsdata påvirkede den samlede nøjagtighed af vores modeller, så vi søgte online efter forskellige samlinger af billeder af menneskelige ansigter. Til sidst samlede vi syv samlinger af billeder, som vi brugte til at træne vores modeller. Hver samling bestod af mærkede billeder af enkeltpersoner, men hver havde sin egen unikke blanding af aldersgrupper, løb og nationaliteter samt en blanding af billedegenskaber som billedkvalitet og positionering af individet.

Ved at bruge disse samlinger som udgangspunkt oprettede vi derefter otte forskellige træningsdatasæt til vores dyb læringsmodeller. Syv af træningsdatasættene bestod af billeder tegnet fra kun en af ​​de originale samlinger (en simulering af forskellige typermindreforskellige træningsdata), mens et af træningsdatasættene bestod af billeder tegnet fra en blanding af alle syv samlinger (en simulering afmereforskellige træningsdata). Det er afgørende, at alle otte datasæt, der blev brugt til træning, var af samme størrelse og indeholdt et lige antal mænd og kvinder.

Hvordan disse modeller fungerede ved at identificere køn i forskellige sæt af billeder

Efter at hver model var trænet fra et af de otte træningsdatasæt, vi havde oprettet til dette projekt, testede vi det. For at sammenligne ydeevnen for de forskellige modeller oprettede vi et unikt datasæt bestående af billeder taget fra alle syv af de originale datasamlinger - men som aldrig blev brugt til at træne nogen af ​​de enkelte modeller. Denne type datasæt er kendt som 'testdata' og bruges til at evaluere og sammenligne ydeevnen for de forskellige modeller. Testdataene for dette projekt indeholdt et lige antal billeder fra hver af de syv datasamlinger samt et lige antal billeder identificeret som skildrer kvinder og mænd inden for hver enkelt samling.

Da vi kørte vores uddannede modeller på testdataene, fandt vi, at nogle af modellerne blev udført mere præcist end andre. Mest bemærkelsesværdigt havde den model, der var blevet trænet på billeder taget fra alle syv af de enkelte samlinger (det vil sige den model, der var trænet i de mest forskellige sæt træningsdata) den bedste ydeevne. Det identificerede nøjagtigt det korrekte køn for 87% af træningsdatabillederne, mens modellerne, der kun blev trænet ved hjælp af en af ​​de enkelte datasamlinger, opnåede nøjagtigheder på mellem 74% og 82%.

Maskinindlæringsmodeller, der er trænet i flere datakilder, var mere nøjagtige end dem, der var trænet i en enkelt datakilde

Med andre ord, modellen, der blev trænet på et forskelligt sæt kilder, klarede sig betydeligt bedre end dem, der blev trænet i individuelle kilder, selvom hver model så det samme antal samlede billeder og det samme forhold mellem mænd og kvinder. Dette er ikke helt overraskende, da de forskellige træningsdata og testdata begge indeholdt en blanding af de syv datasamlinger. Dette fremhæver en central udfordring for dem, der bygger eller bruger disse typer modeller: Modeller bygget ved hjælp af træningsdata, der ser anderledes ud end data fra den virkelige verden, og al den mangfoldighed i den virkelige verden, der følger med, fungerer muligvis ikke som forventet.

Selvom modellen, der blev trænet i de mest forskellige tilgængelige data, fungerede mest nøjagtigt, fungerede ikke alle modeller, der blev trænet i mindre forskellige data, lige dårligt. Den dårligst udførte af modellerne, der var trænet på en enkelt datakilde, opnåede en nøjagtighed på kun 74%, men den bedst udførte af disse modeller øgede denne score med 8 procentpoint. Som nævnt ovenfor adskiller disse billeder sig på forskellige måder ud over demografien for folket i billederne - såsom billedkvalitet, billedopløsning, fotorientering og andre faktorer, der er svære at kvantificere. Dette fremhæver en anden udfordring, som brugerne og designerne af disse systemer står over for: Det er vanskeligt på forhånd at forudsige, hvor nøjagtige disse modeller kun vil være baseret på de data, de er uddannet på. Hvad vi dog kan forudsige er, at mere forskellige prøver vil have tendens til at være mere robuste.

Vi undersøgte også, hvor nøjagtige hver model var til at identificere mænd og kvinder, og fandt ud af, at hver model i det mindste var noget mere nøjagtig til at identificere det ene køn end den var hos den anden - selvom hver model blev trænet i lige mange billeder af kvinder og mænd . Disse uoverensstemmelser er ikke tydelige uden at gøre denne mere detaljerede analyse: En model kunne præsenteres som 76% nøjagtig uden at afsløre, at den kun korrekt klassificerer 60% af kvinderne, mens den korrekt klassificeres 93% af mændene.

På et bredt niveau havde disse modeller en tendens til at have mere vanskeligheder med at identificere kvinder: Seks af de otte (inklusive modellen, der blev bygget ved hjælp af de mest forskellige træningsdata) var mere nøjagtige til at identificere mænd end kvinder. Men to af modellerne var væsentligt mere nøjagtige til at identificere kvinder end mænd. Og som med deres generelle nøjagtighed er det ikke helt klart eller forudsigeligt, hvorfor visse modeller måske er bedre til at identificere mænd end kvinder eller omvendt.

Implikationer for forskning i maskinsyn

Det er vigtigt at bemærke, at der er flere begrænsninger i denne undersøgelse, som skal huskes, når man fortolker resultaterne. For det første bygger den overførselsindlæringsmetode, vi brugte, på den information, der allerede findes i foruddannede modeller. For det andet, fordi vi skabte over 2.000 modeller til dette projekt - og modeller, der trænes ved hjælp af større mængder træningsdata, tager længere tid at oprette - brugte vi et relativt beskedent antal billeder til at træne hver model. Som et resultat kan disse modeller være mindre nøjagtige end systemer, der bruger mere komplekse modelleringsstrategier eller mere træningsdata. For det tredje er de billeder, vi brugte til træning og testning, ikke beregnet til at være repræsentative for al den potentielle mangfoldighed i menneskelige ansigter. Målet med dette projekt var snarere at fange et sæt billeder, der var forskelligt nok til at foretage meningsfulde sammenligninger om den måde, disse typer systemer lærer om køn.

Endelig er det vigtigt at bemærke, at disse modeller blev designet til en meget specifik opgave: at klassificere billeder af mennesker som kvinder eller mænd udelukkende baseret på deres ydre, fysiske egenskaber. Som nævnt ovenfor var vores værktøj kun i stand til at tildele mennesker til en af ​​disse to binære kategorier og var ikke i stand til at redegøre for mennesker af andre køn, inklusive ikke-binære individer. Det havde heller ingen grundlæggende forståelse af køn eller kønsidentitet som begreber og kunne ikke skelne mellem en persons fysiske udseende og deres personlige kønsidentitet. Og selvom de brede takeaways af denne analyse finder anvendelse på enhver form for maskinindlæringssystem, kan de specifikke resultater, der rapporteres her, muligvis ikke generalisere til andre typer systemer designet til at klassificere køn eller dem, der er designet til at udføre helt forskellige opgaver.

Men uanset disse forbehold kan denne analyse give indsigt i karakteren og begrænsningerne ved denne type maskinlæringsmodel. At disse modeller er ufuldkomne, kan forventes. Hvad der kan være mindre indlysende er, at de kan være betydeligt mindre pålidelige for nogle grupper end andre - og at disse forskelle måske ikke nødvendigvis er drevet af intuitive eller åbenlyse faktorer. Generelt er det vigtigt, at disse modeller trænes i data, der fanger mangfoldigheden af ​​de situationer, de vil støde på i virkelige sammenhænge, ​​så meget som det er muligt. Hvis modellen f.eks. Bliver bedt om at operere i flere aldre, løb og andre kvaliteter, er det vigtigt, at modellen trænes i et tilsvarende forskelligt træningssæt. I sidste ende skal folk, der stoler på de beslutninger, disse systemer træffer, nærme sig de resultater, de producerer med den viden, at de måske skjuler problemer eller fordomme, der er svære at forudse eller forudsige på forhånd.

Se metoden for flere detaljer om, hvordan centret gennemførte denne analyse. Vi vil gerne takke Besheer Mohamed, Onyi Lam, Brian Broderick, Skye Toor, Adam Hughes og Peter Bell for deres uvurderlige bidrag til dette projekt. Informationsgrafik af Selena Qian.