Facebooks eksperiment skaber meget vrøvl for lidt resultat

En undersøgelse, hvor Facebook manipulerede nyhedsfeeds til mere end 600.000 brugere, sendte brugere af sociale medier ind i en cyberswoon i denne uge og spredte sig over i de almindelige medier: 'Facebook Tinkers With Users' Emotions ', begyndte overskriften på New York Times internet side.


Men kontroversen om, hvad disse forskere gjorde, overskygger måske andre vigtige diskussioner, specifikt samtaler om, hvad de virkelig fandt - ikke meget, faktisk - og den rigtige og forkerte måde at tænke på og rapportere fund baseret på statistiske analyser af big data. (Vi kommer til etikken i deres eksperiment om et øjeblik.)

Fordi de er så store, kan undersøgelser baseret på supersidede prøver producere resultater, der er statistisk signifikante, men samtidig er væsentlige trivielle. Det er simpel matematik: Jo større stikprøvestørrelsen er, desto mindre skal forskelle være for at være statistisk signifikante - det vil sige meget sandsynligt, at de virkelig adskiller sig fra hinanden. (I denne undersøgelse var de undersøgte forskelle mellem dem, der så mere, og dem, der så færre følelsesbelastede indlæg sammenlignet med en kontrolgruppe, hvis nyhedsfeeds ikke blev manipuleret.)

Og når du har en enorm tilfældig stikprøve på 689.003, som disse forskere gjorde, bestod selv små forskelle standardtest af betydning. (For perspektiv er en typisk stikprøvestørrelse i en nationalt repræsentativ meningsmåling 1.000).

Derfor advarer generationer af statistiklærere deres elever om, at 'statistisk signifikant' ikke nødvendigvis betyder 'virkelig,virkeligvigtig'.


Facebook-eksperiment med manipulation af nyhedsfeedOvervej resultaterne af Facebook-undersøgelsen, hvor de varierede, hvor mange positive og negative indlæg fra venners testpersoner, der fik lov til at se. Indlæg blev bestemt til at være positive eller negative, hvis de indeholdt et enkelt positivt eller negativt ord. Derefter blev testpersonens egen brug af positive og negative ord i deres statusopdateringer overvåget i en uge. I alt postede forsøgspersoner i alt 122 millioner ord, hvoraf fire millioner var positive og 1,8 millioner negative.



Som rapporteret af forfatterne steg antallet af negative ord, der blev brugt i statusopdateringer, i gennemsnit med 0,04%, når deres vens positive indlæg i nyhedsfeeds blev reduceret. Det betyder kun omkring fire flere negative ord for hver 10.000 skrevet af disse undersøgelsesdeltagere. På samme tid faldt antallet af positive ord kun med 0,1% eller ca. et ord færre for hver 1.000 ord, der blev skrevet. (Som et referencepunkt er dette indlæg lidt mere end 1.000 ord langt.)


Omvendt, når negative indlæg blev reduceret, blev syv færre negative ord brugt pr. 10.000, og antallet af positive ord steg med omkring seks pr. 10.000.

Baseret på disse resultater konkluderede forfatterne i deres offentliggjorte undersøgelse, at deres 'resultater indikerer, at følelser, der udtrykkes af andre på Facebook, påvirker vores egne følelser og udgør eksperimentelt bevis for massiv smitte via sociale netværk'.


Men udgør disse små skift, selvom de er reelle, bevis på en alarmerende 'massiv smitte'? Selvfølgelig er vigtigheden i betragteren. For nogle kan disse minimale ændringer være årsag til alarm. Men for andre er de sandsynligvis baremeh.

En af forfatterne ser ud til at have haft tanker om det sprog, de brugte til at beskrive deres arbejde. I et Facebook-indlæg, der blev skrevet som svar på kontroversen, anerkendte Adam D. I. Kramer: 'Mine medforfattere og jeg er meget ked af den måde, som papiret beskrev forskningen på.'

Han foreslog også, at de selv med deres enorme prøve ikke fandt en særlig stor effekt. Resultaterne, skrev han, var baseret på ”den minimale mængde til statistisk at opdage det - resultatet var, at folk producerede i gennemsnit et færre følelsesmæssigt ord pr. Tusinde ord i løbet af den følgende uge”.

Kritikere har rejst andre spørgsmål, især magasinet The Atlantic og Wired, der satte spørgsmålstegn ved, om læsning af positive indlæg direkte fik Facebook-brugeren til at bruge mere positive ord i deres efterfølgende opdateringer.


Men er hvad Facebook gjorde etisk? Der er en god diskussion om, hvorvidt Facebook var gennemsigtig nok med sine brugere om denne form for eksperimentering. De informerede ikke direkte dem i undersøgelsen om, at de skulle bruges som humane laboratorierotter. I akademisk forskning kaldes det ikke at opnå 'informeret samtykke' og er næsten altid et stort nej-nej. (Facebook hævder, at alle, der tilmelder sig Facebook, er enige om at blive inkluderet i sådanne undersøgelser som en del af brugeraftalen.)

Spørgsmålet drejer sig nu om, hvordan de nye regler skal skrives, når man sidder på trove af nye sociale medier og andre digitale data til minedrift til den samme form for adfærdsanalyse.

Eksperimentel forskning er rig på eksempler på, hvordan studiedeltagere er blevet manipuleret, narret eller ligefrem løjet for i samfundsvidenskabens navn. Og mens mange af disse fremgangsmåder er blevet bremset eller forbudt i akademi, bruges de fortsat til kommerciel og anden form for forskning.

Overvej tilfældet med 'Verifacitor', verdens nyeste og bedste løgnedetektor - eller i det mindste det, som nogle deltagere fik at vide i denne undersøgelse udført af forskere ved University of Chicagos National Opinion Research Center i midten af ​​1990'erne.

Testpersonerne blev opdelt i to grupper. Medlemmer af kontrolgruppen blev bedt om at sidde ved et skrivebord, hvor en interviewer stillede spørgsmål om motionsvaner, rygning, stofbrug, seksuel praksis og overdreven drikke.

De andre testpersoner besvarede de samme spørgsmål, mens de var tilsluttet af elektroder til Verifacitor, beskrevet af operatøren som en ny type løgnedetektor. (Faktisk var det bare en samling af gamle computerkomponenter, som forskerne havde liggende.)

For yderligere at forbedre sandhedsfortællingen blev hver deltager fortalt, inden det formelle interview begyndte, at operatøren havde brug for at kalibrere maskinen. Så deltagerne blev bedt om at lyve tilfældigt som svar på demografiske spørgsmål om sig selv, der var blevet stillet tidligere på et screeningspørgeskema. (Spørgsmål som: Er du gift? Afsluttede du gymnasiet? Osv.).

Selvfølgelig havde intervieweren fået de rigtige svar, så hun straks identificerede et falskt svar, meget til testpersonens forbløffelse.

Nå kan du gætte hvad der skete. Helt 44% af dem i Verifacitor-gruppen erkendte, at de nogensinde havde brugt kokain sammenlignet med 26% i kontrolgruppen. Helt det dobbelte af den rapporterede andel, der bruger amfetamin (39% vs. 19%), ved brug af andre stoffer (39% mod 19%) og drikker mere alkohol, end de burde (34% vs. 16%).

Med andre ord har samfundsvidenskabelig forskning en lang historie med manipulation. Vil det lære af sin fortid?