Om webbpaneler och jämförelser

I förra veckan publicerade Johan Martinsson från Göteborgs universitet ett inlägg på bloggen Politologerna (där för övrigt även jag skriver ibland) kring jämförelser mellan olika undersökningar, bland annat webbpaneler. Inlägget väckte intresse bland olika personer som intresserar sig för opinionsmätningar, inte minst då det på vissa håll tolkades som om resultatet av jämförelsen var att självrekryterade webbpaneler är bättre än traditionella undersökningar, se exempelvis Lena Mellin i Aftonbladet. Även Dagens Opinion framförde något liknande, men där var missförståndet än större då journalisten verkade tro att det var Politologerna som genomfört en undersökning. Det kan därför vara värt att understryka att så inte är fallet och även att Politologerna är en blogg där respektive skribent står för sina egna inlägg. I vilket fall, då jag upplever att diskussionen har hamnat lite snett tänkte jag, måhända naivt, försöka ge min syn på saken i hopp om att något kanske blir lite klarare för någon.

Först och främst tycker jag att det är väldigt bra att Johan och andra intresserar sig för frågan om webbpaneler och vilken kvalitet de har (se även Novus jämförelse här). I USA och en del andra länder är intresset för sådana metodfrågor betydligt större än i Sverige, men förhoppningsvis kan frågorna få större uppmärksamhet även här. Innan jag går in på undersökningen vill jag beröra något som ofta missförstås: att samla in data via webben är bara en annan insamlingsform (eller mode som man säger på engelska). Beroende på om man samlar in data via besöksintervju, telefonintervju, postenkät eller webbenkät kan det ha vissa effekter på inflöde och hur folk svarar. Men i princip behöver inte webbenkäter skilja sig på andra sätt, som exempelvis urvalsdesign. Däremot är det ofta svårt att dra ett slumpmässigt så kallat sannolikhetsurval (där alla som ingår i populationen har en känd sannolikhet att bli utvalda och den sannolikheten är större än noll) och sedan kontakta personer direkt i elektronisk form. Detta då vi inte har något centralt register över e-postadresser (något som inte vore dumt att ha!). Webbundersökningar har därför ofta blivit synonyma med icke-slumpmässiga urval, så kallade självrekryterade urval, men så behöver alltså inte vara fallet.

I sitt blogginlägg jämför Johan sju olika undersökningar: tre som baseras på slumpmässiga befolkningsurval och insamlat medelst telefon, postenkät respektive webbenkät, två slumpmässigt rekryterade webbpaneler och två självrekryterade webbpaneler. Det är med andra ord både en blandning av insamlingsmetoder och urvalsmetoder som studeras. Sedan jämförs hur de svarande i de olika undersökningarna fördelar sig efter några kända fördelningar vad gäller kön, ålder, utbildningsnivå, arbetslöshet och körkortsinnehav. Avsikten är att även analysera skillnader efter åsikter och samband mellan dessa två aspekter. Dessa två senare delar ingår dock inte i blogginlägget, även om det finns några deskriptiva redovisningar i den tillhörande tabellbilagan (och jag antar att de kommer i någon senare rapport).

Jämförelsen görs genom att genomsnittliga avvikelser i procentenheter räknas fram. Man kan diskutera metoden (man bör egentligen förhålla sig till nivån på det som ska skattas osv.), men den känns igen från valtider. Då brukar opinionsinstitutens sista mätning jämföras med valresultatet och någon kommer fram till att ett var ”bäst”, och det institutet brukar basunera ut resultatet. Jag kan förstå att det kan framkalla glädje, men för mig är själva tankesättet främmande. Om vi tar ett exempel som jag tidigare visat på Politologerna: en simulering av 20 olika undersökningar som under perfekta förhållanden (utan bortfall, mätfel, etc.) skattar andelen röster på Centerpartiet, vilket gav följande resultat (punkterna är skattningar, den vertikala linjen det sanna värdet, se tidigare inlägg för tolkning).

Bild1

Dessa resultat skulle kunna komma från 20 olika undersökningar som genomförts på exakt samma sätt. Att påstå att något av dessa tänkta undersökningar skulle vara bättre är märkligt. Däremot är det klart att några utfall ligger närmare det sanna värdet, men det är en annan sak. Visst, i genomsnitt bör upprepade undersökningar ligga nära det sanna värdet, annars har man en bias (snedvridning av resultaten). En annan central kvalitetsaspekt som inte berörs i Johans inlägg gäller precisionen i undersökning, dvs. variansen. I bilden ovan illustreras den genom felmarginalerna tillhörande respektive skattning (de horisontella röda linjerna). Ibland tvingas man göra en avvägning mellan bias och precision, t.ex. genom att tillåta en viss bias i utbyte mot bättre precision. För att man ska kunna beräkna varianser krävs dock ett sannolikhetsurval (här kan man invända att alltför stora bortfall gör att man kan ifrågasätta om man verkligen har sannolikhetsurval, men det här inlägget börjar redan bli väldigt långt så jag får ta den diskussionen någon annan gång).

Så, med andra ord tycker jag inte att en jämförelse mellan ett utfall och sanna värden säger särskilt mycket. Men låt oss ändå titta på resultaten i Johans inlägg, då de som ovan nämnts har fått viss spridning. De fyra webbpaneler som ingår i jämförelserna har alla viktats. Det framgår inte hur de har viktats, förutom för Cint som har viktats efter kön och ålder, men troligen har de andra åtminstone viktats för samma egenskaper. Det blir då lite märkligt att sedan jämföra hur nära de kommer de sanna fördelningar efter samma variabler som de har viktats mot – föga förvånande kommer de nära. Visserligen presenteras även oviktade resultat, men då det inte framgår hur urvalen dragits för de självrekryterande urvalen säger det inte så mycket. Troligen är de utvalda med någon form av kvoturval där man har försökt få antalet svarande att likna någon fördelning. Om den fördelningen är kön och ålder är det naturligt om fördelningen också liknar den sanna fördelningen i dessa avseenden.

När det gäller övriga variabler, dvs. utbildning, arbetslöshet och körkortsinnehav, varierar det mer mellan de olika undersökningarna (och alla har inte information för alla variabler, vilket försvårar jämförelsen ytterligare). Exempelvis hamnar Cint snett för arbetslöshet, men nära i övriga två avseenden (se tabellbilagan). Det finns dock betydande problem med att mäta utbildning i form av högskoleexamen och arbetslöshet, där den officiella statistiken kan avvika med personers egen uppfattning. Detta är ett generellt problem och gäller inte bara den här jämförelsen: det är svårt att hitta relevant information att utvärdera träffsäkerhet och den man har tillgång till är sällan den som man vill mäta i undersökningen (i så fall skulle vi inte behöva göra studien). En ytterligare aspekt som inte tas upp i jämförelsen är att antalet svarspersoner skiljer mellan undersökningarna och precisionen hänger till stor del samman med antalet svarande.

Poängen här är dock att detta inte säger något om kvaliteten på undersökningarna. Det går inte att dra sådana slutsatser av ett utfall. Dessutom är en grundläggande förutsättning för att kunna göra en jämförelse att det finns information om hur personer väljs ut, hur stort det totala bortfallet är och hur estimationen går till. Allt detta saknas här. Med andra ord vet vi inte mycket mer nu än tidigare. Dessutom bör det åter understrykas att vid sannolikhetsurval kan vi skatta osäkerheten i våra estimat, vilket inte går om vi inte har ett sannolikhetsurval. Det är en relevant kvalitetsaspekt oavsett eventuell bias.

Jag instämmer dock i den slutsats som Johan landar i, dvs. vi behöver mer undersökningar kring detta. Förhoppningsvis kan hans studie i kombination med framtida undersökningar ge mer information i dessa frågor.

Inför Oscarsgalan

Uppdatering 2013-02-25: Helt ok utfall för statistikerna, men inte mer än så. De hade alla ett par missar som att Christoffer Waltz vann bästa manliga biroll och att Ang Lee vann regipriset. Till deras försvar skrev Nate Silver att manliga biroll var en väldigt jämn kategori och regipriset var svårt att förutse då de som borde vara favoriter (Beff Affleck och Kathryn Bigelow) inte var nominerade.

Efter höstens amerikanska presidentval, då statistiknördar som Nate Silver och Simon Jackman lyckades väl med att förutspå resultatet, är det inte konstigt att det finns ett intresse för att även förutspå vem som kommer att få de olika Oscarsstatyetterna i kvällens gala. En ytterligare bidragande orsak är att årets gala sägs vara ovanligt oviss. Det är dock svårt att predicera hur äran kommer att fördelas och många verkar göra prognoser mer som en kul grej, även om vissa tar det på större allvar. Hur priserna fördelas bestäms av röster från 5 850 medlemmar av Academy of Motion Picture Arts and Sciences. Tyvärr vet man inte hur de enskilda rösterna har fallit tidigare, vilket försvårar analysen och prognosmakandet.

Så vad säger de statistiska analyserna? Crimson Hexagon, ett företag som analyserar sociala medier och som har den kände statsvetaren Gary King som grundare, har noterat att Argo och Zero Dark Thirty är de filmer som har genererat mest inlägg, och den senare av de filmerna har gett upphov till båda kraftigt negativa och kraftigt positiva omdömen. Ovan nämnda Nate Silver har även prognostiserat sannolikheterna för olika utfall och hans modell säger att Argo kommer att vinna följt av just Zero Dark Thirty. David Rothschild, Microsoft Research, har också Argo som en klar favorit i sin prediktion. Där landar även Farsite Group i sin prognos. Så Argo verkar med andra ord vara budet för bästa film (för olika prognoser i olika kategorier, se länkarna nedan).

Alla ovan nämnda prognosmakare har Steven Spielberg som favorit till priset till bästa regissör. Intressant nog påpekar Nate Silver att Ben Affleck troligen hade haft bäst sannolikhet i hans modell om det inte vore för det enkla faktum att han inte är nominerad. Den största utmanaren förefaller vara Ang Lee.

När det gäller skådespelare förefaller alla vara eniga om att Daniel Day-Lewis ska vinna. Hugh Jackman är främste utmanare hos de flesta, dock inte Nate Silver som har Bradley Cooper där. Men å andra sidan är Daniel Day-Lewis stor favorit, så det kanske är av underordnad betydelse. Betydligt jämnare är det när det gäller kvinnlig huvudroll, även om enigheten är stor i prognoserna även där: Jennifer Lawrence är budet.

När det gäller bästa birollsinnehavare är det än mer jämnt i den manliga kategorin, men Tommy Lee Jones favorit hos statistikerna. I den kvinnliga kategorin är dock osäkerheten obefintlig: Nate Silver går så långt att han säger att han ska sluta försöka förutspå Oscarsgalan om inte Ann Hathaway vinner.

Men Searching for Sugar Man då? Tja, jag gillar filmen, men för oss som upptäckte honom via David Holmes för tio år sedan framstår historien som väl tillrättalagd. Eller ni menar sannolikheten för att den vinner? Tyvärr verkar de flesta prognosmakare vara lite ointresserade av dokumentärfilmsgenren, men PredictWise har den som solklar favorit – 98,4 procents sannolikhet enligt deras modell.

Länkar:
The Numbers Guy om Oscarsgalan
Visualiseringar av Oscarsgalan från Visual.ly
Interaktiv grafik från The Guardian
Nate Silvers prognoser
PredictWise – David Rothschild
Farsite Groups prognoser

Tips för Stata

Jag har fått en hel del frågor kring vilket statistikprogram man bör välja och jag har tänkt utveckla min syn i ett senare inlägg. Fast här och nu blir det bara några nya tips för er som använder er av statistikprogrammet Stata.

Stata har själva startat en blogg sedan en tid tillbaka, innehåller en hel del matnyttigt. De har även en egen kanal på youtube där de har en hel del instruktionsvideor. Tyvärr visar de där allt genom att klicka i menyer, vilket är ett sätt analysera som jag starkt avråder ifrån. Å andra sidan genererar Stata kod då du klickar i menyer, så du kan använda den koden för att skapa program (och till skillnad från t.ex. SPSS genererar inte Stata en massa onödig skräp i sådana fall).

För den som vill skapa grafer i Stata är deras egen guide till hjälp. Den här bedrövligt designade sidan har också en rad intressanta exempel. Även UCLA har en del bra exempel.

Slutligen vill jag tipsa om att Världsbankens Statamodul är uppdaterad. Den är en enkel väg till spännande analyser av deras data. För mer information se här, eller installera via -ssc install wbopendata-.

 

Nytt år, nya tag

Jag har tänkt göra bokslut för 2012, men det får bli i ett annat inlägg. En liten nyhet för 2013 är att jag, tillsammans med ett gäng statsvetare, kommer att blogga på den nya bloggen Politologerna. Bloggen har fått en bra start och jag har bidragit med ett inlägg om datajournalistik. Jag kommer dock även fortsättningsvis att blogga här och en del inlägg kommer antagligen att läggas ut på båda ställen.

Bloggar om visualisering av data

Innan jul gav jag ett par föreläsningar kring visualisering av data för masterstudenter i statsvetenskap vid Uppsala universitet. Med anledning av det har jag satt samman en lista över bloggar som jag följer och som behandlar det ämnet i olika mån. Kanske kan de vara av intresse även för andra?

Datavisualization uppdateras inte så ofta och handlar oftare om mer lättsam infografik än visualisering, men har ändå en del intressanta inlägg.

Eager Eyes av Robert Kosara, en väldigt populär blogg som innehåller en hel del matnyttigt.

Flowing Data av Nathan Yau, som även har skrivit den intressanta boken Visualize This! (jag kommer nog att skriva en rad om den när jag senare i år går igenom böcker kring visualisering) och han har ytterligare en bok på gång. Nathan använder ofta statistikprogrammet R, men en hel del inlägg är av mer generell natur. Om man betalar får man ta del av ytterligare material via bloggen.

Junk Charts av Kaiser Fung, handlar oftast om så kallad ”junk chart” (begrepp som Tufte lanserade), dvs. mindre lyckade grafer. Men det kan ändå ge en del insikter och tips. Kaiser har även en annan blogg, Numers rule your world, vilken har samma namn hans bok. Den bloggen är dock mer inriktad på statistik.

Spatial Analysis en blogg om visualisering som framför allt är inriktad på saptiala data.

Vis4.net av Gregor Aisch, en lite mer teknisk blogg kring visualisering och de verktyg man kan använda för att illustrera data.

Visualizing Data av Andy Kirk, som i dagarna även kommit ut med en bok om visualisering.

Visual.ly en blogg som ofta handlar om mer lättsam infografik, men där finns en hel rad intressanta bloggposter om olika sorters grafer, med mera. .

Då 2012 var podcastens år så kan jag även passa på att nämna att det så klart även finns podcasts om visualiseringar, som t.ex. den här: http://datastori.es/

Gratis kurser på nätet

Så här i jultider och inför det kommande året kan det vara värt att tipsa om ett antal kurser på nätet som alla är gratis:

Statistics 110 Grundläggande statistikkurs med mycket om sannolikhetslära. Föreläsare är Joe Blitzstein från Harvard. Kursen består i huvudsak av ett antal videolektioner som finns tillgängliga via iTunes här.

Introduction to Inforgraphics and Data Visualization. En kurs i visualisering av data som ges av Knight Center for Journalism in the Americas, University of Texas. Föreläsare är Alberto Cairo, University of Miami, som nyligen kom ut med den intressanta boken The Functional Art. Kursen pågår under sex veckor och består av ett antal videolektioner och inlämningsuppgifter. Det krävs inte någon erfarenhet av datorprogram för visulisering eller några statistikkunskaper, till och med en journalist bör klara av kursen. Den inleds den 12 januari, läs mer här.

Computing for data analysis. En kurs vid Coursera med Roger D Peng som föreläsare. Peng forskar vid Johns Hopkins Bloomberg School of Public Health och är en av personerna bakom bloggen Simply Statistics. Han beskriver kursen på bloggen här. Det är också en kurs med videoföreläsningar och inlämningsuppgifter. Den är fokuserad på programmering snarare än analys och med programmering avses programmering i statistikprogrammet R. För den som inte har vana av programmering eller R kan den vara lite krävande, men alls inte omöjlig om man lägger ned lite tid. Du kan anmäla dig här.

Data analysis. En annan kurs vid Coursera som också handlar om dataanalys med hjälp av R. Föreläsare är Jeff Leek, som precis som Roger D Peng forskar vid Johns Hopkins Bloomberg School of Public Health och är en av personerna bakom bloggen Simply Statistics. Kursen har inte getts tidigare, men om jag förstår beskrivningarna rätt så ska den vara lite mer tillämpad än Pengs kurs. Du kan anmäla dig här och även se en introduktionsfilm.

Förutom den förstnämnda kursen är det möjligt att få ut någon form av certifikat som intygar genomgången kurs. Jag är dock tveksam till värdet av det, men varför inte om ni ändå tar kursen?

Frånvaro

Det har varit väldigt tyst här på bloggen en bra tid, ber om ursäkt för det. Ett skäl till tystnaden är att jag under över fem veckors tid var utan internet hemma. Frustrationen när det inte fungerar och det är ett stort antal aktörer inblandade och de flesta man får tala med är inkompetenta. Nåväl, nu funkar allt igen och jag hoppas kunna få ut en del här på bloggen inom kort, även om det är väldigt hektiska veckor just nu.

European Social Survey (ESS)

En av de bästa datakällorna vad gäller europeiska medborgares uppfattningar i samhällsfrågor är European Social Survey. Det är en internationell undersökning som vartannat år genomförs i ett stort antal europeiska länder. Data samlas in genom besöksintervjuer och håller hög kvalitet.

Det går att analysera data via ett webbgränssnitt eller ladda ned dataset för mer avancerade analyser. Nyligen kom dessutom en nyhet: Multilevel-data. De har till dataseten lagt kontextuell information på olika nivåer. Riktigt trevligt. Tyvärr verkar de, såvitt jag kan se, fortfarande inte ge fullständig information om undersökningarnas design, vilket gör att man inte kan räkna felmarginaler som är helt korrekta. För de nordiska länderna spelar detta mindre roll då det där används obundet slumpmässiga urval (osu), men i en del andra länder används klusterurval i flera steg och tar man inte hänsyn till det underskattas troligen felmarginalerna. Oh well, det är fortfarande en fantastisk datakälla, som nu blivit än bättre – bara att sätta igång med analyser!

Möten

I’m so thankful
That we’re strangers when we meet
I’m in clover
For we’re strangers when we meet

Även i dessa elektroniska tider är det svårt att slå det personliga mötet. Och för den som vill kombinera nätets möjligheter med verklighetens möten är Meetup en fantastisk plattform. Där kan du finna likasinnade inom en rad olika områden. Det är bara att gå med i en grupp och sedan anmäla sig till nästa möte. Även om det är en övervikt av grupper inriktade mot datorprogrammering inom olika områden (neo4j, big data, R, etc) finns det även grupper för olika språk, filmintresserade, osv. Och hittar man inte det man söker kan man starta en egen grupp. Själv tänker jag besöka R-gruppen Stockholm R useR:s andra möte i morgon.