Cirkelresonemang

Cirkeldiagram (eller tårtdiagram som de också kallas) är vanligt förekommande i visualiseringar av data. Tyvärr används de ofta på ett mindre lyckat sätt. Detta har gjort att de fått ett väldigt dåligt rykte, men det finns tillfällen där cirkeldiagram fungerar riktigt bra. Jag påmindes om det häromdagen när jag läste en diskussion kring cirkeldiagram som uppstod med anledning av ett inlägg från Quora.

I likhet med linjediagrammet och stapeldiagrammet så skapades cirkeldiagrammet av William Playfair. Playfair är en centralfigur i den statistiska grafikens historia och hans tidiga verk finns bland annat kommenterade i Edward Tuftes klassiska bok The Visual Display of Quantitative Information (som jag har tänkt kommentera i något senare inlägg).

Cirkeldiagram kan vara utmärkta för att illustrera hur en helhet fördelar sig på ett antal delar, exempelvis hur stor marknadsandel något eller några företag på olika marknader. En nackdel med diagrammen är att det är svårt att bedöma skillnader i storlek mellan olika tårtbitar, så om det är viktigt i presentationen finns det bättre alternativ. Exempelvis har forskning visat att stapeldiagram är bättre i det avseendet Detta illustreras tydligt i följande bild från Wikipedia där fem ungefär lika stora andelar jämförs:

Tyvärr används cirkeldiagram ofta i 3D, vilket aldrig är lyckat. Förutom att det är fult förvrängs även intrycket, vilket gör att tårtbitarnas storlek inte motsvarar deras faktiska andel. Detta visas tydligt i en bild från ett inlägg på den utmärkta bloggen Visual.ly.

Angle Distortion in 3D Pie Charts

Ett annat vanligt fel i cirkeldiagram är att alldeles för många tårtbitar används. Helst bör ett cirkeldiagram ha högst fem tårtbitar, men upp till sju brukar kunna funkar. Mer än så blir sällan bra, även om det kan i viss mån kompenseras med ett klokt val av färger. När det gäller färger bör man hålla sig till en färg och variera dess styrka, alternativt använda en diskret färg för alla tårtbitar förutom den som man vill hålla fram. När det gäller tårtbitarnas positioner bör den största biten (andelen) börja klockan 12 i diagrammet. Övriga bitar bör sedan komma i sjunkande storleksordning. Dock är det ofta bra att placera den näst största andelen sist, dvs. så att den tårtbiten slutar klockan 12. En annan variant av cirkeldiagram som man ska undvika är de där någon eller några tårtbitar lyfts ut en aning. Om man vill framhålla någon andel bör det istället göras med hjälp av färgval.

En släkting till cirkeldiagrammet är munkdiagrammet (donut chart). De är cirkeldiagram där mitten har tagits bort. Det ger möjlighet att ge information i det hål som skapas i mitten. Nackdelen är att det blir svårare att bedöma andelarnas storlek när man inte lika lätt kan utläsa vinklar då mitten saknas. Bland annat The Economist är väldigt förtjusta i sådana diagram, som i exemplet nedan.

The Economist's Donut Chart Showing Changing Bank Pre-Tax Profits

Jag tycker att munkdiagram fungerar ok och att svårighet att avläsa andelarnas storlek i förhållande till cirkeldiagram är något överdrivna. Snarare är det så att det är svårt i båda typer av diagram. Styrkan ligger snarare i att snabbt kunna utläsa ungefär hur helheten fördelar sig på olika andelar. Men för att vara tydlig, Economists diagram ovan är inte lyckat. Ordningen på delarna är förvirrande och etiketterna ger ett väldigt rörigt och oroligt intryck. Samtidigt finns det grader i diagramhelvetet och Fox News är som vanligt värst.

Så för att sammanfatta: cirkeldiagram kan vara effektiva och bra, men det finns en rad fällor. Rätt använda är de dock inte alls dumma, eller annorlunda uttryckt: ett tårtdiagram kan vara riktigt smakfullt. Bloggen Eager Eyes ger en del ytterligare matnyttiga tips i ämnet.

Röstsammanhållning i riksdagen

Ibland när man arbetar med analyser får man fram en del resultat som inte passar in i det man skriver. Jag har tänkt lägga ut en del olika resultat av det slaget här i bloggen den närmaste tiden. Några sådana överblivna resultat kommer från en artikel om Sverigedemokraterna som jag har skrivit tillsammans med statsvetarna Gissur Erlingsson och Kåre Vernby och som jag får återkomma till i något senare inlägg.

Som en del i den artikeln har vi studerat partiernas röstsammanhållning i riksdagen, dvs. i vilken grad riksdagsledamöterna röstar på samma sätt inom respektive parti. Detta är ett forskningsområde som har fått större uppmärksamhet inom den amerikanska statsvetenskapen (se t.ex. studier av roll call data och ideal point estimation) än i den svenska, vilket inte är så konstigt då partierna har en mer central roll i den svenska politiken. Det finns dock svenska studier som är intressanta (exempelvis av professor Sören Holmberg) och kanske kommer det vid Linnéuniversitetet pågående forskningsprojektet kring riksdagens partigrupper att nå nya, intressanta resultat.

I vilket fall, det vanligaste sättet att mäta sammanhållning i röster är med hjälp av det så kallades Rices index. Namnet har inget med ris att göra, utan det är uppkallat efter upphovsmannen Stuart A Rice. I hans bok Quantitative methods in politics från 1928 beskriver han detta index. Det är väldigt enkelt: man tar den absoluta skillnaden mellan antalet ja- respektive nej-röster och delar den skillnaden med summan av ja- och nej-röster. Om sammanhållningen är minimal innebär det att  det är lika stort antal ja- och nej-röster, och det blir då noll i täljaren och indexet blir också noll. Om det endast finns ja-röster eller endast nej-röster, dvs. sammanhållningen är totalt, då blir det samma tal i täljare och nämnare och indexet blir följaktligen 1. Det kan även uttryckas mer elegant i en formel, där Y står för ja-röster och N för nej-röster.

En nackdel med Rices index när man ska studera Sveriges riksdag är att det är baserat på två utfall: ja eller nej. I riksdagen finns även möjligheten att avstå, vilket gör att de möjliga utfallen blir tre. Born och Nevison (1973) föreslår (utifrån Brams & O’Leary, 1970) något som kan beskrivas som ett kvadrerat Rices index och som kan hantera flera olika utfall. Personligen tycker jag att det indexet har en del egenskaper som inte är tilltalande. Men det finns även andra mått att överväga. I vår studie har jag valt att använda ”Agreement index” som lanserats av Hix, Noury och Roland (2005) vid studier av röstning Europaparlamentet. Det kan uttryckas enligt nedanstående formel, där Y står för ja-röster, N för nej-röster och A för dem som avstår att rösta. Man får då bortse dem som inte är närvarande. Då kvittningssystemet ibland används i riksdagen för att ledamöter inte ska tvingas rösta mot sin övertygelse kan man invända att sammanhållningen överskattas. Å andra sidan är det om inte omöjligt så i alla fall mycket svårt att veta i vilka fall kvittning används på det sättet.

Om man tänker sig 90 röstande och alla röstar ja, så blir indexet (90-0,5*(90-90))/90=1. Om rösterna fördelar sig 30, 30 och 30, så blir indexet ((30-0,5*(90-30))/90=0. Med andra ord varierar indexet 0 och 1, där 0 innebär maximal röstsplittring och 1 innebär maximal röstsammanhållning. Om man vill att indexet ska gå från 0 till 100 är det bara att multiplicera med 100. Man kan sedan räkna fram detta index för ett parti vid ett antal omröstningar och sedan ta fram medelvärdet av dessa index. Detta är precis vad vi gjort för samtliga riksdagspartier, men jag sparar resultaten till nästa blogginlägg.