Kategoriarkiv: data

Gratis kurser på nätet

Så här i jultider och inför det kommande året kan det vara värt att tipsa om ett antal kurser på nätet som alla är gratis:

Statistics 110 Grundläggande statistikkurs med mycket om sannolikhetslära. Föreläsare är Joe Blitzstein från Harvard. Kursen består i huvudsak av ett antal videolektioner som finns tillgängliga via iTunes här.

Introduction to Inforgraphics and Data Visualization. En kurs i visualisering av data som ges av Knight Center for Journalism in the Americas, University of Texas. Föreläsare är Alberto Cairo, University of Miami, som nyligen kom ut med den intressanta boken The Functional Art. Kursen pågår under sex veckor och består av ett antal videolektioner och inlämningsuppgifter. Det krävs inte någon erfarenhet av datorprogram för visulisering eller några statistikkunskaper, till och med en journalist bör klara av kursen. Den inleds den 12 januari, läs mer här.

Computing for data analysis. En kurs vid Coursera med Roger D Peng som föreläsare. Peng forskar vid Johns Hopkins Bloomberg School of Public Health och är en av personerna bakom bloggen Simply Statistics. Han beskriver kursen på bloggen här. Det är också en kurs med videoföreläsningar och inlämningsuppgifter. Den är fokuserad på programmering snarare än analys och med programmering avses programmering i statistikprogrammet R. För den som inte har vana av programmering eller R kan den vara lite krävande, men alls inte omöjlig om man lägger ned lite tid. Du kan anmäla dig här.

Data analysis. En annan kurs vid Coursera som också handlar om dataanalys med hjälp av R. Föreläsare är Jeff Leek, som precis som Roger D Peng forskar vid Johns Hopkins Bloomberg School of Public Health och är en av personerna bakom bloggen Simply Statistics. Kursen har inte getts tidigare, men om jag förstår beskrivningarna rätt så ska den vara lite mer tillämpad än Pengs kurs. Du kan anmäla dig här och även se en introduktionsfilm.

Förutom den förstnämnda kursen är det möjligt att få ut någon form av certifikat som intygar genomgången kurs. Jag är dock tveksam till värdet av det, men varför inte om ni ändå tar kursen?

European Social Survey (ESS)

En av de bästa datakällorna vad gäller europeiska medborgares uppfattningar i samhällsfrågor är European Social Survey. Det är en internationell undersökning som vartannat år genomförs i ett stort antal europeiska länder. Data samlas in genom besöksintervjuer och håller hög kvalitet.

Det går att analysera data via ett webbgränssnitt eller ladda ned dataset för mer avancerade analyser. Nyligen kom dessutom en nyhet: Multilevel-data. De har till dataseten lagt kontextuell information på olika nivåer. Riktigt trevligt. Tyvärr verkar de, såvitt jag kan se, fortfarande inte ge fullständig information om undersökningarnas design, vilket gör att man inte kan räkna felmarginaler som är helt korrekta. För de nordiska länderna spelar detta mindre roll då det där används obundet slumpmässiga urval (osu), men i en del andra länder används klusterurval i flera steg och tar man inte hänsyn till det underskattas troligen felmarginalerna. Oh well, det är fortfarande en fantastisk datakälla, som nu blivit än bättre – bara att sätta igång med analyser!

Mer fotboll och statistik

I början av sommaren skrev jag några rader om fotboll och statistik. Då Premier League drar igång igen i helgen kan det vara värt att tips om dem och den fantastiska sajten English Premier League Index, som innehåller en massa spännande statistik för den som, på ett nördigt sätt, gillar engelsk fotboll och siffror. Särskilt rekommenderar jag artikeln om Liverpools förra säsong. Det verkar som om Liverpool satsat på krossbollar och inlägg, både vad gäller spelarinköp och taktik. Detta för att gynna Andy Carrolls styrka i luftrummet. Det verkar dock inte ha varit någon lyckad strategi. Kanske skulle de värva en bättre statistiker innan transferfönstret stänger?

Uppdatering: Manchester City släpper i dag data över deras spelare för fans och andra att analysera. För data kolla här. Läs mer i Guardian. Förhoppningsvis följer fler lag efter (framför allt Arsenal).

En kvittrande opinion

Opinionsmätare har problem: det är allt svårare att få tag på urvalspersoner och de personer som man får tag på vägrar i allt högre grad att medverka vid intervju. Följden är ett allt större bortfall. Nu redovisas sällan bortfall och ingen som kommenterar opinionsmätningar verkar bekymra sig kring vilka personer det egentligen är som uttrycker den opinion som man drar långtgående slutsatser ifrån (får anledning att återkomma kring detta och det vilseledande begreppet ”representativt urval”).

Fast det är ändå kostsamt och tidsödande att samla in data kring den allmänna opinionen, i synnerhet när folk är motvilliga att ställa upp. Denna motvillighet är en aning paradoxal: samtidigt som det finns en tilltagande motvilja kring att medverka i opinionsmätningar delar allt fler fritt med sig av sina åsikter via olika social medier.  Det är inte konstigt att några har slagit ihop ett och ett och fått ihop mer eller mindre seriösa affärsidéer, ibland beväpnade med en hel arsenal floskler. Men det finns undantag, som Crimson Hexagon, ett företag som bland andra har statsvetarprofessorn Gary King som grundare. I en intressant artikel i ämnet i Wall Street Journal säger King att de vill fånga åsikterna hos de personer som uttrycker åsikter. Det är dock inte så enkelt som det kan låta. Det gäller att med automatiserad, datormässig behandling att fånga och förstå ironi, sarkasm och nya ord och förkortningar. Men om man lyckas är belöningen stor: man kan kan då till en billig penning mycket snabbt fånga åsikter. Frågan är bara vad det är för åsikter man fångar. Vissa, som företaget General Sentiment, har enligt samma artikel ambitionen att förutspå utfallet i både Republikanernas primärval och det kommande presidentvalet. King är mer tveksam till om sociala medier är lämpliga för det.

Helt klart har på senare år nya möjligheter för såväl opinionsmätning som forskning öppnats. Det gäller både tillgång till öppna data, men även, som i det här fallet, data som genereras av användare och som finns fritt tillgänglig att samla in och analysera. Eftersom Facebook är ett slutet system är möjligheterna att använda data där mindre, om man inte lyckas samarbeta med företaget, men data från Twitter kan enkelt samlas in. Självklart kommer det här att komma till Sverige inom en inte alltför avlägsen framtid (om det inte redan finns?). Det öppnas spännande möjligheter, tyvärr kommer vi nog att få se avigsidorna också: skulle inte förvåna mig om Aftonbladet en vacker dag har opinionsmätningar baserade på twitter-kommentarer, men med en betryggande formulering om att de baseras på ”ett riksrepresentativt urval”.

Läs även The Numbers Guy bloggpost i ämnet. Och följ mina kvittrande åsikter: http://twitter.com/richardohrvall