Skönheten ligger i siffrorna

Statistik och kvantitativa metoder har på senare år fått allt större utrymme inom allt fler områden. Det finns många förklaringar till den utvecklingen. Bland de bidragande orsakerna finns internet, nya statistiska metoder, bättre och billigare datorer, fler och mer lättillgängliga databaser och inte minst ett allt större intresse för statistik och indikatorer. Jag vet att det finns forskare och andra som beklagar den utvecklingen och hoppas att pendeln ska svänga. Men jag är ledsen. Det här är nog bara början.

I litteraturvetenskapen har siffror tidigare inte haft någon framträdande roll (även om Sture Allen faktiskt var före sin tid, men visst, han har aldrig dansat i tv). Men det kan vara på väg att ändras. Nu är statistiken på ingång även där, vilket bland annat finns beskrivet i NY Times och i The Chronicle. Och som på så många andra områden finns Google där. Via Google Books kan man söka i alla de miljoner böcker som har skannats in av dem. I Google Labs finns numera även Ngram Viewer där man kan se hur vanliga olika ord är i dessa böcker och över tid. Exempelvis kan man som i diagrammet nedan se hur orden cyberspace och internet har använts över tid.

Som framgår av diagrammet har kampen mellan orden varit hård, men internet verkar gå segrande ur striden. Det lustiga är dock att orden verkar ha använts redan i början av 1900-talet (ordet cyberspace myntades av William Gibson 1982). Det här har uppmärksammats på andra håll. Jag vet inte, men om jag skulle sätta några kronor skulle jag satsa dem på att någon har råkat kodat fel århundrade när en del böcker skannats in (artikeln i The Chronicle som nämns ovan tar upp en del av problemen med datamaterialet). Det skulle i så fall vara ytterligare ett exempel på hur mycket lättare det är att upptäcka fel om man gör data mer tillgänglig. Om inte, tja, då finns det någon riktigt förutseende skribent som borde få mer uppmärksamhet. I vilket fall, det här är bara början…