Källor, metod och begränsningar

För att ta reda på hur vanliga orden är i språket har en förenklad beräkningsmodell tagits fram utifrån flera tillgängliga orddatabaser (korpusar) över svenska texter från Språkbanken Text.

Modellen är kraftigt förenklad och ska därför inte ses som 100 % korrekt. Bland annat finns följande begränsningar som påverkar slutresultatet:

Den enda informationen som har använts från statistiken är ordens stavning och antal. I grunddatan finns även information om i vilket sammanhang och till viss del betydelse orden har använts i. En djupare analys skulle därför kunna ge ett annorlunda resultat. Exempelvis har alla olika betydelser av en slagits ihop till en post då de har samma stavning, trots att betydelserna skiljer sig kraftigt åt.
Orden har tagits i sin exakta stavning och det har inte gjorts någon sammanslagning av olika ordformer som bestämd och obestämd form eller liknande. Exempelvis ligger "kvinnan" och "kvinnor" med som separata ord istället för att sammanställas till grundformen "kvinna".
Grunddatan innehåller i vissa fall även andra saker (tokens) än bara ord, t.ex. emojis, skiljetecken och länkar. En stor del av dessa har filtrerats bort, men en del felaktigheter finns kvar ändå.
Förkortningar med punkter och bindestreck mellan har räknats som ord och är därför med i statistiken. Andra typer av förkortningar som t.ex. "2:or" är däremot inte inkluderade. På samma sätt som för vanliga ord så har liknande förkortningar inte slagits ihop till ett ord. Exempelvis ligger både "m.m" och "mm" med som separata ord.
Orden som är kvar har minst en bokstav, men kan innehålla siffror. Ett par exempel är "2-taktsmotorer" och "12-åring", som bör ses som korrekta ord. Detta gör däremot att termer som "2-3ggr" också kommer med i statistiken och som kanske egentligen inte borde räknas som riktiga ord.
Utländska ord, platsnamn, personnamn, m.m. har lämnats kvar och räknas därför med som ord. I förekommande fall har de även slagits ihop med ord som har samma stavning. Exempelvis ligger ordet "sten" som i "en sten" med tillsammans med personnamnet "Sten".
Källmaterialet är från det skriva språket och i verkligheten är troligen många hälsnings- och artighetsfraser, som "hej" och "tack" mycket vanligare än vad det ser ut att vara i statistiken här.
Vissa av källorna är gamla och innehåller ord eller stavningar som idag inte längre används i det dagliga språket. Bland annat är stavningen "af" vanligt förekommande, trots att den normala stavningen idag är "av". Bedömningen är däremot att även gamla texter är beskrivande av hur språket ser ut totalt sett.
Några källor har övervikt av vissa ord som inte är så vanliga på andra ställen. T.ex. så förekommer ordet "unionen" väldigt ofta i Europaparlamentets texter och ordet "befolkningsutveckling" är vanligt på Wikipedia, men de orden är inte lika vanliga i övrigt. Det kan därför hända att vissa ord fått en för hög ordfrekvens jämfört med vad som faktiskt används.
För några av källorna används också en annan typ av jargong än vad som används i språket i övrigt. Delar av källinformationen är hämtad från Flashbacks forum som inte har så många förbud mot vad som får skrivas, till skillnad mot t.ex. Familjeliv som är hårt censurerat. Exempelvis så förekommer det omkring 1 000 olika ordformer och sammansatta ord av ordet "neger" i statistiken, medan det troligen inte är så vanligt förekommande i språket i övrigt.
När det gäller just Flashback och Familjeliv så hade det funnits väldigt mycket mer ordstatistik att använda, men det bedöms att statistiken hade blivit lite skev då. Totalt sett finns det egentligen drygt 4,5 miljarder tokens vardera i Flashback- och Familjelivs-materialet, men jämfört med totalresultatet skulle de fått en för stor övervikt. Urvalet av delforumen som använts har gjorts för att försöka ge en någorlunda rättvisande bild av språket i allmänhet och mer specifika delforum om t.ex. adoption och droger har inte tagits med.
Vanliga felstavningar och felaktigt sammansatta ord har också lämnats kvar som t.ex. "skillnadenmellan". Detta är en del av hur språket faktiskt används och bör därför ändå ses som korrekta ord.
Ord som totalt sett inte förekommer minst 3 gånger i statistiken har däremot inte räknats med. Bedömningen är att detta i stor utsträckning handlar om tokens som inte är riktiga ord, ord som är felstavade eller att det handlar om väldigt specifika sammansatta ord som inte förekommer i andra sammanhang, t.ex. "slottskyrkoportalen".

Slutresultatet på sidan kommer av en sammanslagning och filtrering av frekvensstatistiken från följande korpusar i Språkbanken Text:

Bloggmix 2011 (2017-02-24), 100 591 617 tokens
Europarl: svenska-engelska (2014-04-29), 70 026 783 tokens
Familjeliv: Allmänna rubriker – Hus & hem (2024-04-01), 70 766 196 tokens
Familjeliv: Allmänna rubriker – Nöje (2024-04-02), 90 124 289 tokens
Familjeliv: Allmänna rubriker – Sandlådan (2024-04-05), 44 552 373 tokens
Flashback: Mat, dryck & tobak (2024-03-08), 77 673 422 tokens
Flashback: Sport & träning (2024-03-21), 270 061 043 tokens
Flashback: Övrigt (2024-03-09), 161 004 923 tokens
GP 2011 (2017-02-01), 19 938 391 tokens
KBs digitaliserade SOU:er (1922–1996) (2017-07-02), 428 188 012 tokens
Kubord 1 - Ordfrekvenser Aftonbladet 2020 (2022-04-10), 37 509 826 tokens
Kubord 1 - Ordfrekvenser Dagens Nyheter 2020 (2022-01-28), 26 848 264 tokens
Kubord 1 - Ordfrekvenser Expressen 2020 (2022-04-10), 34 996 178 tokens
Lawline (2017-02-12), 12 002 288 tokens
Litteraturbanken: fria verk (2023-11-13), 344 688 445 tokens
LäSBarT (2017-03-30), 1 129 083 tokens
Riksdagens öppna data: Protokoll (2024-01-11), 247 384 265 tokens
SAOB1950 (2023-11-30), 50 285 466 tokens
Svensk Twitter 2016 (2018-02-11), 694 515 420 tokens
Svenska Wikipedia (2023-05-12), 190 149 497 tokens

Totalt sett innehåller ovanstående material cirka 2,97 miljarder tokens och efter filtreringen finns omkring 2,35 miljarder ordförekomster kvar. Från det finns 5,33 miljoner unika ord att hitta.

Om man jämför det med Svenska Akademiens ordbok, SAOB, som innehåller omkring 490 000 unika ord så kan det verka som att det finns betydligt många fler ord i användning jämfört med vad som räknas som riktiga ord. I SAOB är däremot ordformerna sammanslagna, vissa modernare ord saknas och det finns en högre gränsnivå för vad som ska inkluderas där.

De omkring 550 000 vanligaste orden i statistiken, som förekommer minst 64 gånger i källmaterialet, motsvarar cirka 98 % av ordfrekvensen av den totala mängden ord. Ytterligare filtrering skulle inte göra någon märkbar påverkan på andelarna och samtliga identifierade ord har därför lämnats kvar.

Till de vanligaste orden har det lagts till lite ytterligare information med en definition, användningsexempel och ett uttal enligt det internationella fonetiska alfabetet. Uttalen har försökt göras för att motsvara ett genomsnittligt uttal när orden används i sitt sammanhang i en normal konversation.

Exempelvis ligger ordet till med som [tɪ] istället för [tɪl:] och mig ligger som [mɛj] istället för [mi:g]. Det är gjort eftersom det är vanligare att säga "skicka ti' mej" istället för att använda mer gammaldags uttal och formellt korrekt språk. Det finns självklart undantag från dessa uttal, bland annat i finlandssvenskan, eller när man säger ett ord separat utan att det är i en mening. Uttalen på sidan ska därför inte ses som gällande i alla lägen.

Definitionerna som finns med är kortfattade och ska inte heller ses som en komplett beskrivning av varje ord och för de vanliga orden så finns det ofta fler former som de kan användas i. Om du upptäcker att vi har missat någon grundläggande användning av ett visst ord så får du gärna höra av dig till oss.