Kategorier
Kina Matematik Språk Vetenskap

Teckenfrekvens och Benfords lag

Betrakta en frekvenslista över kinesiska tecken. Typiskt alstras sådana genom att betrakta en relevant korpus, exempelvis en rad tidningar, romaner och vetenskapliga publikationer över en viss tidsperiod, varvid resultatet sammanställs ordnat efter förekomst.

I den valda frekvenslistan har dryga 193 miljoner tecken påträffats i korpusen, av vilka 9933 har befunnits vara unika. Som vanligt i dessa sammanhang är genitivmarkören 的 (de) överlägset vanligast, med knappt åtta miljoner förekomster, eller drygt 4 %. Tecknet 一 (yi) för talet ett hamnar på andra plats, följt av 是 (shi), verbet vara, samt negationen 不 (bu).

Om vi istället betraktar den första siffran i antalet förekomster för respektive tecken noterar vi ett intressant fenomen. Det vanligaste tecknet 的 förekommer 7 922 684 gånger, och den inledande siffran är här 7. Det näst vanligaste tecknet 一 förekommer 3 050 722 gånger, med inledande siffra 3. Tredje vanligaste tecknet 是 förekommer på samma sätt 2 615 490 gånger, med inledande siffra 2.

Frågan gäller således huruvida den inledande siffran i förekomsten för samtliga 9933 tecken i korpusen är likafördelade. I förstone kunde man tycka att siffrorna 1 till 9 borde vara fördelade likvärdigt med 11.11 % vardera, men man finner vid en genomgång att så inte är fallet. Det visar sig att den inledande siffran 1 är allra vanligast, med en frekvens om 35.4 %. Därefter följer övriga siffror i fallande skala, ned till siffran 9, med frekvensen 3.7 %.

Naivt intuitivt är resultatet överraskande, men fenomenet är känt sedan länge under benämningen Benfords lag. Många naturligt förekommande serier med stor variation följer Benfords lag med någorlunda precision, även om härledningen är mer abstrakt.

Omvänt kan man se Benfords lag som det ideala utfallet av en distribution, vilket är varför lagen används i kriminaltekniskt syfte för att utröna huruvida en bokföring är rimlig eller har manipulerats. Man skulle således även kunna bedöma kvaliteten på en frekvenslista med hänvisning till avvikelserna mot det ideala utfallet. Just denna frekvenslista är därmed förmodligen att anse som skaplig, men inte mer.