Julehygge med Benfords lov: En matematisk pudsighed afslører tegn på valgsvindel i Iran – og andre uregelmæssigheder

Her i december-travlheden er det sundt en gang i mellem, at læne sig tilbage og tage sig tid til at tænke på noget andet end juleforberedelser og alle de ting man skal nå på arbejdet før ferien kan begynde.

Søndag havde jeg et par timer til overs og besluttede mig for at lege lidt med en matematisk pudsighed, som kaldes Benfords lov om talrækker.

Det er glimrende hjernegymnastik og ganske fascinerende, så det vil jeg da lige dele med jer.

Det er lidt snyd, at Benford har fået æren, da fænomenet oprindelig blev opdaget i 1881 af en amerikansk astronom (Simon Newcomb), men fysikeren Frank Benford efterviste den eksperimentelt i 1938, og han blev altså navnefar.

Slidte sider i logaritmetabellen gav ideen
I gamle dage, længe før lommeregneren, havde man logaritmetabeller, og Simon Newcomb konstaterede, at når han skulle slå en logaritme op i tabellen, var de første sider altid mere slidte, end de følgende sider.

Det viser sig, at det kan man faktisk formulere i en lov, der udtrykker sandsynligheden for forekomsten af det første ciffer i hvert element i en talrække.

Talrækken siges at overholde Benford’s lov, hvis det første ciffer, $d,~hvor~d\in ~\left\{ 1,2,3,\cdots ,9 \right\}~$opstår med sandsynligheden $P\left( d \right)=lo{{g}_{10}}\left( 1+\frac{1}{d} \right)$

Med andre ord er sandsynligheden for, at første ciffer er 1, cirka 30 pct., 18 pct. for 2 og så videre til kun under 5 pct. for, at det er et 9-tal.

Ikke alle talrækker overholder Benfords lov, da der er nogle forudsætninger:

Det skal for det første være en “naturligt og frit forekommende talrække”, og der må ikke være pålagt kunstige maksimum og minimum”.

For det andet skal talrækken helst spænde over flere størrelsesordner (der skal mindst være en faktor 1.000 mellem minimum og maksimum).

For det tredje skal talrækken bestå af mange elementer, helst over 1.000.

Underligt, ikke? Lad os prøve at undersøge sagen.



Figur 1: Tallene fra 1 til 100.000 overholder ikke Benfords lov.

Hvis vi nu bare tæller fra 1 til 100.000, så er sandsynligheden for de enkelte cifre naturligvis præcis den samme, og dermed overholder denne talrække ikke Benfords lov. Det er ikke en “naturligt forekommende” talrække.

Figur 2
Hvis vi genererer 100.000 tilfældige tal, alle med det samme antal cifre, så bryder vi den anden regel, og de overholder derfor heller ikke Benfords lov.

Hvis man tænker lidt over det, vil sandsynligheden for forekomsten af første ciffer ved en tilfældig talrække af samme cifferlængde jo også være netop tilfældig og dermed have samme sandsynlighed.



Figur 2: 100.000 tilfældige tal af samme længde har naturligvis den samme sandsynlighed for forekomsten af alle tal i første ciffer.

Jeg kan lide at leve på kanten, så lad os for en ordens skyld også lige bryde sidste regel.

Figur 3
Nu laver vi en tilfældig talrække med forskellig cifferlængde, men holder antallet af samples nede på 100.



Figur 3: Hvis talrækken er utilstrækkelig lang, vil forekomsten af tal i første ciffer ikke slå konsekvent igennem.

Figur 4
Hvis vi nu øger talrækken til 100.000 elementer mellem 1 og 5 cifre, så rammer vi rimelig tæt på Benford-distributionen.



Figur 4: 100.000 tilfældige tal, 1-5 cifre overholder Benfords lov.

Hvad kan vi så bruge det til, andet end at lege med Matlab?

Bevares, jeg hænger ofte ud i Matlab – vi har jo alle vores små underligheder. Jo, vi kan prøve at kaste andre talserier fra den virkelige verden efter Benford.

Figur 5
Befolkningen pr. land i verden viser f.eks. en tydelig tendens til at passe på Benford-fordelingen.



Figur 5: Verdens befolkning fordelt på lande viser sig at passe (nogenlunde) på Benford-fordelingen. Der er ikke nok lande i verden til, at regel nr. 3 er tilstrækkeligt overholdt.

Figur 6
Lad os tage folketingsvalget i 2011 og fordele på antal stemmer på hvert parti pr. valgkreds. Det giver en liste på godt 4.000 elementer.



Figur 6: Et folketingsvalg i Danmark overholder Benfords lov. Og det skal vi være glade for, da det antyder, at der ikke er manipuleret med data!

Det forholder sig nemlig sådan, at hvis der havde været manipuleret med valgresultaterne, ville det slå igennem på distributionen af første ciffer i valgdata, og Figur 6 ville tydeligt vise det.

Figur 7
Hvis vi nu tager præsidentvalget i Iran i 2009, hvor der var stor kontrovers og mange beskyldninger om valgsvindel både indenrigs og fra eksterne observatører, og foretager en tilsvarende analyse, viser det en tydelig afvigelse ved tallet 7.



Figur 7: Valgdata fra Iran i 2009 overholder ikke Benfords lov, hvilket er et indicium på manipulerede data. Det er ikke et bevis i sig selv, men absolut et stærkt indicium.

Det er som sagt ikke alle typer data, som kan vurderes med Benford, men f.eks. økonomiske data viser sig at passe godt.

Derfor kan analyser ved hjælp af Benfords lov bruges som indicium på manipulation af f.eks. regnskabsdata i retssager om økonomisk kriminalitet i USA.

Jeg ved ikke, om man kan bruge det i Danmark. Hvis nogen ved det, så skriv endelig i kommentarfeltet!

Forskere har sågar benyttet Benfords lov til at sandsynliggøre, at de makroøkonomiske tal, som Grækenland sendte til EU’s statistiske agentur (det skal alle EU lande gøre) før den økonomiske krise, var manipulerede.

Fascinerende, at en lille matematisk finurlighed kan benyttes på så mange måder, ikke sandt?

Nok om Benford, og tilbage til juleforberedelserne.

I ønskes alle en rigtig glædelig jul og et godt nytår.

Annonce:


Posted in computer.

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>