W roku 1938 amerykański fizyk Frank Benford sformułował, nazywane później jego imieniem, prawo dotyczące pierwszej cyfry, które do dzisiaj sprawdza się w wielu zbiorach danych.
Benford pracował jako inżynier w firmie General Electric w czasach, kiedy zamiast z kalkulatorów naukowych oraz komputerów korzystało się z suwaka logarytmicznego oraz ksiąg z tablicami matematycznymi. Wertując długie ciągi liczb, Benford zauważył, że pewne cyfry pojawiają się na pierwszym miejscu zauważalnie częściej niż inne. Następnie odkrył, że podobna prawidłowość występuje, kiedy sprawdzi się inne zestawienia liczb. Sam przegrzebał pod tym kątem dane powierzchni rzek, populacji miast, stałych fizycznych, liczb publikowanych w wydaniu magazynu Reader’s Digest oraz kilkunastu innych. Swoje spostrzeżenia opublikował w periodyku naukowym, choć bez poparcia dowodem matematycznym.
Nieco później okazało się, że podobnego odkrycia dokonał wcześniej, w 1881 roku kanadyjski astronom Simon Newcomb. On również przeglądał tablice logarytmiczne, lecz spostrzeżenie polegało na tym, że używany przez niego biblioteczny egzemplarz książki z tablicami jest bardziej sfatygowany na początkowych stronach, mniej na końcu. Z tego wysnuł wniosek, że częściej wyszukiwane są liczby zaczynające się od niższych cyfr. Swoje odkrycie owszem opublikował, natomiast spotkało się one wtedy z dużo skromniejszym oddźwiękiem niż późniejszy o 57 lat artykuł Benforda.
Faktycznie, w naturalnych, niespreparowanych zbiorach liczb prawdopodobieństwo, że na początku będzie cyfra 1 jest największe i wynosi 30.1%. Potem w kolejności są cyfry od 2, z prawdopodobieństwem 17.6% do 9 z prawdopodobieństwem 4.6%. Formalny dowód tej prawidłowości został przeprowadzony dopiero w roku 1995 przez amerykańskiego matematyka Theodora Hilla z Uniwersytetu Kalifornijskiego w Berkeley. Aby zbiór podlegał prawu Benforda, musi między innymi zawierać wszystkie występujące dla danego atrybutu rzędy wielkości. Przykładowo jeśli rozpatrujemy spis liczebnej ludności miast, to nie może być to zbiór dla miast powyżej 200,000 mieszkańców, bo wtedy oczywiście jedynka nie będzie występowała najczęściej.
Prawo Benforda ma zastosowania praktyczne, głównie w wykrywaniu, czy dane nie były w jakiś sposób zmanipulowane. Audytorzy danych księgowych czy urzędy skarbowe mogą sprawdzić częstotliwości występowania pierwszych cyfr liczb w bilansach czy raportach i na tej podstawie stwierdzić czy jest prawdopodobieństwo zafałszowania danych. Podobno parę lat po fakcie sprawdzono dane, jakie Grecja podała dla swojej gospodarki przed przystąpieniem do Unii Europejskiej. Wyszło, że zbiór podanych liczb nie spełnia prawa Benforda i faktycznie jak się okazało, nie był on do końca zgodny ze stanem faktycznym. A jeśli chcemy wybrać sobie dobry numer PIN, to najlepiej by zaczynał się od wyższej cyfry, a nie niższej. Haker który będzie próbował go złamać, teoretycznie powinien zacząć od cyfr niższych.
Źródło grafiki: (C) Piotr Mańkowski
Ja mam bardzo brzydkie podejście do matematyki, w tym sensie iż niestety wiem że jest ona jedynie prostym narzędziem wynalezionym przez człowieka do ujarzmienia otoczenia a nie jakąś fundamentalną zasadą Wszechświata. Dlatego na wszelakie dziwne prawa oraz paradoksy logiczne patrzę trochę z przymrużeniem oka. Jeżeli się pojawiają to świadczą o niedoskonałości narzędzia a nie przedmiotu badanego.
Z tego wynika prosty wniosek: jeżeli prawo Benforda się sprawdza (a sprawdza się niewątpliwie) to znaczy że sprawdza się w stosunku do statystyk. Z czego z kolei wynika dla mnie prosty fakt: dość śmieszne prawo się sprawdza, ponieważ same statystyki są do pewnego stopnia śmieszne i dosyć uznaniowe. Co pociąga za sobą kolejny wniosek: matematyka jako całość jest uznaniowa.
Moim zdaniem: jeżeli cyfry symbolizujące mniejsze ilości obiektów wyskakują w statystykach częściej to jest to kwestia czysto psychologiczna, to znaczy że człowiek wytworzył system (matematykę), który jest naturalnie skłonny do podlegania pewnym skłonnościom ludzkim. Takim jak upraszczanie i dążenie do łatwizny. Innymi słowy, prawo Benforda mówi zapewne więcej o człowieku niż o matematyce i statystyce.
🙂