Benford Yasası ve Hayatımızdaki Yeri

1881 yılında Amerikalı gökbilimci Simon Newcomb ilginç bir olgu keşfeder. Logaritmik tabloları resmeden bir kitabı incelerken ilk sayfaların sonraki sayfalara göre daha yıpranmış olduğunu fark eder. Dahası, 1 ya da 2 rakamları ile başlayan sayfaların 8 ya da 9 rakamları ile başlayan sayfalardan daha fazla kullanılmış olduğunu gözlemler.  Başka kitapları inceledikten sonra da aynı sonuca varan Newcomb, bu durumdan yola çıkarak doğada ilk hanesi 1 ya da 2 olan sayısal olguların daha çok tekrar ettiğini istatistiksel anlamda şu şekilde ifade eder:

Doğal olarak belirlenen ya da oluşan bir veri setinden rastlantısal olarak seçilen bir rakamın ilk hanesinin:

  • 1 rakamı olma olasılığı yaklaşık %30,1,
  • 2 rakamı olma olasılığı %17,6,
  • 3 rakamı olma olasılığı %12,5,
  • 4 rakamı olma olasılığı %9,7,
  • 5 rakamı olma olasılığı %7,9,
  • 6 rakamı olma olasılığı %6,7,
  • 7 rakamı olma olasılığı %5,8,
  • 8 rakamı olma olasılığı %5,1,
  • 9 rakamı olma olasılığı %4,6 olarak hesaplanmıştır.

1938 yılında General Electrics Şirketi’nde fizikçi olarak çalışan Frank Benford magazin sayfalarından, ev adreslerinden, atomik kütlelerden ve popülasyon büyükleri gibi çeşitli kaynaklardan elde ettiği yaklaşık 20.000 rakamdan oluşan bir örneklem üzerinden Newcomb’un iddiasını doğrular (Fewster, 2009). Böylece bugün kendi adıyla anılan bu olgu matematik,istatistik ve ekonomi gibi çeşitli disiplinlerden araştırmacıları hararetli tartışmalara sürüklediği gibi dolandırıcılık, seçim sahtekarlığı, sosyal medya ve sağlık alanları üzerindeki etkileriyle günlük hayat algısının temellerini de sarsmaktadır.

Araştırma niteliğindeki bu makale, birkaç örnek üzerinden Benford Yasası’nın sosyal bilimler ve toplum üzerindeki etkilerine merak ışığı tutmayı amaçlamaktadır. 

Benford Yasası’nı Anlamlandırma, Basit Yaklaşım

Simon Newcomb, bu olguyu matematiksel anlamda şu şekilde ifade eder:

(Fewster,2009)

Bu ifadeye göre Benford Yasası genellikle 10’lu logaritmik taban üzerinden hesaplanır ve herhangi bir rakamın ilk hanesinin 1 ile 9 arasındaki bir rakam olma olasılığı, logaritmik ölçek üzerinde (d+1) ve (d) arasındaki aralıkta belirlenir. Böylece logaritmik değerler düzgün ve rastgele bir şekilde dağıldığında ortaya aşağıdaki dağılım grafiği çıkmaktadır.

(Collins,2017)

Benford Yasası’nın can alıcı noktası ise eğer herhangi bir veri setindeki sayıların örüntüsü kasıtlı bir biçimde değiştirilirse Benford dağılımı ile karşılaştırıldığı takdirde bu örüntünün “olması gerekenden farklı“ olduğu tespit edilebilir. Çünkü bu kasıtlı eylem Benford Yasası’nın öngördüğü örüntüden farklı olarak kendi örüntüsünü oluşturabilir. Örneğin, rastgele rakamlar oluşturan bir kişi 5 ya da 3 rakamlarını daha fazla kullanma eğiliminde olabilir (Collins, 2017).  

Aynı zamanda, bu karşılaştırmaları yapabilmek adına Benford Yasası’nın uygulanabilir olması için birtakım koşulların sağlanması gerekmektedir:

  • Öncelikle, Benford Yasası’nın uygulanabilir olması için veri setinin büyüklüğünün belli bir sınırın üzerinde olması gerekmektedir. Bazı bilim insanları bu sınırın en az 50 ya da en fazla 500 olması gerektiğini ileri sürmektedir (Collins, 2017). 
  • 1 ile 9 arasındaki her bir rakamın veri setinde temsil ediliyor olması gerekmektedir. Örneğin, dünya üzerindeki insanların boy uzunluklarını içeren bir veri seti ele alındığında 7, 8 ya da 9 rakamlarının bu veri setinde temsil edilmediği ve böylece Benford Yasası’nın bu veri setinde uygulanamaz olduğu gözlemlenir (Collins, 2017).
  • Veri setinde önceden belirlenen herhangi bir azami ya da asgari sınırın bulunmaması gerekmektedir (Sarkar, 2018).
  • Üzerinde çalışılacak verilerin rastlantısal olarak rastlantısal bir örneklem dağılımından seçilmesi gerekmektedir (Berger & Hill,2020).

Benford Yasası ve Finansal Dolandırıcılık

Şirketler için işler ters gitmeye başladığında kazançları veya kayıpları olduğundan yüksek ya da düşük göstermek, terazinin diğer ucundaki risklerden ağır çekebilir.  Bu durumda Benford Yasası olası dolandırıcılık eylemlerini tespit etmek üzere kullanışlı bir araç olabilir.

Doğada ve insanların seçimleriyle meydana gelen sayı setlerinde özgün bir örüntü mevcuttur. İnsan davranışlarının rastgele olmayışı  ve 1 ile 9 arasındaki her bir rakamın belirli bir veri setinde farklı olasılık değerleri ile tekrar ediyor olması dolandırıcıların belli bir sınırın altında ya da üstünde tutmak istedikleri bilançoları Benford Yasası ile sistemleştirilen bu doğal örüntüden uzaklaştırabilir (Pimbley, 2014). Bu durumda bilançolardaki dağılım ve Benford Yasası dağılımı arasındaki farkın istatistiksel olarak anlamlı olup olmadığı “z-testi” gibi istatistiki araçlar ile öğrenilebilir (Tilden & Janes, 2015) . Böylece, iki veri seti arasındaki farklılık dağılım grafikleri üzerinden incelenebilir.

Fakat Benford Yasası’nın her veri seti üzerinde uygulanabilir olmayışı ve olası dolandırıcıların yasa hakkındaki her türlü bilgiye ulaşabilir olması bu yasanın şaşmaz bir yalan makinesi olarak kullanılamayacağını göstermektedir (Pimbley, 2014). Bu durumda Benford Yasası olası sahtekarlıklara işaret eden bir araç olmaktadır.

Benford Yasası ve Sosyal Medya

Jennifer Golbeck’in araştırmasına göre (2015) herhangi bir sosyal medya kullanıcısının yakın çevresindeki kişilerin sayısı da Benford Yasası ile uyumluluk göstermektedir. Golbeck araştırmasında Pinterest ,Facebook,Google Plus ve Twitter gibi çeşitli sosyal medya platformlarında yer alan kullanıcıların arkadaş ya da takipçi listelerinin oluşturduğu yakın çevre ağını ve gönderilerden oluşan veri setlerini kullanır.

Twitter ve Google plus gibi platformlardan alınan örnekler en az 100 arkadaşa ya da takipçiye sahip hesaplar arasından seçilir ve bu hesapların sahip olduğu yakın çevre ağının büyüklüğünün rakamsal ifadesinin ilk hanesinin dağılımının Benford Yasası’nın öngördüğü dağılım ile olan korelasyonu incelenir.

Çalışmanın en önemli noktası düşük korelasyon gösteren hesapların “spam” ya da “bot” ağının bir parçası olduğu gözlemidir.

Benford Yasası tümü olmasa da çeşitli sosyal medya platformlarında yanlış bilgi salgınını besleyebilecek sahte hesapların tespit edilmesinde kullanışlı bir araç olabilir. Ancak unutulmamalıdır ki genel örüntünün dışında kalan hesapları tespit ederken istatistiksel metotların üzerinde durduğu temelin sarsılmaz olmayışı Benford Yasası’nın bu alandaki uygulamalarına kısıtlama getirerek eleştiri kapılarını açık tutmaktadır.

Benford Yasası ve Dijital Görüntüler

İnternette veya sosyal medyada dolaşan pek çok dijital görüntü rakamlardan oluşmasının yanı sıra JPEG standartlarına göre kodlanmakta ve sıkıştırılmaktadır (Milani, Tagliasacchi, & Tubaro, 2014). Aynı zamanda bu görüntüler kameraların hafızasından, resim düzenleme uygulamalarından ve sosyal medya paylaşımlarından geçtikleri süreç boyunca pek çok sıkıştırılma eylemine maruz kalmaktadır.

 Milani, Tagliasacchi veTubaro’nun çalışmasına göre yalnızca bir defa sıkıştırılmış dijital görüntülere ait ilk hanelerin “olasılık kütle fonksiyonları” Benford Yasası ile uyumluluk göstermektedir. Özetle, bu durum araştırmacıların JPEG görüntülerinin sıkıştırılma biyografisini incelemelerine olanak sağlamaktadır.

Bu durumdan yola çıkarak dijital görüntülerin üzerinde ne derece oynandığı bilgisine ulaşarak bu görüntülerin sahte olup olmadığı anlaşılabilir, böylece Benford Yasası ileride algılarımızın sınırlarını zorlayan “deepfake” yönteminin karşısında yer alabilir (LaPenne & Walsh, 2020).

Benford Yasası ve Küresel Salgın

Benford Yasası’nın en güncel örneği ise küresel salgın sürecinde çeşitli ülkelerin “vaka” ve “ölüm” verileri üzerinedir.  Malcolm Sambridge ve Andrew Jackson tarafından hazırlanan çalışmaya göre (2020), 53 ülkeden toplan kümülatif vaka ve ölüm veri setlerinden alınan verilerin ilk haneleri genel anlamda Benford Yasası ile uyumluluk göstermektedir. Dahası, bu örneklem içerisinde özellikle Amerika Birleşik Devletleri’nden, Japonya’dan ve çoğu Avrupa ülkelerinden elde edilen veri setlerinin bu yasa ile uyumlu olduğu gözlemlenmiştir.

Elbette salgın sürecinin seyrinde veri setlerinin değişmeye devam etmesi gibi nedenler dolayısı ile bu durumun değişebileceği göz önünde bulundurulmuştur.

Son Görüşler

Görüldüğü üzere Benford Yasası çeşitli alanlarda kullanılan bir çeşit yalan makinesi görevini üstlenmekte ve bu alanlarda çalışan araştırmacıları yasanın mekanizmaları ya da dinamikleri üzerinde derin bir şekilde düşünmeye sevk etmektedir. Gelişen bilimsel, teknolojik yöntemlere ve sosyal yaşamdaki çeşitli trendlere paralel olarak gelişen Benford Yasası kendisiyle tanışmaya başlayanlar için hayret verici bir olgu olmasına karşın sarsılmaz temeller üzerine inşa edilmiş olmaktan da uzaktır. Bu nedenle Benford Yasası’nı öğrenirken ya da çalışmalarda kullanırken kendisinin kullanışlı bir “araç” ya da yöntem olduğunu akıllardan çıkarılmamalı, bu olgunun doğa ve sosyal yaşamla olan ilişkileri özenle incelenmelidir.

Kaynakça

Berger, A., & Hill, T. P. (2020, June 30). The mathematics of Benford’s law: a primer. Statistical Methods & Applications. doi:https://doi.org/10.1007/s10260-020-00532-8

Collins, J. C. (2017, April). Using Excel and Benford’s Law to detect fraud. Journal of Accountancy: https://www.journalofaccountancy.com/issues/2017/apr/excel-and-benfords-law-to-detect-fraud.html adresinden alındı

Fewster, R. M. (2009). A Simple Explanation of Benford’s Law. The American Statistician, 63(1), 26-32. doi:10.1198/tast.2009.0005

Golbeck, J. (2015). Benford’s Law Applies to Online Social Networks. PLoS. doi: https://doi.org/10.1371/journal.pone.0135169

LaPenne, A., & Walsh, A. (Yönetenler). (2020). Connected: The Hidden Science of Everything, 1. sezon 4.bölüm “Digits”,[Belgesel Dizisi].

Milani, S., Tagliasacchi, M., & Tubaro, S. (2014). Discriminating multiple JPEG compressionsusing first digit features. APSIPA Transactions on Signal and Information Processing, 3(E19), 1-10. doi:10.1017/ATSIP.2014.19

Pimbley, J. M. (2014). Benford’s Law and the Risk of Financial Fraud. 1-7.                     

Sambridge, M., & Jackson, A. (2020, May 26). National COVID numbers — Benford’s law looks for errors. doi:https://doi.org/10.1038/d41586-020-01565-5

Sarkar, T. (2018). What is Benford’s Law and why is it important for data science? Towards Data Science: https://towardsdatascience.com/what-is-benfords-law-and-why-is-it-important-for-data-science-312cb8b61048 adresinden alındı

Tilden, C., & Janes, T. (2015). Empirical evidence of financial statement manipulation during economic recessions. Journal of Finance and Accountancy, 1-15.