İnsanı Öngörebilmek: İstatistiki Analizler ve Anketler

“Chance made the world seem less capricious: it was legitimated because it brought order out of chaos. The greater the level of indeterminism in our conception of the world and of people, the higher the expected level of control.” 

Ian Hacking-Şansın Terbiyesi

            “Şansın Terbiyesi” (The Timing of Chance) kitabının ilk sayfasına böyle başlar Ian Hacking. Kısaca, şansın dünyayı kaostan kurtardığını iddia eder ve kontrol düzeyinin artması için belirsizliğin de artması gerektiğine inanır. . Fen bilimlerinin yanı sıra belirsizliğin arttığı en büyük alanlardan biri de insan davranışlarıdır. İnsanlar, düşünüldüğü kadar rasyonel değildir. Aksine, eylemin “rasyonelliği” bireye göre değişeceğinden tek bir doğrudan söz edilemez. Buna karşın, sosyal bilimciler bireylerin eylemlerini öngörebilmek için istatistiki metotları kullanır. Bu durum ile karşılaştığımız durumlardan biri ise seçim ve davranış anketleridir. Peki bunların gerçeklik payı nedir? Nasıl hazırlanırlar ve neye dayanarak oluşturulurlar? Bu soruların cevapları istatistiki tahminlerin nasıl hazırlandığı ile yakından ilgilidir. Dolayısıyla, bu yazıda bir tahmin yapabilmek için oluşturulan istatistiki verinin hazırlanma metotları ve yorumlama yaparken asıl göz özününde bulundurulması gereken faktörler incelenecektir. Dahası, örneklemin gücü ve veri toplama metotlarının nasıl hatalara sevk ettiği gösterilecektir.

İstatistiki Çıkarsama

            En genel anlamıyla, istatistiki çıkarsama yöntemleri, bir popülasyondan rastgele seçilen bir örneklemden oluşan verilerin matematiksel ölçümleri ile oluşturulur. Burada önemli olan faktör, seçilen örneklemin popülasyonu yansıtıp yansıtmadığıyla yakından ilgilidir. Basitçe yaş, cinsiyet, sosyoekonomik statü gibi birçok faktörü gözeterek istenilen popülasyonu yansıtmasına dair bir iddia ortaya koyarız. Burada, (ortalama, mod, medyan, varyans gibi) istatistiki tanımlama yöntemleri, topladığımız veri setini yorumlamamıza imkân tanır.

           İstatistikçiler, bir olayın nasıl oluştuğuna dair temel bir olasılık dağılımı yaparlar. Bu özel dağılımın en önemli kısmı mod, medyan ve ortalama değerinin eşit olmasıdır, zira IQ dağılımı gibi doğada bulunan birçok sürekli verinin normal dağıldığı kabul edilir. Ayrıca, bu özel simetrik dağılımın bir büyük karakteristiği de merkezden gidilen her bir standart sapma, o olayın olma olasılığını azaltır. Örneklemek gerekirse, normal dağıldığı kabul edilen bir data setinde IQ testini inceleyelim. Ortalaması 95 olan bir örneklemde IQ seviyesi 140 çıkan birini bulma olasılığımız 90 çıkan birine göre fazlasıyla düşüktür. Aslında, istatistiki çıkarsama yaparken tüm iddiamız yüzeysel olarak anlattığım bu yapıya göre oluşturulur.

           Bunun yanı sıra, bir örneklemin ortalaması ile içerisindeki her bir değerin standardize edilmiş farkına standart sapma denir. Bu sapma sayesinde her bir olayın veri setinin ortalamasından ne kadar saptığını anlarız. Merkezi Limit Teorisine göre, örneklem sayısının popülasyona yakınsaması ile ortalaması 0 ve varyansı 1 olan bir grafiğe, yani normal dağılıma çevirir. Böylece herhangi bir olayın hangi olasılıkta nereye düşeceğine standart sapma ile karar vermemiz kolaylaşır. Ayrıca, iki farklı olay arasında hangi ihtimalin daha yüksek veya düşük olduğunu da yorumlama imkânımız olur.

İstatistiki Analiz

https://towardsdatascience.com/proof-of-central-limit-theorem-using-monte-carlo-simulation-34925a7bc64a adresinden alınmıştır.

Güven Aralığı

           İstatistiki çıkarsama yapılırken altı çizilmesi gereken husus ise hata payıdır. Örneklemler, %100 (kesin) ihtimalle popülasyonu yansıtamaz dolayısıyla istatistiki çıkarsama yaparken daima bir hata payı oluşur. Bu yüzden, istatistikçiler bir çıkarsama yapabilmek için güven aralığı kullanırlar.  Güven aralığını Türkçe ifade etmek gerekirse bir olayın olma olasılığının yüzde kaç olduğuna denk gelir. Sosyal bilimlerde genellikle %95 (0.95) güven aralığı istatistiki olarak anlamlı bir aralıktır. Zira, bu güven aralığı ile oluşturuluşmuş bir örneklemden çıkarılacak sonucun %95 ihtimal ile gerçek popülasyonun değerini içereceği varsayılır.

           Örneğin, tabloda iki farklı güven aralığı ile oluşturulmuş örneklemlerin popülasyonun değerini içerip içermediği resmedilmiştir. Sağda %68 güven aralığı ile oluşturulmuş 60 kişilik bir örneklemde popülasyonun ortalama değerini içermeyen örneklemler hayli fazladır, dolayısıyla güvenilir değildir. Buna karşın, solda %95 güven aralığı ile oluşturulmuş bir örneklemin temsiliyet gücü gösterilmiştir. Bu bağlamda, güven aralığı arttıkça örneklemlerin gerçek popülasyonun değerini içerme ihtimali de artmıştır. Böylece, %95 Güven Aralığıyla oluşturulmuş bir örneklemde popülasyonun gerçek değerini içerme ihtimaliniz istatistiki olarak anlamlı olacaktır.

Örneklemin Büyüklüğü Bize Neyi Gösterir?

           Bir veri setinde örneklemin büyüklüğü başlı başına bir kriter değildir, zira rastgele toplanmış bir veri setinin hangi popülasyonu referans aldığı önemlidir. Burada önemli olan husus, bir istatistiki veri için kullanılan örneklemin yeterli olup olmadığıdır. Merkezi Limit Teoreminden hareketle, örneklem sayısı büyüdükçe örneklemin grafiği popülasyonun grafiğine yakınsayacağını iddia edebiliriz. Ancak, bu yakınsamanın ölçüsü de belirli bir sayıdan sonra sınırlıdır. Örneğin yukarıdaki tablodaki gibi 100 ile 1000 arasındaki değişimin oranı, 700 ile 1000 arasındaki değişimden büyüktür. Dolayısıyla, sonsuza giden örneklem büyüklüğünde belli bir yerden sonra, örneklemlerin grafiğin şekline katkısı azalacaktır. Bu durum istatistiki veri için çıkarsamayı kolaylaştırır.

           Yani, farazi bir örnek ile, 150 bin kişilik bir popülasyon için 5 bin örneklem ile alınan istatistiki çıkarsama ile 15 bin ile oluşturulan istatistiki çıkarsama arasında muhteşem farklar oluşmayacaktır. Böylece, kısıtlı bir bütçe ve kısıtlı bir zamanla bir popülasyona dair iddia ortaya koymak kolaylaşır. Kısaca, gerekli şartları uygulayarak topladığımız rastgele seçilen 3 bin kişi, 82 milyonun siyasi yönelimine dair bir fikir verecektir. Bugün yapılan seçim anketlerinde genellikle 2000 ile 3000 arasında örneklem kullanılmasının altında yatan sebep budur.

Örneklemin Gücü

            Anketler, yukarıda da belirttiğim gibi, küçük bir kitle ile büyük bir popülasyon hakkında bilgi almamıza yardımcı olur. Bir diğer deyişle, istatistiki olarak küçük bir grupla büyük bir popülasyonu öngörmek mümkündür. Bu yüzden piyasalar genellikle insanların tüketim alışkanlıklarıyla ilgilenirken, kamuoyu araştırmaları için çoğu danışmanlık şirketi anketler yürütür.

           Peki, istatistiki olarak öngörü mümkünse araştırma şirketleri özellikle seçim anketlerinde neden yanılıyor? Bu sorunun birçok cevabı olsa da en büyük hata, örneklemin oluşturulmasında ve bilgi toplama aşamasında ortaya çıkar. Bu durumun en çarpıcı örneğini 1936 yılında yapılan ABD başkanlık seçimleri için hazırlanan anketlerde görürüz. 1890 yılında kurulan “The Literary Digest” dergisi 20. Yüzyılın ilk ve ikinci çeyreğinde yaptığı iyi tahminlerle tanınırdı (Squire, 1988). 1936 yılına gelindiğinde Amerikan Başkanlık Seçimleri için hazırladığı 10 milyondan oluşan örneklemi ile geçerli oyları hesaba katarak Alf Landon’un %57(1.293.669) ile seçimi kazanacağını duyurdu. Buna karşın, %41 (972.897) ile Franklin Roosevelt’in kaybedeceğini iddia etti.

https://twitter.com/DKElections/status/621478262930149377 adresinden alınmıştır.

           Örneklem çalışmaları üzerinde uzmanlaşan istatistikçi George Gallup, aynı yıl, 50 bin kişilik örneklemi ile gerçek sonuçlardan %1 sapan bir öngörü yayınladı: 1936 yılında yapılan genel seçimde %61 ile Roosevelt’in aday olduğu Demokratik Parti Amerika’da seçimi kazandı.

           Burada önemli olan iki husus vardır: birincisi, 10 milyonluk devasa örneklemden dönüt alınan yalnız 2 milyon 265 bine yakın insan vardır. 0.226 (%22)’ya denk gelen geridönüt oranıyla geçerliliği düşüktür. İkincisi ise Literary Digest dergisi anketi mail ve telefon görüşmeleri yoluyla kayda geçirmiştir. 1936 yılı için telefonun bir iletişim aracı olarak lüks kabul edildiği bir dönemde Cumhuriyetçiler daha yüksek sosyoekonomik statüye sahipti, dolayısıyla mail ve telefon yoluyla yapılan bu araştırmada doğal olarak oranları yüksek çıkmıştı. Buna karşın, Demokratlar ise sessiz azınlık olarak ulaşılamayan bir yerde kalmışlardı. Gallup’un başarısının altında yatan en temel özellik ise örneklem tercihi ve veri toplama yöntemini iyi analiz etmiş olmasıydı.

Son Notlar

            Sonuç olarak, geleceğe yönelik insanların davranışlarını anlamaya çalışmak büyük zorluklar içerir. İnsanlar her an bilinçli canlılar değillerdir. Dolayısıyla, onları anlamaya çalışmak düşünüldüğü kadar kolay değildir. Buna karşın, sosyal bilimciler kişinin deklarasyonundan hareketle bireylerin davranışlarını öngörebilmek için istatistiki yöntemleri kullanırlar. İstatistiki çıkarsama burada birçok sosyal bilimciye kolaylık sağlar, zira nicel/kantitatif yöntemlerin de sosyal bilimlere katılmasıyla yorum yapmak külfetsiz bir hale gelir. Doğadaki durumlardan esinlenerek dünyayı anlamlandırmaya çalışan bilim insanları, küçük insan gruplarıyla geleceğe yönelik projeksiyonlar oluşturabilmek için büyük popülasyonları resmederler. Bu resmetme işlemi beklendiği kadar kolay değildir çünkü örneklemin oluşturulmasında ve veri toplama aşamasında kullanılan metotlar kolaylıkla bizleri yanıltabilir.

Sosyoloji kategorisindeki yazılarımıza ulaşmak için tıklayın!

Kaynakça

Hacking, I. (1990). THE TAMING OF CHANCE.

Squire, P. (1988). Why the 1936 Literary Digest Poll Failed. The Public Opinion Quarterly, 125-133. Temmuz 12, 2020 tarihinde www.jstor.org/stable/2749114 adresinden alındı

Anılcan Duymaz
Orta Doğu Teknik Üniversitesi 3. sınıf sosyoloji öğrencisi. Genellikle siyaset bilim ve istatistik alanlarıyla ilgilidir. Müzik dinleyicisi, futbol seyircisi ve kedi-sever.