missing data etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster
missing data etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster

5 Kasım 2016 Cumartesi

İstatistikte Kayıp Değerlerin Analizi (assessing patterns of missing data)

Literatürde kayıp değerlerin analizi için farklı yaklaşımlar sunan birçok teknik bulunmaktadır. Bu teknikler arasında liste bazında veri silme  (listwise data deletion), durum bazında veri silme (casewise data deletion), çiftler bazında veri silme  (pairwise data deletion), ortalama atama (mean substitution), regresyon atfı (regression imputation) ve en çok olabilirlik tahmini (maximum likelihood estimation) teknikleri bulunmaktadır (Çokluk, Şekercioğlu ve Büyüköztürk, 2010; Çokluk ve Kayri, 2011; Oğuzlar, 2001).


Liste bazında ve durum bazında veri silme tekniklerinde, kayıp değer içeren her gözlem veri dosyasından çıkarılır. Eğer veri setinde çok az sayıda gözlem kayıp değere sahip ise bu gözlemlerin veri dosyasından çıkarılması iyi bir seçenektir. Ancak kayıp değerler veri seti boyunca dağılmış ve çok sayıda ise kayıp verilere sahip gözlemlerin veri setinden çıkarılması önemli ölçüde veri kayıplarına neden olacaktır ve buna bağlı olarak bazı analizler gerçekleştirilemeyecektir. Çiftler bazında veri silme tekniğinde, her değişken çifti için tüm durumları eksiksiz olan gözlemlerden korelasyon/kovaryans tahminleri hesaplanmaktadır. Korelasyon matrisinin pozitif tanımlı olmadığı durumlarda çiftler bazında veri silme tekniğinde sorunlar yaşanabilmektedir (Oğuzlar, 2001).

Ortalama atama tekniğinde, tüm gözlemlerin belirli bir değişkene ilişkin ortalaması alınır ve elde edilen değer kayıp değerlere atanır. Regresyon atfı tekniğinde, bir ya da birkaç bağımsız değişken, bağımlı değişkenin değerini tahmin etmede kullanılır. Bu amaçla bağımsız değişkenlerin bağımlı değişken üzerindeki etkisini araştırmak için regresyon analizi gerçekleştirilir. Regresyon analizi ile elde edilen eşitlik, bağımlı değişkende bulunan kayıp değerleri tahmin etmek amacı ile kullanılır. En çok olabilirlik tahmini tekniğinde ise, verilerin ve kayıp verilerin dağılımına göre, farklı noktalardaki kayıp değerlere farklı değerler atanır (Çokluk, Şekercioğlu ve Büyüköztürk, 2010).

Literatürde küçük miktarda kayıp değerlerin analizi için ortalama atama; orta büyüklükte kayıp değerlerin analizi için regresyon atfı; büyük miktarlardaki kayıp değerlerin analizi için ise en çok olabilirlik tahmini tekniklerinin kayıp değer analizlerinde kullanılması tavsiye edilmektedir (Schumacker ve Lomax, 2004). 

Kaynaklar

Çokluk, Ö., Şekercioğlu, G., & Büyüköztürk, Ş. (2010). Sosyal bilimler için çok değişkenli istatistik: SPSS ve LISREL uygulamaları. Ankara: Pegem Akademi.
Oğuzlar, A. (2001). Alan Araştırmalarında Kayıp Değer Problemi ve Çözüm Önerileri, V. Ulusal Ekonometri ve İstatistik Sempozyumu bildiriler kitabı içinde (ss.1-30). Adana: Çukurova Üniversitesi.
Schumacker, R.E., & Lomax, R.G. (2004). A beginner’s guide to structural equation modeling. Mahwah, NJ: Lawrence Erlbaum.