Literatürde kayıp değerlerin analizi için farklı yaklaşımlar sunan birçok
teknik bulunmaktadır. Bu teknikler arasında liste bazında veri silme (listwise data deletion), durum bazında veri
silme (casewise data deletion), çiftler bazında veri silme (pairwise data deletion), ortalama atama
(mean substitution), regresyon atfı (regression imputation) ve en çok
olabilirlik tahmini (maximum likelihood estimation) teknikleri bulunmaktadır
(Çokluk, Şekercioğlu ve Büyüköztürk, 2010; Çokluk ve Kayri, 2011; Oğuzlar,
2001).
Liste bazında ve durum bazında veri silme tekniklerinde, kayıp değer
içeren her gözlem veri dosyasından çıkarılır. Eğer veri setinde çok az sayıda
gözlem kayıp değere sahip ise bu gözlemlerin veri dosyasından çıkarılması iyi
bir seçenektir. Ancak kayıp değerler veri seti boyunca dağılmış ve çok sayıda
ise kayıp verilere sahip gözlemlerin veri setinden çıkarılması önemli ölçüde
veri kayıplarına neden olacaktır ve buna bağlı olarak bazı analizler
gerçekleştirilemeyecektir. Çiftler bazında veri silme tekniğinde, her değişken
çifti için tüm durumları eksiksiz olan gözlemlerden korelasyon/kovaryans
tahminleri hesaplanmaktadır. Korelasyon matrisinin pozitif tanımlı olmadığı
durumlarda çiftler bazında veri silme tekniğinde sorunlar yaşanabilmektedir
(Oğuzlar, 2001).
Ortalama atama tekniğinde, tüm gözlemlerin belirli bir değişkene ilişkin
ortalaması alınır ve elde edilen değer kayıp değerlere atanır. Regresyon atfı
tekniğinde, bir ya da birkaç bağımsız değişken, bağımlı değişkenin değerini
tahmin etmede kullanılır. Bu amaçla bağımsız değişkenlerin bağımlı değişken
üzerindeki etkisini araştırmak için regresyon analizi gerçekleştirilir.
Regresyon analizi ile elde edilen eşitlik, bağımlı değişkende bulunan kayıp
değerleri tahmin etmek amacı ile kullanılır. En çok olabilirlik tahmini
tekniğinde ise, verilerin ve kayıp verilerin dağılımına göre, farklı
noktalardaki kayıp değerlere farklı değerler atanır (Çokluk, Şekercioğlu ve Büyüköztürk,
2010).
Literatürde küçük miktarda kayıp değerlerin analizi için ortalama atama;
orta büyüklükte kayıp değerlerin analizi için regresyon atfı; büyük
miktarlardaki kayıp değerlerin analizi için ise en çok olabilirlik tahmini
tekniklerinin kayıp değer analizlerinde kullanılması tavsiye edilmektedir
(Schumacker ve Lomax, 2004).
Kaynaklar
Çokluk, Ö.,
Şekercioğlu, G., & Büyüköztürk, Ş. (2010). Sosyal bilimler için çok
değişkenli istatistik: SPSS ve LISREL uygulamaları. Ankara: Pegem Akademi.
Oğuzlar, A.
(2001). Alan Araştırmalarında Kayıp Değer Problemi ve Çözüm Önerileri, V.
Ulusal Ekonometri ve İstatistik Sempozyumu bildiriler kitabı içinde (ss.1-30). Adana:
Çukurova Üniversitesi.
Schumacker,
R.E., & Lomax, R.G. (2004). A
beginner’s guide to structural equation modeling. Mahwah, NJ: Lawrence
Erlbaum.