4.6. Linear Discriminant Analysis (LDA – Lineer Diskriminant Analizi)

1936 yılında R. A. Fischer tarafından geliştirilen bir sınıflama metodudur. Basit olmasına rağmen kompleks problemlerde iyi sonuçlar üreten bir modeldir. Bu yazımda bu modeli basit bir örnek üzerinden anlatmaya çalışacağım. [more]

LDA, iyi sınıf (hedefler) arasında en iyi şekilde ayıran değişkenleri lineer bir kombinasyonunu aramaya dayanır. Fisher aşağıdaki score fonksiyonunu tanımlar.

Score fonksiyonuna göre, problem score’u maksimize eden lineer katsayıları tahmin etmedir. Formülasyonu:

En iyi diskriminantı belirleme yolu iki grup arasında Mahalanobis mesafesini hesaplamaktır. Mahalanobis mesafesinin üçten küçük olması yanlış sınıflandırma olasılığını oldukça küçük olduğunu anlamına gelir.

Son olarak, eğer aşağıdaki şart sağlanırsa yeni gelen bir özellik sınıflandırılır.

Konunun daha iyi anlaşılması için örnek bir veri seti üzerinden işlemlerle konuyu anlamaya çalışalım. Ayrıca aşağıdaki excel dosyası üzerinden yapılan formülasyonları ufak bir veri seti üzerinde yapılan örneği inceleyebilirsiniz. 

Örnek

Örneğimizde ufak işletmelerin suçlu gün sayısı (OLUMSUZ GÜNLER) ve iş yaptığı gün sayı (OLUMLU GÜNLER) bir bankanın kredi verip vermeyeceği hakkında veri setini alalım. Bu noktada elimizdeki verilerden en iyi lineer modeli oluşturmaya çalışalım.

Yukarıdaki grafikte kırmızı noktalar bankanın kredi vermediği mavi noktalar ise kredi verdiği bölümleri göstermektedir. Banka genelde 50 gün olumsuz günü olan müşterilerine kredi vermemektedir. (Ama verdikleri de vardır.) Kredi vermesinin sebebi teminat, torpil vs. gibi başka değişkenler olabilir. Biz müşterinin eski bilgilerinden sadece olumlu ve olumsuz gün sayılarını biliyoruz. İlk olarak sınıf olasılıklarını, ortalama vektörleri ve kovaryans matrisini hesaplayalım.

Bu veriler üzerinden, toplanmış kovaryans matrisi ve lineer model katsayılarını hesaplayalım.

Ve son olarak Mahalanobis mesafesini hesaplayalım.

2.32 Mahalonobis mesafesi değerinin 3’ten küçük olması sınıflanan iki grup arasında iyi bir ayrım olduğunu anlamına gelir. Başka bir deyişle sınıflandırma modelimiz iyidir.

Excel dosyasındaki hesaplar için aşağıdaki dosyayı indirin.

Banka_lda.xlsx (21,12 kb)

Referanslar