Denetimsiz makine öğrenmesi, algoritmaların etiketlenmiş sonuçlara bağlı kalmaksızın verideki örüntüleri tanımladığı güçlü bir yaklaşımdır. Bu modeller, bilinen hedefleri tahmin etmek yerine, doğal gruplamaları, yapıları ya da anında görünmeyen anomalileri ortaya çıkarmaya odaklanır. Bu nedenle, denetimsiz öğrenme, özellikle büyük ve etiketsiz veri kümelerinde keşifsel veri analizi, anomali tespiti ve özellik çıkarma için değerlidir.
Denetimsiz Öğrenmede Temel Görevler
Denetimsiz öğrenmenin temel amaçları genellikle iki ana kategoriye ayrılır: kümeleme ve boyut indirgeme. Kümeleme, veri noktalarını benzerliklerine göre gruplandırarak aynı gruptaki öğelerin birbirine yakın, farklı gruptaki öğelerin ise birbirine uzak olmasını sağlar. Boyut indirgeme ise karmaşık veri kümelerini temel örüntüleri koruyarak daha az değişkenle basitleştirmeyi hedefler.
Benzerlik Nasıl Ölçülür?
Veriyi etkili şekilde kümelemek için algoritmalar, veri noktaları arasındaki benzerliği matematiksel ölçülerle değerlendirir. En sık kullanılan mesafe metrikleri şunlardır:
- Öklid mesafesi: n-boyutlu uzayda iki nokta arasındaki düz çizgi mesafesini ölçer.
- Manhattan mesafesi: Tüm boyutlardaki mutlak farkların toplamını hesaplar; ızgara benzeri veriler için kullanışlıdır.
- Kosinüs benzerliği: Vektörler arasındaki açıyı değerlendirir; büyüklükten çok yönün önem taşıdığı metin ya da yüksek-boyutlu seyrek veriler için idealdir.
K-Ortalaması Kümeleme: Bir Bölme Tabanlı Yaklaşım
K-Ortalaması, veriyi önceden tanımlanmış K sayıda kümeye ayıran yaygın olarak benimsenen bir kümeleme algoritmasıdır. Bu algoritmanın amacı, her kümedeki varyansı en aza indirmek, sıklıkla atalet olarak adlandırılan eylemsizliği azaltmaktır. Bu, algoritmayı, kümelemenin kabaca küresel ve eşit büyüklükte olduğu varsayılan veri kümeleri için özellikle etkili kılar.
K-Ortalaması İş Akışının Adım Adım Süreci
K-Ortalaması süreci, atama ve optimizasyonun tekrarlı bir döngüsünü izler:
- Küme sayısını (K) seçin: Örneğin, K=3 ayarlanması, verinin üç ayrı segmente ayrılabileceğini varsayar.
- Başlangıç merkezlerini rastgele belirleyin: Bu, her küme için başlangıç noktalarıdır; genellikle mevcut veri noktalarından seçilir.
- Noktaları en yakın merkeze atayın: Her veri noktası, seçilen mesafe metriğine (genellikle Öklid) göre en yakın küme merkezine tahsis edilir.
- Merkezleri güncelleyin: Her küme merkezini, kendisine atanan tüm noktaların ortalaması olarak yeniden hesaplayın.
- İşlemi tekrarlayın: Merkezler sabitlenene ya da maksimum sayıda yineleme ulaşılana dek atama ve güncelleme işlemine devam edin.
K-Ortalaması Uygulama Önlemleri
Algoritmaya başlamadan önce, veri noktalarının mesafe hesaplamalarına eşit katkıda bulunmasını sağlamak için genellikle veri ölçeklendirmesi gerekir. Ölçeklendirme teknikleri olan standardizasyon ya da normalizasyon, geniş aralıklara sahip özelliklerin kümeleme sürecini domine etmesini engeller.
Kaç tane küme olması gerektiğini belirlemek için uygulayıcılar genellikle dirsek eğrisi adı verilen bir grafiği çizerler. Bu grafik, küme sayısı ile ortaya çıkan atalet arasındaki ilişkiyi görselleştirir. En ideal K sayısı genellikle, eğrinin düzleşmeye başladığı, yani ek küme sayılarının varyansı azaltmada getireceği kazançların azaldığı noktadır. Örneğin, bir dirsek eğrisi, K=4'ün model basitliği ile küme bütünlüğü arasında en iyi dengeyi sağladığını öne sürebilir.
K-Ortalaması, hızı ve basit uygulamasından dolayı takdir toplar; ancak önemli sınırlamaları vardır. Bu algoritma, kullanıcıların K sayısını önceden belirtmesini gerektirir ve performansı, başlangıç merkez yerleşiminden ağır şekilde etkilenebilir. Ayrıca, K-Ortalaması, kümelemenin küresel ve benzer büyüklükte olduğunu varsayar; bu varsayım, tüm veri kümeleri için geçerli olmayabilir. Aykırı noktalar da merkez hesaplamalarını bozabilir ve sonuçta, optimal olmayan gruplamalara yol açabilir.
Yapay zeka özeti
Compare K-Means and hierarchical clustering for unsupervised ML. Learn how each works, their pros and cons, and which to choose for your data analysis project.